基于基站定位數(shù)據(jù)的商圈分析上機報告_第1頁
基于基站定位數(shù)據(jù)的商圈分析上機報告_第2頁
基于基站定位數(shù)據(jù)的商圈分析上機報告_第3頁
基于基站定位數(shù)據(jù)的商圈分析上機報告_第4頁
基于基站定位數(shù)據(jù)的商圈分析上機報告_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于基站定位數(shù)據(jù)的商圈分析上機報告1數(shù)據(jù)讀取及其標(biāo)準(zhǔn)化setwd("E:/數(shù)據(jù)處理")Data=read.csv("./business_circle.csv",header=T,encoding='utf-8')colnames(Data)=c("number","x1","x2","x3","x4")attach(Data)y1=(x1-min(x1))/(max(x1)-min(x1))y2=(x2-min(x2))/(max(x2)-min(x2))y3=(x3-min(x3))/(max(x3)-min(x3))y4=(x4-min(x4))/(max(x4)-min(x4))standardized=data.frame(Data[,1],y1,y2,y3,y4)write.csv(standardized,"./standardizedData.csv",s=TRUE)2模型構(gòu)建2.1層次聚類library(ggplot2)Data=read.csv("./standardizedData.csv",header=F)Data1=data.frame(y1,y2,y3,y4)attach(Data1)dist=dist(Data1,method='euclidean')hc1<-hclust(dist,"ward.D2")plot(hc1)plot(hc1,hang=-1)#分成三類re1<-rect.hclust(hc1,k=3,border="purple")##對構(gòu)建好的譜系聚類圖進行分類,這里分三類a=re1[[2]]##列表名[[下標(biāo)]]b=re1[[3]]c=re1[[1]]#商圈類別1matrix=Data1[a,]##137個觀測值、4個變量d<-dim(matrix)##1374y<-as.numeric(t(matrix))#t():矩陣轉(zhuǎn)置,這里轉(zhuǎn)換成數(shù)字向量row<-factor(rep(1:d[1],each=d[2]))Data2=Data[which(aaa$km.cluster==2),]Data3=Data[which(aaa$km.cluster==3),]#商圈1的概率密度函數(shù)圖par(mfrow=c(2,2))##公共參數(shù)列表par#設(shè)置布局plot(density(Data1[,1]),col="red",main="工作日人均停留時間")plot(density(Data1[,2]),col="red",main="凌晨人均停留時間")plot(density(Data1[,3]),col="red",main="周末人均停留時間")plot(density(Data1[,4]),col="red",main="日均人流量")#商圈2的概率密度函數(shù)圖par(mfrow=c(2,2))plot(density(Data2[,1]),col="purple",main="工作日人均停留時間")plot(density(Data2[,2]),col="purple",main="凌晨人均停留時間")plot(density(Data2[,3]),col="purple",main="周末人均停留時間")plot(density(Data2[,4]),col="purple",main="日均人流量")#商圈3的概率密度函數(shù)圖par(mfrow=c(2,2))plot(density(Data3[,1]),col="blue",main="工作日人均停留時間")plot(density(Data3[,2]),col="blue",main="凌晨人均停留時間")plot(density(Data3[,3]),col="blue",main="周末人均停留時間")plot(density(Data3[,4]),col="blue",main="日均人流量")3總結(jié)3.1數(shù)據(jù)標(biāo)準(zhǔn)化的方法及使用離差標(biāo)準(zhǔn)化原因1.數(shù)據(jù)標(biāo)準(zhǔn)化方法數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization)是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。在某些比較和評價的指標(biāo)處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標(biāo)能夠進行比較和加權(quán)。其中最典型的就是數(shù)據(jù)的歸一化處理,即將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上,常見的數(shù)據(jù)歸一化的方法有:

1)min-max標(biāo)準(zhǔn)化(Min-maxnormalization)也叫離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下:其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有一個缺陷就是當(dāng)有新數(shù)據(jù)加入時,可能導(dǎo)致max和min的變化,需要重新定義。2)log函數(shù)轉(zhuǎn)換通過以10為底的log函數(shù)轉(zhuǎn)換的方法同樣可以實現(xiàn)歸一下,具體方法如下:3)atan函數(shù)轉(zhuǎn)換用反正切函數(shù)也可以實現(xiàn)數(shù)據(jù)的歸一化:使用這個方法需要注意的是如果想映射的區(qū)間為[0,1],則數(shù)據(jù)都應(yīng)該大于等于0,小于0的數(shù)據(jù)將被映射到[-1,0]區(qū)間上。而并非所有數(shù)據(jù)標(biāo)準(zhǔn)化的結(jié)果都映射到[0,1]區(qū)間上,也有一些非歸一化的方法,如下:4)z-score

標(biāo)準(zhǔn)化(zero-meannormalization)也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,是SPSS中最為常用的標(biāo)準(zhǔn)化方法:經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化函數(shù)為:其中μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。5)Decimal

scaling小數(shù)定標(biāo)標(biāo)準(zhǔn)化這種方法通過移動數(shù)據(jù)的小數(shù)點位置來進行標(biāo)準(zhǔn)化。小數(shù)點移動多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal

scaling標(biāo)準(zhǔn)化到x'的計算方法是:

x'=x/(10*j)其中,j是滿足條件的最小整數(shù)。

例如:假定A的值由-986到917,A的最大絕對值為986,為使用小數(shù)定標(biāo)標(biāo)準(zhǔn)化,我們用1000(即,j=3)除以每個值,這樣,-986被規(guī)范化為-0.986。2.使用離差標(biāo)準(zhǔn)化原因數(shù)據(jù)標(biāo)準(zhǔn)化處理后,原始數(shù)據(jù)均可以轉(zhuǎn)換為無量綱化指標(biāo)測評值,即各指標(biāo)值都處于同一個數(shù)量級別上,可以進行綜合測評分析,但是離差標(biāo)準(zhǔn)化是最常用最簡單的一種方式3.2構(gòu)建層次聚類模型時,可以調(diào)節(jié)哪些參數(shù),對模型有何影響1.層次聚類1)計算變量之間的距離代碼為:dist.r=dist(data,method=”“)其中method包括6種方法,表示不同的距離測度:”euclidean”,“maximum”,“manhattan”,“canberra”,“binary”or“minkowski”,分別表示歐幾里德距離,切比雪夫距離,絕對值距離,Lance距離,明科夫斯基距離,定性變量距離。使用不同的距離會對聚類的結(jié)果產(chǎn)生一定的影響2)使用hclust()進行聚類代碼為:hc.r=hclust(dist.r,method=“”)其中method包括7種方法,表示聚類的方法:single,complete,median,mcquitty,average,centroid,ward。分別表示:最短距離法,最長距離法,中間距離法,相似法,類平均法,重心法,離差平方和法。3)畫圖plot(hc.r,hang=-1,labels=NULL)或者plot(hc.r,hang=0.1,labels=F)hang等于數(shù)值,表示標(biāo)簽與末端樹杈之間的距離,若是負(fù)數(shù),則表示末端樹杈長度是0,即標(biāo)簽對齊。labels表示標(biāo)簽,默認(rèn)是NULL,表示變量原有名稱。labels=F:表示不顯示標(biāo)簽。2.k-mean聚類kmeans(x,centers,iter.max=10,nstart=1,algorithm=c("Hartigan-Wong","Lloyd","Forgy","MacQueen"),trace=FALSE),centers是初始類的個數(shù)或者初始類的中心。iter.max是最大迭代次數(shù),其中默認(rèn)迭代次數(shù)為10。nstart是當(dāng)centers是數(shù)字的時候,隨機集合的個數(shù)。algorithm是算法,默認(rèn)是第一個。3.3K-mean算法實現(xiàn)基本步驟1.算法步驟K-Means算法的基本思想是初始隨機給定K個簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然后按平均法重新計算各個簇的質(zhì)心(這個點可以不是樣本點),從而確定新的簇心。一直迭代,直到簇心的移動距離小于某個給定的值。K-Means聚類算法主要分為三個步驟:(1)第一步是為待聚類的點尋找聚類中心(2)第二步是計算每個點到聚類中心的距離,將每個點聚類到離該點最近的聚類中去(3)第三步是計算每個聚類中所有點

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論