![共享單車的借還流量預(yù)測分析研究 物聯(lián)網(wǎng)工程專業(yè)_第1頁](http://file4.renrendoc.com/view11/M02/32/38/wKhkGWX_kMSACIcWAAGRsD1QsUc613.jpg)
![共享單車的借還流量預(yù)測分析研究 物聯(lián)網(wǎng)工程專業(yè)_第2頁](http://file4.renrendoc.com/view11/M02/32/38/wKhkGWX_kMSACIcWAAGRsD1QsUc6132.jpg)
![共享單車的借還流量預(yù)測分析研究 物聯(lián)網(wǎng)工程專業(yè)_第3頁](http://file4.renrendoc.com/view11/M02/32/38/wKhkGWX_kMSACIcWAAGRsD1QsUc6133.jpg)
![共享單車的借還流量預(yù)測分析研究 物聯(lián)網(wǎng)工程專業(yè)_第4頁](http://file4.renrendoc.com/view11/M02/32/38/wKhkGWX_kMSACIcWAAGRsD1QsUc6134.jpg)
![共享單車的借還流量預(yù)測分析研究 物聯(lián)網(wǎng)工程專業(yè)_第5頁](http://file4.renrendoc.com/view11/M02/32/38/wKhkGWX_kMSACIcWAAGRsD1QsUc6135.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2 1.1研究背景及意義 41.2本文的主要工作 61.3本文的組織結(jié)構(gòu) 7第二章相關(guān)方法 82.1隨機(jī)森林算法 82.2極端隨機(jī)樹算法 92.3LightGBM算法 9 9第三章問題定義與分析 3.1問題形式化 3.2問題分析 第四章預(yù)測算法 4.1算法架構(gòu) 4.2數(shù)據(jù)預(yù)處理 4.3熱站點預(yù)測算法 4.3.1基于隨機(jī)森林的預(yù)測算法 4.3.2基于極端隨機(jī)樹的預(yù)測算法 4.3.3基于LightGBM的預(yù)測算法 204.4冷站點預(yù)測算法 4.4.2冷站點預(yù)測 4.5預(yù)測值修正 4.5.2站點分類 234.5.3預(yù)測值修正 24第五章實驗驗證 5.1數(shù)據(jù)集 5.2基線預(yù)測器&評分標(biāo)準(zhǔn) 275.3實驗結(jié)果 第六章總結(jié)與展望 6.1本文總結(jié) 6.2后續(xù)工作展望 參考文獻(xiàn) 錯誤!未定義書簽。很多便利,但共享單車系統(tǒng)的分配不平衡特點也給管理者和使用者帶來了許多問明本文提出的模型好于基線預(yù)測器隨機(jī)森林算法、極端隨機(jī)樹算法和LightGBM。Inrecentyears,bike-sprovidingaconvenientandenvand"thelastkilometer"ofthepublictravel.Althoughithasbroughtalotofconvenietheuniquefeaturesofbike-sharingsysteusers.Forthemanagers,thedistributionisunevenbecauseoftheever-changingusageofthesharedbicycle,whichwilunevendistributionofthesharedbicyclewillleadtothephenomenonthatthereisnocarexperience.Weneedtorebalademandofdifferentsitesatdifferenttimeperiods.Ifweustorebalance,itwilltakealwell.Therefore,therebalancingstrategyofpredictionofsharedbicycles'borrowingandreturningflInthispaper,wepredictthesharedbicycles'borrowingandreturningfhistoricaldataandmeteorologicaldata.Weproposeasitelevelpredictionmethodwithcertainhistoricaldataaretreatedseparately,andtheKNNalgborrowingandreturningflowofthesecoldsites.Finally,accordingtoclassificationresults.OurmodelisverifiedbytheYonganbicyclecompany'spublicbike與其他時段數(shù)量需求的巨大差別以及許多站點出現(xiàn)的單車數(shù)量與使用需求不匹配等問題造成了社會資源的浪費。由于不同站點在不同時間段的借還需求是不平衡素對共享單車系統(tǒng)未來的借還流量進(jìn)行預(yù)測可以有效地避免共享單車的不平衡現(xiàn)可以指導(dǎo)企業(yè)和政府進(jìn)行共享單車的高效投放并在很大程度上避免站點無車可借本文提出了一種站點級別的預(yù)測模型,其主要由四個部分組成:1)根據(jù)歷史法——隨機(jī)森林(randomforest)、極端隨機(jī)樹算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加權(quán)融合算法;2)對于歷史數(shù)據(jù)較少的冷站點單獨處理,采用KNN算法對這些站點的借還流量進(jìn)行預(yù)測;3)根據(jù)POI信息采用KNN算法對自行車站點進(jìn)行分類;4)根據(jù)步驟3中得到的站點分類結(jié)果對步驟1和2中的冷熱站點預(yù)測算法進(jìn)行改進(jìn)和修正。本文所選擇的基線預(yù)測器是隨機(jī)森林站點提出了隨機(jī)森林(randomforest)、極端隨機(jī)樹算法(extremely與其他時段數(shù)量需求的巨大差別以及許多站點出現(xiàn)的單車數(shù)量與使用需求不匹配等問題造成了社會資源的浪費。由于不同站點在不同時間段的借還需求是不平衡而根據(jù)歷史借還數(shù)據(jù)以及氣象數(shù)據(jù)等其他因素對共享單車系統(tǒng)未來的借還流可以指導(dǎo)企業(yè)和政府進(jìn)行共享單車的高效投放并在很大程度上避免站點無車可借數(shù)據(jù)比賽中使得感興趣的人可以對通過數(shù)學(xué)以及計算機(jī)手段對數(shù)據(jù)進(jìn)行研究從而表1.1描述了一個共享單車站點間轉(zhuǎn)移數(shù)據(jù)集,其中各個字段的含義分一條共享單車從借車站點轉(zhuǎn)移到還車站點的記錄,都有一個借車日期(例如1/1/2015)、一個借車時間(例如9:20:27)、一個1882345們的模型考慮了時間因素,但是沒有考慮天氣因素對自行車可用性的影響;文獻(xiàn)文獻(xiàn)[15]通過將眾多外生影響(如日常/每周/季節(jié)模式、天氣)納入廣義相加模型本文提出了一種站點級別的預(yù)測模型,其主要由四個部分組成:1)根據(jù)歷史法——隨機(jī)森林(randomforest)、極端隨機(jī)樹算法(extremelyrandomizedtrees,ExtraTrees)以及LightGBM的加權(quán)融合算法;2)對于歷史數(shù)據(jù)較少的冷站點單獨處理,采用KNN算法對這些站點的借還流量進(jìn)行預(yù)測;3)根據(jù)POI信息采用KNN算法對自行車站點進(jìn)行分類;4)根據(jù)步驟3中得到的站點分類結(jié)果對步驟1和2中的冷熱站點預(yù)測算法進(jìn)行改進(jìn)和修正。本文所選擇的基線預(yù)測器是隨機(jī)森林站點提出了隨機(jī)森林(randomforest)、極端隨機(jī)樹算法(extremely森林算法、極端隨機(jī)樹算法和LightGBM這些基線預(yù)測器具有較好的預(yù)第二章:共享單車流量預(yù)測的相關(guān)方法。本章主要介本章介紹了本文所使用的共享單車流量預(yù)測相關(guān)方法和技術(shù)并概括歸納了相(1)使用自助采樣法從原始訓(xùn)練集N中采樣出T個采樣集,由此構(gòu)建T棵決(2)設(shè)有d個屬性,在每一棵決策樹的每個結(jié)點處隨機(jī)抽取k個屬性,之后(3)不對決策樹進(jìn)行修剪,使之最大限度生長;(4)用已訓(xùn)練好的T棵決策樹構(gòu)建隨機(jī)森林之后,用它對新的樣本進(jìn)行分類或回歸,分類結(jié)果由T棵決策樹采用多數(shù)表決而定,LightGBM(LightGradienGBDT是通過采用基學(xué)習(xí)器線性組合的方式不斷減小訓(xùn)練時產(chǎn)生的殘差來實現(xiàn)LightGBM算法可用于分類和回歸,在本文中用于對熱站KNN(k-NearestNeighbor;k近鄰)是一種常用監(jiān)督學(xué)習(xí)算法,既可以用來做分類,也可以用來做回歸任務(wù)。KNN沒有顯示訓(xùn)練過程,屬于“懶惰學(xué)習(xí)”,它在KNN算法的優(yōu)勢在于它的思想簡單、理論成熟、精度高、既可以用于數(shù)值型數(shù)據(jù)其基本思想是基于某類距離度量找到訓(xùn)練集中與測試樣本最近的k個訓(xùn)練樣(1)計算訓(xùn)練集中的樣本和測試樣本的距離;(2)按照距離增序排列;(3)選擇距離最小的前k個訓(xùn)練樣本;(4)基于這k個樣本進(jìn)行預(yù)測。點本身的歷史數(shù)據(jù)而是使用熱站點的預(yù)測數(shù)據(jù)通過KNN對它們進(jìn)行回歸預(yù)測。第三章問題定義與分析定義1站點。定義2記錄。素的影響。所以我們選取影響比較大的3個氣象因素和5個時間因素來構(gòu)成特征向T?=(holiday,tiaoxiu,weekday,is_weekend,hanshu)。其中holiday,tiaoxiu,weekday,is_weekend,hanshu分別表示時間段t是否為國假、是否是上班日(針對調(diào)休)、周幾、是否是周末、是否是寒暑假。定義6POI數(shù)據(jù)。問題定義給定歷史共享單車使用記錄集合Rn={Rei,Rez…Ren},我們希望預(yù)測每個站點S(i=1,2,…n)在未來某個時間t內(nèi)的共享單車借還數(shù)量Lw,,和R,,這里的時間t的間隔在本文中被設(shè)置為1天。第i個站點n時間t的特征向量(1)本文中提到的共享單車借還流量預(yù)測場景中存在著冷熱站點之分。冷站數(shù)據(jù)集中,我們需要預(yù)測的是從2015年7月22日開始到2015年8月31日的共享單車借還流量,對于分類為學(xué)校附近的站點來說,訓(xùn)練集中日期在寒暑假期間的數(shù)據(jù)相較于其他日期很少,數(shù)據(jù)分布非常不平衡,可能會導(dǎo)致預(yù)測的的誤差較大。綜上所述,我們需要改進(jìn)所用的模型。圖4.1算法架構(gòu)定的歷史共享單車使用記錄集合Ra={Rei,Rez,…Ren}以及時間氣象等因素,預(yù)測每個站點S;(i=1,2,…n)在未來某個時間段t的共享單車借還數(shù)量Ls.以及R,這里t的時間間隔為1天。由3.2節(jié)可知,本文所要預(yù)測借還流量的站點S(i=1,2,…n)存在有冷熱站點之所以我們需要一個既能預(yù)測熱站點也能預(yù)測冷站點同時可以適應(yīng)不同類別站在這里我們先將歷史共享單車使用記錄集合Ra={Rei,Rez,…Ren}根據(jù)站點訓(xùn)練集Ts(i=1,2,……n)。我們區(qū)分冷熱站點的標(biāo)志是該站點S;(i=1,2,…n)訓(xùn)練集Ts(i=1,2……n)中的xax=(fi,rs.)(i=1,2,……n)數(shù)量是否大于等于46,簡單來說就是該站點有借還流量個屬性子集(含有k個屬性),然后再從這個屬性子集中選擇一最優(yōu)屬性用來劃分。在訓(xùn)練過程中,我們對每一個熱站點分開預(yù)測。我們通過對熱站點集合Sg中每一個熱站點S,的訓(xùn)練集Ts,進(jìn)行自助采樣的方式創(chuàng)建采樣集。對于每一個采樣集,決策樹根據(jù)以下步驟進(jìn)行生長:對于決策樹的每一個結(jié)點,首先從特征向量f;中該結(jié)點的所有預(yù)測變量中隨機(jī)選擇一些特征作為劃分變量,即從此結(jié)點屬性集合隨機(jī)選擇含有k個屬性的子集;接著依據(jù)最大化兩個分支結(jié)點的均勻性的標(biāo)準(zhǔn)找到最優(yōu)劃分屬性進(jìn)行劃分;之后重復(fù)上述步驟將訓(xùn)練集一步步分成更小的組直到葉子節(jié)點。在本文中,我們選擇用來選擇最優(yōu)劃分屬性的衡量標(biāo)準(zhǔn)是均方誤差和。采用均方誤差和選擇最優(yōu)劃分屬性的過程如下:對于任意劃分屬性A,對應(yīng)的任意劃分點s將數(shù)據(jù)集劃分成D1和D2,選擇最優(yōu)劃分屬性的過程就是選出使得數(shù)據(jù)集D1和D2各自均方誤差最小,同時D1和D2的均方誤差之和也最小時所對應(yīng)的劃分屬性以及對應(yīng)劃分點。西百是臣是西曼是圖4.2展示了一個已訓(xùn)練好的深度為4的樣例決策樹。為了預(yù)測某一個熱站點S,在時間t+1的借車流量,輸入的特征向量fi+i必須包含時間t+1是否為國假、是否是上班日(針對調(diào)休)、周幾、是否是周末、是否是寒暑假以及時間t+1的最高氣溫、最低氣溫和天氣。當(dāng)fi+i被輸入決策樹時,需要基于劃分變量在每一個結(jié)點上做決策直到到達(dá)葉子結(jié)點。例如,在圖4.2中,如果是周末則下一步是判斷是否下雨。如果下雨,則到達(dá)葉子節(jié)點,該葉子節(jié)點訓(xùn)練樣本數(shù)Samples為36個,36個樣本的平均借車流量Value為7.8。讓yn為第n個基決策樹的借車流量預(yù)測值,即在訓(xùn)練過程中到達(dá)該葉子節(jié)點的訓(xùn)練樣本的平均借車流量Value,則隨機(jī)森林中基決策樹的數(shù)量,也就是說隨機(jī)森林的最終預(yù)測值是所有基決策樹預(yù)測值的平均。相比于其他算法,隨機(jī)森林算法可以同時處理離散屬性和連續(xù)屬性,在本文的屬性集合中既存在著連續(xù)屬性如最高氣溫、最低氣溫,也存在著離散屬性如是否是寒暑假,我們可以無需附加轉(zhuǎn)換地使用這些屬性;同時隨機(jī)森林可以處理大量的數(shù)據(jù)。綜上它適合本文的應(yīng)用場景。極端隨機(jī)樹算法與上述隨機(jī)森林算法十分相似,與隨機(jī)森林算法的區(qū)別在于以首先隨機(jī)森林對熱站點訓(xùn)練集Ts(Sr∈Sk)應(yīng)用的是Bagging,采用的是自助采樣;而極端隨機(jī)樹是使用熱站點訓(xùn)練集Ts(S,∈Sa)中的所有訓(xùn)練樣本得到每一棵決其次隨機(jī)森林對于含有k個屬性的隨機(jī)屬性子集中的每一個屬性都需要先計算該屬性的最優(yōu)劃分值,再得到最佳劃分屬性,而極端隨機(jī)樹對于輸入:熱站點訓(xùn)練集Ts={(fi,Ls,n),(fi,Ls,?),…(fu,Ls,w)}(Sr∈Sk),N為該站代替fw。通常使用的損失函數(shù)為L(y,f(x)=(y-f(x))2,設(shè)定最大的迭代次數(shù)為T。輸出:強(qiáng)學(xué)習(xí)器f(x)Step2-(4):更新學(xué)習(xí)器(2)LightGBM在GBDT算法基礎(chǔ)上的改進(jìn)①直方圖算法(式4,5)直方圖算法的原理為首先將連續(xù)浮點屬性值離散化,形成k個整數(shù),并構(gòu)造出直方圖,寬度是k。在遍歷訓(xùn)練集時,以離散化后的k個整數(shù)值為索引在直方圖中積累統(tǒng)計量,遍歷完數(shù)據(jù)以后,直方圖積累好了所需的統(tǒng)計量,最后根據(jù)直方圖中的離散值,遍歷以選擇每個連續(xù)屬性的最優(yōu)劃分點。使用直方圖算法的優(yōu)點為:降低內(nèi)存消耗、降低計算代價。②直方圖做差加速葉子結(jié)點的直方圖可由父結(jié)點以及兄弟結(jié)點的直方圖做差獲得。通常情況下構(gòu)造直方圖,需遍歷葉子結(jié)點上的全部數(shù)據(jù),但該方法僅僅要遍歷直方圖的k個桶。所以利用直方圖做差,LightGBM可在構(gòu)造完樣本較少的葉子結(jié)點的直方圖之后,用很小的代價獲得它兄弟結(jié)點的直方圖,從而加快速度。③帶深度限制的Leaf-wise的葉子生長策略Leaf-wise和Level-wise相比是更加高效的策略,每次進(jìn)行決策樹生長時都從目前所有的葉子結(jié)點中,找到分裂增益最大的一個葉子結(jié)點,然后對該葉子結(jié)點進(jìn)行劃分,如此循環(huán)。與Level-wise比精度更高。但是Leaf-wise有可能會訓(xùn)練出較深的決策樹,出現(xiàn)過擬合的現(xiàn)象。所以LightGBM在Leaf-wise基礎(chǔ)上增加了最大深度的限制,既保證了高效,也在一定程度上防止了過擬合的現(xiàn)象。④直接支持類別特征很多機(jī)器學(xué)習(xí)的工具都不能做到直接支持類別特征,需將它轉(zhuǎn)成多維0/1特征,從而導(dǎo)致空間及時間效率下降。而LightGBM可直接輸入類別特征,從而加快訓(xùn)練速度。⑤支持并行學(xué)習(xí)LightGBM支持并行學(xué)習(xí),主要包括特征和數(shù)據(jù)并行兩類方法。特征并行這種并行學(xué)習(xí)方法的思想是不同機(jī)器在不同特征集合上分別查找最優(yōu)劃分點,之后在機(jī)器之間進(jìn)行同步從而獲得全局最優(yōu)劃分點。數(shù)據(jù)并行這種并行學(xué)習(xí)方法的思想是不同機(jī)器在本地構(gòu)造直方圖,然后再在全局范圍內(nèi)進(jìn)行歸并,最后根據(jù)歸并以后的直方圖查找最優(yōu)劃分點。LightGBM對特征以及數(shù)據(jù)并行做了優(yōu)化,在特征并行中,LightGBM的每個機(jī)器都保留全部的數(shù)據(jù)集從而避免廣播instanceindices;在數(shù)據(jù)并行中,LightGBM采用了分散規(guī)約這種方式將直方圖合并的任務(wù)分派給不同機(jī)器,不同機(jī)器負(fù)責(zé)合并不同特征的局部直方圖從而降低通信量,同時采用直方圖做差算法進(jìn)一步減少通信量。多模型融合算法是指將多個算法模型通過特定的方式進(jìn)行組合。多模型融合算法充分利用不同算法的優(yōu)勢,取長補(bǔ)短,同時增加了多樣性,降低了回歸誤差。這里我們采用的是最簡單的一種融合算法——線性加權(quán)融合算法。它只需匯總單個模型的結(jié)果,然后給不同的模型賦予不同權(quán)重,通常表現(xiàn)比較好的模型需要被賦予更大的權(quán)重,最后進(jìn)行加權(quán)融合即可獲得所需結(jié)果。(式4.7)其中Ls.;是站點S,在時間t的最終借車流量預(yù)測值,ok是分配給第k個單一模因為LightGBM模型的表現(xiàn)較好,隨機(jī)森林和極端隨機(jī)樹模型的表現(xiàn)差別不大,所以在這里我們賦予隨機(jī)森林模型和極端隨機(jī)樹的權(quán)重都為1/6,賦予LightGBM的權(quán)重為2/3,yu是第k個單一模型的在時間t的借車流4.4冷站點預(yù)測算法上述加權(quán)融合算法雖然解決了熱站點的借還流量預(yù)測問題,但對于歷史數(shù)據(jù)少的冷站點來說,使用該加權(quán)融合算法并不能達(dá)到很好的預(yù)測效果,所以我們通過KNN算法使用已經(jīng)進(jìn)行預(yù)測的熱站點的預(yù)測值來預(yù)測這些冷站點并得到了較好的KNN回歸算法原理總結(jié)如下:在訓(xùn)練集已知的情況下,輸入測試樣本,將測試樣本的特征與訓(xùn)練集中對應(yīng)的特征進(jìn)行相互比較,即基于某種距離度量方式找到訓(xùn)練集中與測試樣本最相似的前K個訓(xùn)練樣本,基于前K個訓(xùn)練樣本對測試樣本將KNN用于回歸則測試樣本的回歸預(yù)測值為挑選出來的K個訓(xùn)練樣本取平均或者加權(quán)平均,與測試樣本距離越近的樣本權(quán)重o;越大。如圖4.5所示,在KNN冷站點預(yù)測算法中,距離度量為測試樣本和訓(xùn)練樣本要注意的是我們對KNN算法進(jìn)行了變化,若某一訓(xùn)練樣本與測試樣本tmersct的長度小于等于5天,則需要舍棄這一近鄰,所以最后的近鄰數(shù)量可能小于5。冷站點在時間t的借車流量我們用選取的近鄰在這一個時間t的已預(yù)測借車流量取平均得到,所以我們在這里用的是平均法。6.compares.append(Sr,dista8.foriincompares[:5圖4.5KNN冷站點預(yù)測算法在本文的數(shù)據(jù)場景以及大部分真實數(shù)據(jù)場景中,站點存在著不同類型,如學(xué)校附近的站點、景點等休閑娛樂區(qū)域附近的站點、公共交通附近的站點、公司附近的站點、住宅小區(qū)附近的站點等。對于這些不同種類的站點,需要基于站點分類對預(yù)測值做不同程度的修正。本節(jié)介紹如何進(jìn)行站點分類以及利用站點分類信息對預(yù)測值進(jìn)行修正。里里眾4.5.1KNN分類算法原理KNN算法是指在訓(xùn)練集已知的情況下,輸入測試樣本,將測試樣本的特征與訓(xùn)練集中對應(yīng)的特征進(jìn)行相互比較,即基于某種距離度量方式找到訓(xùn)練集中與測試樣本最相似的前K個訓(xùn)練樣本,再基于前K個訓(xùn)練樣本對測試樣本實現(xiàn)預(yù)測。將KNN算法用于分類,則測試樣本的分類預(yù)測為挑選出來的K個訓(xùn)練樣本投票或者加權(quán)投票的結(jié)果,假設(shè)類別標(biāo)簽集合為{Ci,C?,…,Cv},我們將每一個訓(xùn)練樣本的標(biāo)簽值表示成一個N維的向量(y);y2;…;y^)(i=1,2……k),若第i個訓(xùn)練樣本的標(biāo)簽為Ck(I≤R≤N),則y=1,該樣本對應(yīng)N維向量的其他值都為0,使用投票法時測試樣本的預(yù)測標(biāo)簽值為,即預(yù)測標(biāo)簽為投票最多的標(biāo)簽值,使用加權(quán)投票法時測試樣本的預(yù)測標(biāo)簽值為,和加權(quán)平均類似,oi是第i個訓(xùn)練樣本的權(quán)重,o≥0,距離越近樣本權(quán)重oi越大。4.5.2站點分類(1)計算訓(xùn)練樣本和待分類樣本之間的距離。這里的特征空間是二維實數(shù)向量空間R?,X;和Xk屬于該特征空間。Xi=(X(1),X(2))',Xk=(Xk(1,Xt(2))',則X;和Xk的曼哈頓距離定義為(在這里第一維是經(jīng)度,第二維是緯度):(2)選擇k個與待分類樣本距離最近的訓(xùn)練樣本。(3)使用加權(quán)投票法,確定待分類樣本所屬的類別標(biāo)簽。對于學(xué)校附近的站點,如果所預(yù)測時間t為寒暑假、周末、節(jié)假日,則修正系數(shù)應(yīng)該小于1,在這里我們選擇μ=0.5;對于景點等休閑娛樂區(qū)域附近的站點,如果所預(yù)測時間t為周末、節(jié)假日,則修正系數(shù)應(yīng)該大于1,在這里我們選擇μ=1.2,如果所預(yù)測時間t為工作日,則修正系數(shù)應(yīng)該小于1,在這里我們選擇μ=0.8;對于公司附近的站點,如果所預(yù)測時間t為周末、節(jié)假日,則修正系數(shù)應(yīng)該小于1,在這里我們選擇μ=0.8,如果所預(yù)測時間t為工作日,則修正系數(shù)應(yīng)該大于1,在這里我們選擇μ=1.2,而對于公共交通附近的站點以及住宅小區(qū)附近的站點,無論是Lsi,t=Lsi,t×μ(式4.11)第五章實驗驗證本章首先在5.1節(jié)介紹本文實驗場景中所使用的數(shù)據(jù)集所用的基線預(yù)測器以及所采用的算法評分標(biāo)準(zhǔn),最后在5.3節(jié)介紹本文所選用基線我們在鹽城市2015年的自行車數(shù)據(jù)集上進(jìn)行實驗,如表5.1所示,該數(shù)據(jù)集提該數(shù)據(jù)集的共享單車站點間轉(zhuǎn)移記錄共有2132693條,站點共有390個,數(shù)據(jù)集的日期為2015年1月1日~2015年8月31日,我們將7月22日及之后的數(shù)據(jù)劃分為測試集,將7月22日之前的數(shù)據(jù)劃分為訓(xùn)練集;如表5.2所示,除了共享單車站點間轉(zhuǎn)移記錄,我們還知道站點的經(jīng)緯度信息。表5.3所示的氣象數(shù)據(jù)集是從天氣網(wǎng)上爬取下來的|,其中天氣分為三種情況:天氣情況較好(如晴天)、天氣情況較差(如小雨、雷陣雨)、天氣情況很差(如暴雨、下雪)。表5.4所示的POI數(shù)據(jù)集變量名借車日期借車時間借車站點號還車站點號還車日期還車時間表5.2站點經(jīng)緯度數(shù)據(jù)集變量名i站點號站點緯度站點經(jīng)度變量名時間天氣表5.4POI數(shù)據(jù)集變量名2網(wǎng)址為(/)。緯度經(jīng)度5.2基線預(yù)測器&評分標(biāo)準(zhǔn)本文所選取的基線預(yù)測器為隨機(jī)森林算法、極端隨機(jī)樹算法以及LightGBM。本文的評分標(biāo)準(zhǔn)采用RMSE、MedAE以及MAE。(1)RMSE,即均方根誤差,它是真實值與預(yù)測值之間偏差的平方之和與預(yù)測次數(shù)n的比值的平方根。RMSE對一組預(yù)測中的特小或者特大誤差十分敏感,因此它能很好反映預(yù)測結(jié)果的精度。均方根誤差也被稱作標(biāo)準(zhǔn)偏差σ,它體現(xiàn)了預(yù)測值偏離真實值的程度,σ越小代表精度越高,泛化能力越強(qiáng)。我們采用的最終評分為score,score越大代表精度越高。(2)MedAE,即中位數(shù)絕對誤差,它是真實值和預(yù)測值之間所有絕對差值的中位數(shù)。它可對異常值的出現(xiàn)進(jìn)行有效評估,MedAE越小則算法表現(xiàn)越好。(3)MAE,即平均絕對誤差,它是絕對誤差的平均值。它可以很好地反映預(yù)測值與真實值之間誤差的真實情況,MAE越小則算法表現(xiàn)越好。隨機(jī)森林算法法法修正后的預(yù)測算法的精度相較于三個基預(yù)測器以及沒有進(jìn)行修正的預(yù)測算法第六章總結(jié)與展望本文提出了一種由四個主要步驟構(gòu)成的站點級別的預(yù)測模型。1)根據(jù)歷史數(shù)trees,ExtraTrees)以及LightGBM的加權(quán)融合算法;2)對于歷史數(shù)據(jù)較少的冷站點單獨處理,采用KNN算法對這些站點的借還流量進(jìn)行預(yù)測;3)根據(jù)POI信息采用KNN算法對自行車站點進(jìn)行分類;4)根據(jù)步驟3中得到的站點分類結(jié)果對步驟1和2中的冷熱站點預(yù)測算法進(jìn)行改進(jìn)和修正。本文所選擇的基線預(yù)測器是隨機(jī)森林站點提出了隨機(jī)森林(randomforest)、極端隨機(jī)樹算法(extremelyUsingSeasonalARIMAModels[J].JournalofTianjinUniversity,2005,AccurateTrafficPrediction[C]//IEEE,InternationalConferenceonDataregression[C]//IEEETransProceedings.IEEEXplore,2004:1438-1442vol.2.EnhancedLinearRegression[C]//Pacific-AsiaDiscoveryandDataMining.2013:484-495.speedpredictionusingremotemicrowavesensordata[J].Tran
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國水果批發(fā)行業(yè)未來趨勢預(yù)測分析及投資規(guī)劃研究建議報告
- 2025年新型空調(diào)安裝與智能節(jié)能管理系統(tǒng)合同
- 2025年中國旅游行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略規(guī)劃研究報告
- 2025年中國砂芯坩堝行業(yè)投資研究分析及發(fā)展前景預(yù)測報告
- 2025年度企業(yè)主體轉(zhuǎn)讓三方協(xié)議范本修訂版
- 2025年度高科技農(nóng)業(yè)項目用工合同
- 2025年度工地預(yù)拌混凝土質(zhì)量監(jiān)管與風(fēng)險評估協(xié)議
- 2025年度高端酒店宴會廳場地租賃合同范本
- 2025年度建筑垃圾處理與綜合利用合同
- 2025年度國際貿(mào)易融資借款合同匯編
- 幕墻施工成品及半成品保護(hù)措施
- 基于單片機(jī)的交通燈控制系統(tǒng)設(shè)計畢業(yè)論文
- 2024年執(zhí)業(yè)醫(yī)師考試-醫(yī)師定期考核(口腔)筆試參考題庫含答案
- 中國律師學(xué) 課件 陳衛(wèi)東 第10-17章 律師收費制度-律師非訴訟業(yè)務(wù)(二)
- (高清版)TDT 1040-2013 土地整治項目制圖規(guī)范
- 中國移動行測測評題及答案
- 精神科患者服藥依從性健康宣教
- 設(shè)備維保的維修流程與指導(dǎo)手冊
- 急性腎小球腎炎病人護(hù)理課件
- 招標(biāo)代理服務(wù)的關(guān)鍵流程與難點解析
- GB/T 5465.2-2023電氣設(shè)備用圖形符號第2部分:圖形符號
評論
0/150
提交評論