




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、基于美國交通部數(shù)據(jù)的航空運輸延誤分析預(yù)測模型關(guān)菁菁 尚蕊 蔣安華(中國人民大學(xué)統(tǒng)計學(xué)院 100872)摘要:本文基于美國交通部的公開數(shù)據(jù)建立了航空運輸延誤分析預(yù)測的時間序列模型。我們針對飛行延誤情況進行研究。在建模之前給出了所有要用到的定義概念,為建模提供了測度基礎(chǔ)。隨后,本文利用所得數(shù)據(jù)充分描述了航空運輸業(yè)的概況,包括航線分布、航程分布、延誤時長、系統(tǒng)預(yù)定飛行設(shè)定等。在對數(shù)據(jù)集充分了解的情況下,我們針對月飛行延誤率建立了時間序列模型,通過對這個時間序列模型的檢驗與評價,我們確信模型取得很好的效果。在文章的最后,我們就本次建模進行了總結(jié),并基于模型的分析預(yù)測情況闡述了對于航空運輸延誤問題的一些
2、啟示。一、背景(一)研究背景空中交通管理影響到飛行的安全和效率,已經(jīng)成為當(dāng)代一個重要問題。航空活動在二十世紀(jì)30年代之前,由于飛機只能在白天天氣允許的情況下飛行最多幾千米,當(dāng)時只需由管制員用紅旗和綠旗來控制飛機起降,人們關(guān)心飛行的安全多于飛機是否按時到達。1934至1945年間,機身和機場都裝備了無線電通信和導(dǎo)航設(shè)備。二次世界大戰(zhàn)給航空技術(shù)帶來了飛躍性進步,雷達的應(yīng)用和儀表著陸系統(tǒng)(ILS)。二十世紀(jì)80年代后,計算機、空管地面設(shè)施和衛(wèi)星系統(tǒng)被廣泛應(yīng)用到空中交通管理。這些都為空中及地上飛行資源的優(yōu)化配置提供了便捷,也正是由于航空技術(shù)的迅速發(fā)展,航空運輸量日益增大,除了航空運輸安全問題外,航空運
3、輸延誤也成為了今日的重要課題。我們研究的航班延誤問題實際上是空中交通管理成效的一個反映。乘客希望得到最便捷和最安全的航程。航空公司希望每一飛行架次都可以安全、高效和成本最優(yōu)。在空中交通管理中,地面等待策略也被廣泛采用。因為從成本和飛行安全等方面來考慮,地面等待總比空中等待更安全、經(jīng)濟一些,所以地面等待策略實質(zhì)上是將昂貴的空中等待轉(zhuǎn)化為地面等待,以達縮減費用的目的。但是,這并不意味著起飛前的延誤比降落的延誤好。事實上,我們總是希望每一飛行架次均可按時完成飛行任務(wù),所有的資源都得到優(yōu)化配置。因此,為了了解目前民用航空的延誤情況,我們將基于得到的數(shù)據(jù)建立一個關(guān)于航班延誤時間序列模型。眾所周知,統(tǒng)計其
4、實是隨機性和規(guī)律性的統(tǒng)一。我們希望可以在這些飛行數(shù)據(jù)中找到一些規(guī)律,并將之用于預(yù)測。由于統(tǒng)計具有隨機性,所以我們得到的預(yù)測并不總是準(zhǔn)確的。但一般說來,大量的隨機事件則會呈現(xiàn)一定的統(tǒng)計規(guī)律性。(二)數(shù)據(jù)來源本文使用的數(shù)據(jù)來源于美國交通運輸部研究與技術(shù)創(chuàng)新管理部門(Research and Innovative Technology Administration (RITA) U.S. Department of Transportation (US DOT), 1200 New Jersey Avenue, SE Washington, DC 20590 800-853-1351)。美國交通運輸
5、統(tǒng)計局的宗旨是發(fā)布完善且高質(zhì)量的交通運輸信息,提高公共和私人決策的效率,其利用網(wǎng)站發(fā)布了很多交通運輸信息和相關(guān)分析,對我們有很大的啟發(fā)和借鑒意義。我們選擇了2003年06月至2009年07月美國所有飛行架次的飛行情況作為數(shù)據(jù)集。這個數(shù)據(jù)集聚焦于每架次是否按時飛行。二、問題定義我們關(guān)注的經(jīng)濟事件是一架次飛機的飛行情況。此經(jīng)濟事件實際包含三個階段:起飛,在空和降落。實現(xiàn)一個完整經(jīng)濟事件的飛行稱為一個飛行架次。因在這三個階段都可能出現(xiàn)延誤,故我們把飛行架次延誤時長定義為在起飛、在空和降落三個階段的總延誤時長。因一次實現(xiàn)的飛行架次延誤時長可正可負(fù),正值代表該架次延誤,負(fù)值則代表按時到達。根據(jù)上述定義和
6、既得數(shù)據(jù),我們可以計算出所有架次的延誤時長以及判斷其是否被延誤。一般說來,只要在起飛、在空和降落任一階段發(fā)生延誤,該飛行架次都會被延誤。飛行延誤率被定義為一段時間內(nèi),飛行架次延誤時長為正值的飛行架次數(shù)所占當(dāng)期所有飛行架次總數(shù)的比例。三、數(shù)據(jù)描述(一)變量概覽該數(shù)據(jù)集所含主要指標(biāo)分為以下大類,共計55個變量:時間;所屬航線、出發(fā)及到達地點;起降表現(xiàn);是否取消或繞道飛行;航班概況;延誤原因。根據(jù)我們的研究目的,初步篩選之后留下了18個變量,如下表所示:變量名變量含義Year年Month月DayofMonth日DayOfWeek星期幾UniqueCarrier所屬航空公司Origin始發(fā)地Dest目
7、的地CRSDepTime系統(tǒng)預(yù)定起飛時刻DepDelay實際起飛時刻與系統(tǒng)預(yù)定起飛時刻差值CRSArrTime系統(tǒng)著陸時刻ArrDelay實際著陸時刻與系統(tǒng)預(yù)定著陸時刻差值Cancelled該架次被取消與否(1=取消)CancellationCode取消原因Diverted該架次是否改道(1=改道)CRSElapsedTime系統(tǒng)預(yù)定飛行時長(以分鐘計)ActualElapsedTime實際飛行時長(以分鐘計)AirTime飛機在空時長(以分鐘計)Distance始末機場距離(表一)變量名稱及意義說明(二)主要變量及其關(guān)系分析在數(shù)據(jù)集中,每個月起降的飛行架次最高可達638,883架次,最少月份
8、也有481,506架次。鑒于每個月的起降情況類似,我們選取離目前最近的2009年07月的數(shù)據(jù)來進行主要變量關(guān)系分析。由圖一得,Atlanta,亞特蘭大機場是全美起飛航班最多的機場,其起飛架次占全美起飛架次總量的6.60%,計37,705架次。芝加哥奧黑爾機場起飛的航班數(shù)量位居第二,占全美起飛架次總量的4.75%,累計27,161架次。圖二為按照頻率排序的始發(fā)地與目的地的往來對照圖,相關(guān)地點往來航運量(按架次計)可以從該圖查得。(圖一)各始發(fā)地起飛架次占總起飛架次比例圖截選(圖二)起始地點往來飛行架次圖截選(圖三)始末機場距離分布表如圖三所示,始末機場距離分布其實是一個右偏分布。有136,158
9、個飛行架次的始末機場距離都在300千米附近,105,725個飛行架次的始末機場距離在500千米附近。介于500千米和2,500千米的飛行架次也占有相當(dāng)大的比例。可見,飛行距離較短的飛行架次占了很重的比例。(圖四)系統(tǒng)預(yù)定飛行耗時與實際飛行耗時對比由圖四看出,系統(tǒng)預(yù)定飛行耗時與實際飛行耗時各個統(tǒng)計量都比較接近。只是系統(tǒng)預(yù)定飛行時長的眾數(shù)為70分鐘,而實際飛行時長的眾數(shù)為80分鐘,相對較長。圖上紅色的點以實際飛行時長為橫坐標(biāo),系統(tǒng)預(yù)定飛行時長為縱坐標(biāo),黑色的線為過原點,斜率為1的射線,可以看到該射線的右下方的點居多,說明對于同一飛行架次來說,實際飛行時長一般會比系統(tǒng)預(yù)定飛行時長更長。(圖五)起飛延
10、誤與降落延誤基本統(tǒng)計量圖如圖五所示,起飛延誤時長與降落延誤時長的均值分別為9.99和7.35分鐘,標(biāo)準(zhǔn)差分別為34.67和37.43,極差分別是2,497和2,524分鐘,可見起飛延誤時長相較于降落延誤時長波動小,但是其均值比降落延誤時長大。初步判斷圖上綠色的點有較嚴(yán)重的堆積情況,我們做一條起飛延誤時長關(guān)于降落延誤時長的回歸線如圖中顏色較淡的、斜率較大的細(xì)線所示,堆積情況十分嚴(yán)重。如果利用這兩個變量做回歸的話,偏差一定十分嚴(yán)重。將始末機場距離加入考慮,得到圖六。我們可以看到大部分起飛延誤的架次一般降落也會延誤,大部分起降延誤集中在始末機場距離介于0至3,000千米的架次。(圖六)起飛延誤、降落
11、延誤與飛行距離關(guān)系圖如圖七所示,294,994個飛行架次按時起飛。260,760架次的起飛延誤時間介于50至100分鐘之間。起飛延誤時長介于100至150分鐘之間的飛行架次為12,831,起飛延誤時長超過100分鐘的飛行架次為3,046。因此,起飛延誤飛行架次與按時起飛飛行架次比例相當(dāng)。(圖七)起飛延誤時長分布圖(圖八)降落延誤時長分布圖由圖八得,按時著陸的飛行架次為315,256,降落延誤時長介于50至100分鐘的飛行架次為239,256,降落延誤時長介于100至150分鐘的飛行架次為13,898,降落延誤時長大于150分鐘飛行架次為3,223。(圖九)起飛延誤、飛行延誤及降落延誤關(guān)系圖不難
12、從圖九看出,在三個坐標(biāo)軸取值較小的部分形成了一個三角區(qū)域,這說明一般飛行架次在起飛、在空及降落三個階段的延誤一般耗時都不會太長,但是有很多發(fā)生這種飛行延誤的架次。將那些紅色的點投影到起飛與降落延誤的平面上,我們可以看到有部分起飛、降落延誤時長相對較長的航班。四、模型建立為了對航空運輸延誤情況進行最有效的刻畫和預(yù)測,我們把飛行延誤率作為研究的主要對象。經(jīng)過多次試驗,我們認(rèn)為使用月度為最小的時間單位來進行研究會比較合適。因此,我們按月建立關(guān)于延誤率的時間序列模型。用原始數(shù)據(jù)經(jīng)過匯總后,得到2003年06月至2009年07月每月延誤飛行架次占該月總飛行架次的比例數(shù)據(jù),即月飛行延誤率(以下用delay
13、rate命名)。由圖十得,飛行延誤率有一定的季節(jié)性波動,但趨勢并不明顯。(圖十)2003年06月至2009年07月飛行延誤率時間序列圖(一)初步建立時間序列模型(圖十一)2003年06月至2009年07月飛行延誤率自相關(guān)分析圖圖十一為對飛行延誤序列做自相關(guān)分析的結(jié)果,從圖十一中可以看出,樣本自相關(guān)系數(shù)(Autocorrelation)不呈現(xiàn)衰減趨勢,而呈現(xiàn)出一定的周期起伏趨勢。結(jié)合所研究數(shù)據(jù)的特性,我們認(rèn)為飛行延誤率序列應(yīng)為季節(jié)序列。對飛行延誤率序列進行周期為12的季節(jié)差分后得到新的序列,即除季節(jié)序列(命名為sdelayrate)。(圖十二)除季節(jié)序列的自相關(guān)分析圖十二為對除季節(jié)序列的自相關(guān)分
14、析。從圖十二中可以看出,樣本自相關(guān)系數(shù)有衰減趨勢,且隨時間增大,表現(xiàn)為拖尾。除了K=12時偏相關(guān)系數(shù)(Partial Correlation)數(shù)值較大之外,在K>4之后偏相關(guān)系數(shù)都落入置信區(qū)間內(nèi)。考慮到二階季節(jié)差分會損失大量樣本數(shù)據(jù),且效果不明顯,不再差分。同時,鑒于偏相關(guān)系數(shù)在K>4之后都落入置信區(qū)間內(nèi),而自相關(guān)系數(shù)具有拖尾的特性,最終采用AR(4)模型,即4階自回歸模型。因此,我們認(rèn)為對于2003年06月至2009年07月美國航空運輸飛行延誤率經(jīng)過除季節(jié)差分后的時間序列用4階自回歸模型擬合較好。經(jīng)過計算,sdelayrate均值為-0.00314,均值標(biāo)準(zhǔn)誤為0.02894,因
15、此可認(rèn)為均值近似為0而不進行中心化直接計算。另外,考慮到sdelayrate滯后期為12時的樣本偏相關(guān)系數(shù)較大,為消除這個影響,我們將SAR(12)加入模型中,所以,用于刻畫2003年06月至2009年07月美國航空運輸飛行延誤率時間序列的最終模型為。將此模型用于擬合,得到結(jié)果如表二所示。各滯后多項式的倒數(shù)根在單位圓內(nèi),過程平穩(wěn)。模型的展開形式為:CoefficientStd. Errort-StatisticProb. AR(1)0.5777270.1510393.8250180.0004AR(2)-0.1063190.177877-0.5977110.5533AR(3)0.0577580.
16、17920.3223110.7489AR(4)0.3084140.1512322.0393460.0479SAR(12)-0.3932190.154511-2.544920.0148R-squared0.506695Mean dependent var-0.011929Adjusted R-squared0.458568S.D. dependent var0.055951S.E. of regression0.04117Akaike info criterion-3.439886Sum squared resid0.069494Schwarz criterion-3.241121Log lik
17、elihood84.11738Hannan-Quinn criter.-3.365427Durbin-Watson stat1.990316Inverted AR Roots .92 .89-.24i .89+.24i .65+.65i .65-.65i .24+.89i .24-.89i .12-.74i .12+.74i -.24-.89i -.24+.89i -.59-.65+.65i -.65+.65i -.89+.24i-.89-.24i(表二) (二)模型檢驗與評價對于模型的檢驗,首先要檢驗其基本假定是否滿足,這一般通過檢驗殘差來進行。當(dāng)K取6時,從圖十三看出,檢驗P值為0.344
18、,不能拒絕殘差序列相互獨立的原假設(shè)。因此,所建模型滿足基本假定。(圖十三)對于模型的評價,我們選擇從預(yù)測的角度著手。不能預(yù)測的模型,一般說來對我們并無大助益。我們利用動態(tài)法,將2003年06月至2008年12月的飛行延誤率(以下命名為tdelay)用于建立模型,并利用這個模型預(yù)測2009年的飛行延誤率。未進行幾階差分前,tdelay的自相關(guān)系數(shù)同樣無衰減趨勢,并展現(xiàn)出一定的季節(jié)波動性。如圖十四所示:(圖十四)2003年06月至2008年12月飛行延誤率自相關(guān)分析圖對tdelay進行周期為12的季節(jié)差分后得到新的除季節(jié)飛行延誤率時間序列(命名為stdelay)。其樣本自相關(guān)系數(shù)有衰減趨勢。自相關(guān)
19、系數(shù)在K>1之后都在置信區(qū)間內(nèi),偏相關(guān)系數(shù)除了K=12時數(shù)值較大之外,在K>1之后都落入置信區(qū)間內(nèi),如圖十五所示。(圖十五)2003年06月至2008年12月除季節(jié)飛行延誤率自相關(guān)分析圖這時,我們可考慮和這兩個模型。CoefficientStd. Errort-StatisticProb. AR(1)0.6543180.2015273.2467960.0024SAR(12)-0.4685260.142988-3.2766740.0022MA(1)-0.0555870.275331-0.2018900.8411R-squared0.400960
20、60; Mean dependent var0.001178Adjusted R-squared0.370240 S.D. dependent var0.049711S.E. of regression0.039449 Akaike info criterion-3.558864Sum squared resid0.060693 Schwarz criterion-3.434744Log likelihood77.73614
21、 Hannan-Quinn criter.-3.513369Durbin-Watson stat1.903953Inverted AR Roots .91-.24i .91+.24i .66+.66i .66-.66i .65 .24-.91i .24+.91i-.24-.91i-.24+.
22、91i -.66-.66i -.66-.66i-.91+.24i-.91-.24iInverted MA Roots .06(表三)結(jié)果CoefficientStd. Errort-StatisticProb. AR(1)0.6210560.1245284.9872990.0000SAR(12)-0.4665410.140945-3.3100920.0020R-squared0.400455
23、;Mean dependent var0.001178Adjusted R-squared0.385466 S.D. dependent var0.049711S.E. of regression0.038969 Akaike info criterion-3.605639Sum squared resid0.060744 Schwarz criterion-3.522893Log likelihood77.71842
24、160;Hannan-Quinn criter.-3.575309Durbin-Watson stat1.949016Inverted AR Roots .91+.24i .91-.24i .66-.66i .66+.66i .62 .24+.91i .24-.91i-.24+.91i-.24-.91i
25、; -.66-.66i -.66-.66i-.91-.24i-.91+.24i(表四)結(jié)果由于ma(1)系數(shù)不顯著,且的AIC和SC值較小,所以最終模型確定為。模型展開式:再次對模型進行檢驗,殘差檢驗結(jié)果如下圖所示??紤]到觀測值數(shù)目為42,K取4,檢驗P值為0.657,不能拒絕殘差序列相互獨立的原假設(shè)。(圖十六)將這個模型用于2009年度預(yù)測序列的預(yù)測,圖十六預(yù)測值和實際觀測值的對比圖,表五則為數(shù)值列示。可見,預(yù)測的效果還是相當(dāng)好的。(圖十七)預(yù)測值和實際觀測值的對比圖2009-012009-022009-032009-042009-052009-062009-07實際值0.4052930.3465750
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 殯儀服務(wù)與社區(qū)公益項目合同
- 車輛抵押權(quán)登記及抵押物抵押合同
- 鋼管混凝土拱橋泵送壓力專題研究
- 地磚施工工藝流程
- 【課件】+彈力+-2024-2025學(xué)年人教版(2024)物理八年級下冊+
- 智慧園林云平臺整體解決方案智慧公園整體解決方案
- 2024年電力負(fù)荷控制員(技師)職業(yè)鑒定考試題庫(含答案)
- 非金屬礦業(yè)數(shù)字化轉(zhuǎn)型
- 2024年高考語文備考之教考結(jié)合:新高考現(xiàn)代文閱讀Ⅱ題型
- 華為企業(yè)培訓(xùn)管理
- 新生兒吞咽吸吮功能訓(xùn)練
- 2025-2030年中國期貨行業(yè)市場深度調(diào)研及競爭格局與投資策略研究報告
- 2025-2030年中國農(nóng)業(yè)科技行業(yè)市場深度調(diào)研及前景趨勢與投資研究報告
- 成人重癥患者顱內(nèi)壓增高防控護理專家共識
- 2025至2030年中國腫瘤治療行業(yè)市場發(fā)展?jié)摿扒熬皯?zhàn)略分析報告
- 廣東省佛山市南海區(qū)2023-2024學(xué)年七年級下學(xué)期期末生物學(xué)試題(原卷版)
- 《建筑基坑工程監(jiān)測技術(shù)標(biāo)準(zhǔn)》(50497-2019)
- 2023年深靜脈血栓形成的診斷和治療的指南
- 生字本A4打印(田格+拼音)
- 彩鋼瓦屋面滲漏水維修施工方案
- 地下電纜土方開挖保護方案5頁
評論
0/150
提交評論