數據統(tǒng)計與分析方法_第1頁
數據統(tǒng)計與分析方法_第2頁
數據統(tǒng)計與分析方法_第3頁
數據統(tǒng)計與分析方法_第4頁
數據統(tǒng)計與分析方法_第5頁
已閱讀5頁,還剩116頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據統(tǒng)計的一般方法;2、數據分析的一般方法;3、了解數據統(tǒng)計和分析在實際案例中的應用;4、了解時間序列分析及相關軟件應用;培訓主要內容:第一頁,共121頁。瞎子王國里,有一只眼精的人就是國王!第二頁,共121頁。心電圖的由來1780年有一天,43歲的意大利解剖學家伽伐尼GalvaniLuigi,1737-1798),在實驗室解剖青蛙,在用銀質手術刀觸碰放在鐵盤上的青蛙的時候,無意間發(fā)現青蛙腿部肌肉抽搐了一下,仿佛受到電流的刺激.如果換用一種金屬器械去觸動青蛙,就無此種反應。1832年,一個晴朗的日子,還是意大利,還是青蛙,只是做實驗的人換成了馬泰烏奇。這一次,馬泰烏奇探測到損傷和未損傷的肌肉之間存在一種電流,他稱之為“肌肉電流”。他發(fā)現,包括心臟在內,一切正在收縮的肌肉都會產生肌肉電流。醫(yī)學研究者通過大量的臨床數據發(fā)現正常和非正常的心電圖第三頁,共121頁。1、什么是數據?

數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態(tài)以及相互關系等進行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號。數據表現形式第四頁,共121頁。表現形式一數據列表第五頁,共121頁。數據表現形式二描述性分析:數據分時段走勢、差距變化情況以及 相應的時間背景銷售碼洋趨勢圖第六頁,共121頁。數據表現形式三銷售碼洋結構比圖形可以幫助我們將數據轉換成信息第七頁,共121頁。數據類型的分類1、計量資料(measurementdata)用儀器、工具等測量方法獲得的數據,又稱數值變量。特點:有計量單位,如患者的身高(cm),體重(kg),血壓(kPa)等.2、計數資料(countdata)按某種屬性分類計數后得到的數據,又稱無序分類變量,有二分類和多分類兩種情形.特點:無計量單位,如膚色(黑白)、血型(ABO)、職業(yè)(工農兵)、性別(1=男,2=女)等.3、等級資料(ordinaldata)半定性或半定量的觀察結果,有大小順序,又稱有序分類變量.如①癌癥分期:早、中、晚。

②藥物療效:治愈、好轉、無效、死亡。

③尿蛋白:,,,++,+++及以上第八頁,共121頁。住院號年齡身高體重住院天數職業(yè)文化程度分娩方式妊娠結局20256552716571.55無中學順產足月20256532216074.05無小學助產足月20258302515868.06管理員大學順產足月20225432316169.05無中學剖宮產足月20224662515962.011商業(yè)中學剖宮產足月20245352715768.02無小學順產早產20258342015866.04無中學助產早產20194642415870.53無中學助產足月20257832915457.07干部中學剖宮產足月實例數據計量資料計數資料第九頁,共121頁。三類資料間關系

例:一組2040歲成年人的血壓以12kPa為界分為正常與異常兩組,統(tǒng)計每組例數

<8低血壓

8

正常血壓

12

輕度高血壓

15

中度高血壓

17

重度高血壓計量資料等級資料計數資料第十頁,共121頁。第一部數據統(tǒng)計概述第十一頁,共121頁。什么是統(tǒng)計方法統(tǒng)計方法是指有關收集、整理、分析和解釋統(tǒng)計數據,并對其所反映的問題作出一定結論的方法。統(tǒng)計方法是一種從微觀結構上來研究物質的宏觀性質及其規(guī)律的獨特的方法。第十二頁,共121頁。一般統(tǒng)計方法根據數據的類型可以分為以下三種統(tǒng)計方法1、計量資料的統(tǒng)計方法**2、計數資料的統(tǒng)計方法3、等級資料的統(tǒng)計方法第十三頁,共121頁。運用統(tǒng)計方法應遵循的原則堅持用數據說話的基本觀點。有目的地收集數據。掌握數據的來源。認真整理數據。第十四頁,共121頁。統(tǒng)計分析流程確定問題確定分析目標采用科學方法收集數據考察數據時效性整理數據統(tǒng)計分析出具分析報告,提出解決意或建議第十五頁,共121頁。計量資料的統(tǒng)計描述1、頻數分布(frequencydistribution)為了了解數據的分布情況,可以編制頻數表(frequencytable).(1)求極差(range):即最大值與最小值之差,又稱為全距。(2)數據分組:由樣本容量n確定組數、通常分10-15個組;一般采取等距分組,組距=極差/組數。(3)列出組段:第一組段的下限略小于最小值,最后一個組段上限必須包含最大值,其它組段上限值忽略。(4)劃記計數:用劃記法將所有數據歸納到各組段,得到各組段的頻數。頻數表的編制步驟第十六頁,共121頁。編號血清甘油三脂編號血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77

表2-1:160名正常成年女子的血清甘油三酯(mmol/L)

第十七頁,共121頁。組段(1)劃記(2)頻數,f(3)組中值,X(4)

fX(5)=(3)×(4)0.5~

30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5512.401.6~正81.6514.851.7~1.8

合計

31.755.25160182.30編制頻數表,繪制頻數分布圖第十八頁,共121頁。對稱分布:以頻數最多組段為中心左右大體對稱.右(正)偏態(tài)分布:頻數最多組段右側組段數多.(skewedtotherightdistribution)左(負)偏態(tài)分布:頻數最多組段左側組段數多.(skewedtotherightdistribution)第十九頁,共121頁。2、集中趨勢的描述統(tǒng)計上使用平均數(average)來反映計量資料的集中趨勢(centraltendency).常用平均數有:

1.算術均數(arithmeticmean),簡稱均數(mean)

2.幾何均數(geometricmean)

3.中位數(median)

4.百分位數(percentile)第二十頁,共121頁。3、離散趨勢的描述反映數據的離散度(Dispersion),即個體觀察值的變異(variation)程度,常用的統(tǒng)計指標有:

1.極差(Range)

(全距)

2.四分位數間距(Quartilerange)

3.方差(Variance)

4.標準差(StandardDeviation)

5.變異系數(CoefficientofVariation)四分位間距:QR=P75-P25第二十一頁,共121頁。三、SPSS實現計量資料的統(tǒng)計描述下面是SPSS軟件中繪制頻數圖的步驟第二十二頁,共121頁。第二十三頁,共121頁。四、計數資料的統(tǒng)計描述住院號年齡職業(yè)文化程度分娩方式妊娠結局202565527無中學順產足月202565322無小學助產足月202583025管理人員大學順產足月202567724知識分子中學順產早產202564730管理人員大學順產足月202584832無小學剖宮產足月201991527無中學順產死產202586129無大學剖宮產足月202460125農民中學順產足月200038626無小學順產足月1、計數資料數據的整理第二十四頁,共121頁。按年齡(2歲一組)與職業(yè)整理年齡工人管理人員農民商業(yè)服務無知識分子總計18

2

0

0

0

3

0

520

9

2

610

18

0

452228

71024

70111502450342852153443612650432545133703662834351034

78572483011141122

39171143214

2

314

24

3

6034

4

2

5

3

12

2

2836

2

1

1

4

5

1

1438

3

1

1

0

2

1

840

0

0

2

0

0

0

2合計

207

1411022085372061401第二十五頁,共121頁。2、常用相對數指標計數資料常用的數據形式是絕對數,如某病的出院人數,治愈人數等.但絕對數不具可比性,需要計算相對數.率(rate):說明某現象或某事物發(fā)生的頻率或強度。率=(實際發(fā)生數/可能發(fā)生總數)×比例基數比例基數:100%、1000‰、10000/萬、100000(1/10萬)等如:發(fā)病率、死亡率、發(fā)生率、陽性率、患病率等構成比(proportion):說明某一事物內部,各組成部分所占的比重,也叫百分比。構成比=(某部分觀察單位數/各組成部分觀察單位總數)×100%

如:教研室20人中高級職稱有5人,占25%。相對比(relativeratio):是A、B兩個有關指標之比,說明A是B的若干倍或百分之幾,通常用倍數或分數表示。如:男:女、醫(yī)生:護士、教師:學生第二十六頁,共121頁。年齡組⑴受檢人數⑵白內障例數⑶患者年齡構成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合計5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.36

1468448100.0030.52例:率與構成比第二十七頁,共121頁。(1)不能以構成比代替率。(2)計算相對數的分母不宜過小,小則直接敘述。(3)進行率的對比分析時,應注意資料可比性。如比較療效時,比較組間應病情輕重相同,性別影響,應按性別分組后再作比較。(4)正確求平均率。例:若P1=x1/n1

P2=x2/n2P3=x3/n3

P=(x1+x2+x3)/n1+n2+n3)(正確)

P=(P1+P2+P3)/3(錯誤)3、相對數應用注意事項第二十八頁,共121頁。計數資料和等級資料的SPSS表示第二十九頁,共121頁。五、統(tǒng)計表與統(tǒng)計圖

統(tǒng)計表(statisticaltable)——數據代替文字描述,便于統(tǒng)計結果的精確、簡潔的表達和對比分析.

統(tǒng)計圖(statisticalchart)——用圖形代替數據,獲得直觀、形象的效果.統(tǒng)計表統(tǒng)計圖定義:將統(tǒng)計分析的事物及指標用表格列出.特點:避免長篇文字敘述,便于閱讀和對比分析;數據具體.定義:用點的位置,線段的升降,直條的長短或面積的大小等形式表達統(tǒng)計資料.特點:直觀,醒目,常給人以深刻印象.第三十頁,共121頁。統(tǒng)計表由以下幾個部分組成:①標題、②標目、③線條、④數字、⑤備注表2-9某省某工廠1994、1998年四項檢測指標異常檢出率檢測指標1994年1998年受檢人數異常人數檢出率(%)受檢人數異常人數檢出率(%)

血壓心率

TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75

:TTT(麝香草酚濁度試驗),:GPT(谷丙轉氨酶)。

(丁建生等.中國衛(wèi)生統(tǒng)計1999;16(3):166)1、統(tǒng)計表的結構第三十一頁,共121頁。××.××┋┋

×.××××.××縱標目總標目(單位)××.××××××××合計┋┋┋┋┋┋┋┋

×.××

××

××┋××.××××××××橫標目縱標目縱標目縱標目總標目橫標目的總標目備注:表號標題(包括何時、何地、何事)2、三線表第三十二頁,共121頁。根據分組標目的復雜程度,統(tǒng)計表可大致分為簡單表和復合表。簡單表(simpletable):只按一個特征或標志分組。如表2-8。復合表(combinativetable):按兩個或兩個以上特征或標志結合起來分組。如表2-9。3、統(tǒng)計表的分類第三十三頁,共121頁。3、不良統(tǒng)計表的修改第三十四頁,共121頁。

統(tǒng)計圖(statisticalchart或statisticalgraph)是用點、線、面等幾何圖形,直觀形象地表達、描述數據或結果。

3、統(tǒng)計圖第三十五頁,共121頁。

SPSS繪制基本圖形第三十六頁,共121頁。SPSS繪制基本圖形第三十七頁,共121頁。條形圖(BarChart)

用途:用等寬直條的長短來表示相互獨立的各統(tǒng)計指標的數值大小,也叫直條圖.

分單式和復式兩種.第三十八頁,共121頁。單式條形圖復式條形圖第三十九頁,共121頁。圓圖(PieChart)用途:以圓的半徑將圓面分割成多個大小不等的扇形,以扇形面積來表達構成比的圖形。第四十頁,共121頁。線圖(LineChart)用途:適用于連續(xù)變量資料,說明某事物因時間、條件推移而變遷的趨勢。第四十一頁,共121頁。直方圖(Histogram)用途:直方圖是以面積表示數量,適用于表達連續(xù)性資料的頻數或頻率分布。第四十二頁,共121頁。第二部數據分析概述第四十三頁,共121頁。什么是數據分析請牢記:所有的分析要從“結果”出發(fā),沒有結論的數字羅列并不是分析;“結果”:發(fā)現問題和解決問題。第四十四頁,共121頁。數據分析不是一門復雜的科學;而是一些簡單的“commonsense”;復雜的運算通常只是令分析結果更差而不是更好;絕大多數是簡單的想法和簡單的溝通數據分析有時候是一門藝術同樣的數據會有不同的解讀優(yōu)秀和平庸的差異,有時候差在一種靈感第四十五頁,共121頁。數據分析目的讓數據說話;行動的向導;杜絕浪費;提供決策的依據。第四十六頁,共121頁。數據分析誤區(qū)誤區(qū)一:展示元素不宜大于3個第四十七頁,共121頁。數據分析誤區(qū)誤區(qū)二:時間序列數據最好使用折線圖,而不宜使用柱狀圖等第四十八頁,共121頁。誤區(qū)三:研究用數據最好不使用三維立體圖數據分析誤區(qū)第四十九頁,共121頁。誤區(qū)四:為避免圖表的欺騙性,圖線最好占據2/3

至3/4的高度(調整Y軸刻度)數據分析誤區(qū)第五十頁,共121頁。常用的數據分析方法1、抽樣法*2、聚類分析(ClusterAnalysis)*3、因子分析(FactorAnalysis)4、相關分析(CorrelationAnalysis)5、對應分析(CorrespondenceAnalysis)6、回歸分析(regressionanalysis)7、方差分析(ANOVA/AnalysisofVariance)8、時間序列分析*第五十一頁,共121頁。總體:總體、個體個體:總體又叫母體,是研究對象的全體。出版商一個批次到貨的全部都可以稱為總體。構成總體的基本單位,稱為個體。每冊書都是一個個體。來貨檢驗常用抽樣方法進行,即從來貨總件數中抽出一部分件數,并測試每件的有關冊數是否夠數的特性數據,進行統(tǒng)計分析后,對總體作出估計和判斷。第五十二頁,共121頁。一般地,設一個總體含有N個個體,從中逐個不放回地抽取n個個體作為樣本(n≤N),如果每次抽取使總體內的各個個體被抽到的機會都相等,就把這種抽樣方法叫做簡單隨機抽樣。抽樣方法主要包括:隨機抽樣、分層抽樣、整體抽樣、系統(tǒng)抽樣。第五十三頁,共121頁。樣本:樣本樣本又叫子樣,是從總體中抽出來一部分個體的集合。樣本中每個個體叫樣品,樣本中所包含樣品數目稱為樣本大小,又叫樣本量,常用n表示。對樣本的特性進行測定,所得的數據稱為樣本值。當樣本個數越多時,分析結果越接近總體的值,樣本對總體的代表性就越好。第五十四頁,共121頁。抽樣方法用的統(tǒng)計抽樣方法主要有以下三種隨機抽樣法分層抽樣法系統(tǒng)抽樣法書業(yè)公司第五十五頁,共121頁。抽樣方法隨機抽樣指總體中每一個個體都有同等可能的機會被抽到。這種抽樣方法事先不能考慮抽取哪一個樣品,完全用偶然方法抽樣,常用抽簽或利用隨機數表來抽取樣品以保證樣品代表性。抽樣當圖書品種不多時,隨機抽樣是一種有效的抽樣方法;第五十六頁,共121頁。抽樣方法分層抽樣分層抽樣是先將總體按照研究內容密切有關的主要因素分類或分層,然后在各層中按照隨機原則抽取樣本。分層抽樣可以減少層內差異,增加樣本的代表性。抽樣樣本當到貨產品較多時,分層抽樣是一種有效的抽樣方法;第五十七頁,共121頁。抽樣方法系統(tǒng)抽樣從總體中每隔K個個體抽取一個個體的抽樣方法,比值K是總體容量N與樣本容量n之比;當出版商批量發(fā)貨及產品特別多時,并且易作某種次序的整理時,系統(tǒng)抽樣比分層抽樣好;1,2,…….KK+1,K+2,……..,2K2K+1,2K+2,……..,3K

直到N為止例,從具有1000個個體的總體中抽取50個個體。第五十八頁,共121頁??傮w、樣本、數據間的關系總體樣本結論數據抽樣分析管理測試第五十九頁,共121頁。數理整理和統(tǒng)計抽樣的目的是通過樣本來反映總體。在書業(yè)公司經營管理中,常常將測試的樣本數據,通過整理加工,找出它們的特性,從而推斷總體的變化規(guī)律、趨勢和性質。一批數據的分布情況,可以用中心傾向及數據的分散程度來表示,表示中心傾向的有平均值、中位值等,表示數據分散程度的有方差、標準偏差、極差等。描述總體數據離散程度的參數為方差σ2

,描述總體數據中心傾向的數為均值μ

。若利用樣本參數近似描述總體狀況時,可以利用樣本方差S2近似代替總體方差σ2,利用樣本均值X近似代替總體均值p。第六十頁,共121頁。數理整理和統(tǒng)計樣本平均值樣本中位值X=——————————X1+X2+X3…….+Xnn中位值是按照數據大小順序排列位于中間的數值,中位值記為X~若n為偶數,則取位于中間兩個數值的平均值為中位值;第六十一頁,共121頁。數理整理和統(tǒng)計樣本極差樣本方差和樣本標準偏差樣本方差和樣本標準差就是用來度量數據波動幅度大小的一個重要特性值。樣本方差是一組數據中每一個數值與平均值之差的平方和的平均值,通常記為S2;樣本方差的平方根S稱作樣本標準偏差,它與樣本方差一樣,是反映一組數據分散程度的特性值:樣本極差表示一組數據分布的范圍,是指數據中最大值與最小值的差:R=Xmax-Xmin第六十二頁,共121頁。2、聚類分析聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。第六十三頁,共121頁。分類俗語說,物以類聚、人以群分。但什么是分類的根據呢?比如,要想把中國的縣分成若干類,就有很多種分類法;可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準、醫(yī)療條件、基礎設施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。第六十四頁,共121頁。聚類分析對于一個數據,人們既可以對變量(指標)進行分類(相當于對數據中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數據中的行分類)。比如學生成績數據就可以對學生按照理科或文科成績(或者綜合考慮各科成績)分類,當然,并不一定事先假定有多少類,完全可以按照數據本身的規(guī)律來分類。下面要介紹的分類的方法稱為聚類分析(clusteranalysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數學上是對稱的,沒有什么不同。第六十五頁,共121頁。飲料數據(drink.sav)16種飲料的熱量、咖啡因、鈉及價格四種變量第六十六頁,共121頁。如何度量遠近?如果想要對100個學生進行分類,如果僅僅知道他們的數學成績,則只好按照數學成績來分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數學和物理成績就形成二維平面上的100個點,也可以按照距離遠近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數據中,每種飲料都有四個變量值。這就是四維空間點的問題了。第六十七頁,共121頁。聚類分析1、系統(tǒng)聚類法------(分層聚類)系統(tǒng)聚類法是應用最廣泛的一種(HierarchicalCluster過程)

1)、聚類原則:都是相近的聚為一類,即距離最近或最相似的聚為一類。

2)、分層聚類的方法可以用于樣本聚類(Q)型,也可以用于變量聚類(R型)。2、非系統(tǒng)聚類法-----(快速聚類法----K-均值聚類法)(K-meansCluster)3、兩步聚類法-----一種探索性的聚類方法(TwoStepCluster)第六十八頁,共121頁。K-均值聚類分析K-meansCluster

又稱為快速樣本聚類法,是非系統(tǒng)聚類中最常用的聚類法。優(yōu)點:是占內存少、計算量小、處理速度快,特別適合大樣本的聚類分析。缺點:應用范圍有限,要求用戶制定分類數目(要告知),只能對觀測量(樣本)聚類,而不能對變量聚類,且所使用的聚類變量必須都是連續(xù)性變量。第六十九頁,共121頁。所有會員位置圖代碼和結果見Excel表第七十頁,共121頁。時間序列分析(timeseriesanalysis)方法,強調的是通過對一個區(qū)域進行一定時間段內的連續(xù)遙感觀測,提取圖像有關特征,并分析其變化過程與發(fā)展規(guī)模。當然,首先需要根據檢測對象的時相變化特點來確定遙感監(jiān)測的周期,從而選擇合適的遙感數據。時間序列分析(timeseriesanalysis)第七十一頁,共121頁。時間序列的基本概念一、時間序列1、含義:指被觀察到的依時間為序排列的數據序列。2、特點:(1)現實的、真實的一組數據,而不是數理統(tǒng)計中做實驗得到的。既然是真實的,它就是反映某一現象的統(tǒng)計指標,因而,時間序列背后是某一現象的變化規(guī)律。(2)動態(tài)數據。第七十二頁,共121頁。第七十三頁,共121頁。2010年11月17日--2011年4月8日上證綜指第七十四頁,共121頁。二、時間序列分析時間序列分析:是一種根據動態(tài)數據揭示系統(tǒng)動態(tài)結構和規(guī)律的統(tǒng)計方法。其基本思想:根據系統(tǒng)的有限長度的運行記錄(觀察數據),建立能夠比較精確地反映序列中所包含的動態(tài)依存關系的數學模型,并借以對系統(tǒng)的未來進行預報第七十五頁,共121頁。三、確定性時間序列分析與隨機性時間序列分析:時間序列依據其特征,有以下幾種表現形式,并產生與之相適應的分析方法:(1)長期趨勢變化受某種基本因素的影響,數據依時間變化時表現為一種確定傾向,它按某種規(guī)則穩(wěn)步地增長或下降。使用的分析方法有:移動平均法、指數平滑法、模型擬和法等;第七十六頁,共121頁。(2)季節(jié)性周期變化受季節(jié)更替等因素影響,序列依一固定周期規(guī)則性的變化,又稱商業(yè)循環(huán)。采用的方法:季節(jié)指數;(3)循環(huán)變化周期不固定的波動變化。第七十七頁,共121頁。(4)隨機性變化由許多不確定因素引起的序列變化。它所使用的分析方法就是我們要講的時間序列分析。趨勢變化分析確定性變化分析周期變化分析循環(huán)變化分析時間序列分析隨機性變化分析:AR、MA、ARMA模型

第七十八頁,共121頁。Wold分解定理(1938)對于任何一個離散平穩(wěn)過程它都可以分解為兩個不相關的平穩(wěn)序列之和,其中一個為確定性的,另一個為隨機性的,不妨記作其中:為確定性序列,為隨機序列,它們需要滿足如下條件(1)(2)

(3)第七十九頁,共121頁。確定性序列與隨機序列的定義對任意序列而言,令關于q期之前的序列值作線性回歸

其中為回歸殘差序列,。確定性序列,若隨機序列,若第八十頁,共121頁。Cramer分解定理(1961)任何一個時間序列都可以分解為兩部分的疊加:其中一部分是由多項式決定的確定性趨勢成分,另一部分是平穩(wěn)的零均值誤差成分,即確定性影響隨機性影響第八十一頁,共121頁。循環(huán)變動C(Cyclical)不規(guī)則變動I(Irregular)季節(jié)變動S(Seasonal)長期趨勢T(Trend)第八十二頁,共121頁。對兩個分解定理的理解Wold分解定理說明任何平穩(wěn)序列都可以分解為確定性序列和隨機序列之和。它是現代時間序列分析理論的靈魂,是構造ARMA模型擬合平穩(wěn)序列的理論基礎。Cramer分解定理是Wold分解定理的理論推廣,它說明任何一個序列的波動都可以視為同時受到了確定性影響和隨機性影響的綜合作用。平穩(wěn)序列要求這兩方面的影響都是穩(wěn)定的,而非平穩(wěn)序列產生的機理就在于它所受到的這兩方面的影響至少有一方面是不穩(wěn)定的。第八十三頁,共121頁。確定性時序分析的目的克服其它因素的影響,單純測度出某一個確定性因素對序列的影響推斷出各種確定性因素彼此之間的相互作用關系及它們對序列的綜合影響第八十四頁,共121頁。4-3-2時間序列趨勢分析目的有些時間序列具有非常顯著的趨勢,我們分析的目的就是要找到序列中的這種趨勢,并利用這種趨勢對序列的發(fā)展作出合理的預測

常用方法趨勢擬合法平滑法第八十五頁,共121頁。趨勢擬合法趨勢擬合法就是把時間作為自變量,相應的序列觀察值作為因變量,建立序列值隨時間變化的回歸模型的方法

分類線性擬合非線性擬合第八十六頁,共121頁。線性擬合使用場合長期趨勢呈現出線形特征模型結構第八十七頁,共121頁。例:擬合澳大利亞政府1981——1990年每季度的消費支出序列

第八十八頁,共121頁。線性擬合模型參數估計方法最小二乘估計參數估計值第八十九頁,共121頁。擬合效果圖第九十頁,共121頁。非線性擬合使用場合長期趨勢呈現出非線形特征

參數估計指導思想能轉換成線性模型的都轉換成線性模型,用線性最小二乘法進行參數估計實在不能轉換成線性的,就用迭代法進行參數估計

第九十一頁,共121頁。常用非線性模型模型變換變換后模型參數估計方法線性最小二乘估計線性最小二乘估計--迭代法--迭代法--迭代法第九十二頁,共121頁。例:對上海證券交易所每月末上證指數序列進行模型擬合

第九十三頁,共121頁。非線性擬合模型變換參數估計方法線性最小二乘估計擬合模型:第九十四頁,共121頁。擬合效果圖第九十五頁,共121頁。時間序列預測法時間序列預測法可用于短期預測、中期預測和長期預測。根據對資料分析方法的不同,又可分為:簡單序時平均數法、加權序時平均數法第九十六頁,共121頁。平滑法平滑法是進行趨勢分析和預測時常用的一種方法。它是利用修勻技術,削弱短期隨機波動對序列的影響,使序列平滑化,從而顯示出長期趨勢變化的規(guī)律第九十七頁,共121頁。簡單平均數法:也稱算術平均法。即把若干歷史時期的統(tǒng)計數值作為觀察值,求出算術平均數作為下期預測值。這種方法基于下列假設:“過去這樣,今后也將這樣”,把近期和遠期數據等同化和平均化,因此只能適用于事物變化不大的趨勢預測。如果事物呈現某種上升或下降的趨勢,就不宜采用此法。加權平均數法:就是把各個時期的歷史數據按近期和遠期影響程度進行加權,求出平均值,作為下期預測值。第九十八頁,共121頁。第九十九頁,共121頁。移動平均法基本思想假定在一個比較短的時間間隔里,序列值之間的差異主要是由隨機波動造成的。根據這種假定,我們可以用一定時間間隔內的平均值作為某一期的估計值

分類n期中心移動平均n期移動平均第一百頁,共121頁。移動平均期數確定的原則事件的發(fā)展有無周期性以周期長度作為移動平均的間隔長度,以消除周期效應的影響對趨勢平滑的要求移動平均的期數越多,擬合趨勢越平滑對趨勢反映近期變化敏感程度的要求

移動平均的期數越少,擬合趨勢越敏感第一百零一頁,共121頁。移動平均預測第一百零二頁,共121頁。時間序列模型的基本概念及其適用性第一百零三頁,共121頁。時間序列模型的基本概念

隨機時間序列模型(nimeseriesmodeling)是指僅用它的過去值及隨機擾動項所建立起來的模型,其一般形式為

Yn=F(Yn-1,Yn-2,…,n)

建立具體的時間序列模型,需解決如下三個問題:

(1)模型的具體形式(2)時序變量的滯后期(3)隨機擾動項的結構

第一百零四頁,共121頁。例如,取線性方程、一期滯后以及白噪聲隨機擾動項(n=n),模型將是一個1階自回歸過程AR(1):Yn=aYn-1+n這里,n特指一白噪聲。

一般的p階自回歸過程AR(p)是Yn=a1Yn-1+a2Yn-2+…+apYn-p+n(*)第一百零五頁,共121頁。(1)如果隨機擾動項是一個白噪聲(n=n),則稱(1)式為一純AR(p)過程(pureAR(p)process),記為Yn=a1Yn-1+a2Yn-2+…+apYn-p+n(2)如果n不是一個白噪聲,通常認為它是一個q階的移動平均(movingaverage)過程MA(q):

n=n-c1n-1-c2n-2--cqn-q該式給出了一個純MA(q)過程(pureMA(p)process)。

一般的p階自回歸過程AR(p)是Yn=a1Yn-1+a2Yn-2+…+apYn-p+n

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論