




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據統(tǒng)計與分析方法目前一頁\總數(shù)一百二十二頁\編于十四點1、數(shù)據統(tǒng)計的一般方法;2、數(shù)據分析的一般方法;3、了解數(shù)據統(tǒng)計和分析在實際案例中的應用;4、了解時間序列分析及相關軟件應用;培訓主要內容:目前二頁\總數(shù)一百二十二頁\編于十四點瞎子王國里,有一只眼精的人就是國王!目前三頁\總數(shù)一百二十二頁\編于十四點心電圖的由來1780年有一天,43歲的意大利解剖學家伽伐尼GalvaniLuigi,1737-1798),在實驗室解剖青蛙,在用銀質手術刀觸碰放在鐵盤上的青蛙的時候,無意間發(fā)現(xiàn)青蛙腿部肌肉抽搐了一下,仿佛受到電流的刺激.如果換用一種金屬器械去觸動青蛙,就無此種反應。1832年,一個晴朗的日子,還是意大利,還是青蛙,只是做實驗的人換成了馬泰烏奇。這一次,馬泰烏奇探測到損傷和未損傷的肌肉之間存在一種電流,他稱之為“肌肉電流”。他發(fā)現(xiàn),包括心臟在內,一切正在收縮的肌肉都會產生肌肉電流。醫(yī)學研究者通過大量的臨床數(shù)據發(fā)現(xiàn)正常和非正常的心電圖目前四頁\總數(shù)一百二十二頁\編于十四點1、什么是數(shù)據?
數(shù)據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態(tài)以及相互關系等進行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號。數(shù)據表現(xiàn)形式目前五頁\總數(shù)一百二十二頁\編于十四點表現(xiàn)形式一數(shù)據列表目前六頁\總數(shù)一百二十二頁\編于十四點數(shù)據表現(xiàn)形式二描述性分析:數(shù)據分時段走勢、差距變化情況以及 相應的時間背景銷售碼洋趨勢圖目前七頁\總數(shù)一百二十二頁\編于十四點數(shù)據表現(xiàn)形式三銷售碼洋結構比圖形可以幫助我們將數(shù)據轉換成信息目前八頁\總數(shù)一百二十二頁\編于十四點數(shù)據類型的分類1、計量資料(measurementdata)用儀器、工具等測量方法獲得的數(shù)據,又稱數(shù)值變量。特點:有計量單位,如患者的身高(cm),體重(kg),血壓(kPa)等.2、計數(shù)資料(countdata)按某種屬性分類計數(shù)后得到的數(shù)據,又稱無序分類變量,有二分類和多分類兩種情形.特點:無計量單位,如膚色(黑白)、血型(ABO)、職業(yè)(工農兵)、性別(1=男,2=女)等.3、等級資料(ordinaldata)半定性或半定量的觀察結果,有大小順序,又稱有序分類變量.如①癌癥分期:早、中、晚。
②藥物療效:治愈、好轉、無效、死亡。
③尿蛋白:,,,++,+++及以上目前九頁\總數(shù)一百二十二頁\編于十四點住院號年齡身高體重住院天數(shù)職業(yè)文化程度分娩方式妊娠結局20256552716571.55無中學順產足月20256532216074.05無小學助產足月20258302515868.06管理員大學順產足月20225432316169.05無中學剖宮產足月20224662515962.011商業(yè)中學剖宮產足月20245352715768.02無小學順產早產20258342015866.04無中學助產早產20194642415870.53無中學助產足月20257832915457.07干部中學剖宮產足月實例數(shù)據計量資料計數(shù)資料目前十頁\總數(shù)一百二十二頁\編于十四點三類資料間關系
例:一組2040歲成年人的血壓以12kPa為界分為正常與異常兩組,統(tǒng)計每組例數(shù)
<8低血壓
8
正常血壓
12
輕度高血壓
15
中度高血壓
17
重度高血壓計量資料等級資料計數(shù)資料目前十一頁\總數(shù)一百二十二頁\編于十四點第一部數(shù)據統(tǒng)計概述目前十二頁\總數(shù)一百二十二頁\編于十四點什么是統(tǒng)計方法統(tǒng)計方法是指有關收集、整理、分析和解釋統(tǒng)計數(shù)據,并對其所反映的問題作出一定結論的方法。統(tǒng)計方法是一種從微觀結構上來研究物質的宏觀性質及其規(guī)律的獨特的方法。目前十三頁\總數(shù)一百二十二頁\編于十四點一般統(tǒng)計方法根據數(shù)據的類型可以分為以下三種統(tǒng)計方法1、計量資料的統(tǒng)計方法**2、計數(shù)資料的統(tǒng)計方法3、等級資料的統(tǒng)計方法目前十四頁\總數(shù)一百二十二頁\編于十四點運用統(tǒng)計方法應遵循的原則堅持用數(shù)據說話的基本觀點。有目的地收集數(shù)據。掌握數(shù)據的來源。認真整理數(shù)據。目前十五頁\總數(shù)一百二十二頁\編于十四點統(tǒng)計分析流程確定問題確定分析目標采用科學方法收集數(shù)據考察數(shù)據時效性整理數(shù)據統(tǒng)計分析出具分析報告,提出解決意或建議目前十六頁\總數(shù)一百二十二頁\編于十四點計量資料的統(tǒng)計描述1、頻數(shù)分布(frequencydistribution)為了了解數(shù)據的分布情況,可以編制頻數(shù)表(frequencytable).(1)求極差(range):即最大值與最小值之差,又稱為全距。(2)數(shù)據分組:由樣本容量n確定組數(shù)、通常分10-15個組;一般采取等距分組,組距=極差/組數(shù)。(3)列出組段:第一組段的下限略小于最小值,最后一個組段上限必須包含最大值,其它組段上限值忽略。(4)劃記計數(shù):用劃記法將所有數(shù)據歸納到各組段,得到各組段的頻數(shù)。頻數(shù)表的編制步驟目前十七頁\總數(shù)一百二十二頁\編于十四點編號血清甘油三脂編號血清甘油三脂10.51……20.521531.6530.591541.6640.611551.6750.611561.6760.621571.6970.631581.780.641591.71……1601.77
表2-1:160名正常成年女子的血清甘油三酯(mmol/L)
目前十八頁\總數(shù)一百二十二頁\編于十四點組段(1)劃記(2)頻數(shù),f(3)組中值,X(4)
fX(5)=(3)×(4)0.5~
30.551.650.6~正90.655.850.7~正正120.759.000.8~正正130.8511.050.9~正正正170.9516.151.0~正正正181.0518.901.1~正正正正201.1523.001.2~正正正181.2522.501.3~正正正171.3522.951.4~正正131.4518.851.5~正91.5512.401.6~正81.6514.851.7~1.8
合計
31.755.25160182.30編制頻數(shù)表,繪制頻數(shù)分布圖目前十九頁\總數(shù)一百二十二頁\編于十四點對稱分布:以頻數(shù)最多組段為中心左右大體對稱.右(正)偏態(tài)分布:頻數(shù)最多組段右側組段數(shù)多.(skewedtotherightdistribution)左(負)偏態(tài)分布:頻數(shù)最多組段左側組段數(shù)多.(skewedtotherightdistribution)目前二十頁\總數(shù)一百二十二頁\編于十四點2、集中趨勢的描述統(tǒng)計上使用平均數(shù)(average)來反映計量資料的集中趨勢(centraltendency).常用平均數(shù)有:
1.算術均數(shù)(arithmeticmean),簡稱均數(shù)(mean)
2.幾何均數(shù)(geometricmean)
3.中位數(shù)(median)
4.百分位數(shù)(percentile)目前二十一頁\總數(shù)一百二十二頁\編于十四點3、離散趨勢的描述反映數(shù)據的離散度(Dispersion),即個體觀察值的變異(variation)程度,常用的統(tǒng)計指標有:
1.極差(Range)
(全距)
2.四分位數(shù)間距(Quartilerange)
3.方差(Variance)
4.標準差(StandardDeviation)
5.變異系數(shù)(CoefficientofVariation)四分位間距:QR=P75-P25目前二十二頁\總數(shù)一百二十二頁\編于十四點三、SPSS實現(xiàn)計量資料的統(tǒng)計描述下面是SPSS軟件中繪制頻數(shù)圖的步驟目前二十三頁\總數(shù)一百二十二頁\編于十四點目前二十四頁\總數(shù)一百二十二頁\編于十四點四、計數(shù)資料的統(tǒng)計描述住院號年齡職業(yè)文化程度分娩方式妊娠結局202565527無中學順產足月202565322無小學助產足月202583025管理人員大學順產足月202567724知識分子中學順產早產202564730管理人員大學順產足月202584832無小學剖宮產足月201991527無中學順產死產202586129無大學剖宮產足月202460125農民中學順產足月200038626無小學順產足月1、計數(shù)資料數(shù)據的整理目前二十五頁\總數(shù)一百二十二頁\編于十四點按年齡(2歲一組)與職業(yè)整理年齡工人管理人員農民商業(yè)服務無知識分子總計18
2
0
0
0
3
0
520
9
2
610
18
0
452228
71024
70111502450342852153443612650432545133703662834351034
78572483011141122
39171143214
2
314
24
3
6034
4
2
5
3
12
2
2836
2
1
1
4
5
1
1438
3
1
1
0
2
1
840
0
0
2
0
0
0
2合計
207
1411022085372061401目前二十六頁\總數(shù)一百二十二頁\編于十四點2、常用相對數(shù)指標計數(shù)資料常用的數(shù)據形式是絕對數(shù),如某病的出院人數(shù),治愈人數(shù)等.但絕對數(shù)不具可比性,需要計算相對數(shù).率(rate):說明某現(xiàn)象或某事物發(fā)生的頻率或強度。率=(實際發(fā)生數(shù)/可能發(fā)生總數(shù))×比例基數(shù)比例基數(shù):100%、1000‰、10000/萬、100000(1/10萬)等如:發(fā)病率、死亡率、發(fā)生率、陽性率、患病率等構成比(proportion):說明某一事物內部,各組成部分所占的比重,也叫百分比。構成比=(某部分觀察單位數(shù)/各組成部分觀察單位總數(shù))×100%
如:教研室20人中高級職稱有5人,占25%。相對比(relativeratio):是A、B兩個有關指標之比,說明A是B的若干倍或百分之幾,通常用倍數(shù)或分數(shù)表示。如:男:女、醫(yī)生:護士、教師:學生目前二十七頁\總數(shù)一百二十二頁\編于十四點年齡組⑴受檢人數(shù)⑵白內障例數(shù)⑶患者年齡構成比(%)⑷患病率(%)⑸=(3)/(2)40~50~60~70~≥80合計5604412961492268129135971915.1828.7930.1321.654.2412.1429.2545.6165.1086.36
1468448100.0030.52例:率與構成比目前二十八頁\總數(shù)一百二十二頁\編于十四點(1)不能以構成比代替率。(2)計算相對數(shù)的分母不宜過小,小則直接敘述。(3)進行率的對比分析時,應注意資料可比性。如比較療效時,比較組間應病情輕重相同,性別影響,應按性別分組后再作比較。(4)正確求平均率。例:若P1=x1/n1
P2=x2/n2P3=x3/n3
P=(x1+x2+x3)/n1+n2+n3)(正確)
P=(P1+P2+P3)/3(錯誤)3、相對數(shù)應用注意事項目前二十九頁\總數(shù)一百二十二頁\編于十四點計數(shù)資料和等級資料的SPSS表示目前三十頁\總數(shù)一百二十二頁\編于十四點五、統(tǒng)計表與統(tǒng)計圖
統(tǒng)計表(statisticaltable)——數(shù)據代替文字描述,便于統(tǒng)計結果的精確、簡潔的表達和對比分析.
統(tǒng)計圖(statisticalchart)——用圖形代替數(shù)據,獲得直觀、形象的效果.統(tǒng)計表統(tǒng)計圖定義:將統(tǒng)計分析的事物及指標用表格列出.特點:避免長篇文字敘述,便于閱讀和對比分析;數(shù)據具體.定義:用點的位置,線段的升降,直條的長短或面積的大小等形式表達統(tǒng)計資料.特點:直觀,醒目,常給人以深刻印象.目前三十一頁\總數(shù)一百二十二頁\編于十四點統(tǒng)計表由以下幾個部分組成:①標題、②標目、③線條、④數(shù)字、⑤備注表2-9某省某工廠1994、1998年四項檢測指標異常檢出率檢測指標1994年1998年受檢人數(shù)異常人數(shù)檢出率(%)受檢人數(shù)異常人數(shù)檢出率(%)
血壓心率
TTTGPT5195195195195544362010.160.486.943.85582582582582383923166.526.703.952.75
:TTT(麝香草酚濁度試驗),:GPT(谷丙轉氨酶)。
(丁建生等.中國衛(wèi)生統(tǒng)計1999;16(3):166)1、統(tǒng)計表的結構目前三十二頁\總數(shù)一百二十二頁\編于十四點××.××┋┋
×.××××.××縱標目總標目(單位)××.××××××××合計┋┋┋┋┋┋┋┋
×.××
××
××┋××.××××××××橫標目縱標目縱標目縱標目總標目橫標目的總標目備注:表號標題(包括何時、何地、何事)2、三線表目前三十三頁\總數(shù)一百二十二頁\編于十四點根據分組標目的復雜程度,統(tǒng)計表可大致分為簡單表和復合表。簡單表(simpletable):只按一個特征或標志分組。如表2-8。復合表(combinativetable):按兩個或兩個以上特征或標志結合起來分組。如表2-9。3、統(tǒng)計表的分類目前三十四頁\總數(shù)一百二十二頁\編于十四點3、不良統(tǒng)計表的修改目前三十五頁\總數(shù)一百二十二頁\編于十四點
統(tǒng)計圖(statisticalchart或statisticalgraph)是用點、線、面等幾何圖形,直觀形象地表達、描述數(shù)據或結果。
3、統(tǒng)計圖目前三十六頁\總數(shù)一百二十二頁\編于十四點
SPSS繪制基本圖形目前三十七頁\總數(shù)一百二十二頁\編于十四點SPSS繪制基本圖形目前三十八頁\總數(shù)一百二十二頁\編于十四點條形圖(BarChart)
用途:用等寬直條的長短來表示相互獨立的各統(tǒng)計指標的數(shù)值大小,也叫直條圖.
分單式和復式兩種.目前三十九頁\總數(shù)一百二十二頁\編于十四點單式條形圖復式條形圖目前四十頁\總數(shù)一百二十二頁\編于十四點圓圖(PieChart)用途:以圓的半徑將圓面分割成多個大小不等的扇形,以扇形面積來表達構成比的圖形。目前四十一頁\總數(shù)一百二十二頁\編于十四點線圖(LineChart)用途:適用于連續(xù)變量資料,說明某事物因時間、條件推移而變遷的趨勢。目前四十二頁\總數(shù)一百二十二頁\編于十四點直方圖(Histogram)用途:直方圖是以面積表示數(shù)量,適用于表達連續(xù)性資料的頻數(shù)或頻率分布。目前四十三頁\總數(shù)一百二十二頁\編于十四點第二部數(shù)據分析概述目前四十四頁\總數(shù)一百二十二頁\編于十四點什么是數(shù)據分析請牢記:所有的分析要從“結果”出發(fā),沒有結論的數(shù)字羅列并不是分析;“結果”:發(fā)現(xiàn)問題和解決問題。目前四十五頁\總數(shù)一百二十二頁\編于十四點數(shù)據分析不是一門復雜的科學;而是一些簡單的“commonsense”;復雜的運算通常只是令分析結果更差而不是更好;絕大多數(shù)是簡單的想法和簡單的溝通數(shù)據分析有時候是一門藝術同樣的數(shù)據會有不同的解讀優(yōu)秀和平庸的差異,有時候差在一種靈感目前四十六頁\總數(shù)一百二十二頁\編于十四點數(shù)據分析目的讓數(shù)據說話;行動的向導;杜絕浪費;提供決策的依據。目前四十七頁\總數(shù)一百二十二頁\編于十四點數(shù)據分析誤區(qū)誤區(qū)一:展示元素不宜大于3個目前四十八頁\總數(shù)一百二十二頁\編于十四點數(shù)據分析誤區(qū)誤區(qū)二:時間序列數(shù)據最好使用折線圖,而不宜使用柱狀圖等目前四十九頁\總數(shù)一百二十二頁\編于十四點誤區(qū)三:研究用數(shù)據最好不使用三維立體圖數(shù)據分析誤區(qū)目前五十頁\總數(shù)一百二十二頁\編于十四點誤區(qū)四:為避免圖表的欺騙性,圖線最好占據2/3
至3/4的高度(調整Y軸刻度)數(shù)據分析誤區(qū)目前五十一頁\總數(shù)一百二十二頁\編于十四點常用的數(shù)據分析方法1、抽樣法*2、聚類分析(ClusterAnalysis)*3、因子分析(FactorAnalysis)4、相關分析(CorrelationAnalysis)5、對應分析(CorrespondenceAnalysis)6、回歸分析(regressionanalysis)7、方差分析(ANOVA/AnalysisofVariance)8、時間序列分析*目前五十二頁\總數(shù)一百二十二頁\編于十四點總體:總體、個體個體:總體又叫母體,是研究對象的全體。出版商一個批次到貨的全部都可以稱為總體。構成總體的基本單位,稱為個體。每冊書都是一個個體。來貨檢驗常用抽樣方法進行,即從來貨總件數(shù)中抽出一部分件數(shù),并測試每件的有關冊數(shù)是否夠數(shù)的特性數(shù)據,進行統(tǒng)計分析后,對總體作出估計和判斷。目前五十三頁\總數(shù)一百二十二頁\編于十四點一般地,設一個總體含有N個個體,從中逐個不放回地抽取n個個體作為樣本(n≤N),如果每次抽取使總體內的各個個體被抽到的機會都相等,就把這種抽樣方法叫做簡單隨機抽樣。抽樣方法主要包括:隨機抽樣、分層抽樣、整體抽樣、系統(tǒng)抽樣。目前五十四頁\總數(shù)一百二十二頁\編于十四點樣本:樣本樣本又叫子樣,是從總體中抽出來一部分個體的集合。樣本中每個個體叫樣品,樣本中所包含樣品數(shù)目稱為樣本大小,又叫樣本量,常用n表示。對樣本的特性進行測定,所得的數(shù)據稱為樣本值。當樣本個數(shù)越多時,分析結果越接近總體的值,樣本對總體的代表性就越好。目前五十五頁\總數(shù)一百二十二頁\編于十四點抽樣方法用的統(tǒng)計抽樣方法主要有以下三種隨機抽樣法分層抽樣法系統(tǒng)抽樣法書業(yè)公司目前五十六頁\總數(shù)一百二十二頁\編于十四點抽樣方法隨機抽樣指總體中每一個個體都有同等可能的機會被抽到。這種抽樣方法事先不能考慮抽取哪一個樣品,完全用偶然方法抽樣,常用抽簽或利用隨機數(shù)表來抽取樣品以保證樣品代表性。抽樣當圖書品種不多時,隨機抽樣是一種有效的抽樣方法;目前五十七頁\總數(shù)一百二十二頁\編于十四點抽樣方法分層抽樣分層抽樣是先將總體按照研究內容密切有關的主要因素分類或分層,然后在各層中按照隨機原則抽取樣本。分層抽樣可以減少層內差異,增加樣本的代表性。抽樣樣本當?shù)截洰a品較多時,分層抽樣是一種有效的抽樣方法;目前五十八頁\總數(shù)一百二十二頁\編于十四點抽樣方法系統(tǒng)抽樣從總體中每隔K個個體抽取一個個體的抽樣方法,比值K是總體容量N與樣本容量n之比;當出版商批量發(fā)貨及產品特別多時,并且易作某種次序的整理時,系統(tǒng)抽樣比分層抽樣好;1,2,…….KK+1,K+2,……..,2K2K+1,2K+2,……..,3K
直到N為止例,從具有1000個個體的總體中抽取50個個體。目前五十九頁\總數(shù)一百二十二頁\編于十四點總體、樣本、數(shù)據間的關系總體樣本結論數(shù)據抽樣分析管理測試目前六十頁\總數(shù)一百二十二頁\編于十四點數(shù)理整理和統(tǒng)計抽樣的目的是通過樣本來反映總體。在書業(yè)公司經營管理中,常常將測試的樣本數(shù)據,通過整理加工,找出它們的特性,從而推斷總體的變化規(guī)律、趨勢和性質。一批數(shù)據的分布情況,可以用中心傾向及數(shù)據的分散程度來表示,表示中心傾向的有平均值、中位值等,表示數(shù)據分散程度的有方差、標準偏差、極差等。描述總體數(shù)據離散程度的參數(shù)為方差σ2
,描述總體數(shù)據中心傾向的數(shù)為均值μ
。若利用樣本參數(shù)近似描述總體狀況時,可以利用樣本方差S2近似代替總體方差σ2,利用樣本均值X近似代替總體均值p。目前六十一頁\總數(shù)一百二十二頁\編于十四點數(shù)理整理和統(tǒng)計樣本平均值樣本中位值X=——————————X1+X2+X3…….+Xnn中位值是按照數(shù)據大小順序排列位于中間的數(shù)值,中位值記為X~若n為偶數(shù),則取位于中間兩個數(shù)值的平均值為中位值;目前六十二頁\總數(shù)一百二十二頁\編于十四點數(shù)理整理和統(tǒng)計樣本極差樣本方差和樣本標準偏差樣本方差和樣本標準差就是用來度量數(shù)據波動幅度大小的一個重要特性值。樣本方差是一組數(shù)據中每一個數(shù)值與平均值之差的平方和的平均值,通常記為S2;樣本方差的平方根S稱作樣本標準偏差,它與樣本方差一樣,是反映一組數(shù)據分散程度的特性值:樣本極差表示一組數(shù)據分布的范圍,是指數(shù)據中最大值與最小值的差:R=Xmax-Xmin目前六十三頁\總數(shù)一百二十二頁\編于十四點2、聚類分析聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數(shù)據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數(shù)據進行聚類分析,所得到的聚類數(shù)未必一致。目前六十四頁\總數(shù)一百二十二頁\編于十四點分類俗語說,物以類聚、人以群分。但什么是分類的根據呢?比如,要想把中國的縣分成若干類,就有很多種分類法;可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準、醫(yī)療條件、基礎設施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。目前六十五頁\總數(shù)一百二十二頁\編于十四點聚類分析對于一個數(shù)據,人們既可以對變量(指標)進行分類(相當于對數(shù)據中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數(shù)據中的行分類)。比如學生成績數(shù)據就可以對學生按照理科或文科成績(或者綜合考慮各科成績)分類,當然,并不一定事先假定有多少類,完全可以按照數(shù)據本身的規(guī)律來分類。下面要介紹的分類的方法稱為聚類分析(clusteranalysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學上是對稱的,沒有什么不同。目前六十六頁\總數(shù)一百二十二頁\編于十四點飲料數(shù)據(drink.sav)16種飲料的熱量、咖啡因、鈉及價格四種變量目前六十七頁\總數(shù)一百二十二頁\編于十四點如何度量遠近?如果想要對100個學生進行分類,如果僅僅知道他們的數(shù)學成績,則只好按照數(shù)學成績來分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數(shù)學和物理成績就形成二維平面上的100個點,也可以按照距離遠近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據中,每種飲料都有四個變量值。這就是四維空間點的問題了。目前六十八頁\總數(shù)一百二十二頁\編于十四點聚類分析1、系統(tǒng)聚類法------(分層聚類)系統(tǒng)聚類法是應用最廣泛的一種(HierarchicalCluster過程)
1)、聚類原則:都是相近的聚為一類,即距離最近或最相似的聚為一類。
2)、分層聚類的方法可以用于樣本聚類(Q)型,也可以用于變量聚類(R型)。2、非系統(tǒng)聚類法-----(快速聚類法----K-均值聚類法)(K-meansCluster)3、兩步聚類法-----一種探索性的聚類方法(TwoStepCluster)目前六十九頁\總數(shù)一百二十二頁\編于十四點K-均值聚類分析K-meansCluster
又稱為快速樣本聚類法,是非系統(tǒng)聚類中最常用的聚類法。優(yōu)點:是占內存少、計算量小、處理速度快,特別適合大樣本的聚類分析。缺點:應用范圍有限,要求用戶制定分類數(shù)目(要告知),只能對觀測量(樣本)聚類,而不能對變量聚類,且所使用的聚類變量必須都是連續(xù)性變量。目前七十頁\總數(shù)一百二十二頁\編于十四點所有會員位置圖代碼和結果見Excel表目前七十一頁\總數(shù)一百二十二頁\編于十四點時間序列分析(timeseriesanalysis)方法,強調的是通過對一個區(qū)域進行一定時間段內的連續(xù)遙感觀測,提取圖像有關特征,并分析其變化過程與發(fā)展規(guī)模。當然,首先需要根據檢測對象的時相變化特點來確定遙感監(jiān)測的周期,從而選擇合適的遙感數(shù)據。時間序列分析(timeseriesanalysis)目前七十二頁\總數(shù)一百二十二頁\編于十四點時間序列的基本概念一、時間序列1、含義:指被觀察到的依時間為序排列的數(shù)據序列。2、特點:(1)現(xiàn)實的、真實的一組數(shù)據,而不是數(shù)理統(tǒng)計中做實驗得到的。既然是真實的,它就是反映某一現(xiàn)象的統(tǒng)計指標,因而,時間序列背后是某一現(xiàn)象的變化規(guī)律。(2)動態(tài)數(shù)據。目前七十三頁\總數(shù)一百二十二頁\編于十四點目前七十四頁\總數(shù)一百二十二頁\編于十四點2010年11月17日--2011年4月8日上證綜指目前七十五頁\總數(shù)一百二十二頁\編于十四點二、時間序列分析時間序列分析:是一種根據動態(tài)數(shù)據揭示系統(tǒng)動態(tài)結構和規(guī)律的統(tǒng)計方法。其基本思想:根據系統(tǒng)的有限長度的運行記錄(觀察數(shù)據),建立能夠比較精確地反映序列中所包含的動態(tài)依存關系的數(shù)學模型,并借以對系統(tǒng)的未來進行預報目前七十六頁\總數(shù)一百二十二頁\編于十四點三、確定性時間序列分析與隨機性時間序列分析:時間序列依據其特征,有以下幾種表現(xiàn)形式,并產生與之相適應的分析方法:(1)長期趨勢變化受某種基本因素的影響,數(shù)據依時間變化時表現(xiàn)為一種確定傾向,它按某種規(guī)則穩(wěn)步地增長或下降。使用的分析方法有:移動平均法、指數(shù)平滑法、模型擬和法等;目前七十七頁\總數(shù)一百二十二頁\編于十四點(2)季節(jié)性周期變化受季節(jié)更替等因素影響,序列依一固定周期規(guī)則性的變化,又稱商業(yè)循環(huán)。采用的方法:季節(jié)指數(shù);(3)循環(huán)變化周期不固定的波動變化。目前七十八頁\總數(shù)一百二十二頁\編于十四點(4)隨機性變化由許多不確定因素引起的序列變化。它所使用的分析方法就是我們要講的時間序列分析。趨勢變化分析確定性變化分析周期變化分析循環(huán)變化分析時間序列分析隨機性變化分析:AR、MA、ARMA模型
目前七十九頁\總數(shù)一百二十二頁\編于十四點Wold分解定理(1938)對于任何一個離散平穩(wěn)過程它都可以分解為兩個不相關的平穩(wěn)序列之和,其中一個為確定性的,另一個為隨機性的,不妨記作其中:為確定性序列,為隨機序列,它們需要滿足如下條件(1)(2)
(3)目前八十頁\總數(shù)一百二十二頁\編于十四點確定性序列與隨機序列的定義對任意序列而言,令關于q期之前的序列值作線性回歸
其中為回歸殘差序列,。確定性序列,若隨機序列,若目前八十一頁\總數(shù)一百二十二頁\編于十四點Cramer分解定理(1961)任何一個時間序列都可以分解為兩部分的疊加:其中一部分是由多項式決定的確定性趨勢成分,另一部分是平穩(wěn)的零均值誤差成分,即確定性影響隨機性影響目前八十二頁\總數(shù)一百二十二頁\編于十四點循環(huán)變動C(Cyclical)不規(guī)則變動I(Irregular)季節(jié)變動S(Seasonal)長期趨勢T(Trend)目前八十三頁\總數(shù)一百二十二頁\編于十四點對兩個分解定理的理解Wold分解定理說明任何平穩(wěn)序列都可以分解為確定性序列和隨機序列之和。它是現(xiàn)代時間序列分析理論的靈魂,是構造ARMA模型擬合平穩(wěn)序列的理論基礎。Cramer分解定理是Wold分解定理的理論推廣,它說明任何一個序列的波動都可以視為同時受到了確定性影響和隨機性影響的綜合作用。平穩(wěn)序列要求這兩方面的影響都是穩(wěn)定的,而非平穩(wěn)序列產生的機理就在于它所受到的這兩方面的影響至少有一方面是不穩(wěn)定的。目前八十四頁\總數(shù)一百二十二頁\編于十四點確定性時序分析的目的克服其它因素的影響,單純測度出某一個確定性因素對序列的影響推斷出各種確定性因素彼此之間的相互作用關系及它們對序列的綜合影響目前八十五頁\總數(shù)一百二十二頁\編于十四點4-3-2時間序列趨勢分析目的有些時間序列具有非常顯著的趨勢,我們分析的目的就是要找到序列中的這種趨勢,并利用這種趨勢對序列的發(fā)展作出合理的預測
常用方法趨勢擬合法平滑法目前八十六頁\總數(shù)一百二十二頁\編于十四點趨勢擬合法趨勢擬合法就是把時間作為自變量,相應的序列觀察值作為因變量,建立序列值隨時間變化的回歸模型的方法
分類線性擬合非線性擬合目前八十七頁\總數(shù)一百二十二頁\編于十四點線性擬合使用場合長期趨勢呈現(xiàn)出線形特征模型結構目前八十八頁\總數(shù)一百二十二頁\編于十四點例:擬合澳大利亞政府1981——1990年每季度的消費支出序列
目前八十九頁\總數(shù)一百二十二頁\編于十四點線性擬合模型參數(shù)估計方法最小二乘估計參數(shù)估計值目前九十頁\總數(shù)一百二十二頁\編于十四點擬合效果圖目前九十一頁\總數(shù)一百二十二頁\編于十四點非線性擬合使用場合長期趨勢呈現(xiàn)出非線形特征
參數(shù)估計指導思想能轉換成線性模型的都轉換成線性模型,用線性最小二乘法進行參數(shù)估計實在不能轉換成線性的,就用迭代法進行參數(shù)估計
目前九十二頁\總數(shù)一百二十二頁\編于十四點常用非線性模型模型變換變換后模型參數(shù)估計方法線性最小二乘估計線性最小二乘估計--迭代法--迭代法--迭代法目前九十三頁\總數(shù)一百二十二頁\編于十四點例:對上海證券交易所每月末上證指數(shù)序列進行模型擬合
目前九十四頁\總數(shù)一百二十二頁\編于十四點非線性擬合模型變換參數(shù)估計方法線性最小二乘估計擬合模型:目前九十五頁\總數(shù)一百二十二頁\編于十四點擬合效果圖目前九十六頁\總數(shù)一百二十二頁\編于十四點時間序列預測法時間序列預測法可用于短期預測、中期預測和長期預測。根據對資料分析方法的不同,又可分為:簡單序時平均數(shù)法、加權序時平均數(shù)法目前九十七頁\總數(shù)一百二十二頁\編于十四點平滑法平滑法是進行趨勢分析和預測時常用的一種方法。它是利用修勻技術,削弱短期隨機波動對序列的影響,使序列平滑化,從而顯示出長期趨勢變化的規(guī)律目前九十八頁\總數(shù)一百二十二頁\編于十四點簡單平均數(shù)法:也稱算術平均法。即把若干歷史時期的統(tǒng)計數(shù)值作為觀察值,求出算術平均數(shù)作為下期預測值。這種方法基于下列假設:“過去這樣,今后也將這樣”,把近期和遠期數(shù)據等同化和平均化,因此只能適用于事物變化不大的趨勢預測。如果事物呈現(xiàn)某種上升或下降的趨勢,就不宜采用此法。加權平均數(shù)法:就是把各個時期的歷史數(shù)據按近期和遠期影響程度進行加權,求出平均值,作為下期預測值。目前九十九頁\總數(shù)一百二十二頁\編于十四點目前一百頁\總數(shù)一百二十二頁\編于十四點移動平均法基本思想假定在一個比較短的時間間隔里,序列值之間的差異主要是由隨機波動造成的。根據這種假定,我們可以用一定時間間隔內的平均值作為某一期的估計值
分類n期中心移動平均n期移動平均目前一百零一頁\總數(shù)一百二十二頁\編于十四點移動平均期數(shù)確定的原則事件的發(fā)展有無周期性以周期長度作為移動平均的間隔長度,以消除周期效應的影響對趨勢平滑的要求移動平均的期數(shù)越多,擬合趨勢越平滑對趨勢反映近期變化敏感程度的要求
移動平均的期數(shù)越少,擬合趨勢越敏感目前一百零二頁\總數(shù)一百二十二頁\編于十四點移動平均預測目前一百零三頁\總數(shù)一百二十二頁\編于十四點時間序列模型的基本概念及其適用性目前一百零四頁\總數(shù)一百二十二頁\編于十四點時間序列模型的基本概念
隨機時間序列模型(nimeseriesmodeling)是指僅用它的過去值及隨機擾動項所建立起來的模型,其一般形式為
Yn=F(Yn-1,Yn-2,…,n)
建立具體的時間序列模型,需解決如下三個問題:
(1)模型的具體形式(2)時序變量的滯后期(3)隨機擾動項的結構
目前一百零五頁\總數(shù)一百二十二頁\編于十四點例如,取線性方程、一期滯后以及白噪聲隨機擾動項(n=n),模型將是一個1階自回歸過程AR(1):Yn=aYn-1+n這里,n特指一白噪聲。
一般的p階自回歸過程AR(p)是Yn=a1Yn-1+a2Yn-2+…+apYn-p+n(*)目前一百零六頁\總數(shù)一百二十二頁\編于十四點(1)如果隨機擾動項是一個白噪聲(n=n),則稱(1)式為一純AR(p)過程(pureAR(p)process),記為Yn=a1Yn-1+a2Yn-2+…+apYn-p+n(2)如果n不是一個白噪聲,通常認為它是一個q階的移動平均(movingaverage)過程MA(q):
n=n-c1n-1-c2n-2--cqn-q該式給出了一個純MA(q)過程(pureMA(p)process)。
一般的p階自回歸過程AR(p)是Yn=a1Yn-1+a2Yn-2+…+apYn-p+n(1)目前一百零七頁\總數(shù)一百二十二頁\編于十四點
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 度退休人員兼職合同模板
- 2023-2024學年大連理工版小學信息技術五年級下冊奇妙的編碼(教學設計)
- 2023-2024學年滬科版(2019)高中信息技術必修一3.4《分析歷史氣溫數(shù)據-設計批量數(shù)據算法》教學設計
- 10青山處處埋忠骨教學設計-2024-2025學年五年級下冊語文統(tǒng)編版
- 餐廳股權合同范本
- 甜品批發(fā)合同范本
- 5 我愛我們班 教學設計-2024-2025學年道德與法治二年級上冊統(tǒng)編版
- 2 百分數(shù)(二)成數(shù) 第二課時(教學設計)-2023-2024學年六年級下冊數(shù)學人教版
- 24“諾曼底號”遇難記 教學設計-2023-2024學年四年級下冊語文統(tǒng)編版
- 店面貸款合同范本
- 保密管理工作課件
- GB/T 25924-2010在線氣體分析器試驗方法
- GB/T 22590-2021軋鋼加熱爐用耐火澆注料
- GB 28482-2012嬰幼兒安撫奶嘴安全要求
- GA 979-2012D類干粉滅火劑
- 骨科病人健康教育處方
- 關鍵詞與有機關聯(lián)寫作課件
- 贛價協(xié)〔2023〕9號江西省建設工程造價咨詢服務收費基準價
- 小汽車掛靠協(xié)議書范本(2篇)
- 顱腦外傷(共61張PPT)
- 黃河流域生態(tài)保護與高質量發(fā)展課件
評論
0/150
提交評論