版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第三章 描述統(tǒng)計第一節(jié) 數(shù)據(jù)預處理一、缺失值處理二、數(shù)據(jù)分組三、次數(shù)分配四、分布曲線一、缺失值處理缺失值是指在數(shù)據(jù)采集與整理過程中丟失的內容。缺失值的處理一般有兩種方式:一是刪除對應的記錄,這種方式在數(shù)據(jù)缺失非常少的情況下是可行的,但如果各個項目中都有少數(shù)的數(shù)據(jù)缺失存在,對所有缺失的記錄都進行刪除可能就會使總樣本量變得非常小,從而損失許多有用信息。缺失值處理的第二種方式是進行插值處理,所謂插值,是指人為地用一個數(shù)值去替代缺失的數(shù)值。插值處理根據(jù)插值的不同,有如下一些方法:1、隨機插值根據(jù)缺失值的各種可能情況,等概率地進行插值。例如在調查中,某人的性別缺失,其性別有兩種可能性,一是“男”,二是“女”,可以簡單地擲一枚硬幣,如果正面朝上,則賦值為“男”,如果反面朝上,則賦值為“女”。2、依概率插值隨機插值是假定一個變量取各種值的可能性是相等的,但有些情況下,我們可以事先知道一個變量取各種值的概率,例如,在對某單位的調查中,發(fā)現(xiàn)該單位女性占的比例是75%,男性的比例是25%,在這次調查中某人的性別缺失,則在對其的性別進行賦值時,不是按50%概率賦為“女”,而是按75%概率賦為“女”。3、就近插值就近插值是指根據(jù)缺失記錄附近的其他記錄的情況對缺失值進行插值,例如在上例中,“張三”的性別出現(xiàn)缺失,此時可以用其鄰近的“李四”的性別數(shù)據(jù)替代“張三”的性別數(shù)據(jù),由于“李四”的性別為“女”,所以將“張三”的性別也賦為“女”。就近插值是依概率插值的一種簡化處理,設想在整個單位的職工中,女性占的比例是75%,則在一般情況下,與張三鄰近的記錄性別為“女”的概率也應當為75%,就近插值實際上就是依概率插值。使用就近插值時,需要對抽樣過程進行必要的了解,如果抽樣時性別有交叉的情況,例如經(jīng)常是調查完一名男性后就調查一名女性,則使用就近插值就會出現(xiàn)較多的錯誤。4、分類插值依概率插值是將記錄置于總體的背景上進行插值,沒有充分利用記錄的其他信息。如果在記錄的其他信息中有某些項目與缺失項目存在相關性,則可以根據(jù)這些輔助信息對總體進行分類,在每一類內部進行插值處理。例如,“張三”的職業(yè)是“護士”,假定該單位中95%的“護士”性別為“女”,則在進行插值時,就不是使用全單位的女性比例75%,而是使用“護士”中的女性比例95%對“張三”的性別進行賦值。二、數(shù)據(jù)分組數(shù)據(jù)采集中的要求是盡可能完整地保留原始狀況,但在進行數(shù)據(jù)處理時,可能需要對數(shù)據(jù)進行一定的歸類,以便于分析。這種數(shù)據(jù)歸類的過程,稱為數(shù)據(jù)分組。數(shù)據(jù)分組中需要考慮的內容包括:1、分組標志2、組數(shù)3、組距4、組限5、組中值1、分組標志一批數(shù)據(jù)可以按不同的標志進行分組,選擇分組標志要根據(jù)研究目的進行。例如要研究受教育程度對收入的影響,則分組應當按學歷和月收入兩個標志進行,而沒有必要再使用身高、體重等標志進行分組。一般來說,分組標志的選擇有兩個原則:自然原則和根據(jù)差異性進行分組的原則。2、組數(shù)按同一標志,可以將數(shù)據(jù)分成不同數(shù)量的組,例如按年齡分組,可以分為兒童、成年人兩組,也可以分為青少年、中年、老年三個組,也可以按10年或者5年為一段分為更多的組。組數(shù)的確定受自然標志和規(guī)模標志兩個因素的影響。自然標志的不同,對于分組的細化程度也會有所不同;組數(shù)的確定還受到規(guī)模的影響,樣本量較大時,組數(shù)也可以更大一些,反之則組數(shù)應當小一些。分組的一條原則:不要把組分的太細。初接觸統(tǒng)計分析的工作人員往往傾向于將數(shù)據(jù)分組分得很細,以求保留更多的原始信息。需要提醒的是,數(shù)據(jù)分組過細后,最終的統(tǒng)計結果會表現(xiàn)為一個較大的表格,有時反而不利于閱讀和判斷。3、組距組距是指每個組的范圍跨度。組距的確定受自然和社會規(guī)律以及適當平衡兩個因素影響。從自然和社會規(guī)律方面來說,組距的確定是客觀的,例如青少年的分組,是按年齡進行劃分的,這種劃分方法不能被改變;按適當平衡確定組距是針對一些沒有客觀標準的標志進行分組時采用的方法,例如按收入進行分組時,組距的確定并沒有客觀標準。此時,可以根據(jù)樣本的結構劃分組距,以使每一組的樣本數(shù)大致接近。4、組限組限指組與組之間的界限,組限與組距是一對相互影響的關系,組距調整了,組限也就發(fā)生了變化,反之,組限一旦確定下來,組距也就確定了,組距等于組的上限與下限之差。組限的確定有時是客觀的,需要根據(jù)實際研究的內容進行調整。例如未成年人與成年人的分組界限是16歲,這是按國際標準的就業(yè)人口界限確定的。但如果分組的目的是研究樣本的民事行為能力,則這一分組界限就需要調整為18歲。另外,組限的確定應該使得每組相對比較平衡,即每組的樣本量應當相對比較接近。有些時候,一個組可能會缺失上限或者缺失下限。對于連續(xù)型的變量來說,相鄰組的上限和下限會是同一的,例如在對收入進行分組時,“600-800元”和“800-1000元”就出現(xiàn)了重合,此時,統(tǒng)計慣例是將重合的值計入后一組。即上述兩組的劃分為“600-800元(不含)”,和“800元-1000元(不含)”。5、組中值組中值是一個組中處于中間位置的值,往往用以代表一個組的平均狀況。對于缺上限或者缺下限的組,組中值的計算有幾種不同的情況:(1)根據(jù)鄰近組組距推算(2)對于缺下限組而言,當鄰近組組距過大時,使用上限的一半計算。例如,關于收入的分組是“500元以下”、“500-1500元”、“1500-2500元”、“2500-4000元”、“4000元以上”。此時,計算第一組的組中值為500的一半,即250元。(3)根據(jù)現(xiàn)實情況人為確定有些情況下,一個組的上下限雖然不能確定,但可以進行模糊地判斷,此時就可以利用這種模糊判斷的結果,確定該組的組中值。例如在收入數(shù)據(jù)中,“5000元以上組”的組中值可以根據(jù)城市中高收入人群的平均收入情況確定為“8000元”,這種確定的依據(jù)是現(xiàn)實的社會經(jīng)濟經(jīng)驗數(shù)值。三、次數(shù)分配次數(shù)分配是指觀察值按分組標志分配在各組內的記錄數(shù)。各組中觀察值的數(shù)量稱為次數(shù),也稱頻數(shù)。各組次數(shù)與總次數(shù)的比例,稱為頻率。有時候,出于統(tǒng)計分析的目的,需要對高于或低于某一組的所有觀察值的次數(shù)進行統(tǒng)計,這樣形成的次數(shù)分配表,稱為累積次數(shù)分配表。四、分布曲線1、概念2、分布曲線的類型1、概念在平面直角坐標系上,以分組標志為橫軸,次數(shù)或者頻率為縱軸,可以畫出次數(shù)分配的直方圖。例如一次次數(shù)分配情況可以表示為:將直方圖的頂端用折線連接,可以獲得次數(shù)分配的折線圖,折線圖的含義與直方圖是一致的,均反映不同組的次數(shù)分配情況,折線越高的地方,反映該組的次數(shù)越多,反之則越少。當樣本量較大,組距較小時,折線圖會越來越平滑,直至成為一條曲線。這種曲線稱為次數(shù)分布曲線,反映出數(shù)據(jù)的分布規(guī)律。分布曲線2、分布曲線的類型數(shù)據(jù)的分布特征不同,形成的分布曲線也表現(xiàn)出各種不同的類型,常見的分布曲線的類型有下列各種:(1)鐘形分布(2)J形分布(3)U形分布(4)多峰分布(1)鐘形分布鐘形分布是社會經(jīng)濟現(xiàn)象中最常見的分布形式,具體表現(xiàn)為中間隆起,兩側逐漸降低。鐘形分布表明數(shù)據(jù)具有集中的趨勢,大多數(shù)數(shù)據(jù)集中在中間,越往兩端,數(shù)據(jù)越少。在遠離中心的位置,只有極少數(shù)的數(shù)據(jù)。鐘形分布的中間隆起部分稱為峰,兩側稱為尾。一個典型的鐘形分布的例子鐘形分布根據(jù)鐘的特點可以進一步分為偏態(tài)的鐘形分布和對稱的鐘形分布。由于兩側的數(shù)據(jù)不對稱,因此這種鐘形分布稱為偏態(tài)的鐘形分布。根據(jù)較長的尾所指的方向不同,將偏態(tài)又可分為正偏(右偏)和負偏(左偏)兩種,上圖中較長的尾部指向左方,即數(shù)據(jù)的負方向,所以稱為負偏態(tài),或者左偏態(tài)。左右對稱的鐘形分布是一種特殊情況,因為自然現(xiàn)象中嚴格呈現(xiàn)出左右對稱的是非常少見的。對稱的鐘形分布大多數(shù)是屬于數(shù)據(jù)經(jīng)過處理后的分布形式。其中最典型的對稱鐘形分布是正態(tài)分布(Normal Distribution)。正態(tài)分布圖(2)J形分布J形分布一般是累積分布的表現(xiàn)形式,在圖形上表現(xiàn)為一條從下向上單調變化的曲線。根據(jù)J形分布的方向,又可分為正J形和反J形。所謂反J形,是指曲線單調遞減的情況,一般是用于描述向上累積的現(xiàn)象。(3)U形分布U形分布是指中間凹陷,兩端翹起的分布形式,反映出某一個社會經(jīng)濟現(xiàn)象在開始和結束時某項活動比較頻繁,而在中間則相對比較穩(wěn)定。U形曲線一般用于描述具有生命或者質量特征的現(xiàn)象,例如人和動物的死亡率數(shù)據(jù),人和動物一樣,在幼年和老年的死亡率都比較高,中年的死亡率較低,從而表現(xiàn)為U形曲線。產(chǎn)品的故障率也具有這樣的特征,產(chǎn)品使用初期和老化期的故障率都比較高,中間階段則故障率比較低。U形曲線因形狀像浴缸,又稱為浴缸曲線。是兩個不同的因素同時對一個社會經(jīng)濟現(xiàn)象起作用的結果。如產(chǎn)品故障率,同時受產(chǎn)品自身缺陷和老化兩個因素影響,在使用初期,自身缺陷造成的故障率較高,在使用后期,則老化引起的故障率較高,中間階段則正好處于兩個故障率均較低的階段。浴缸曲線的確定對廠商服務質量的確定也有幫助。反U形曲線,雖形似鐘形曲線,但它的分布卻與時間有關,可以反映出新產(chǎn)品上市時的情況。(4)多峰分布多峰分布是指超過一個隆起部分的分布,數(shù)列有若干個隆起部分,反映出影響數(shù)據(jù)的主要因素有若干個不同的水平,受不同水平影響的數(shù)據(jù)分別以不同的中心點聚集,從而形成若干個峰值。例如如果將某次調查中男女受訪者的身高數(shù)據(jù)放在一起觀察,就會發(fā)現(xiàn)數(shù)據(jù)表現(xiàn)出兩個峰值,男性的平均身高和女性的平均身高分別為175CM和162CM。案例洛倫茲曲線基尼系數(shù)第二節(jié) 總量指標和相對指標一、總量指標和相對指標二、描述總量指標和相對指標的一些常用術語一、總量指標和相對指標總量指標是反映社會經(jīng)濟現(xiàn)象總體規(guī)?;蛩降闹笜耍址Q為絕對數(shù)。例如一個國家一定時期內的人口數(shù)、一個地區(qū)的土地面積等等。相對指標是兩個有聯(lián)系的總量指標對比計算的比率,又稱為相對數(shù)。根據(jù)相比較的總量指標之間的關系不同,相對指標可以劃分為若干種類型:結構相對指標、比例相對指標、強度相對指標、比較相對指標、動態(tài)相對指標。5、動態(tài)相對指標二、描述總量指標和相對指標的一些常用術語1、靜態(tài)比較與動態(tài)比較2、基期與報告期3、時期和時點1、靜態(tài)比較與動態(tài)比較將同一時期的統(tǒng)計指標放在一起進行比較,稱為靜態(tài)比較。如果是用不同單位的同一時期指標進行相互比較,則可稱為橫向比較。同一單位或者不同單位的同一時期數(shù)據(jù),稱為橫斷面數(shù)據(jù),表示按某一時間進行攔腰截斷后,所觀察到的數(shù)據(jù)。將不同時期的統(tǒng)計指標放在一起進行比較,稱為動態(tài)比較。將同一單位的不同時期指標進行相互比較,又稱為縱向比較。2、基期與報告期在進行動態(tài)比較時,有時會用當前的數(shù)據(jù)與過去某一時間的數(shù)據(jù)進行對比。此時,將當前的數(shù)據(jù)稱為報告期數(shù)據(jù),將用于比較的過去的數(shù)據(jù)稱為基期數(shù)據(jù)。如果觀察的是若干個時期的數(shù)據(jù),每個時期的數(shù)據(jù)均與同一個基期數(shù)據(jù)進行對比,則這種比較方法,稱為定基比較。例如,將某一時期1999年、2000年、2001年和2002年的GNP數(shù)值與1999年進行比較,所獲得的3個比例,稱為定基增長率。如果在觀察若干個時期的數(shù)據(jù)時,每一數(shù)據(jù)均與前一時期進行對比,則這種比較方法稱為環(huán)比比較。例如,觀察1999年至2002年的GNP增長情況,其中2000年與1999年進行比較,2001年與2000年進行比較,2002年與2001年進行比較,則獲得的一組增長率數(shù)據(jù),稱為環(huán)比增長率。3、時期和時點時期是指兩個時間點之間的一段時間,時點是指某一特定的時刻。時期指標往往是具有動態(tài)特征的指標,例如在連續(xù)的一段時間內所進行的生產(chǎn)活動,要進行統(tǒng)計時,就必須采用時期指標。時點指標是具有靜態(tài)特征的指標,反映的是過去所有活動的結果,例如某一時點上的國民財富積累情況,等等。第三節(jié) 平均指標平均指標指同類社會經(jīng)濟現(xiàn)象在一定時間、地點條件下所達到的一般水平。平均指標是數(shù)據(jù)描述中最基本的指標之一。常用的平均指標包括下列七類:一、算術平均數(shù)(Arithmetic Mean)二、調和平均數(shù)(Harmonic Mean)三、幾何平均數(shù)(Geometric Mean)四、眾數(shù)(Mode)五、中位數(shù)(Median)六、分位數(shù)七、截尾均值一、算術平均數(shù)(Arithmetic Mean)算術平均數(shù)也稱均值,是所有數(shù)的總和與數(shù)量之商。用公式表示如下:對于分組數(shù)據(jù),計算算術平均數(shù)時,可使用加權算術平均數(shù)方法。例子:評價一個網(wǎng)站加權算術平均數(shù)適用于三種不同的場合:分組頻數(shù)數(shù)列、分組頻率數(shù)列、具有不同權重的變量求平均。二、調和平均數(shù)(Harmonic Mean)調和平均數(shù)是根據(jù)標志值的倒數(shù)計算出來的平均指標,其意義與算術平均數(shù)一致??梢赃@樣理解,調和平均數(shù)是在數(shù)據(jù)來源不同的情況下計算算術平均數(shù)的一種方法,調和平均數(shù)都可以通過數(shù)據(jù)轉換,調整成算術平均數(shù)進行計算。案例:已知某人分幾次購買蘋果的情況如下:使用調和平均數(shù)計算蘋果的平均價格,方法如下:此例也可轉化為算術平均數(shù)進行計算,根據(jù)“購買數(shù)量=購買金額/蘋果價格”,可以計算出所購買蘋果的總數(shù)量,如下表:根據(jù)算術平均數(shù)的計算公式,也可計算蘋果的平均價格,即3.91元/公斤。根據(jù)本例也可以看出,調和平均數(shù)實際上只是將進行數(shù)據(jù)轉換的步驟綜合在計算公式中而已,實際上所計算的,仍然是算術平均數(shù)。三、幾何平均數(shù)(Geometric Mean)幾何平均數(shù)是在數(shù)列具有連乘積特征的情況下所計算的平均數(shù)。算術平均數(shù)的特征是各個參與平均的變量之間是平行的關系,變量之間可以直接相加,獲得總和。例如,三個人的收入分別為100元、110元和120,則計算三個數(shù)的和,可得到三個人的總收入值為330元。幾何平均數(shù)的特征是參與平均的變量之間是連續(xù)的關系,變量之間是通過相乘的方式來獲得累積效果的。例如,某人在銀行存款,本金為1000元,三年的存款利息率分別為10%,15%和20%,則三年后此人的銀行存款本息之和為:1000元×(1+10%)×(1+15%)×(1+20%)=1518元這種具有連乘積特征的變量關系,在進行平均計算時,需采用幾何平均數(shù)的方式。以上述的某人存款的數(shù)據(jù)為例,此人存款三年的平均利息率為:幾何平均數(shù)也有加權形式,加權幾何平均數(shù)的計算公式為:四、眾數(shù)(Mode)眾數(shù)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值。對于輕微偏態(tài)的單峰分布數(shù)據(jù)來說,眾數(shù)反映的是數(shù)據(jù)的集中趨勢位置,因此可以反映一組數(shù)據(jù)的平均狀態(tài)。相對于算術平均數(shù),眾數(shù)更注重大多數(shù)的特征,而不關注極端數(shù)據(jù)的特征,這樣,眾數(shù)就是一個較為穩(wěn)健的統(tǒng)計量。在我們對一組數(shù)列進行統(tǒng)計分析時,選擇統(tǒng)計方法主要有兩個原則:1、靈敏:可以非常準確的反映出這組數(shù)據(jù)的變化狀況;2、穩(wěn)健:一旦在數(shù)列中出現(xiàn)小的差錯,可以被排除在外。分組數(shù)列的眾數(shù)例子:對于上例,計算眾數(shù)如下:五、中位數(shù)(Median)中位數(shù)是位于統(tǒng)計數(shù)列中間位置上的數(shù)。在數(shù)列中,有一半的數(shù)據(jù)大于中位數(shù),一半的數(shù)據(jù)小于中位數(shù),因此中位數(shù)可以反映數(shù)列的一般水平。中位數(shù)的位置計算公式為中位數(shù)不容易受到極端值的影響,數(shù)列中有個別數(shù)值出現(xiàn)異常,一般不會影響到中位數(shù)的大小。因此,中位數(shù)是一個比較穩(wěn)健的統(tǒng)計量。對于上例,計算中位數(shù)如下:七、截尾均值截尾均值是指在一個數(shù)列中,去掉兩端的極端值后所計算的算術平均數(shù),也稱為切尾均值。最常見的截尾均值的例子是在一些比賽中,計算選手的最終得分需要“去掉一個最高分,去掉一個最低分”,這種處理方法,即為計算截尾均值的方法。截尾均值由于去掉了數(shù)列中影響數(shù)據(jù)穩(wěn)定性的極端值,從而具有較好的穩(wěn)健性,不易受到極端值的干擾。極端值的判定根據(jù)分析目的的不同,可以有下列各種不同的方法:1、確定兩端或者一端固定數(shù)量的值為極端值2、確定一個固定范圍外的數(shù)值為極端值3、根據(jù)數(shù)據(jù)的統(tǒng)計結果來確定極端值1、確定兩端或者一端固定數(shù)量的值為極端值例如確定最大值和最小值為極端值,而不去觀察這兩個值本身是多少。2、確定一個固定范圍外的數(shù)值為極端值在數(shù)據(jù)處理時,人為地確定一個取值范圍,超出這范圍內的數(shù)值一律被當作極端值。例如在計算平均收入時,將10000元以上的收入值統(tǒng)一判定為極端值,不進行平均計算。3、根據(jù)數(shù)據(jù)的統(tǒng)計結果來確定極端值這種方法的特點是不事先確定極端值的范圍,而是根據(jù)數(shù)據(jù)的實際數(shù)值,來推算極端值的范圍。例如在計算收入數(shù)據(jù)時,約定以中位數(shù)的3倍作為極端值的范圍,這樣,對于不同的工資水平的地區(qū),極端值的范圍也就有所不同了。第四節(jié) 離散程度指標一、極差(Range)二、內距(Inter-Quartile Range)三、四分展布四、平均絕對差(Mean Absolute Deviation)五、方差(Variance)和標準差六、離散系數(shù)(Coefficient of Variation)一、極差(Range)極差是數(shù)據(jù)的最大值與最小值之差,用公式表示如下:極差反映出數(shù)據(jù)在空間上的分布范圍,一般情況下,分布范圍越大,表明數(shù)據(jù)整體越離散。極差是一個不夠穩(wěn)健的統(tǒng)計量,個別極端值的存在,可能會對極差造成很大的影響。二、內距(Inter-Quartile Range)內距也稱四分位差,是指第三四分位數(shù)與第一四分位數(shù)之差。用公式表示如下:內距由于使用的是第三四分位和第一四分位的差,受兩端的極端值影響較小,因此更為穩(wěn)定。內距反映的處于中間位置的一半數(shù)據(jù)的分布范圍,該范圍的大小,可以反映整個數(shù)列的離散程度。三、四分展布1、秩2、深度3、中位數(shù)4、四分數(shù)1、秩秩是指將一個數(shù)列排序后所處的位置。將數(shù)據(jù)進行排序后,從最小值向最大值計算的名次,稱為數(shù)據(jù)的升秩;從最大值向最小值計算的名次,稱為數(shù)據(jù)的降秩。顯然,對于任何一個數(shù)據(jù)而言,有:升秩+降秩=N+12、深度升秩和降秩中的最小值,稱為一個數(shù)據(jù)的深度。例子:有一個數(shù)列:3,7,9,12,18,24,26可知:Me=12四、平均絕對差(Mean Absolute Deviation)極差和內距都是根據(jù)數(shù)據(jù)所處的位置來進行計算的離散指標,未能充分利用所有數(shù)據(jù)的信息。平均絕對差是指各個標志值對其算術平均數(shù)的平均離差。平均絕對差的計算公式推導:平均絕對差的計算公式:五、方差(Variance)和標準差平均絕對差使用絕對值來消除離差的正負號,在數(shù)學處理中,具有一些不方便之處。方差是使用求平方的方式來消除正負號,便于數(shù)學處理。方差的計算公式:利用上例數(shù)據(jù),計算方差:方差的簡捷計算方法:利用上例數(shù)據(jù),計算方差:計算方差的另一種方法:五、方差方差的計算器計算方法:按計算器的2nd+ON/C鍵進入統(tǒng)計功能,計算器的左上角會出現(xiàn)STAT的符號。計算器上有幾個功能鍵是和統(tǒng)計有關的,詳見黑板上圖。幾個鍵的功能分別為:第一個鍵為整個的統(tǒng)計功能提供數(shù)據(jù)。數(shù)據(jù)輸入的方法標準差:方差的平方根稱為標準差。在現(xiàn)實生活中,還存在一種是非標志變量,這種變量在統(tǒng)計中成為一種成數(shù)現(xiàn)象。成數(shù)(P)是在是非標志中選擇是的比例:成數(shù)方差的計算:結論:如果已知一組數(shù)是是非標志,其成數(shù)為p,則這組數(shù)的方差為p(1-p)。六、離散系數(shù)(Coefficient of Variation)當幾組數(shù)據(jù)的平均水平不同時,標準差的含義也有所不同。為了對水平不同的數(shù)據(jù)進行離散程度的比較,需要計算標準差相對于平均數(shù)的大小,稱為離散系數(shù)。第五節(jié) 其他內容一、數(shù)據(jù)變換二、探索性數(shù)據(jù)分析三、對誤差的描述四、箱線圖一、數(shù)據(jù)變換1、原點變換2、尺度變換3、一般線性變換4、中心化變換5、極差變換6、標準化變換7、非線性變換數(shù)據(jù)變換是為了更好地顯示數(shù)據(jù),以便于分析人員對數(shù)據(jù)的特征進行掌握。數(shù)據(jù)變換原則上應當是單調的,也就是說,經(jīng)過變換后的數(shù)據(jù)順序,與變換前沒有發(fā)生改變。1、原點變換對于數(shù)據(jù)絕對值比較大,遠離原點的情況,可以通過這種方式,將數(shù)據(jù)調整到原點附近,以便于觀察。2、尺度變換尺度變換的例子:三匹馬的體重分別為200kg、201kg、202kg,三只螞蟻的體重分別為500mg、1000mg、1500mg,無法在同一坐標系上表示出馬和螞蟻的體重離散程度。可以將螞蟻的體重稱上5000000,進行尺度變換,將螞蟻的體重變?yōu)?50kg、500k、750kg,從而可以將這些數(shù)據(jù)在同一坐標系中表示出來。對于數(shù)據(jù)差異較大或者較小,普通坐標系無法容納的情況,通過這種變換,能夠使之尺度發(fā)生變化,適應常規(guī)尺度。3、一般線性變換一般線性變換是原點變換與尺度變換同時作用的結果。4、中心化變換中心化變換可以將數(shù)據(jù)批調整到以平均值為中心。5、標準化變換標準化變換是將數(shù)據(jù)批進行原點和尺度的同時變換,使之與標準正態(tài)分布的規(guī)格相一致。例子:歌手大獎賽A地區(qū)歌手得分分別為:80、85、87、90、92;B地區(qū)歌手得分分別為:93.7、93.4、93.0、94.2、94.7;C地區(qū)歌手得分分別為:9.7、9.6、9.4、9.6、9.5。假定打分是同樣分布的一批歌手,因為各地的打分情況不同,不能簡單的比較各個地區(qū)的歌手好壞。為了比較這三個不同的數(shù)據(jù)批,可以將數(shù)據(jù)進行標準化變換。A地區(qū)歌手得分標準化變換后的分數(shù)為: -1.632、-0.432、0.048、0.768、1.248;B地區(qū)歌手得分標準化變換后的分數(shù)為: -0.168、-0.670、-1341、0.670、1.508。經(jīng)過標準化變化的兩批數(shù)據(jù)狀況分析:可以看出B地區(qū)最高分的表現(xiàn)比平均水平高出1.508,而A地區(qū)的最高分僅高出1.248,說明B地區(qū)最高分的表現(xiàn)更出眾。6、規(guī)格化變換(極差變換)規(guī)格化變換是將數(shù)據(jù)批調整至最大值為1,最小值為0的區(qū)間。7、非線性變換非線性變換主要用于數(shù)據(jù)序列的變化規(guī)律不均勻的場合中,例如,當處理一批平均水平不同的數(shù)據(jù)時,需要將數(shù)據(jù)進行對數(shù)變換,以求在同一坐標系內反映不同的數(shù)據(jù)批。例如:我國的移動電話的數(shù)量,可以用黑板上的圖來表示。因為數(shù)量太大,不能進行原點變換等其他變換方式。我們需要找到一種方式進行變換,其一是要使得數(shù)據(jù)能夠保持原有的單調變化,其二是能夠使得這個變化過程在整個圖中都表示出來。我們可以采用對數(shù)變換的方式。本例中我們取以10為底的對數(shù)。300部手機取對數(shù)后為2.477,10萬部手機取對數(shù)后為5,7000萬步手機取對數(shù)后為7.845,3億部手機取對數(shù)后為8.477。再在圖中就可以很清楚的表示出來了。二、探索性數(shù)據(jù)分析探索性數(shù)據(jù)分析是描述統(tǒng)計中一個重要的課題。數(shù)據(jù)分析人員經(jīng)常要面對紛繁復雜的原始數(shù)據(jù),如果不能掌握數(shù)據(jù)的基本規(guī)律,就不可能有針對性地采用各種統(tǒng)計方法。在實踐中,數(shù)據(jù)分析往往分為兩個步驟:探索性數(shù)據(jù)分析與證實分析。探索性數(shù)據(jù)分析是從復雜的數(shù)據(jù)中分離出數(shù)據(jù)的基本模式和特點,讓分析者發(fā)現(xiàn)其中的規(guī)律,以便選擇分析方法。對于在探索性數(shù)據(jù)分析中發(fā)現(xiàn)的數(shù)據(jù)規(guī)律,分析者需要使用特定的統(tǒng)計模型進行證實分析,以確定規(guī)律是否正確。探索性數(shù)據(jù)分析與證實分析在一次數(shù)據(jù)分析中往往要多次交替使用,在證實分析結束后,分析人員可能會發(fā)現(xiàn)更多有待探索的數(shù)據(jù)模式,從而需要再次使用探索性數(shù)據(jù)分析工具。探索性數(shù)據(jù)分析有四大主題,分別是:1、耐抗性2、殘差3、重新表達4、圖示1、耐抗性所謂耐抗性,是指分析方法對于數(shù)據(jù)局部不良行為的非敏感性。原始數(shù)據(jù)來源不可能保證所有的數(shù)據(jù)均準確無誤,在數(shù)據(jù)存在少量錯誤的情況下,如何能夠不被錯誤數(shù)據(jù)所誤導,而認識到數(shù)據(jù)的本來面目,十分重要。2、殘差殘差是指從數(shù)據(jù)中減去一個總括統(tǒng)計量或擬合模型后的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建省寧德市六校2025屆高三適應性調研考試語文試題含解析
- 安徽省滁州市部分高中2025屆高考仿真卷數(shù)學試題含解析
- 《保安人員禮儀規(guī)范》課件
- 黑龍江省哈爾濱第九中學2025屆高三第二次模擬考試語文試卷含解析
- 8.2《登高》課件 2024-2025學年統(tǒng)編版高中語文必修上冊
- 貴州安順市平壩區(qū)集圣中學2025屆高考語文二模試卷含解析
- 北京市延慶縣2025屆高三3月份第一次模擬考試英語試卷含解析
- 2025屆貴州省遵義市第二教育集團高三考前熱身語文試卷含解析
- 江西省景德鎮(zhèn)市重點中學2025屆高三(最后沖刺)語文試卷含解析
- 湖南省瀏陽市六校聯(lián)考2025屆高考語文押題試卷含解析
- 神態(tài)描寫課件
- 醫(yī)惠內鏡消毒質量追溯系統(tǒng)
- 商業(yè)經(jīng)營管理有限公司組織架構、崗位設置與管理職能
- 2022年讀者出版集團有限公司招聘筆試試題及答案解析
- NB∕T 33009-2021 電動汽車充換電設施建設技術導則
- 大學《傳播學概論》試卷及答案
- 住院醫(yī)師兒外科Ⅰ階段:小兒心胸外科考試題庫
- 管理會計論文范文大全(推薦十篇)
- 兒科分級護理標準
- 浙江理工大學-答辯通用PPT模板
- 嚴重精神障礙治療工作規(guī)范主要內容及與的變化課件
評論
0/150
提交評論