第二講數(shù)據(jù)錄入與樣本描述_第1頁
第二講數(shù)據(jù)錄入與樣本描述_第2頁
第二講數(shù)據(jù)錄入與樣本描述_第3頁
第二講數(shù)據(jù)錄入與樣本描述_第4頁
第二講數(shù)據(jù)錄入與樣本描述_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第二講數(shù)據(jù)錄入與樣本描述第一頁,共五十四頁,2022年,8月28日本講主題SessionTopic表格方法TabularMethods圖形方法GraphicalMethods數(shù)值方法NumericalMethods第二頁,共五十四頁,2022年,8月28日表格和圖形方法

TabularandGraphicalMethods質(zhì)量(定性)數(shù)據(jù)匯總SummarizingQualitativeData數(shù)量(定量)數(shù)據(jù)匯總SummarizingQuantitativeData探索性數(shù)據(jù)分析ExploratoryDataAnalysis交叉組列表和散點圖Cross-tabulationandScatterDiagrams第三頁,共五十四頁,2022年,8月28日質(zhì)量數(shù)據(jù)匯總

SummarizingQualitativeData頻數(shù)分布FrequencyDistributions相對頻數(shù)分布RelativeFrequencyDistributions百分?jǐn)?shù)頻數(shù)分布PercentFrequencyDistributions條形圖BarGraph餅形圖PieChart第四頁,共五十四頁,2022年,8月28日頻數(shù)分布

FrequencyDistributions頻數(shù)分布是用數(shù)據(jù)概括表的形式不列示若干個互不重疊分組中每組數(shù)據(jù)值出現(xiàn)的次數(shù);編制頻數(shù)分布表的目的是揭示表面數(shù)據(jù)的內(nèi)涵,而這種數(shù)據(jù)內(nèi)涵很難迅速從原始數(shù)據(jù)中獲取。第五頁,共五十四頁,2022年,8月28日相對頻數(shù)分布和百分?jǐn)?shù)頻數(shù)分布

RelativeFrequencyDistributionsandPercentFrequencyDistributions相對頻數(shù)是各組數(shù)據(jù)出現(xiàn)的頻數(shù)占數(shù)據(jù)總數(shù)的比例;相對頻數(shù)分布是表明每一組的相對頻數(shù)的數(shù)據(jù)集的表格總匯;百分?jǐn)?shù)頻數(shù)分布是相對頻數(shù)乘以100;百分?jǐn)?shù)頻數(shù)分布是表明每一組的百分?jǐn)?shù)頻數(shù)的數(shù)據(jù)集的表格總匯。第六頁,共五十四頁,2022年,8月28日條形圖BarGraph條形圖是用圖的方式描述已概括成頻數(shù)、相對頻數(shù)或百分?jǐn)?shù)頻數(shù)分布的質(zhì)量數(shù)據(jù)的方法;在圖形的橫軸為每一組別的標(biāo)記;縱軸為頻數(shù)、相對頻數(shù)、百分?jǐn)?shù)頻數(shù);用固定寬度的條繪制每一標(biāo)記,擴展條的高度達(dá)到縱軸上表示的各組別的頻數(shù)、相對頻數(shù)或百分?jǐn)?shù)頻數(shù);條形相對獨立以強調(diào)每一類是一獨立的事實。第七頁,共五十四頁,2022年,8月28日餅形圖PieChart餅形圖也是常用的描繪質(zhì)量數(shù)據(jù)相對頻數(shù)分布的圖形方法;先畫圓,然后用相對頻數(shù)把圓劃分為扇形。其角度大小與相對頻數(shù)對應(yīng)第八頁,共五十四頁,2022年,8月28日數(shù)量(定量)數(shù)據(jù)匯總SummarizingQuantitativeData頻數(shù)分布FrequencyDistributions相對頻數(shù)分布RelativeFrequencyDistributions百分?jǐn)?shù)頻數(shù)分布PercentFrequencyDistributions點圖Dotplot直方圖Histogram累積分布CumulativeDistribution穹形圖Ogive第九頁,共五十四頁,2022年,8月28日頻數(shù)分布

FrequencyDistributions確定無重復(fù)的組別數(shù)一般為為5-20個組大樣本數(shù)據(jù)分較多的組小樣本數(shù)據(jù)分較少的組確定各組間的組距各組間的組距相同近似組距為近似組距=-----------------------------

最大數(shù)據(jù)值-最小數(shù)據(jù)值組數(shù)第十頁,共五十四頁,2022年,8月28日頻數(shù)分布

FrequencyDistributions

確定組上線與組下線下線確定分配給該組可能的最小數(shù)據(jù)值;上線確定分配給該組可能的最大數(shù)據(jù)值;上、下線不一定是所給數(shù)據(jù)值;上、下線的確定不唯一,可依據(jù)數(shù)據(jù)中小數(shù)點的位置選取適當(dāng)?shù)纳?、下線;上、下線的確定應(yīng)使得每個數(shù)據(jù)屬且只屬于其中一個組。第十一頁,共五十四頁,2022年,8月28日相對頻數(shù)和百分?jǐn)?shù)頻數(shù)

RelativeFrequencyDistributions

andPercentFrequencyDistributions相對頻數(shù)分布和百分?jǐn)?shù)頻數(shù)分布相對頻數(shù)是各組數(shù)據(jù)出現(xiàn)的頻數(shù)占數(shù)據(jù)總數(shù)的比例;相對頻數(shù)分布是表明每一組的相對頻數(shù)的數(shù)據(jù)集的表格總匯;百分?jǐn)?shù)頻數(shù)分布是相對頻數(shù)乘以100;百分?jǐn)?shù)頻數(shù)分布是表明每一組的百分?jǐn)?shù)頻數(shù)的數(shù)據(jù)集的表格總匯。第十二頁,共五十四頁,2022年,8月28日點圖

Dotplot點圖是用圖形概括數(shù)據(jù)最簡單的方法之一;點圖用橫坐標(biāo)軸顯示數(shù)據(jù)的值域,然后用小圓點半每個數(shù)據(jù)值標(biāo)在坐標(biāo)軸的上方第十三頁,共五十四頁,2022年,8月28日直方圖

Histogram直方圖是將數(shù)據(jù)所反映的分布直觀地顯示出來的一種常用方法;橫軸為所感興趣的變量,縱軸為頻數(shù)、相對頻數(shù)或百分頻數(shù);每一組的頻數(shù)、相對頻數(shù)或百分?jǐn)?shù)頻數(shù)用長方形表示,長方形的底在橫軸上,寬是組距,高是相應(yīng)的頻數(shù)、相對頻數(shù)或百分?jǐn)?shù)頻數(shù);不像條形圖,直方圖在鄰近的組間沒有分隔。第十四頁,共五十四頁,2022年,8月28日累積分布

CumulativeDistribution

累積頻數(shù)分布表示小于或等于每一組上限的數(shù)據(jù)值的個數(shù)的取值情況;累積相對頻數(shù)分布表示小于或等于每一組上限的數(shù)據(jù)值所點比例的取值情況;累積百分?jǐn)?shù)頻數(shù)分布就是累積相對頻數(shù)與100乘積第十五頁,共五十四頁,2022年,8月28日穹形圖

Ogive穹形圖即是累積頻數(shù)分布或累積相對頻數(shù)分布的圖形;橫軸為所感興趣的變量,縱軸為累積頻數(shù)或累積相對頻數(shù);第十六頁,共五十四頁,2022年,8月28日探索性數(shù)據(jù)分析

ExploratoryDataAnalysis放在后面與數(shù)值方法一起講第十七頁,共五十四頁,2022年,8月28日交叉分組列表Cross-tabulation交叉分組列表是一種同時匯總兩個變量數(shù)據(jù)的表格方法一般在表格的左邊和頂端的標(biāo)記定義兩個變量的組數(shù)交叉分組列表揭示了所列兩個變量之間的內(nèi)在關(guān)系第十八頁,共五十四頁,2022年,8月28日散點圖

ScatterDiagrams散點圖是將兩個變量之間的關(guān)系直觀地顯示出來的一種方法第十九頁,共五十四頁,2022年,8月28日數(shù)值方法

NumericalMethods位置的度量MeasuresofLocation離散程度的度量Measuresofdispersion形狀的度量MeasuresofShape第二十頁,共五十四頁,2022年,8月28日位置的度量

MeasuresofLocation平均數(shù)Mean中位數(shù)Median眾數(shù)Mode百分位數(shù)Percentiles四分位數(shù)Quartiles第二十一頁,共五十四頁,2022年,8月28日平均數(shù)

Mean所有數(shù)據(jù)之和與數(shù)據(jù)個數(shù)的商如果數(shù)據(jù)集是總體,總體平均值(populationmean)為如果數(shù)據(jù)集為樣本,樣本平均值(Simplemean)為第二十二頁,共五十四頁,2022年,8月28日中位數(shù)

Median若數(shù)據(jù)的個數(shù)是奇數(shù),當(dāng)把所有數(shù)據(jù)按升序排列時,中位數(shù)就是處在中心位置的數(shù)若數(shù)據(jù)的個數(shù)是偶數(shù),當(dāng)把所有數(shù)據(jù)按升序排列時,中位數(shù)就是處在中心兩個數(shù)的平均數(shù)

第二十三頁,共五十四頁,2022年,8月28日眾數(shù)

Mode出現(xiàn)頻數(shù)最高的數(shù)

如果有多于一個眾數(shù)存在,則稱數(shù)據(jù)是多峰的第二十四頁,共五十四頁,2022年,8月28日百分位數(shù)

Percentiles第p個百分位數(shù)是這樣的數(shù)據(jù)值:至少有p%個數(shù)據(jù)值跟它一樣或比它?。恢辽儆?100-p)%個數(shù)據(jù)值跟它一樣大或比它大。百分位數(shù)的計算:增序排列數(shù)據(jù);計算指數(shù)I=(p/100)n若i不是整數(shù),將其向上取整,則p分位數(shù)是第i項;若i是整數(shù),則p分位數(shù)是第i項與第i+1項的數(shù)據(jù)的平均值。第二十五頁,共五十四頁,2022年,8月28日百分位數(shù)

Percentiles例有數(shù)據(jù)集6,3,8,10,6,20,5,4為求其第20個百分?jǐn)?shù),先將原數(shù)據(jù)集排序

3

4

5

6

68

10

20計算指數(shù)i=(20/100)*8≈2則原數(shù)據(jù)集的第20個百分位數(shù)就是位于第二項的4。第二十六頁,共五十四頁,2022年,8月28日四分位數(shù)Quartiles四分位數(shù)是特定的百分?jǐn)?shù)。第一個四分位數(shù)為25%百分位數(shù);分二個四分位數(shù)為50%百分位數(shù)即中位數(shù);第三個四分位數(shù)為75%百分位數(shù)。第二十七頁,共五十四頁,2022年,8月28日離散程度的度量

Measuresofdispersion全距Range四分位點內(nèi)距inter-quartileRange方差Variance標(biāo)準(zhǔn)差StandardDeviation標(biāo)準(zhǔn)差系數(shù)CoefficientofVariation第二十八頁,共五十四頁,2022年,8月28日全距

Range全距是數(shù)據(jù)中最大值與最小值間的差距全距是數(shù)據(jù)離散程度最簡單的描述全距對最大數(shù)據(jù)及最小數(shù)據(jù)敏感第二十九頁,共五十四頁,2022年,8月28日四分位點內(nèi)距

inter-quartileRange四分位點內(nèi)距是第一與第一四分位數(shù)間的差距是中間50%的數(shù)據(jù)的全距它能夠克服極端數(shù)據(jù)的影響第三十頁,共五十四頁,2022年,8月28日方差

Variance方差是各數(shù)據(jù)值與其平均值之間的平均差異如果數(shù)據(jù)集是總體,總體方差為如果數(shù)據(jù)集為樣本,樣本方差為第三十一頁,共五十四頁,2022年,8月28日標(biāo)準(zhǔn)差

StandardDeviation標(biāo)準(zhǔn)差為方差的正平方根標(biāo)準(zhǔn)差具有與原始數(shù)據(jù)相同的計量單位,較方差更便于比較如果數(shù)據(jù)集是總體,則總體標(biāo)準(zhǔn)差為如果數(shù)據(jù)集是樣本,則樣本標(biāo)準(zhǔn)差為第三十二頁,共五十四頁,2022年,8月28日變異系數(shù)CoefficientofVariation變異系數(shù)是標(biāo)準(zhǔn)差相對于平均數(shù)的大小的度量如果數(shù)據(jù)集為總體,變異系數(shù)為如果數(shù)據(jù)集為樣本,變異系數(shù)為第三十三頁,共五十四頁,2022年,8月28日平均數(shù)和方差的應(yīng)用

SomeUsesoftheMeanandtheStandardDeviationZ分?jǐn)?shù)z-Scores切比曉夫定理Chebyshev’sTheorem經(jīng)驗法則TheEmpiricalRule異常值的檢驗DetectingOutliers第三十四頁,共五十四頁,2022年,8月28日Z分?jǐn)?shù)z-ScoresZ-分?jǐn)?shù)通常稱為標(biāo)準(zhǔn)化數(shù)值Z-分?jǐn)?shù)的意義是數(shù)據(jù)值偏離平均數(shù)標(biāo)準(zhǔn)差的個數(shù)Z-分?jǐn)?shù)大于0的數(shù)據(jù)是那些比平均數(shù)大的數(shù)據(jù)值Z-分?jǐn)?shù)小于0的數(shù)據(jù)是那些比平均數(shù)小的數(shù)據(jù)值Z-分?jǐn)?shù)等于0的數(shù)據(jù)是那些與平均數(shù)相等的數(shù)據(jù)值一個數(shù)據(jù)集經(jīng)過標(biāo)準(zhǔn)化之后,其平均值變?yōu)?,標(biāo)準(zhǔn)差變成1第三十五頁,共五十四頁,2022年,8月28日切比曉夫定理Chebyshev’sTheorem至少(1-1/k2)個數(shù)據(jù)落在平均數(shù)k倍標(biāo)準(zhǔn)差范圍內(nèi),其中k是大于1的任何數(shù)值至少75%的數(shù)據(jù)落在平均數(shù)的k=2標(biāo)準(zhǔn)差范圍內(nèi)至少89%的數(shù)據(jù)落在平均數(shù)的k=3標(biāo)準(zhǔn)差范圍內(nèi)至少94%的數(shù)據(jù)落在平均數(shù)的k=4標(biāo)準(zhǔn)差范圍內(nèi)第三十六頁,共五十四頁,2022年,8月28日經(jīng)驗法則

TheEmpiricalRule對于具有鐘形分布的數(shù)據(jù)集而言大約68%的數(shù)據(jù)落在平均數(shù)的1倍標(biāo)準(zhǔn)差范圍內(nèi)大約95%的數(shù)據(jù)落在平均數(shù)的2倍標(biāo)準(zhǔn)差范圍內(nèi)幾乎所有的數(shù)據(jù)落在平均數(shù)的3倍標(biāo)準(zhǔn)差范圍內(nèi)第三十七頁,共五十四頁,2022年,8月28日異常值的檢驗DetectingOutliers數(shù)據(jù)集中出現(xiàn)的非正常大或非正常小的數(shù)據(jù)值稱為異常值Z-分?jǐn)?shù)值低于-3或高于3的數(shù)據(jù)可能是異常值異常值的出現(xiàn)可能是由于記錄錯誤,也可能是記錄正確的非正常數(shù)據(jù)值異常值也可能來自于不同的總體第三十八頁,共五十四頁,2022年,8月28日探索性數(shù)據(jù)分析

ExploratoryDataAnalysis探索性數(shù)據(jù)分析技術(shù)是由簡單運算及容易繪制的圖形組成,可用快速匯總數(shù)據(jù)。莖葉圖Stem-andLeafdisplay五數(shù)概括Five-NumberSummary箱圖Boxplot第三十九頁,共五十四頁,2022年,8月28日莖葉圖

Stem-andLeafdisplay莖葉圖是一種簡單的對數(shù)據(jù)進(jìn)行快束描繪的數(shù)據(jù)匯總方法莖葉圖不僅提供了數(shù)據(jù)排序,同時還顯示了數(shù)據(jù)的分布信息與直方圖有相似之處,但莖葉圖還顯示了實際的數(shù)據(jù)值數(shù)據(jù)的首位或首幾位放置在直線的左邊—稱為莖數(shù)據(jù)的末位(只是最后一位)放置在直線的右邊--稱為葉第四十頁,共五十四頁,2022年,8月28日五數(shù)概括

Five-NumberSummary最小數(shù)據(jù)值SmallestValue第一個四分位數(shù)FirstQuartile中位數(shù)Median第三個四分位數(shù)ThirdQuartile最大值LargestValue第四十一頁,共五十四頁,2022年,8月28日箱圖

Boxplot以第1和第3四分位數(shù)(Q1和Q3)作為箱子兩端,其間的間距稱為四分位間距,記為IQR=Q3-Q1箱圖的下限制線位于比Q1低1.5倍IQR的位置上,上限制線位于比Q3高1.5倍IQR的位置上限制線以外的是異常值第四十二頁,共五十四頁,2022年,8月28日雙變量相關(guān)關(guān)系度量

MeasuresofAssociationBetweenTwoVariables協(xié)方差

Covariance相關(guān)系數(shù)CorrelationCoefficient第四十三頁,共五十四頁,2022年,8月28日協(xié)方差

Covariance如果數(shù)據(jù)集是總體,協(xié)方差為如果數(shù)據(jù)集是樣本,協(xié)方差為正值表示正相關(guān),負(fù)值表示負(fù)相關(guān)第四十四頁,共五十四頁,2022年,8月28日相關(guān)系數(shù)CorrelationCoefficient如果數(shù)據(jù)集是總體,相關(guān)系數(shù)為如果數(shù)據(jù)集是樣本,相關(guān)系數(shù)為相關(guān)系數(shù)的值在-1與1之間相關(guān)系數(shù)的值接近-1表示較顯著地負(fù)線性相關(guān)相關(guān)系數(shù)的值接近1表示較顯著地正線性相關(guān)第四十五頁,共五十四頁,2022年,8月28日加權(quán)平均數(shù)和分組數(shù)據(jù)的加權(quán)平均數(shù)

TheWeightedMeanandWorkingwithGroupedData加權(quán)平均數(shù)TheWeightedMean分組數(shù)據(jù)GroupedData第四十六頁,共五十四頁,2022年,8月28日

加權(quán)平均數(shù)

TheWeightedMean

當(dāng)數(shù)據(jù)來處總體時代替平均值是一個特殊的加權(quán)平均數(shù)第四十七頁,共五十四頁,2022年,8月28日分組數(shù)據(jù)

GroupedDa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論