統(tǒng)計學原理培訓資料_第1頁
免費預覽已結束,剩余10頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1.判斷數據類型,三者的層次關系。 分類數據(=、):只能分類。EG.性別(男為0,女為1)、水果種類。 順序數據(、):可進行類別排序,但是類別間尺度不定。順序數據雖然有類別,但是這些類別是有序的。EG.文化程度(小學、初中、高中、大學)、獲獎(一等獎、二等獎、三等獎),身高(160170、170180、180190)。 數值型數據(+、-):按數字尺度測量的觀察值,計算兩個測度之間的差值。類別排序是根據一定的尺度來進行的。EG.身高(168、170、178、189)、年齡、收入。 是從低層次數據(包含的信息量少)到高層次數據(包含的信息量多)。 定類數據與定序數據是品質數據(定性數據),定

2、距數據是數量數據(定量數據)。 定類數據包含了定序數據,定序數據包含了定距數據。所以定距數據涵蓋的信息量最多。2.總體分布、樣本分布、抽樣(樣本統(tǒng)計量)分布 總體:是包含所研究的全部個體(數據)的集合??傮w中的每一個個體都是總體單位。有限總體(抽樣中每次抽取后不放回)、無限總體(抽取后放回) 樣本:從總體中抽取的一部分元素的集合。構成樣本元素的數目叫樣本量(樣本中有幾個元素)。3.參數、統(tǒng)計量 參數:描述總體特征的概括性數字度量。EG.總體平均數、總體標準差、總體比例。 統(tǒng)計量:描述樣本特征的概括性數字度量。EG.樣本平均數、樣本標準差。4.變量、變量值、指標 指標:反映統(tǒng)計總體數量特征的概念

3、和數值。(指標值是由變量值綜合計算得到的。) 變量:總體單位普遍具有的屬性和特征。(分類變量、順序變量、數值型變量離散型變量EG.自然數,可以一一列舉;連續(xù)型變量EG.實數,不能一一列舉) 變量值:變量的具體取值就是變量值。5.各特點、辨別應使用的抽樣方式 概率抽樣(隨機抽樣):1) 簡單隨機抽樣:從總體N的樣本框中隨機、一個個地抽取n個單位作為樣本,每個單位的入樣概率是相等的。(簡單直觀,計算估計量誤差方便;N較大時,構建抽樣框不易且抽取過程繁瑣,實施調查有困難。)(抽樣框:一份名單,包含所有總體單位的信息。用以提供備選單位的名單以供抽取,是計算各個單位入樣概率的依據。)2) 分層抽樣:將抽

4、樣單位按一定特征或規(guī)則劃分為不同的層,然后從不同的層中獨立、隨機地抽取。(樣本結構與總體結構相似,提高精度,方便實施調查,既可以對總體也可以對層的目標量進行估計;層間差異大,層內總體單位差異小。)3) 整群抽樣:將總體中若干個單位合并為組,這樣的組叫做群。抽樣時直接抽群,然后對選群中的所有單位全部實施調查。(只需要群的抽樣框,不需要總體的,簡化工作量。調查地點相對集中,方便調查;誤差較大。群間差異小,群內總體單位差異大。)4) 系統(tǒng)抽樣:(需要一個完整的抽樣框)將總體中的所有單位排序,然后在規(guī)定范圍內隨機抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其他樣本。(操作簡便、提高精度;對估計

5、量方差的估計難以確定。)5) 多階段抽樣:首先抽取群,然后進一步抽樣,從選取的群中抽取若干單位,(然后進一步抽樣)作為最終抽樣單位。群是初級抽樣單位(每增加一個階段就會增添一份誤差)。(保證樣本的相對集中、不需要包含所有低階段抽樣單位的抽樣框、實行再抽樣,使調查單位在更廣的范圍內展開。) 非概率抽樣(非隨機抽樣)1) 方便抽樣:調查員依據方便的原則自行確定入抽樣本的單位。(容易實施、成本低;無法代表有明確定義的總體)例如:在街頭發(fā)調查問卷2) 判斷樣本:研究人員根據自己的判斷和經驗確定入抽樣本。根據不同目的分為重點抽樣(EG.全國鋼鐵企業(yè)生產狀況,抽取寶鋼和鞍鋼)、典型抽樣(EG.研究青山年犯

6、罪的問題,抽取典型犯人)、代表抽樣(EG.奶粉企業(yè)欲了解消費者對奶粉成分的需求,抽取一些年輕的母親入樣)。(判斷抽樣是主觀的,成本低、易操作;樣本沒有隨機的原則,所以調查結果不能用于對總體有關的參數進行估計。)3) 自愿樣本:被調查者自愿參加成為樣本中的一份子,向調查人員提供有關信息。(EG.網上的調查問卷)(自愿樣本與抽樣的隨機性無關,樣本的組成集中于某一特定的人群,可以反映某一群體的看法。)4) 滾雪球抽樣:(用于對稀少群體的抽樣)先選擇一組調查單位,對其實施調查之后再請他們提供另外一些屬于研究總體的調查對象,調查人員根據所提供的線索,進行此后的調查。(EG.對冬泳愛好者進行調查)(屬于非

7、概率抽樣,容易找到那些屬于特定群體的被調查者,成本低。適于對特定群體進行研究的資料收集。)5) 配額抽樣:將總體中的所有單位按照一定變量分為若干類,然后在每一類中采取方便抽樣或者判斷抽樣選取樣本。(操作簡單、可以保證總體中不同類別的單位都包括在所抽樣本中,使得樣本的結構與總體結構類似;但是在抽取具體樣本的時候不是依據隨機原則,所以屬于非概率抽樣。)6.抽樣誤差與非抽樣誤差(如何減少誤差) 抽樣誤差:由抽樣中的隨機性引起的所有樣本可能的結果與總體真值之間的(平均差異)誤差。只存在于概率抽樣中 減少抽樣誤差的方法(不可避免):增大樣本量、減小總體的變異性(總體各單位之間的差異)。 非抽樣誤差:由于

8、其他原因引起的樣本觀察結果與總體真值之間的差異。存在于概率抽樣與非概率抽樣中 減少非抽樣誤差的方法: 抽樣框誤差:構造一個好的抽樣框(去掉不屬于總體的因素) 回答誤差:調查者在接受調查時給出的回答與真實情況不符(理解誤差、記憶誤差、有意識誤差、無回答誤差) 調查員誤差:粗心導致記錄調查結果的時候出現錯誤、進行調查時候對被調查者的誘導 測量誤差:測量工具的好壞、商場客流量調查時,查點顧客數的誤差。7.數據分組如何分 數據分組:是為了觀察數據的分布特征而將原始數據按照某種標準分成不同的組別,分組后的數據稱為分組數據。 分組步驟:確定組數;確定各組組距;根據分組整理成頻數分布表。 *“上組限不在內”

9、:第一組140150、第二組150160,150歸在第二組。左連續(xù)。 *數據要做到“不重(重復)不漏(遺漏)”*連續(xù)型直方圖的柱形要連在一起,而離散性的柱形應要分開。8.眾數、中位數、平均數、集中趨勢 集中趨勢:指一組數據向某一中心值靠攏的程度,反映一組數據中心點的位置所在。 眾數:不受極端值的影響。測度分類數據的集中趨勢。只有在數據量大的情況下,眾數才有意義。(一組數據分布的最高峰值。不唯一性。) 中位數:不受極端值的影響。測度順序數據、數值型數據的集中趨勢,不適用于分類數據。(一組數據中間位置上的值。當一組數據的偏斜程度較大時,中位數可以被選擇。) 平均數:受極端值影響。一組數據的均衡點所

10、在。只適用于數值型數據。(全部數據的算術平均。)1) 簡單平均數:未分組的數據的平均數。2) 加權平均數:分組后根據分組數據計算的平均數。各組組中值與頻數(各組中總體單位的個數)的乘積之和除以各組頻數之和(樣本量)。*對于偏態(tài)分布的數據,最好選用眾數或者中位數,平均數的代表性較差。9.異眾比率、四分位差、方差、標準差、離散系數 異眾比率:指非眾數組的頻數占總頻數的比例。用于衡量眾數對一組數據的代表程度。異眾比率越大,眾數的代表性越小。主要適用于測度分類數據的離散程度,對于順序數據與數值型數據可以計算異眾比率。 四分位差:上四分位數與下四分位數之差。反映了中間50%數據的離散程度,數值越小,說明

11、數據越集中。不受極值影響。主要用于測順序數據的離散程度,數值型數據也可以計算四分位差,但是不適用于分類數據。 方差:各變量值與其平均數離差平方的平均數。反映數據的離散程度??傮w的自由度為N,樣本的自由度為n-1. 標準差:方差的平方根。 離散系數:一組數據的標準差與其相應的平均數之比。用于比較不同樣本數據的離散程度。離散系數大就說明數據的離散程度也大。10.經驗法則:當一組數據對稱分布時,經驗法則表明: 約有68%的數據在平均數1個標準差的范圍之內; 約有95%的數據在平均數2個標準差的范圍之內; 約有99%的數據在平均數3個標準差的范圍之內。11.偏態(tài)與峰態(tài),作用、與正態(tài)分布的比較。 偏態(tài):

12、數據是對稱的,偏態(tài)系數為0 峰態(tài):數據服從標準正態(tài)分布,峰態(tài)系數為0。與標準正態(tài)分布相比更平坦則為平峰分布,更陡峭則為尖峰分布。12.假設怎樣提出(計算+小題)先確定備擇假設(我們想要的答案),然后將其對立面設為原假設。等號在原假設里(即含有=、的基本就是原假設了)。13.兩類錯誤 錯誤(棄真錯誤):原假設是真的卻被我們拒絕了。小概率事件發(fā)生。 錯誤(取偽錯誤):原假設為偽我們卻沒有拒絕。小概率事件沒有發(fā)生。*與方差正相關、與|0|、負相關。我們可以控制錯誤的大小,卻不能。14.假設檢驗的流程、方法(反證法)P186提出原假設與備擇假設;確定適當的檢驗統(tǒng)計量,并計算其數值;進行統(tǒng)計決策。15.

13、抽樣分布的基礎:小概率原理 小概率原理:小概率事件在一次試驗中幾乎不會發(fā)生。(小概率的標準與顯著性水平有關)16.、拒絕域、顯著性水平 拒絕域:落在拒絕域則拒絕原假設;落在置信區(qū)間則不拒絕原假設。 顯著性水平:當原假設正確時卻被拒絕的概率或者風險。其實就是犯棄真錯誤的概率。 *越大,拒絕域越大,但是反推把握性越小;越小,拒絕域越小,反推把握大。所以越小越好。17.三個問題 Q:為什么不能說“接受原假設”?A:因為我們所做的試驗中小概率事件沒有發(fā)生,但可能還有許多其他的與原假設矛盾的小概率事件,我們也無法證明這些小概率事件不會發(fā)生,所以我們只能根據我們得出的結果來判定不拒絕。 Q:為什么等號總是

14、放在原假設中?A:因為原假設的內容總是表示參數沒有差異或沒有改變,或變量間沒有關系等。這里首先要有一個(假想)抽樣分布的概念。你構造檢驗統(tǒng)計量時(以z分布為例),總得有個假想的中心值吧。這個中心值從哪里來?就得從原假設中來,然后再去計算,在原假設為真的前提條件下,出現觀測值(及更極端值)的機會是多少。沒有這個假設值,整個假設檢驗就無法進行。把等于號放在原假設的第一個作用,就是為了給出這個假想的中心值,以便確立一個假想的抽樣分布。 Q:為什么單側檢驗的原假設可以寫成“原假設H0:=0”?A:“代表最壞情況”的問題。假設你的假設是:H0: u=10; H1: u =10; H1: u 10的原假設

15、;反之不然。18.P值(計算得出的真實顯著性水平)是什么? P值:當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。(如果P很小而出現了,根據小概率原理,我們就有理由拒絕原假設;P越小,拒絕原假設的理由就越充分) P值的大小取決于:樣本數據與原假設之間的差異;樣本量;被假設參數的總體分布。19.單側檢驗與雙側檢驗 單側檢驗:1個拒絕域,1個臨界值,每個拒絕域的面積為.如果原假設為“H0:/0”則為單側檢驗。 雙側檢驗:兩個拒絕域,兩個臨界值,每個拒絕域的面積為/2.如果原假設為“H0:=0”則為雙側檢驗。20.獨立樣本與配對樣本的T檢驗 獨立樣本:指我們得到的樣本總體之間是相互獨立的,

16、比如我們要研究一個地區(qū)百姓的生活水平,要同時考察家庭的子女數x,父母的教育水平y(tǒng)。 配對樣本:指我們得到的樣本總體之間是存在相關關系的,比如我們要研究藥效y與藥物用量x的關系,則(x,y)配對樣本. (配對樣本實質上起到了控制觀測變量影響因素的作用,可以得到更加準確的推斷結果)21.相關關系、相關系數的特點、含義、計算方法 相關關系:大體上表現為線性相關(變量之間的關系相近地表現為一條直線)、非線性相關(變量之間的關系表現為一條曲線)、完全相關(一個變量的取值完全依賴于另一個變量,每個觀測點精確地落在一條直線上,即函數關系)、不相關(觀測點很分散,無任何規(guī)律,即沒有相關關系)。 相關系數:(總

17、體相關系數為,樣本相關系數為r)a. 含義:根據樣本數據計算的度量兩個變量之間線性關系強度的統(tǒng)計量。b. 特點:取值范圍-1,1,相關系數的絕對值越趨近于1表明關系越密切,趨近于0表明關系越不密切;等于1則是完全正相關,等于-1則是完全負相關。相關系數為0不代表x,y不相關,只是不線性相關而已!相關系數有對稱性,rxy=ryx。相關系數的大小與x,y的原點及尺度無關。相關系數表示x,y之間線性關系的度量,不意味著x,y一定有因果關系,且不能用于描述非線性關系。c. 算法:=cov(x,y)/(D(X)D(Y))22.相關關系的顯著性檢驗,結果會判斷,能推出H0與H1 P27023.什么是自變量

18、與應變量 自變量:X 用來預測或解釋因變量的一個或多個變量。 應變量:Y 被預測或被解釋的變量。24.相關關系分析與線性回歸分析的區(qū)別 相關關系:只能得出相關系數的大小,得知x,y是正/負相關。 線性回歸:能計算出具體的變量之間的關系,即x變化一單位時,y相應變化多少。25.一元線性回歸方程的估計:最小二乘法(怎么做的) 最小二乘法思路:找一條線來擬合,用于更好地反映x與y之間的關系。實際值(真實的點)估計值(擬合后線上的點對應的值)=殘差,令殘差最小,因為有正負之分,所以加上平方。即令所有殘差的平方和最小。26.對回歸表格的解讀 Ad(R2)表示所有x共同解釋了多少y的變動。 f檢驗(一下子

19、檢驗但是不知道究竟是哪個x不為0)(檢驗x,y之間的線性關系是否顯著),原假設所有的變量系數都等于0,備擇假設是至少有一個不為0。 寫出公式根據表中的數據可以寫出y關于x的擬合函數。 進行t檢驗(x逐個檢驗)(檢驗xi對y的影響是否顯著),原假設xi的系數為0,備擇假設xi的系數不為0。看p值是不是比0.01小,看是不是比0.05小,比0.1小,判斷是否拒絕愿假設。(當自變量只有一個時,F檢驗與t檢驗的原假設和備擇假設是一樣的,但是意義即檢驗目的依舊不同)27.時間序列的構成、要素、增長率、平均增長率(幾何平均法)怎么算? 時間序列:在不同時間上的相繼觀察值排列而成的序列。有平穩(wěn)序列(波動是隨

20、機的)和非平穩(wěn)序列(包含趨勢、季節(jié)性、周期性的序列,可以分為有趨勢的序列、有趨勢和季節(jié)性的序列、幾種成分混合的復合型序列) 構成要素:時間(時期數據EG.人口變化量、時點數據EG.人口總量)、統(tǒng)計指標值(絕對值總EG. 總人口、平均值復合指標EG.平均GDP、相對值復合指標EG. 燃煤占總燃料的百分比) 增長率:是時間序列中報告期觀察值與基期觀察值之比減1后的結果。a. 環(huán)比增長率:報告期觀察值與前一時期觀察值之比減1b. 定基增長率:報告期觀察值與某一固定時期觀察值之比減1 平均增長率:時間序列中逐期環(huán)比值的幾何平均數減1后的結果。28.移動平均法,移動幾項? P333*奇數移一次,偶數移兩

21、次;移動次數與季節(jié)性周期性相符 移動平均法:通過對時間序列逐期遞移求得平均數作為預測值。 簡單移動平均法:將最近k期的數據加以平均,作為第k+1期的預測值。只使用最近k期的數據,在每次計算移動平均時,移動間隔都為k。適用于對較為平穩(wěn)的時間序列進行預測。29.線性趨勢預測指現象隨著時間的推移而呈現出穩(wěn)定增長或下降的線性變化。當現象的發(fā)展按線性趨勢變化時,可以用線性趨勢方程來描述。而方程中的斜率和截距可以用最小二乘法來確定。通過趨勢方程可以計算出各期的預測值,并通過預測值來分析序列的變化趨勢以及模型。趨勢預測的誤差可以用線性回歸中的估計標準誤差來衡量。30.季節(jié)指數如何計算(計算步驟、計算移動平均

22、值)P344 季節(jié)指數:刻畫了序列在一個年度內各月或各季度的典型季節(jié)特征。 計算步驟:計算移動平均值;計算移動平均的比值,也稱季節(jié)比率;季節(jié)指數調整。31.指數概念、分類、作用 指數含義:用于測定多個項目在不同場合下綜合變動的一種特殊相對數。 指數分類:a. 按內容分:數量指數、質量指數b. 按項目多少分:個體指數、總體指數c. 按表現形式分:綜合指數、平均指數d. 按采用基期分:定基指數、環(huán)比指數 指數作用a. 綜合分析事物變動方向和程度b. 分析多因素影響現象的總變動中,各個因素的影響大小和影響程度c. 研究事物在長時間內的變動趨勢31.綜合指數與平均指數 P360 先對比后綜合平均指數:

23、沒有考慮每一種物品在總體中的比重(EG.手機和水果在消費結構中的占比肯定不一樣??!兩者不能相提并論啊!要加權的嘛) 先綜合后對比綜合指數:價格的直接加總無經濟學意義,而且計量單位不同。 于是衍生了加權平均指數與加權綜合指數來免去前面兩者的缺點。 加權綜合指數與加權平均指數的異同:兩者只是計算形式上相同,但是本質還是不一樣的。如果是全面資料,應采用加權綜合指數。計算生產量指數一般屬于這種情況,因為生產量指數要包含所有產品的生產情況。如果是樣本資料,應采用加權平均指數。計算價格指數時,市場商品的項目成千上萬,只能采取選樣方法,挑選代表規(guī)格品。在這樣的情況下,若采用加權綜合指數,其結果僅僅是計算了代表規(guī)格品的價格變化。而價格指數要反應市場所有商品的價格變化,代表規(guī)格品是樣本,其中每一項都代表了一類商品,每一項代表規(guī)格品都要有自己的權數。32.拉氏指數與帕氏指數 P360 拉氏指數:a. 優(yōu)點:消除權數變動對指數的影響(以基期的變量值作為權數)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論