




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于統(tǒng)計的傳統(tǒng)數(shù)據(jù)分析技術(shù),1,目錄,統(tǒng)計學(xué)的含義 收集數(shù)據(jù) 整理與分析 描述統(tǒng)計 推斷統(tǒng)計 常用統(tǒng)計分析軟件,數(shù)學(xué)家的幽默,統(tǒng)計學(xué)家調(diào)侃數(shù)學(xué)家:你們不是說若且,則嗎!那么想必你若喜歡一個女孩,那么這個女孩喜歡的男生你也喜歡吧? 數(shù)學(xué)家反問道:那么你把左手放到一鍋一百度的開水中,右手放到一鍋零度的冰水里想來也沒事吧!因為它們平均不過是五十度而已!”,3,統(tǒng)計學(xué),統(tǒng)計學(xué)是一門收集、整理和分析數(shù)據(jù)的方法科學(xué),其目的是探索數(shù)據(jù)的內(nèi)在數(shù)量規(guī)律性,以達到對客觀事物的科學(xué)認識(不列顛百科全書),統(tǒng)計研究的基本環(huán)節(jié),5,統(tǒng)計設(shè)計,收集數(shù)據(jù),整理與分析,資料積累 開發(fā)應(yīng)用,統(tǒng)計學(xué)理論與相關(guān)實質(zhì)性學(xué)科理論,描述
2、統(tǒng)計 推斷統(tǒng)計,統(tǒng)計調(diào)查、實驗,案例,1.正常條件下新生嬰兒的性別比為107::10 2.投擲一枚均勻的硬幣,出現(xiàn)正面和反面的頻率各位1/2;投擲一枚骰子出現(xiàn)16點的頻率各位1/6 3.施肥量對農(nóng)作物的產(chǎn)量的影響,統(tǒng)計設(shè)計,根據(jù)所要研究問題的性質(zhì),在有關(guān)學(xué)科理論的指導(dǎo)下,制定統(tǒng)計指標、指標體系和統(tǒng)計分類,給出統(tǒng)一的定義、標準。同時提出收集、整理和分析數(shù)據(jù)的方案和工作進度等。 搞好統(tǒng)計設(shè)計不僅要有統(tǒng)計學(xué)的一般理論和方法為指導(dǎo),而且還要求設(shè)計者對所要研究的問題本身具有深刻的認識和相關(guān)的學(xué)科知識。,7,收集數(shù)據(jù),統(tǒng)計數(shù)據(jù)的收集有兩種基本方法。 對于大多數(shù)自然科學(xué)和工程技術(shù)研究來說,有可能通過有控制的
3、科學(xué)實驗去取得數(shù)據(jù),這時可以采用實驗法。 對于社會經(jīng)濟現(xiàn)象來說,一般無法進行重復(fù)實驗,要取得有關(guān)數(shù)據(jù)就必須進行調(diào)查觀察。 海量數(shù)據(jù)的積累!,8,整理與分析,描述統(tǒng)計是指對采集的數(shù)據(jù)進行登記、審核、整理、歸類,在此基礎(chǔ)上進一步計算出各種能反映總體數(shù)量特征的綜合指標,并用圖表的形式表示經(jīng)過歸納分析而得到的各種有用的統(tǒng)計信息。 推斷統(tǒng)計是在對樣本數(shù)據(jù)進行描述的基礎(chǔ)上,利用一定的方法根據(jù)樣本數(shù)據(jù)去估計或檢驗總體的數(shù)量特征。推斷統(tǒng)計是現(xiàn)代統(tǒng)計學(xué)的主要內(nèi)容。,9,統(tǒng)計資料的積累、開發(fā)與應(yīng)用,對于已經(jīng)公布的統(tǒng)計資料需要加以積累,同時還可以進行進一步的加工,結(jié)合相關(guān)的實質(zhì)性學(xué)科的理論知識去進行分析和利用。 如
4、何更好地將統(tǒng)計數(shù)據(jù)和統(tǒng)計方法應(yīng)用于各自的研究領(lǐng)域是應(yīng)用統(tǒng)計學(xué)研究的一個重要方面。,10,數(shù)學(xué)與統(tǒng)計學(xué)的聯(lián)系,數(shù)學(xué)與統(tǒng)計學(xué)都是研究數(shù)量規(guī)律的,都要利用各種公式進行運算。 數(shù)學(xué)中的概率論,為統(tǒng)計學(xué)提供了數(shù)量分析的理論基礎(chǔ)。統(tǒng)計學(xué)中的理論統(tǒng)計學(xué)以抽象的數(shù)量為研究對象,其大部分內(nèi)容也可以看作是數(shù)學(xué)的分支。,11,統(tǒng)計學(xué)與數(shù)學(xué)的區(qū)別,從研究對象看,數(shù)學(xué)以最一般的形式研究數(shù)量的聯(lián)系和空間形式。統(tǒng)計學(xué)特別是應(yīng)用統(tǒng)計學(xué)則總是與客觀的對象聯(lián)系在一起的。 從研究方法看,數(shù)學(xué)主要是邏輯推理和演繹論證的方法。而統(tǒng)計本質(zhì)上是歸納的方法。統(tǒng)計學(xué)家特別是應(yīng)用統(tǒng)計學(xué)家需要深入實際,進行調(diào)查或?qū)嶒炄ト〉脭?shù)據(jù),研究時不僅要運用統(tǒng)
5、計的方法,而且還要掌握某一專門領(lǐng)域的知識。,12,收集數(shù)據(jù),數(shù)據(jù)來源,直接來源:第一手資料 統(tǒng)計調(diào)查(普查、抽樣調(diào)查) 統(tǒng)計實驗(實驗設(shè)計) 間接來源:第二手資料 企業(yè)業(yè)務(wù)數(shù)據(jù)與客戶數(shù)據(jù) 政府部門統(tǒng)計數(shù)據(jù)(例如統(tǒng)計局) 商務(wù)數(shù)據(jù)服務(wù)公司 萬維網(wǎng)上的相關(guān)數(shù)據(jù)(WWW),14,總體和樣本,總體:又稱母體,指所要研究對象的全體,由許多客觀存在的具有某種共同性質(zhì)的單位構(gòu)成??傮w單位數(shù)用 N 表示。 樣本:又稱子樣,來自總體,是從總體中按隨機原則抽選出來的部分,由抽選的單位構(gòu)成。樣本單位數(shù)(容量)用 n 表示。 總體是唯一的、確定的,而樣本是不確定的、可變的、隨機的。,15,總體參數(shù)和樣本統(tǒng)計量,總體參
6、數(shù):反映總體數(shù)量特征的指標。其數(shù)值是唯一的、確定的。 樣本統(tǒng)計量:根據(jù)樣本分布計算的指標,是隨機變量。,16,數(shù)據(jù)的類型,橫截面數(shù)據(jù)又稱為靜態(tài)數(shù)據(jù),它是指在同一時間對同一總體內(nèi)不同單位的數(shù)量進行觀察而獲得的數(shù)據(jù)。 時間序列數(shù)據(jù)又稱為動態(tài)數(shù)據(jù),它是指在不同時間對同一總體的數(shù)量表現(xiàn)進行觀察而獲得的數(shù)據(jù)。 例如,2008年全國各省市自治區(qū)的國內(nèi)生產(chǎn)總值就屬于橫截面數(shù)據(jù)。而“十一五”期間我國歷年的國內(nèi)生產(chǎn)總值就屬于時間序列數(shù)據(jù)。 面板數(shù)據(jù):橫截面數(shù)據(jù)與時間序列數(shù)據(jù)交織在一起。 非結(jié)構(gòu)化數(shù)據(jù),17,面板數(shù)據(jù),所謂“面板數(shù)據(jù)”也稱為“平行數(shù)據(jù)”,是指對不同時刻的截面?zhèn)€體作連續(xù)觀測所得到的多維時間序列數(shù)據(jù)。
7、 例如,在研究生產(chǎn)成本與企業(yè)規(guī)模和技術(shù)進步的關(guān)系時,選擇不同規(guī)模企業(yè)在不同時間上的數(shù)據(jù)作為樣本觀測值,這些觀測值數(shù)據(jù)就是面板數(shù)據(jù)。,18,非結(jié)構(gòu)化數(shù)據(jù),相對于結(jié)構(gòu)化數(shù)據(jù)(即存儲在數(shù)據(jù)庫中,可以用二維表結(jié)構(gòu)來邏輯表達的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù)。 包括所有格式的辦公文檔、文本、圖片、各類報表、圖像和音頻/視頻信息等等。 據(jù)調(diào)查,現(xiàn)在人們所使用的數(shù)據(jù)有 80% 是非結(jié)構(gòu)化的,而非結(jié)構(gòu)化的數(shù)據(jù)又往往同結(jié)構(gòu)化的數(shù)據(jù)結(jié)合在一起。,19,整理與分析,20,統(tǒng)計數(shù)據(jù)分析方法,描述統(tǒng)計 推斷統(tǒng)計 常用統(tǒng)計分析軟件,21,統(tǒng)計數(shù)據(jù)分析方法,統(tǒng)計學(xué)探索客觀現(xiàn)象數(shù)量規(guī)律性的過程,
8、22,反映客觀現(xiàn)象的統(tǒng)計數(shù)據(jù),描述統(tǒng)計學(xué) (統(tǒng)計數(shù)據(jù)的收集、整理、顯示和分析),推斷統(tǒng)計學(xué) (利用樣本信息和概率論對總體數(shù)量特征進行估計并檢驗),概率論(分布理論、大數(shù)定律、中心極限定理),總體內(nèi)在的數(shù)量規(guī)律,描述統(tǒng)計的作用,對事物的全局認識和大局把握 描述粗略分布形狀 描述現(xiàn)象基本特征和基本框架,23,描述統(tǒng)計,數(shù)據(jù)整理 集中趨勢和離中趨勢 相關(guān)分析,24,數(shù)據(jù)整理,數(shù)據(jù)分組 統(tǒng)計指標 統(tǒng)計表和統(tǒng)計圖,按照研究的目的,將搜集到的原始數(shù)據(jù)進行加工,從中提取有用的信息,并搜索其中的數(shù)量規(guī)律性。,數(shù)據(jù)分組,統(tǒng)計數(shù)據(jù)的分組,26,分組是將總體所有單位按一定的標準區(qū)分為若干部分,分組的目的:概括數(shù)據(jù),
9、清晰條理,如何分組?,27,將具有共性的個體歸入同一組,將總體內(nèi)部個體間的差異通過組別區(qū)分開來,統(tǒng)計數(shù)據(jù)的分組,空間數(shù)列是按不同地區(qū)標志進行的分組。例如人口按省、市、自治區(qū)分組; 品質(zhì)數(shù)列是按現(xiàn)象的性質(zhì)、類別標志進行的分組。例如人口按性別和民族分組; 時間數(shù)列按時間發(fā)生的先后順序分組。例如我國解放后各年的人口數(shù)字;GDP 變量數(shù)列是按某一數(shù)量標志大小順序進行的分組。例如某企業(yè)按工資收入的多少分組;,28,次數(shù)分配,29,數(shù)據(jù)觀察值在各組中的個數(shù)稱為次數(shù),各組間的次數(shù)稱為次數(shù)分配。次數(shù)分配描述了總體的結(jié)構(gòu)和特征。 例如:某企業(yè)非熟練工人的月工資額(百元)數(shù)據(jù)如下表所示,應(yīng)如何分組?,30,變量次
10、數(shù)分配的編制,1、將原始資料順序排序 2、確定組數(shù)與組距 3、將各個數(shù)據(jù)按其數(shù)值大小歸入相應(yīng)的組內(nèi) 4、確定組限,31,確定組數(shù)與組距,如果數(shù)據(jù)分布比較均勻、對稱,即中間數(shù)值次數(shù)多,大小極端值次數(shù)少,考慮用以下公式來確定組數(shù): Sturges 提出的經(jīng)驗公式 組數(shù)1+3.322log n。式中, n 表示總次數(shù), log 表示以10為底的對數(shù)。 在不等距分組情況下,要比較各組次數(shù)或分析總體結(jié)構(gòu),要消除由組距不等造成的影響。為此需計算單位組距的次數(shù),即頻數(shù)密度。 組距(觀察值中的最大數(shù)值觀察值中的最小數(shù)值)/組數(shù),32,分組計算,組數(shù)1+3.322log n =5.9(n=30) 分6組 組距:
11、每組區(qū)間的寬度 (觀察值中的最大數(shù)值 觀察值中的最小數(shù)值)/組數(shù) =(128-84)/6=7.3,33,分6組,組距7,84,85,87,91,91,94,95, 96,97,99,101,101,103,103 計算不方便,34,結(jié)合實際數(shù)據(jù),比較計算組距值(7.3),組距為10比較好計算且方便, 分組的組數(shù)相應(yīng)從6減少為5。最小值為83,下限從80開始,,35,按5組,10元作為組距,計算次數(shù)。,組限:區(qū)間界限 80-89 求次數(shù)分配表和直方圖,36,次數(shù)分配表,37,作圖,38,用excel作直方圖,39,分組數(shù)據(jù)的圖示(直方圖的繪制),40,某電腦公司銷售量分布的直方圖,我一眼就看出來
12、了,銷售量在170180之間的天數(shù)最多!,銷售量(臺),次數(shù)曲線,用直線線段連接直方圖各組條形頂端中值,形成一條平滑的曲線,即次數(shù)曲線。 常見的四種次數(shù)曲線:正態(tài)分布曲線,偏態(tài)曲線,J形曲線和U形曲線。,41,正態(tài)分布曲線,偏態(tài)曲線,J形曲線,U形曲線,正偏(右偏),負偏(左偏),累計次數(shù)分布,42,統(tǒng)計表和統(tǒng)計圖,一個完整的統(tǒng)計表要求有:表號、表名、分組標志或說明、指標名稱及數(shù)值; 統(tǒng)計圖有條形圖、線形圖、圓餅圖、立體圖、枝葉圖等;,43,示例數(shù)據(jù),44,線形圖(Line graph),45,(億元),條形圖 (Bar chart),46,(億元),圓餅圖 (Pie chart),47,環(huán)形
13、圖(doughnut chart),環(huán)形圖中間有一個“空洞”,樣本或總體中的每一部分數(shù)據(jù)用環(huán)中的一段表示 與餅圖類似,但又有區(qū)別 餅圖只能顯示一個總體各部分所占的比例 環(huán)形圖則可以同時繪制多個樣本或總體的數(shù)據(jù)系列,每一個樣本或總體的數(shù)據(jù)系列為一個環(huán) 用于結(jié)構(gòu)比較研究 用于展示分類和順序數(shù)據(jù),48,環(huán)形圖,49,多變量數(shù)據(jù)雷達圖(radar chart),也稱為蜘蛛圖(spider chart) 顯示多個變量的圖示方法 在顯示或?qū)Ρ雀髯兞康臄?shù)值總和時十分有用 假定各變量的取值具有相同的正負號,總的絕對值與圖形所圍成的區(qū)域成正比 可用于研究多個樣本之間的相似程度,50,多變量數(shù)據(jù)雷達圖(雷達圖的制
14、作), 設(shè)有n組樣本S1,S2, , Sn,每個樣本測得P個變量X1,X2 , , XP,要繪制這P個變量的雷達圖,其具體做法是,51,先做一個圓,然后將圓P等分,得到P個點,令這P個點分別對應(yīng)P個變量,在將這P個點與圓心連線,得到P個輻射狀的半徑,這P個半徑分別作為P個變量的坐標軸,每個變量值的大小由半徑上的點到圓心的距離表示 將同一樣本的值在P個坐標上的點連線。這樣,n個樣本形成的n個多邊形就是一個雷達圖,多變量數(shù)據(jù)雷達圖 (例題分析),52,【例】2003年我國城鄉(xiāng)居民家庭平均每人各項生活消費支出構(gòu)成數(shù)據(jù)如表。試繪制雷達圖,多變量數(shù)據(jù)雷達圖 (例題分析),53,54,散點圖(Scatte
15、r Diagram),55,集中趨勢和離中趨勢,集中趨勢的計量 離中趨勢的計量 偏斜度和峰度的計量,56,次數(shù)分配后有兩個特征,集中趨勢的計量。 集中趨勢反映一組數(shù)據(jù)中各數(shù)據(jù)所 具有的共同趨勢,即資料中各數(shù)據(jù) 聚集的位置 離中(離散)趨勢的計量,57,算術(shù)平均值,簡單算術(shù)平均數(shù)計算公式: 它反映數(shù)據(jù)集中的主要測度。,58,加權(quán)算數(shù)平均數(shù),59,算數(shù)平均值的好性質(zhì)一,數(shù)據(jù)觀察值與均值的離差值之和為零 此性質(zhì)表明均值是個數(shù)值的重心,60,算數(shù)平均值的好性質(zhì)二,觀察值與均值的離差平方和最小, 為任意數(shù)。,61,均值的缺點,均值易受極端值的影響,某個極端大值或極端小值都會影響均值的代表性。同時還影響其
16、對集中趨勢測度的準確性,62,中位數(shù),63,將數(shù)據(jù)觀察值 按其變量值由小到大的順序排序為 如果個數(shù)為奇數(shù),中位數(shù)所在位置 位置上的數(shù)值為成為中位數(shù); 用 表示中位數(shù),,6 , 7, 8, 9,12,15,18,舉例,1987年美國家庭收入中位數(shù)大約是30800美元。收入直方圖有一個長的右尾部,且平均數(shù)較高一些,為37000美元。在處理長尾的分布時,統(tǒng)計學(xué)家常常使用中位數(shù)而不用平均數(shù),理由在于在某些情況下,平均數(shù)過多地注意了分布的極端尾部的小百分比的事例。,64,眾 數(shù),眾數(shù)是一組資料中出現(xiàn)此書最多的那個數(shù)值,也反映數(shù)據(jù)集中的程度。 20,15, 18,20,20,22,20,23 20,20,
17、15,19, 19, 20,19,25 10,11,13,16,15,25 ,8,12,65,66,對稱分布平均數(shù)與中位數(shù)相同,眾數(shù),平均數(shù),中位數(shù),67,均值是數(shù)據(jù)分布的平衡點或重心,中位數(shù)把這個分布劃分為兩半 眾數(shù)正好是分布的頂端,68,長左尾部負偏態(tài)左偏態(tài),平均數(shù)小于中位數(shù),幾何均值,凡是變量值乘積等于總比率或總速度的現(xiàn)象都可以用幾何平均數(shù)來計算平均率或平均速度。 主要用于指數(shù)和平均發(fā)展速度的計算,用 表示,公式為:,69,表示變異(離散)程度的特征數(shù),70,離散程度的測度,離散程度的測度的主要方法是:極差和方差 極差 極差也稱為全距,是一組數(shù)據(jù)的最大值和最小值的差:,71,例如:天氣預(yù)
18、報,方差,方差是觀察值與其均值離差平方和的均值,又有總體方差和樣本方差之分;,72,標準差,標準差是方差的正平方根,73,總體標準差,樣本標準差,數(shù)據(jù)分布特征和描述統(tǒng)計量,74,因變量(Y)與自變量(X)之間的關(guān)系,75,根據(jù)因變量與自變量之間的關(guān)系不同,可以分為兩種類型:,函數(shù)關(guān)系,統(tǒng)計關(guān)系,變量之間的關(guān)系,76,函數(shù)關(guān)系:變量之間依一定的函數(shù)形成的一一對應(yīng)關(guān)系,若兩個變量分別記做Y與X,則當Y與X之間存在函數(shù)關(guān)系時,X值一旦被指定,Y值就是唯一確定的。,函數(shù)關(guān)系,77, 函數(shù)關(guān)系的例子 某種商品的銷售額(y)與銷售量(x)之間的關(guān)系可表示為 y = p x (p 為單價) 圓的面積(S)與
19、半徑之間的關(guān)系可表示為S = r2 企業(yè)的原材料消耗額(y)與產(chǎn)量(x1) 、單位產(chǎn)量消耗(x2) 、原材料價格(x3)之間的關(guān)系可表示為y = x1 x2 x3,變量之間的關(guān)系,78,統(tǒng)計關(guān)系:兩個變量之間存在某種關(guān)系,但變量Y并不是由變量X唯一確定的,它們之間沒有嚴格的一一對應(yīng)關(guān)系。兩個變量間的這種關(guān)系就是統(tǒng)計關(guān)系,亦稱相關(guān)關(guān)系。兩個變量之間若存在線性關(guān)系稱為線性相關(guān),存在非線性關(guān)系稱為曲線相關(guān),通常通過適當?shù)淖兞孔儞Q,曲線相關(guān)可轉(zhuǎn)換為線性相關(guān)。,相關(guān)關(guān)系,79, 相關(guān)關(guān)系的例子 商品的消費量(y)與居民收入(x)之間的關(guān)系 商品的消費量(y)與物價(x)之間的關(guān)系 商品銷售額(y)與廣告
20、費支出(x)之間的關(guān)系 糧食畝產(chǎn)量(y)與施肥量(x1) 、降雨量(x2) 、溫度(x3)之間的關(guān)系 收入水平(y)與受教育程度(x)之間的關(guān)系 父親身高(y)與子女身高(x)之間的關(guān)系,總體相關(guān)系數(shù),80,樣本相關(guān)系數(shù),81,樣本相關(guān)系數(shù),82,樣本相關(guān)系數(shù),83,相關(guān)關(guān)系的測度(相關(guān)系數(shù)取值及其意義),84,r,相關(guān)性的可視化,85,Scatter plots showing the similarity from 1 to 1.,86,示例,為研究股票收益與風險之間的關(guān)系,抽選了美國15種股票,計算它們在19561980年間的平均收益率和標準差如表(美國15種股票平均收益率與標準差),試
21、計算收益率與風險之間的相關(guān)系數(shù)。,計算結(jié)果為:r0.6376,說明了平均收益越大風險也越大。,推斷統(tǒng)計,87,參數(shù)估計,假設(shè)檢驗,方差分析,回歸分析,時間序列分析,推 斷 性 統(tǒng) 計 學(xué),相關(guān)分析與回歸分析,88,相關(guān)分析,就是用一個指標來表明現(xiàn)象間相互依存關(guān)系的密切程度。廣義的相關(guān)分析包括相關(guān)關(guān)系的分析(狹義的相關(guān)分析)和回歸分析。,回歸分析,是指對具有相關(guān)關(guān)系的現(xiàn)象,根據(jù)其相關(guān)關(guān)系的具體形態(tài),選擇一個合適的數(shù)學(xué)模型(稱為回歸方程式),用來近似地表達變量間的平均變化關(guān)系的一種統(tǒng)計分析方法。,回歸模型的類型,89,一個自變量,兩個以上自變量,回歸模型,多元回歸,一元回歸,線性回歸,非線性回歸,
22、線性回歸,非線性回歸,一元線性回歸模型,統(tǒng)計關(guān)系的特征,90,統(tǒng)計關(guān)系 特征,觀測點散布在統(tǒng)計關(guān)系直線的周圍,此種情況說明Y的變化除了受自變量X影響以外,還受其他因素的影響。,因此試圖建立這樣一個回歸模型,通過對此模型 所作的一些假設(shè),可以體現(xiàn)出上述統(tǒng)計關(guān)系所刻劃的特征。,因變量Y隨自變量X有規(guī)律的變化,而統(tǒng)計關(guān)系直線描述了這一變化的趨勢。,一元線性回歸模型假設(shè),根據(jù)統(tǒng)計關(guān)系特征,可以進行下述假設(shè):,91,假設(shè),(2)這些Y的概率分布的均值, 有規(guī)律的隨X變化而變化,(1)對于自變量的每一水平X, 存在著Y的一個概率分布;,一元線性回歸模型,92,Y與X具有統(tǒng)計 關(guān)系而且是線性,建立 回歸模型
23、,Yi=0+1Xi+i (i=1,2,n),其中,(X i,Yj)表示(X,Y)的第i個觀測值,0 , 1為參數(shù),0+1Xi為反映統(tǒng)計關(guān)系直線的分量, i為反映在統(tǒng)計關(guān)系直線周圍散布的隨機分量 iN (0,2)。,一元線性回歸模型,對于任意Xi值有:,93, Yi服從正態(tài)分布,E(Yi)=0+1Xi;,各Yi間相互獨立 YiN(0+1Xi,2),一元線性回歸方程,94,最小二乘法,Y與X之間 為線性關(guān)系,選出一條最能反 映Y與X之間關(guān)系 規(guī)律的直線,一元線性回歸方程,95,Yi=0+1Xi+i 0和1均未知,根據(jù)樣本數(shù)據(jù) 對0和1 進行估計,0和1的估計 值為b0和b1,建立一元線性回歸方程,
24、一元線性回歸方程,96,一般而言,所求的b0和b1應(yīng)能使每個樣本觀測點(X i,Y i) 與回歸直線之間的偏差盡可能小,即使觀察值與擬 合值的誤差平方和Q達到最小。,回歸方程原理圖,一元線性回歸方程,97,令,Q達到最小值 b0和b1稱為最小二乘估計量,微積分中極值 的必要條件,令偏導(dǎo)數(shù)為0,解方程,一元線性回歸方程,98,多元線性回歸分析,多元線性回歸的基本思想是什么? 多元線性回歸的模型與一元線性回歸有什么異同? 與一元線性回歸相比,多元線性回歸的檢驗有何特殊之處?,多元線性回歸分析的定義,100,多元線性回歸分析:研究因變量(被解釋變量)與兩個或兩個以上自變量(解釋變量)之間的回歸問題,
25、稱為多元回歸分析。,線性回歸 自變量個數(shù) 大于等于2,多元 線性 回歸,多元線性回歸模型,101,若因變量與解釋變量,具有線性關(guān)系,它們之間的線性回歸模型可表示為(其中b0,b1,bk為回歸系數(shù),u為隨機擾動項 ):,多元線性回歸的基本理論,多元線性回歸模型,102,將n個觀察數(shù)據(jù)代入上述模型,則問題轉(zhuǎn)化為:,多元線性回歸的基本理論,多元線性回歸模型,103,多元線性回歸的基本理論,寫為矩陣形式:,多元線性回歸模型,104,多元線性回歸的基本理論,即:,其中,Y, u是n維向量,b是k維向量,x是mk矩陣,多元線性回歸模型,105,多元線性回歸的基本理論,基本假定:,多元線性回歸模型,106,
26、多元線性回歸的基本理論,參數(shù)的最小二乘估計,107,采用最小二乘估計回歸系數(shù)b,令:,取最小值,參數(shù)的最小二乘估計,108,Q在最小值處偏導(dǎo)數(shù)為0,得:,采用最小二乘估計回歸系數(shù)b,參數(shù)的最小二乘估計,109,采用最小二乘估計回歸系數(shù)b,整理得:,求解該聯(lián)立方程組即可得,時間序列分析,對時間序列的分析方法有哪幾種?它們分別有什么優(yōu)點和缺點? 如何進行時間序列的預(yù)測? 簡單外推模型 平滑技術(shù) 季節(jié)調(diào)整,時間序列的成分,111,一個時間序列中往往由幾種成分組成,通常假定是四種獨立的成分趨勢、循環(huán)、季節(jié)和不規(guī)則。下面我們仔細研究其中的每一種成分。,時間序列的 四種獨立成分,趨勢,循環(huán),季節(jié),不規(guī)則,
27、趨勢成分,112,在一段較長的時間內(nèi),時間序列往往呈現(xiàn)逐漸增加或減少的總體趨勢。時間序列逐漸轉(zhuǎn)變的性態(tài)稱為時間序列的趨勢。 趨勢通常是長期因素影響的結(jié)果,如人口總量的變化、方法的變化等等,趨勢成分,時間序列的 長期動向,長期 影響因素,循環(huán)成分,113,時間序列常常呈現(xiàn)環(huán)繞趨勢線上、下的波動。 任何時間間隔超過一年的,環(huán)繞趨勢線的上、下波動,都可歸結(jié)為時間序列的循環(huán)成分。,循環(huán)成分,圍繞長期趨勢線 的上下波動,季節(jié)成分,114,許多時間序列往往顯示出在一年內(nèi)有規(guī)則的運動,這通常由季節(jié)因素引起,因此稱為季節(jié)成分。,季節(jié)成分,季節(jié)因素引起的一年內(nèi) 有規(guī)則的運動,季節(jié)成分,115,例如,一個游泳池制
28、造商在秋季和冬季各月有較低的銷售活動,而在春季和夏季各月有較高的銷售量 。 鏟雪設(shè)備和防寒衣物的制造商的銷售卻正好相反。,季節(jié)成分,116,季節(jié)成分也可用來描述任何持續(xù)時間小于一年的、有規(guī)則的、重復(fù)的運動。 例如,每天的交通流量資料顯示在一天內(nèi)的“季節(jié)”情況,在上、下班擁擠時刻出現(xiàn)高峰,在一天的休息時刻和傍晚出現(xiàn)中等流量,在午夜到清晨出現(xiàn)小流量。,季節(jié)成分的擴展,不規(guī)則成分,117,時間序列的不規(guī)則成分是剩余的因素,它用來說明在分離了趨勢、循環(huán)和季節(jié)成分后,時間序列值的偏差。 不規(guī)則成分是由那些影響時間序列的短期的、不可預(yù)期的和不重復(fù)出現(xiàn)的因素引起的。它是隨機的、無法預(yù)測的。,不規(guī)則成分,短期
29、的,不可預(yù)期和 不重復(fù)出現(xiàn)的因素引 起的隨機變動,不規(guī)則成分,118,時 間 序 列,不 規(guī) 則 成 分,分離出趨勢成分,分離出循環(huán)成分,分離出季節(jié)成分,利用平滑法進行預(yù)測,119,討論三種平滑預(yù)測方法:移動平均法、加權(quán)移動平均法和指數(shù)平滑法。因為每一種方法的都是要“消除”由時間序列的不規(guī)則成分所引起的隨機波動,所以它們被稱為平滑方法。,三 種 平 滑 方 法,移動平均法,加權(quán)移動平均法,指數(shù)平滑法,利用平滑法進行預(yù)測,120,平滑方法對穩(wěn)定的時間序列即沒有明顯的趨勢、循環(huán)和季節(jié)影響的時間序列是合適的,這時平滑方法很適應(yīng)時間序列的水平變化。但當有明顯的趨勢、循環(huán)和季節(jié)變差時,平滑方法將不能很好
30、地起作用,平滑方法很容易使用,而且對近距離的預(yù)測,如下一個時期的預(yù)測,可提供較高的精度水平。,預(yù)測方法之一的指數(shù)平滑法對資料有最低的要求,平 滑 方 法,缺點,優(yōu)點,移動平均法,121,移動平均法使用時間序列中最近幾個時期數(shù)據(jù)值的平均數(shù)作為下一個時期的預(yù)測值。移動平均數(shù)的計算公式如下:,加權(quán)移動平均法,122,移 動 平 均 法,加權(quán) 移動 平均 法,計算移動平均數(shù)時每個 觀測值權(quán)數(shù)權(quán)數(shù)相同,對每期數(shù)據(jù)值選擇不同的權(quán)數(shù),然后計算 最近n個時期數(shù)值的加權(quán)平均數(shù)作為預(yù)測值,通常,最近時期的觀測值應(yīng)取得最大的 權(quán)數(shù),而比較遠的時期權(quán)數(shù)應(yīng)依次遞減,指數(shù)平滑法,123,指數(shù)平滑法,加權(quán)移動平均法,屬于,
31、只選擇一個權(quán)數(shù)(最近時期觀 測值的權(quán)數(shù)),其他時期數(shù)據(jù)值 的權(quán)數(shù)可以自動推算出來。 當觀測值離預(yù)測時期越久遠時, 權(quán)數(shù)變得越小,指數(shù)平滑法,124,指數(shù)平滑法模型:,式中Ft+1t+1期時間序列的預(yù)測值; Ytt期時間序列的實際值; Ftt期時間序列的預(yù)測值; 平滑常數(shù)(01)。,指數(shù)平滑法,125,2期的預(yù)測值:,3期預(yù)測值:,最后,將F3的表達式代入F4的表達式中,有,指數(shù)平滑法,126,因此,F(xiàn)4是前三個時間序列數(shù)值的加權(quán)平均數(shù)。Y1,Y2和Y3的系數(shù)或權(quán)數(shù)之和等于1。 由此可以得到一個結(jié)論,即任何預(yù)測值Ft+1是以前所有時間序列數(shù)值的加權(quán)平均數(shù)。,指數(shù)平滑法,127,指數(shù) 平滑法 特點
32、,指數(shù)平滑法提供的預(yù)測值是以前所有預(yù)測值的加權(quán)平均數(shù),但所有過去資料未必都需要保留,以用來計算下一個時期的預(yù)測值。,一旦選定平滑常數(shù),只需要二項的信息就可計算預(yù)測值。,對給定的,我們只要知道t期時間序列的實際值和預(yù)測值,即Yt和Ft,就可計算t+1期的預(yù)測值。,示例,某一觀察值序列最后4期的觀察值為: 5,5.5,5.8,6.2 (1)使用4期移動平均法預(yù)測 。 (2)求在二期預(yù)測值 中 前面的系數(shù)等于多少?,128,示例,(1) (2) 在二期預(yù)測值中 前面的系數(shù)等于,129,利用趨勢推測法進行預(yù)測,130,如何對擁有長期線性趨勢的時間序列進行預(yù)測。,不穩(wěn)定,隨時間 呈現(xiàn)持續(xù)增加 或減少的形
33、態(tài),長期 線性 趨勢 數(shù)列,趨勢推測法可行,平滑法不合適,利用趨勢推測法進行預(yù)測,131,例 考慮一某超市過去10年的自行車銷售量時間序列,資料見表11-1。注意,第1年銷售了21600輛,第2年銷售了22900輛,第10年(即最近一年)銷售了31400輛。盡管圖11-1顯示在過去10年中銷售量有上、下波動,但時間序列總的趨勢是增長的或向上的。,利用趨勢推測法進行預(yù)測,132,利用趨勢推測法進行預(yù)測,133,圖11-1 自行車銷售時間序列的圖形,利用趨勢推測法進行預(yù)測,134,圖11-2 用線性函數(shù)對自行車銷售量的趨勢描述,利用趨勢推測法進行預(yù)測,135,被估計的銷售量可表示為時間的函數(shù),其表
34、,達式如下:,線性趨勢方程,上式中 Ttt期時間序列的趨勢值; b0線性趨勢的截距; b1線性趨勢的斜率; t 時間。,解析,利用趨勢推測法進行預(yù)測,136,其中:,解析(續(xù)),利用趨勢推測法進行預(yù)測,137,式中 Ttt期時間序列的值; n 時期的個數(shù);,時間序列的平均值,即,t的平均值,即,=t/n。,解析(續(xù)),利用趨勢推測法進行預(yù)測,138,根據(jù)計算b0和b1的關(guān)系式及表11-1的自行車銷售量資料,我們有如下計算結(jié)果:,解析(續(xù)),利用趨勢推測法進行預(yù)測,139,因此,自行車銷售量時間序列的線性趨勢成分的 表達式為:,Tt=20.4+1.1t,解析(續(xù)),擬合澳大利亞政府1981199
35、0年每季度的消費支出序列,140,線性擬合,模型 參數(shù)估計方法 最小二乘估計 參數(shù)估計值,141,擬合效果圖,142,非線性擬合,使用場合 長期趨勢呈現(xiàn)出非線形特征 參數(shù)估計指導(dǎo)思想 能轉(zhuǎn)換成線性模型的都轉(zhuǎn)換成線性模型,用線性最小二乘法進行參數(shù)估計 實在不能轉(zhuǎn)換成線性的,就用迭代法進行參數(shù)估計,143,常用非線性模型,144,對上海證券交易所每月末上證指數(shù)序列進行模型擬合,145,非線性擬合,模型 變換 參數(shù)估計方法 線性最小二乘估計 擬合模型口徑,146,擬合效果圖,147,利用趨勢和季節(jié)成分進行預(yù)測,148,前面我們已經(jīng)介紹了如何對有趨勢成分的時間序列 進行預(yù)測。本節(jié)我們將把這種討論擴展到對同時擁有趨 勢和季節(jié)成分的時間序列進行預(yù)測的情形。,利用趨勢和季節(jié)成分進行預(yù)測,149,商業(yè)和經(jīng)濟中的許多情形是一期與一期的比較。 例如,我們想研究和了解失業(yè)人數(shù)是否比上個月上升1%,鋼產(chǎn)量是否比上個月上升5%等問題。在使用這些資料時,必須十分小心。因為每當描述季節(jié)影響時,這樣的比較會使人產(chǎn)生誤解。,利
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030中國脫胎漆器行業(yè)應(yīng)用動態(tài)與投資盈利研究報告
- 2025至2030中國胰島素樣生長因子Ⅱ行業(yè)市場占有率及投資前景評估規(guī)劃報告
- 農(nóng)業(yè)科技行業(yè)創(chuàng)新發(fā)展及投資機會研究報告
- 2025至2030中國翼式風速表行業(yè)市場占有率及投資前景評估規(guī)劃報告
- 2025至2030中國羊肚菌種植行業(yè)市場占有率及投資前景評估規(guī)劃報告
- 2025至2030中國網(wǎng)絡(luò)連接三相智能水表行業(yè)市場深度研究及發(fā)展前景投資可行性分析報告
- 2025至2030中國線束設(shè)備行業(yè)運行動態(tài)及投資前景展望報告
- 音樂課程創(chuàng)新心得體會
- 小型室內(nèi)裝飾施工流程指導(dǎo)
- 建筑工地平安家庭事跡材料范文
- 四川省眉山市東坡區(qū) 2024-2025學(xué)年七年級下學(xué)期期末道德與法治試卷(含答案)
- 少兒健康運動課件
- 應(yīng)急救援無人機系統(tǒng)應(yīng)用解析
- 2025北師大版新教材七年級上冊英語單詞表(精校打印)
- 2025至2030年中國電弧故障斷路器(AFCI)行業(yè)市場競爭態(tài)勢及產(chǎn)業(yè)前景研判報告
- 2025年安徽省中考英語試卷(含答案)
- 思想道德與法治2023年版電子版教材-1
- 物聯(lián)網(wǎng)安全風險評估-第2篇-洞察闡釋
- 上汽英飛凌無錫分公司第二代框架式功率模塊產(chǎn)品導(dǎo)入年產(chǎn)150萬片模塊項目環(huán)評資料環(huán)境影響
- 2025注冊核安全工程師考前沖刺試卷帶答案
- 國家數(shù)據(jù)局《2024年“數(shù)據(jù)要素×”項目案例集》
評論
0/150
提交評論