版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)收集和描述
第一節(jié)數(shù)據(jù)收集
第二節(jié)兩變量圖描述和量化分析
第三節(jié)多變量圖描述
第四節(jié)上機實現(xiàn)
第一節(jié)數(shù)據(jù)收集
1.1.1一手和二手?jǐn)?shù)據(jù)
一手?jǐn)?shù)據(jù)(primarydata,也叫原始數(shù)據(jù))是一些組織或個人為了某些特定的應(yīng)用或研究目的,必須自己來收集的數(shù)據(jù).二手?jǐn)?shù)據(jù)(secondary
data)是其他人收集的(對于他們來說是一手?jǐn)?shù)據(jù)),而你僅僅用它來進(jìn)行分析或進(jìn)行數(shù)據(jù)挖掘,該數(shù)據(jù)對你來說則是二手?jǐn)?shù)據(jù).常見的二手?jǐn)?shù)據(jù)包括從期刊和網(wǎng)絡(luò)上找到的,由政府、機構(gòu)、公司、組織專門收集和維護(hù)的數(shù)據(jù),比如:外匯牌價、房價、人口抽樣調(diào)查結(jié)果等數(shù)據(jù)在開展一手?jǐn)?shù)據(jù)收集前,要先調(diào)研一下是否已經(jīng)有相應(yīng)的二手?jǐn)?shù)據(jù)存在.而在使用二手?jǐn)?shù)據(jù)的過程中,要了解數(shù)據(jù)的來源及其真實和可靠程度,是否符合研究目的,以便恰當(dāng)?shù)剡M(jìn)行分析并解釋結(jié)果.試驗數(shù)據(jù)和觀測數(shù)據(jù)
試驗數(shù)據(jù)(experimental
data)中的自變量取值是可以人為改變的.比如,通過調(diào)節(jié)冶煉金屬的時間、溫度和原料配比,尋找最佳組合條件,以煉成滿足某些性能指標(biāo)的金屬材料;這類數(shù)據(jù)便于分析因果關(guān)系.實踐中,我們遇到的絕大部分二手?jǐn)?shù)據(jù)都是觀測數(shù)據(jù)(observational
data).如跟蹤觀測研究吸煙與罹患癌癥的關(guān)系等.這類數(shù)據(jù)的自變量不能隨意調(diào)節(jié),我們不能在身體健康狀況完全類似的人中隨機抽樣,強迫一部分人吸煙而另一部分不吸,之后觀測他們將來是否罹患癌癥.
第一節(jié)數(shù)據(jù)收集
1.1.2數(shù)據(jù)的度量級別和類型
名義數(shù)據(jù)(nominaldata),也叫定性數(shù)據(jù)或分類數(shù)據(jù)(categoricaldata),是最低級形式的數(shù)據(jù),我們可以對數(shù)據(jù)取值任意編號.如對婚姻狀態(tài),可以用1~4或M,S,D和O分別標(biāo)記,即是M(已婚),S(未婚),D(離婚)和O(其他)有序數(shù)據(jù)(ordinal
data)-比名義數(shù)據(jù)高一級別,數(shù)據(jù)的類別是有序的.如健康狀態(tài):1(非常健康),2(健康),3(一般),4(不健康)和5(非常不健康).
級別--從低到高包括:
區(qū)間數(shù)據(jù)(intervaldata)是有序的,而且任意兩點的距離是可以精確度量出來的.如華氏(Fahrenheit)和攝氏(Celsius)溫度.比率數(shù)據(jù)(ratiodata)有真正有意義的零點,度量級別最高.如體重、高度、距離、錢包里的錢數(shù)等等.口袋沒錢,不管是美元還是人民幣元,都是0.
第一節(jié)數(shù)據(jù)收集
數(shù)據(jù)的類型
定量數(shù)據(jù)(quantitivedata)-指可以用數(shù)字量化的數(shù)據(jù),具體地又可以分為連續(xù)型(如身高)數(shù)據(jù)和離散型(如某路口每月交通事故次數(shù))數(shù)據(jù);定性數(shù)據(jù)(qualititivedata)-指取值分類別的數(shù)據(jù),如性別為男女.定性數(shù)據(jù)可以是名義數(shù)據(jù),也可以是有序數(shù)據(jù).定量數(shù)據(jù)可以是區(qū)間數(shù)據(jù),也可以是比率數(shù)據(jù).從數(shù)據(jù)整體特點來看,數(shù)據(jù)類型還可以分為:橫截面數(shù)據(jù)(cross-sectional)是在某個固定的時間點觀測得到的一組數(shù)據(jù),如某校大學(xué)生高考入學(xué)成績;時間序列數(shù)據(jù)(timeseriesdata)和縱向數(shù)據(jù)(longitudinaldata)中,每個對象都有重復(fù)觀測,這些重復(fù)觀測可能是按某種順序的不同的時間點或不同的狀況采集的.許多社會和醫(yī)學(xué)領(lǐng)域的前瞻群組跟蹤研究(prospectivecohortstudy)和回顧群組調(diào)查研究(retrospectivecohortstudy)都在不同時間點有多次觀測值.
第一節(jié)數(shù)據(jù)收集
1.1.3數(shù)據(jù)存放格式
截面數(shù)據(jù)的存放很簡單.以用Excel進(jìn)行數(shù)據(jù)收集整理為例,-可將第一行存放變量名(variable),-從第二行開始,每一行存放一個樣品或?qū)ο蟮挠^測值,即一行數(shù)據(jù)對應(yīng)一個樣本觀測.-每個變量名所對應(yīng)的列為各樣本點的觀測值.
對于時間序列,前瞻群組跟蹤研究數(shù)據(jù)和回顧群組調(diào)查研究數(shù)據(jù),每一個觀測對象可以在幾個不同時間點有觀測值,這種數(shù)據(jù)有兩種存放方式:(1).每一個對象有幾行觀測值,常稱長表格式(longform);(2).每一個對象僅有一行觀測值,不同時間觀測點用不同的變量名,常稱短表或?qū)挶砀袷?shortform或wideform).
對于一些整合后的列聯(lián)表數(shù)據(jù),也可以存成矩形表格形式.-可在變量名中添加一個頻數(shù)(計數(shù)),-將表格中的數(shù)值放在這個頻數(shù)變量所在的列.-這類數(shù)據(jù)在分析中通常要做加權(quán)處理.
第二節(jié)兩變量圖描述和量化分析
對于這個數(shù)據(jù),我們一般會關(guān)心casual(臨時用戶人數(shù))、regist(注冊用戶人數(shù))或cnt(臨時用戶和注冊用戶人數(shù)之和)受天氣和季節(jié)的影響情況,也就是把這三個定量變量之一看成因變量(dependentvariable),其他的定性或定量變量看為自變量(independentvariable),做回歸分析.本節(jié)我們先就數(shù)據(jù)中的不同變量類型,介紹如何用圖描述和簡單量化分析了解變量之間的關(guān)系.
第二節(jié)兩變量圖描述和量化分析
其結(jié)果顯示四個季節(jié)人數(shù)均值相等的零假設(shè)被拒絕,而且后三個季度各自的平均人數(shù)都分別顯著高于第一季度的平均人數(shù).
第二節(jié)兩變量圖描述和量化分析
二、量化分析在兩個變量不相關(guān)(即變量的相關(guān)系數(shù)r=0)的零假設(shè)下,其中n是樣本量.此檢驗與兩個變量之間線性回歸系數(shù)是否為零的假設(shè)檢驗是等價的,它們有相同的p值,詳見第3章內(nèi)容.結(jié)果表明,對于給定的顯著性水平0.05,--
temp,atemp,windspd與cnt不相關(guān)的零假設(shè)被拒絕,
--但hum和cnt無關(guān)的零假設(shè)沒被拒絕.--溫度temp和體感溫度atemp越高,人數(shù)cnt越多;--風(fēng)速windspd越高,人數(shù)cnt越少.
一、圖描述
觀察兩個定性變量之間的關(guān)系,如季節(jié)season和天氣情況weathsit,可用列聯(lián)表(contingencytable),也可用旁置或摞在一起的條形圖通過比較各行(或列)觀測頻數(shù)是否成比例,判斷兩個定性變量取值之間是否獨立.
1.2.3兩個定性變量
第二節(jié)兩變量圖描述和量化分析
第三節(jié)多變量圖描述
在用臉譜圖對觀測對象進(jìn)行比較分析時,臉譜形狀受各變量次序的影響很大.如果將本例中8個變量的次序換一下,得到的臉譜圖會很不一樣.另外,不同人關(guān)注的臉的部位有很大不同,有人在意胖瘦,有人在意五官.實踐中臉譜圖必須與聚類分析等量化分析方法結(jié)合使用.與臉譜圖相比,雷達(dá)圖和星圖受變量排序和人為主觀偏好的影響較小.注意:
第三節(jié)多變量圖描述
1.3.3輪廓圖--把多個變量(或樣品)的取值放在同一個圖中用線連起來,就是輪廓圖(又稱折線圖).--圖1.7展示了8個變量在31個地區(qū)的取值.--當(dāng)然,我們也可以行列顛倒,畫31條折線,以顯示31個地區(qū)在8個變量(方面)的取值.它們都有助于比較31個地區(qū)取值的不同.--輪廓圖的優(yōu)點是直觀明了,缺點是在變量或樣品多的時候,折線易摞在一起,難以分清.
第三節(jié)多變量圖描述
總之,各種圖示方法雖然直觀,但也容易受主觀因素的影響.因此,實踐中要與有關(guān)量化分析方法結(jié)合使用.得到圖1.7的R語句
線性回歸分析案例
第一節(jié)房地產(chǎn)公司預(yù)測房價
第二節(jié)Bikeshare數(shù)據(jù)
第三節(jié)上機實現(xiàn)因變量自變量定性定量或定性定量AnoVa線性回歸定性(0-1兩類)??定性(三類或以上,有序、無序)??離散(泊松分布)???:廣義線性回歸模型數(shù)據(jù)有解釋變量和被解釋變量,而且被解釋變量是連續(xù)型數(shù)據(jù),可以考慮線性回歸模型.兩個案例:1、問題導(dǎo)向,
需先找到影響房價的因素,收集數(shù)據(jù),再建立預(yù)測房價的模型;2、數(shù)據(jù)導(dǎo)向的,利用現(xiàn)有的二手?jǐn)?shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,看看數(shù)據(jù)中包含哪些有價值的信息.第一節(jié)房地產(chǎn)公司預(yù)測房價3.1.1數(shù)據(jù)介紹和初步分析3.1.2模型合理性檢查3.1.3分類自變量的處理方法3.1.4其他改進(jìn)模型的思路3.1.1數(shù)據(jù)介紹和初步分析FirstCity房地產(chǎn)公司想建立一個預(yù)測房價的模型,如何選擇自變量呢?公司找一些部門經(jīng)理開了一個頭腦風(fēng)暴討論會,選出幾個候選自變量,包括:房屋面積(sqf:平方英尺),房齡(age:年),臥房個數(shù)(bed),衛(wèi)生間個數(shù)(bath)和車庫車位個數(shù)(garage).還有其他一些變量,如房屋狀況,也對房價有影響,但由于缺乏量化的數(shù)據(jù),只能暫時去掉.從某區(qū)域兩個月內(nèi)賣出的居民住房中抽取了319個樣本(firstcity1.csv),包括銷售價格(price,Y,單位美元)和前面提到的5個自變量sqf,age,bed,bath,garage,部分?jǐn)?shù)據(jù)見圖3.1.1數(shù)據(jù)介紹和初步分析變量都看作連續(xù)變量,散點圖和相關(guān)系數(shù)及其顯著性表明,房屋價格與房屋面積、臥房個數(shù)、衛(wèi)生間個數(shù)和車庫車位個數(shù)線性正相關(guān),與房齡負(fù)相關(guān),而且相關(guān)系數(shù)是否為零的假設(shè)檢驗,在顯著性水平0.001下統(tǒng)計顯著.3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析第一節(jié)房地產(chǎn)公司預(yù)測房價第一節(jié)房地產(chǎn)公司預(yù)測房價3.1.1數(shù)據(jù)介紹和初步分析3.1.1數(shù)據(jù)介紹和初步分析3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.2模型合理性檢查3.1.3分類自變量的處理方法3.1.3分類自變量的處理方法3.1.3分類自變量的處理方法3.1.3分類自變量的處理方法3.1.3分類自變量的處理方法3.1.3分類自變量的處理方法3.1.3分類自變量的處理方法3.1.3分類自變量的處理方法3.1.3分類自變量的處理方法在其他變量取值相同時,
房屋面積(sqf)每增加1平方英尺,平均價格增加54.83美元,房齡(age)每增加1年,均價減少261.30美元;每多一車位(garage),均價增加26753.30美元;建在山坡上(1-foothill)的房子比建在平地上(0-flatland)的平均貴60578.05美元.3.1.3分類自變量的處理方法解釋符合大家的認(rèn)知,即山坡上因多挖地基會增加建筑費用,多要車位也會單獨多加錢,而新房的價格都按面積計算價格,不會把臥室個數(shù)和衛(wèi)生間個數(shù)代入價格計算公式.還有,模型中系數(shù)的正負(fù)符號也與單個變量分析的正負(fù)相關(guān)性一致,沒有得到與通常認(rèn)識相違背的結(jié)論.3.1.3分類自變量的處理方法買新房時,房價計算公式中都沒有加入臥室和衛(wèi)生間的個數(shù),但當(dāng)我們拿到數(shù)據(jù)時,發(fā)現(xiàn)臥室個數(shù)(bed)和衛(wèi)生間個數(shù)(bath)分別與房屋價格有關(guān),這主要是因為價格與面積(sqf)有關(guān),而面積(sqf)又與臥室個數(shù)(bed)和衛(wèi)生間個數(shù)(bath)有較強的相關(guān)性.3.1.3分類自變量的處理方法此模型中,房面積(sqf)、房齡(age)、車庫車位數(shù)(garage)、建在山坡/平地上這4個變量相關(guān)性較弱,能夠說固定其他變量不變時,某個自變量增加1個單位,因變量價格(Y)的變化.3.1.3分類自變量的處理方法相反,像3.1.1節(jié)模型I中房屋面積(sqf),臥房個數(shù)(bed)和衛(wèi)生間個數(shù)(bath)之間有強相關(guān)性,很難說固定面積(sqf)和衛(wèi)生間個數(shù)(bath)等不變,臥房個數(shù)(bed)增加一個,售價如何變化之類,因為每增加一個臥房數(shù)(bed),面積(sqf)肯定會增加,不可能不變.3.1.3分類自變量的處理方法3.1.1節(jié)模型I中有5個連續(xù)變量,共有6個參數(shù),均方差為27350,而本節(jié)模型有3個連續(xù)變量,一個分類自變量,共5個參數(shù),均方差為20250.本節(jié)模型的擬合效果比模型I要好.3.1.3分類自變量的處理方法應(yīng)用中,不是自變量越多越好,應(yīng)該盡量找各有特色的自變量,從不同角度解釋因變量取值的差異.信息類似的自變量對解釋因變量取值差異.不但沒有幫助,還會產(chǎn)生不合理的參數(shù)估計值.3.1.4其他改進(jìn)模型的思路雖然二倍標(biāo)準(zhǔn)差40650美元,比模型I的54700美元要小,但要做預(yù)測,誤差還是比較大,現(xiàn)實中,還可考慮:(1)房屋是否有中央空調(diào)(centralairconditioning)?(2)房屋所在郵政編碼,因編碼不同價格也會很不同.(3)房屋建筑是一層,還是二層?房屋本身狀況,能直接搬入,還是需要裝修等.庭院是否做過專業(yè)美化設(shè)計(landscaping)?房屋的建筑材質(zhì)等.第二節(jié)Bikeshare數(shù)據(jù)2012年Capital自行車租用公司每天租車人次數(shù)據(jù)及有關(guān)當(dāng)天天氣、季節(jié)等。
具體變量:dteday(日期),分類自變量season(季節(jié),1-春,2-夏,3-秋,4-冬),mnth(月,1-12),holiday(是否節(jié)假日,0-否,1-是),weekday(星期幾,0-6),workday(是否工作日,1-不是周末或節(jié)假日,0-是周末或節(jié)假日),weathsit(天氣情況,1-晴,無云或少云或局部多云,2-有霧或多云,3-小雪或小雨等,4-大雪或大雨或大霧或冰雹等連續(xù)自變量temp(0-1,標(biāo)準(zhǔn)化后的溫度),atemp(0-1,標(biāo)準(zhǔn)化后的體感溫度),hum(0-1,標(biāo)準(zhǔn)化后的濕度),windspd(0-1,標(biāo)準(zhǔn)化后的風(fēng)速).可能關(guān)心的因變量有casual(臨時用戶人數(shù)),regist(注冊用戶人數(shù)),cnt(臨時用戶和注冊用戶人數(shù)之和).我們關(guān)心因變量cnt,想建立線性回歸模型描述因變量與其他自變量的關(guān)系.對于數(shù)據(jù)中的每個分類自變量,利用方差分析和單個分類自變量的回歸分析查看cnt的取值是否與分類自變量取值有關(guān),各類的平均差異如何.比如對season,讀入數(shù)據(jù)X后,在R中運行M=lm(cnt~factor(season),data=X);anova(M);summary(M);
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年空調(diào)銷售渠道拓展與品牌建設(shè)服務(wù)合同3篇
- 二零二五版合租房屋租賃合同-含裝修保證金條款3篇
- 二零二五版建筑設(shè)備租賃合同書范例2篇
- 二零二五版法院判決指導(dǎo)下的債務(wù)償還與再融資合同3篇
- 二零二五版第5章第5節(jié)合同擔(dān)保及供應(yīng)鏈金融合作協(xié)議3篇
- 二零二五版合同部合同合規(guī)性審查與風(fēng)險預(yù)警合同3篇
- 二零二五年度酒店物業(yè)服務(wù)質(zhì)量持續(xù)改進(jìn)合同3篇
- 二零二五年青少年體育賽事服裝贊助合同3篇
- 二零二五版安防監(jiān)控設(shè)備研發(fā)與生產(chǎn)合同3篇
- 二零二五年度物流行業(yè)集體合同協(xié)議范本3篇
- 2024年08月云南省農(nóng)村信用社秋季校園招考750名工作人員筆試歷年參考題庫附帶答案詳解
- 防詐騙安全知識培訓(xùn)課件
- 心肺復(fù)蘇課件2024
- 2024年股東股權(quán)繼承轉(zhuǎn)讓協(xié)議3篇
- 2024-2025學(xué)年江蘇省南京市高二上冊期末數(shù)學(xué)檢測試卷(含解析)
- 四川省名校2025屆高三第二次模擬考試英語試卷含解析
- 湖南財政經(jīng)濟(jì)學(xué)院專升本管理學(xué)真題
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識
- 江蘇省建筑與裝飾工程計價定額(2014)電子表格版
- Proud-of-you中英文歌詞
- 基因的表達(dá)與調(diào)控.ppt
評論
0/150
提交評論