版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
科學(xué)方法是通向絕對知識或真理的唯一入口研究的本質(zhì)1研究的基礎(chǔ)
2Now:數(shù)據(jù)分析
3研究方法4論文的撰寫6研究計劃及研究報告的準(zhǔn)備5描述統(tǒng)計推斷統(tǒng)計一、新舊知識的聯(lián)系研究課題程序/設(shè)計假設(shè)或問題樣本工具定義文獻(xiàn)綜述數(shù)據(jù)分析二、數(shù)據(jù)分析的宏觀概念圖?1收集數(shù)據(jù)2
描述統(tǒng)計3
推斷統(tǒng)計宏觀概念圖描述統(tǒng)計推斷統(tǒng)計描述統(tǒng)計目錄ONE1
描述統(tǒng)計的實(shí)質(zhì)TWO2
描述分布THREE3描述關(guān)系FOUR4線性關(guān)系一、什么是數(shù)據(jù)?數(shù)據(jù)是指由變量組成的個體的許多信息。變量指個體的特定屬性。二、描述統(tǒng)計的實(shí)質(zhì)描述統(tǒng)計一個變量二個變量描述分布描述關(guān)系三、檢驗(yàn)分布變量:類別變量和數(shù)值變量四、檢驗(yàn)關(guān)系一些例子1.在某一標(biāo)準(zhǔn)化的測驗(yàn)中性別與得分的關(guān)系?2.嬰兒睡眠時的光線類型與是否是近視有關(guān)系?3.我們能不能根據(jù)新生的SAT的得分預(yù)測他的GPA?4.考駕照時的練習(xí)時間和是否能通過之間有沒有關(guān)系?2類別變量數(shù)字變量CaseⅠ五、描述統(tǒng)計宏觀圖描述分布描述關(guān)系1CaseⅡCaseⅢ描述統(tǒng)計目錄ONE1
描述統(tǒng)計的實(shí)質(zhì)TWO2
描述分布THREE3描述關(guān)系FOUR4線性關(guān)系一、類別變量你覺得你身材怎樣?胖、瘦還是剛好?StudentBodyImagestudent25overweightstudent26aboutrightstudent27underweightstudent28aboutrightstudent29aboutright隨機(jī)調(diào)查了1200大學(xué)生,下表顯示了一部分回答。BodyImageDistributionCategoryCountpercentaboutright855855/1200*100=71.3%overweight235235/1200*100=19.6%underweight110110/1200*100=9.2%TotalN=1200100%1.餅形圖2.直條圖小結(jié):類別變量的分布計算類別變量的個數(shù)和百分比;同時用餅圖或直條圖進(jìn)行圖形化的顯示。活動1:利用excel繪制餅圖或直條圖在這個活動中:會用excel計算次數(shù)和百分比知道怎樣用excel生成餅圖你發(fā)現(xiàn)和誰最容易交朋友?(異性、同性、沒差別)
原數(shù)據(jù):friends1具體步驟:1
選中需要處理的變量2
選擇“數(shù)據(jù)>-數(shù)據(jù)透視表和數(shù)據(jù)透視圖”3
點(diǎn)擊完成,此時你看到一張新的空表.4選中。二、數(shù)字變量統(tǒng)計圖與統(tǒng)計表:直方圖、莖葉圖描述統(tǒng)計的特征量:集中量數(shù)、差異量數(shù)對于數(shù)字變量:我們可以先用直方圖或莖葉圖描述;然后對其進(jìn)行數(shù)字化測量。(一)直方圖的思想:求出組距,然后計算次數(shù)88,48,60,51,57;85,69,75,97,72;71,79,65,63,73.例子:考試分?jǐn)?shù)直方圖組距:40-50,50-60…90-100ScoreCount[40-50)1[50-60)2[60-70)4[70-80)5[80-90)2[90-100]1如何說明直方圖?我們的例子:分?jǐn)?shù)基本對稱,70作為分布的中心點(diǎn),最小值大約45、最大值大約95、全距大約為50小結(jié):直方圖是用于描述數(shù)值變量的圖形;當(dāng)檢驗(yàn)數(shù)值變量的分布時,我們應(yīng)該描述這個圖形的形狀、集中趨勢、離散趨勢課后思考題:如何利用excel繪制直方圖利用奧斯卡得主的年齡為例,說明怎樣用excel生成直方圖,源數(shù)據(jù)可用actor2(二)莖葉圖的思想:把數(shù)據(jù)分成莖和葉
葉:最右邊的數(shù)字;莖:其他的數(shù)字例子:最佳女奧斯卡獲得者3434263742413531413330743349386121412680432933354549393426253533小結(jié):莖葉圖是對小的數(shù)據(jù)集簡單快速的描述;能保留原數(shù)據(jù);對數(shù)據(jù)進(jìn)行排序。(三)集中趨勢度量參數(shù)及其計算眾數(shù)(Mode)平均數(shù)(Mean)中位數(shù)(Median)1眾數(shù)眾數(shù):指次數(shù)分布中出現(xiàn)次數(shù)最多的那個數(shù)的數(shù)值,又稱范數(shù),常用符號M0表示。例1:1,2,2,3,3,4
例2:1,2,3,4,5
例3:12,12,56,78,90
例:2,4,6,8,102算術(shù)平均數(shù)平均數(shù)=6下表是17名中學(xué)教師的月收入:1200,1270,1300,1310,1320,1350,1360,1370,1390,1400,1450,1460,1530,1580,1600,3200,4000
現(xiàn)欲了解他們的平均月收入。平均數(shù)=1652.33中數(shù)
中數(shù):是指一組按大小順序排列起來的量數(shù)的中間點(diǎn)的數(shù),又稱中位數(shù),符號記為Mdn。下表是17名中學(xué)教師的月收入:1200,1270,1300,1310,1320,1350,1360,1370,1390,1400,1450,1460,1530,1580,1600,3200,4000
現(xiàn)欲了解他們的平均月收入。平均數(shù)=1652.3中數(shù)=1390那么這則數(shù)據(jù)的中位數(shù)呢?3、6、7、9、20、21小結(jié):集中量數(shù)
三個代表
在實(shí)際中最常用的就是平均數(shù)分布A:19,20,25,32,39分布B:2,3,25,30,75這兩個分布的平均數(shù)都是27,中數(shù)都是25。集中量數(shù)出現(xiàn)的問題(四)差異量數(shù)及其計算差異量數(shù):是表示量數(shù)之間的差異程序的一些統(tǒng)計量的總稱,它是用于表示一群量數(shù)的離散情況或離中趨勢。
常用的差異量數(shù):方差(Variance)標(biāo)準(zhǔn)差(Std.deviation)標(biāo)準(zhǔn)分?jǐn)?shù)(Z分?jǐn)?shù))最大值(Maximum)、最小值(Minimum)等(1)樣本方差與標(biāo)準(zhǔn)差樣本方差:樣本標(biāo)準(zhǔn)差:n-1n-1例:分布A:19,20,25,32,39分布B:2,3,25,30,75求標(biāo)準(zhǔn)差只有知道了差異量數(shù)的大小,才能了解集中量數(shù)的代表性如何。差異量數(shù)越大,集中量數(shù)的代表性越小;差異量數(shù)越小,集中量數(shù)的代表性越大。2標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)分?jǐn)?shù),又稱Z分?jǐn)?shù)。是以標(biāo)準(zhǔn)差為單位表示一個分?jǐn)?shù)在團(tuán)體分?jǐn)?shù)中所處的位置。
試分析在班里他們?nèi)酥姓l的總成績最好。活動2.利用excel計算統(tǒng)計量目標(biāo):1.學(xué)習(xí)利用excel計算統(tǒng)計量,并進(jìn)行統(tǒng)計描述2.用五個變量進(jìn)行分布描述。盒子圖常用的統(tǒng)計量最小值Q1值中位數(shù)平均數(shù)Q3值最大值標(biāo)準(zhǔn)差步驟:在列A以外的任何一個單元格中鍵入min,然后在右邊一格中鍵入=min(A2:A33)。在min單元格下面鍵入Q1,然后在右邊一格中鍵入=quartile(A2:A33,1)。在Q1單元格下面鍵入Median,然后在右邊一格中鍵入=median(A2:A33)。在Median單元格下面鍵入Mean,然后在右邊一格中鍵入=average(A2:A33)。在Mean單元格下面鍵入Q3,然后在右邊一格中鍵入=quartile(A2:A33,3)。在Q3單元格下面鍵入Max,然后在右邊一格中鍵入=max(A2:A33)。問題:輸出結(jié)果中有多少個觀測值?奧斯卡得主的平均年齡?這五個量的值分別是多少?奧斯卡獲得者有一半的年齡是多少?全距是多少?四分位差是多少?盒子圖描述統(tǒng)計目錄ONE1
描述統(tǒng)計的實(shí)質(zhì)TWO2
描述分布THREE3描述關(guān)系FOUR4線性關(guān)系兩個變量之間的關(guān)系分類CaseI:自變量是類別的,因變量是數(shù)值的例子:熱狗很關(guān)心自己健康的人更愿意選擇低卡路里的熱狗。于是健康協(xié)會做了一項(xiàng)調(diào)查,檢查54種品牌的熱狗,根據(jù)原材料的類型(牛肉、家禽、豬肉)進(jìn)行分類并測其卡路里值。研究的目的是為了檢驗(yàn)熱狗的卡路里值和其類型是不是有關(guān)。我們先計算各統(tǒng)計量,然后用盒子圖來呈現(xiàn)解釋我們的結(jié)果1.家禽類的熱狗比牛肉和豬肉的熱狗卡路里更低;2.家禽類的熱狗的卡路里的中位值比其他兩個低,甚至低于其他兩個的Q1值;3.這三種類型的熱狗分布是一樣的。結(jié)論:
總體而言,我們推薦消費(fèi)者吃家禽類的熱狗,但要知道,因?yàn)槊糠N類型的熱狗,由于品牌不同,卡路里的差異是很大的,因此,吃家禽類的熱狗并不能保證是低卡路里的食品。檢驗(yàn)CaseI關(guān)系:本質(zhì)是用盒子圖對每種自變量的類別進(jìn)行因變量的分布比較,再輔以統(tǒng)計量進(jìn)行說明。
小結(jié):CaseII:TwoCategoricalVariables例:美國大學(xué)生對自己身材的看法男生和女生對自己身材看法是否存在差異?為了概述兩個變量之間的關(guān)系,我們創(chuàng)建一個如下圖所示的二維表。比較分布比較分布1.用兩維表顯示數(shù)據(jù);
2.輔以百分比進(jìn)行描述;
3.我們試圖理解兩個類別變量之間的關(guān)系時,我們實(shí)質(zhì)是比較每種類別的反應(yīng)變量的分布,尤其是比較反應(yīng)變量值的百分比差異。小結(jié):檢驗(yàn)兩個類別變量的關(guān)系CaseIII:TwoQuantitativeVariables自變量是類別變量時,我們比較因變量的分布;自變量是數(shù)字變量時,我們需要引入新的統(tǒng)計工具。例:高速公路上的標(biāo)志賓夕法尼亞州一研究所進(jìn)行了一項(xiàng)研究,對年齡從18到80歲的30名司機(jī)進(jìn)行實(shí)驗(yàn),調(diào)查他們能看清楚新標(biāo)志的最長距離,目的是為了檢驗(yàn)司機(jī)的年齡和他們能看清標(biāo)志的最長距離,且將研究發(fā)現(xiàn)用于提高老年司機(jī)的安全性問題。這些數(shù)據(jù)我們也可以轉(zhuǎn)化成:
(18,510),(32,410),(55,420),(23,510)
........(82,360).檢驗(yàn)兩個數(shù)值變量的關(guān)系用碎石圖(scatterplot)碎石圖大體離差趨勢強(qiáng)度圖式極端值+問題出來了:如何解釋碎石圖?我們該怎么讀圖?我們應(yīng)該注意什么?1.趨勢(direction)2.圖式(form)alinearform
acurvilinearformClustersform3.強(qiáng)度(strength)4.極端值(outliers)我們的例子趨勢是遞減的;線性的;強(qiáng)度較強(qiáng);沒有極端值。小結(jié):兩個數(shù)值型變量之間的關(guān)系用碎石圖進(jìn)行顯示,每個點(diǎn)代表每個個體,X軸表示自變量,Y軸代表因變量;我們可以看散點(diǎn)圖的大體情況和偏離,具體來說,就是看它的趨勢、圖式、強(qiáng)度和極端值。描述統(tǒng)計目錄ONE1
描述統(tǒng)計的實(shí)質(zhì)TWO2
描述分布THREE3描述關(guān)系FOUR4線性關(guān)系一、相關(guān)系數(shù)r相關(guān)系數(shù)r是兩變量間相關(guān)程度的量化指標(biāo),用于測量兩個數(shù)值變量之間變化的趨勢和密切程度。例1:高速公路上的標(biāo)志解釋:r為負(fù)數(shù),說明兩個變量關(guān)系是負(fù)的;r相對來說比較接近1,說明是強(qiáng)相關(guān);結(jié)論:能看清標(biāo)志的最遠(yuǎn)距離會隨著年齡遞減;從r值我們可以預(yù)測,相同年齡的司機(jī)能看清標(biāo)志的最遠(yuǎn)距離有所變化。例2:課程的一項(xiàng)統(tǒng)計數(shù)據(jù)說明:
r取值范圍介于-1至+1之間,常用小數(shù)表示,正負(fù)號表示相關(guān)方向,絕對值的大小表示相關(guān)的程度;特別地,當(dāng)相關(guān)系數(shù)為0時,稱0相關(guān),表示兩變量之間無任何線性關(guān)系;相關(guān)系數(shù)為1時,表示兩變量間存在完全正相關(guān);相關(guān)系數(shù)為-1時,表示兩變量之間存在完全負(fù)相關(guān);完全正負(fù)相關(guān)的兩變量的取值存在一一對應(yīng)的函數(shù)關(guān)系。r特性相關(guān)系數(shù)不隨著變量的測量單位的改變而改變
它僅僅是一個數(shù)字,不能用百分比來解釋r特性r只能代表線性關(guān)系的強(qiáng)度,測量不出其他模式的程度,不管它有多強(qiáng)。r接近0的意思是沒有線性關(guān)系.r特性r的大小不能說明它是不是線性關(guān)系。一切得看數(shù)據(jù)。二、線性回歸:從一個例子開始
前面,我們已經(jīng)知道了司機(jī)年齡和看清新標(biāo)志需要的最遠(yuǎn)距離,假定政府機(jī)構(gòu)想預(yù)測60歲的司機(jī)能看到的最遠(yuǎn)距離,怎么辦?技術(shù)上而言,這就叫線性回歸。我們可以預(yù)測,最遠(yuǎn)距離不會超過400英尺。如何選擇一條最適合的線?選擇準(zhǔn)則:最小平方最小平方回歸線---函數(shù)式
例:年齡—距離Y
=
a
+
bXb
=
r
(SY/SX)a
=
Y
?bX
最小平方回歸線---函數(shù)式例子的回歸線60
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人教五四新版九年級科學(xué)下冊月考試卷含答案
- 二零二五年度農(nóng)機(jī)維修保養(yǎng)及零配件供應(yīng)合同4篇
- 2025年度美團(tuán)騎手服務(wù)規(guī)范及考核評價合同3篇
- 2025年度特色餐廳廚房承包項(xiàng)目合同4篇
- 2025年度奶業(yè)市場調(diào)研與競爭分析合同4篇
- 拆除金屬廢物回收利用合同(2篇)
- 二零二五年度icp許可證申請與互聯(lián)網(wǎng)企業(yè)品牌建設(shè)合同3篇
- 二零二五年度儲藏室租賃合同終止及資產(chǎn)返還協(xié)議4篇
- 2025年度食品級儲藏室設(shè)計與建造合同3篇
- 二零二五年度排水系統(tǒng)安裝與工程質(zhì)量保證合同4篇
- 四川省成都市武侯區(qū)2023-2024學(xué)年九年級上學(xué)期期末考試化學(xué)試題
- 2024年秋季人教版七年級上冊生物全冊教學(xué)課件(2024年秋季新版教材)
- 環(huán)境衛(wèi)生學(xué)及消毒滅菌效果監(jiān)測
- 2024年共青團(tuán)入團(tuán)積極分子考試題庫(含答案)
- 碎屑巖油藏注水水質(zhì)指標(biāo)及分析方法
- 【S洲際酒店婚禮策劃方案設(shè)計6800字(論文)】
- 鐵路項(xiàng)目征地拆遷工作體會課件
- 醫(yī)院死亡報告年終分析報告
- 中國教育史(第四版)全套教學(xué)課件
- 2023年11月英語二級筆譯真題及答案(筆譯實(shí)務(wù))
- 上海民辦楊浦實(shí)驗(yàn)學(xué)校初一新生分班(摸底)語文考試模擬試卷(10套試卷帶答案解析)
評論
0/150
提交評論