《數(shù)據(jù)分析及可視化技術(shù)》完整課件_第1頁
《數(shù)據(jù)分析及可視化技術(shù)》完整課件_第2頁
《數(shù)據(jù)分析及可視化技術(shù)》完整課件_第3頁
《數(shù)據(jù)分析及可視化技術(shù)》完整課件_第4頁
《數(shù)據(jù)分析及可視化技術(shù)》完整課件_第5頁
已閱讀5頁,還剩749頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)分析及可視化技術(shù)1.(數(shù)據(jù)分析概述)目錄1.什么是數(shù)據(jù)分析2.統(tǒng)計學(xué)的幾個基本概念3.統(tǒng)計指標(biāo)的分類11.1什么是數(shù)據(jù)分析1.2數(shù)據(jù)分析的階段1.3數(shù)據(jù)分析的需求什么是數(shù)據(jù)分析

數(shù)據(jù)分析是指對大量數(shù)據(jù)進(jìn)行整理后,利用適當(dāng)?shù)慕y(tǒng)計分析方法,把隱藏在數(shù)據(jù)背后的信息提煉出來,并加以概括總結(jié)的過程。數(shù)據(jù)分析包括如下幾個主要內(nèi)容:現(xiàn)狀分析:分析已經(jīng)發(fā)生了什么。原因分析:分析為什么發(fā)生某一現(xiàn)狀。預(yù)測分析:分析將來可能發(fā)生什么。1.數(shù)據(jù)分析概述1.1

什么是數(shù)據(jù)分析

1.2數(shù)據(jù)分析的階段

數(shù)據(jù)分析的過程主要包括6個既相對獨立又相互聯(lián)系的階段,具體的階段為:1.確定分析目的2.收集數(shù)據(jù)3.?dāng)?shù)據(jù)處理4.?dāng)?shù)據(jù)分析5.?dāng)?shù)據(jù)展現(xiàn)6.撰寫報告1.數(shù)據(jù)分析概述1.2數(shù)據(jù)分析的階段數(shù)據(jù)分析的過程:1.對比分析法2.分組分析法3.結(jié)構(gòu)分析法4.平均分析法1.數(shù)據(jù)分析概述1.3數(shù)據(jù)分析的需求數(shù)據(jù)分析師的職業(yè)要求:1.懂業(yè)務(wù)2.懂管理3.懂分析4.懂工具5.懂設(shè)計1.數(shù)據(jù)分析概述1.3數(shù)據(jù)分析的需求

數(shù)據(jù)分析師需要具備的基本素質(zhì):1.態(tài)度嚴(yán)謹(jǐn)負(fù)責(zé)2.好奇心強(qiáng)烈3.邏輯思維清晰4.擅長模仿學(xué)習(xí)5.勇于創(chuàng)新1.數(shù)據(jù)分析概述1.3數(shù)據(jù)分析的需求

數(shù)據(jù)分析的工具:數(shù)據(jù)分析的相關(guān)工具可以分成以下3種:(1)存放數(shù)據(jù)的工具。(2)分析數(shù)據(jù)的工具。(3)做分析報告的工具。1.數(shù)據(jù)分析概述數(shù)據(jù)分析崗位的工具要求為:1.數(shù)據(jù)分析概述1.3數(shù)據(jù)分析的需求

22.1統(tǒng)計學(xué)的幾個基本概念統(tǒng)計學(xué)的幾個基本概念2.2現(xiàn)象總體和現(xiàn)象個體的特征

現(xiàn)象總體(以下簡稱總體)是由客觀存在的、具有某種共同性質(zhì)又有差別的許多個別單位所構(gòu)成的整體。構(gòu)成總體的每一個事物或基本單位,叫現(xiàn)象個體(以下簡稱個體)。原始資料最初就是從每個個體中取得的,所以個體是各項統(tǒng)計數(shù)字最原始的承擔(dān)者。2.統(tǒng)計學(xué)的幾個基本概念2.1

統(tǒng)計學(xué)的幾個基本概念現(xiàn)象總體和現(xiàn)象個體:根據(jù)表1-1的數(shù)據(jù),我們可以進(jìn)一步理解什么是總體,什么是個體。2.統(tǒng)計學(xué)的幾個基本概念2.1

統(tǒng)計學(xué)的幾個基本概念

總體必須具備3個特性:大量性、同質(zhì)性和變異性。(1)大量性:是總體的量的規(guī)定性,即指總體的形成要有一個相對規(guī)模的量,僅僅由個別單位或極少量的單位不足以構(gòu)成總體。(2)同質(zhì)性:是指構(gòu)成總體的各個單位至少有一種性質(zhì)是共同的,同質(zhì)性是將總體各單位結(jié)合起來構(gòu)成總體的基礎(chǔ),也是總體的質(zhì)的規(guī)定性。(3)變異性:是指總體各個單位除了具有某種或某些共同性質(zhì)以外,在其他方面則各不相同,具有質(zhì)的差異和量的差別,這種差別叫變異。2.統(tǒng)計學(xué)的幾個基本概念2.2現(xiàn)象總體和現(xiàn)象個體的特征例如:在研究江西省所有工業(yè)企業(yè)的工業(yè)總產(chǎn)值時(見表1-2),每個企業(yè)的工業(yè)總產(chǎn)值都是個體,但在研究其中某一個企業(yè)的工業(yè)總產(chǎn)值時,則該企業(yè)又成了總體。2.統(tǒng)計學(xué)的幾個基本概念2.2現(xiàn)象總體和現(xiàn)象個體的特征標(biāo)志和標(biāo)志表現(xiàn):通常,每個個體具有許多屬性和特征。這些屬性或特征叫標(biāo)志。標(biāo)志的屬性或數(shù)量在每個個體的具體表現(xiàn),叫標(biāo)志表現(xiàn)。標(biāo)志按其性質(zhì)可以分為數(shù)量標(biāo)志和品質(zhì)標(biāo)志。

數(shù)量標(biāo)志:以數(shù)量的多少來表示的標(biāo)志,表示事物量的特性。

品質(zhì)標(biāo)志:不能用數(shù)量而只能以性質(zhì)屬性上的差別即文字來表示的標(biāo)志,表示事物質(zhì)的特征。2.統(tǒng)計學(xué)的幾個基本概念2.2現(xiàn)象總體和現(xiàn)象個體的特征33.1統(tǒng)計指標(biāo)的劃分統(tǒng)計指標(biāo)的分類3.2統(tǒng)計指標(biāo)的具體介紹1.按反映的內(nèi)容或數(shù)值表現(xiàn)形式劃分按照其反映的內(nèi)容或其數(shù)值表現(xiàn)形式,可劃分為總量指標(biāo)、相對指標(biāo)和平均指標(biāo)。(1)總量指標(biāo):反映總體規(guī)模的統(tǒng)計指標(biāo),通常以絕對數(shù)的形式來表現(xiàn),因此又稱為絕對數(shù)??偭恐笜?biāo)是人們認(rèn)識總體的起點,是計算其他統(tǒng)計指標(biāo)的基礎(chǔ)。(2)相對指標(biāo):是兩個總量指標(biāo)之比,因此又稱相對數(shù)。(3)平均指標(biāo):平均指標(biāo)又稱平均數(shù),是總體在某一空間或時間上的平均數(shù)量狀況。3.統(tǒng)計指標(biāo)的分類3.1統(tǒng)計指標(biāo)的劃分2.按所反映的數(shù)量特點與內(nèi)容劃分按照其所反映的數(shù)量特點和內(nèi)容,可劃分為數(shù)量指標(biāo)和質(zhì)量指標(biāo)。(1)數(shù)量指標(biāo):反映總體的范圍廣度、規(guī)模大小和數(shù)量多少的指標(biāo)。它表示事物外延量的大小,通常有計量單位,用絕對數(shù)表示。其指標(biāo)數(shù)值大小隨總體范圍的大小而增減變動。(2)質(zhì)量指標(biāo):反映總體的質(zhì)量、強(qiáng)度、經(jīng)濟(jì)效果等的統(tǒng)計指標(biāo)。它表示事物內(nèi)涵量的狀況,通常用相對數(shù)或平均數(shù)表示。其指標(biāo)的數(shù)值大小與總體范圍大小沒有直接的關(guān)系。3.統(tǒng)計指標(biāo)的分類3.1統(tǒng)計指標(biāo)的劃分總量指標(biāo):總量指標(biāo)是指統(tǒng)計匯總后得到的具有計量單位的統(tǒng)計指標(biāo),反映研究總體在一定時期或時點的總規(guī)模、總水平或性質(zhì)相同的總體規(guī)模的數(shù)量差異。按總量指標(biāo)所反映的時間狀況來劃分,總量指標(biāo)可以分為時期指標(biāo)和時點指標(biāo)。(1)時期指標(biāo):是反映總體在一段時間內(nèi)的累計總和。(2)時點指標(biāo):是反映總體在某一時點上的狀態(tài)總數(shù)。1.時期指標(biāo)與時點指標(biāo)的區(qū)別(1)性質(zhì)相同的時期指標(biāo)的數(shù)值可以相加,而時點指標(biāo)相加則無意義。(2)同類時期指標(biāo)數(shù)值的大小與時期長短有直接關(guān)系,而時點指標(biāo)則沒有這種關(guān)系。(3)時期指標(biāo)數(shù)值是經(jīng)常登記取得,而時點指標(biāo)則不是。3.統(tǒng)計指標(biāo)的分類3.2統(tǒng)計指標(biāo)的具體介紹2.指標(biāo)與標(biāo)志的區(qū)別(1)標(biāo)志是用于描述個體的,指標(biāo)是用于描述總體的。(2)標(biāo)志只是一個名稱,不含數(shù)值(標(biāo)志表現(xiàn));指標(biāo)既含名稱又含數(shù)值。3.指標(biāo)與標(biāo)志的聯(lián)系(1)具有對應(yīng)關(guān)系。標(biāo)志與指標(biāo)名稱往往是同一概念。(2)具有匯總關(guān)系。統(tǒng)計指標(biāo)的數(shù)值由標(biāo)志表現(xiàn)匯總得來。(3)具有變換關(guān)系。隨著研究目的的變換,原有的總體轉(zhuǎn)變?yōu)閭€體,相應(yīng)的統(tǒng)計指標(biāo)名稱也就成為標(biāo)志;反之亦然。3.統(tǒng)計指標(biāo)的分類3.2統(tǒng)計指標(biāo)的具體介紹相對指標(biāo):相對指標(biāo)分為結(jié)構(gòu)相對指標(biāo)、對比相對指標(biāo)、完成程度相對指標(biāo)等。1.結(jié)構(gòu)相對指標(biāo)結(jié)構(gòu)相對指標(biāo)又稱結(jié)構(gòu)相對數(shù)或比重指標(biāo),是在統(tǒng)計分組的基礎(chǔ)上,總體中某一組的數(shù)值與總體指標(biāo)數(shù)值的比值,以說明總體內(nèi)部組成情況,一般用百分?jǐn)?shù)表示。3.統(tǒng)計指標(biāo)的分類3.2統(tǒng)計指標(biāo)的具體介紹例如:表1-3為我國第二次農(nóng)業(yè)普查農(nóng)業(yè)生產(chǎn)經(jīng)營戶數(shù)量及構(gòu)成表,其中的第3列數(shù)據(jù)就是結(jié)構(gòu)相對指標(biāo)。3.統(tǒng)計指標(biāo)的分類表1-3我國第二次農(nóng)業(yè)普查農(nóng)業(yè)生產(chǎn)經(jīng)營戶數(shù)量及構(gòu)成3.2統(tǒng)計指標(biāo)的具體介紹3.統(tǒng)計指標(biāo)的分類結(jié)構(gòu)相對指標(biāo)具有如下特點:(1)分子分母不能互換。(2)指標(biāo)值<1。(3)指標(biāo)值之和=1。常用的合格率、恩格爾系數(shù)都屬于結(jié)構(gòu)相對指標(biāo)。3.2統(tǒng)計指標(biāo)的具體介紹3.統(tǒng)計指標(biāo)的分類對比相對指標(biāo):任何事物都是既有共性特征,又有個性特征的,只有通過對比,才能分辨出事物的性質(zhì)、變化、發(fā)展的規(guī)律。數(shù)據(jù)分析亦如此,對龐大的數(shù)據(jù)做單獨分析,通常很難發(fā)現(xiàn)其意義,只有將不同數(shù)據(jù)進(jìn)行對比,才能發(fā)現(xiàn)更多本質(zhì)現(xiàn)象。這種分析數(shù)據(jù)的方法就叫對比分析法。通常情況下,數(shù)據(jù)對比可以分成靜態(tài)對比和動態(tài)對比。

3.2統(tǒng)計指標(biāo)的具體介紹3.統(tǒng)計指標(biāo)的分類(1)靜態(tài)相對指標(biāo)靜態(tài)相對指標(biāo)是指同一總體在相同時間下不同組(部門、單位、地區(qū))的數(shù)據(jù)對比,通常用比值、倍數(shù)、系數(shù)或百分?jǐn)?shù)表示。靜態(tài)相對指標(biāo)有如下特點。

①同一總體、同一指標(biāo)、同一時間、不同組的數(shù)值對比。

②分子、分母可以互換。3.2統(tǒng)計指標(biāo)的具體介紹3.統(tǒng)計指標(biāo)的分類(2)動態(tài)相對指標(biāo)動態(tài)相對指標(biāo)是指同一總體在不同時間下的數(shù)據(jù)對比,以說明總體在不同時間上的發(fā)展變化情況,所以也叫發(fā)展速度,通常用百分?jǐn)?shù)表示。例如同比發(fā)展速度和環(huán)比發(fā)展速度。動態(tài)相對指標(biāo)有如下特點。①同一總體、同一指標(biāo)、不同時間的數(shù)值對比。②分子、分母不可以互換。3.2統(tǒng)計指標(biāo)的具體介紹3.統(tǒng)計指標(biāo)的分類3.完成程度相對指標(biāo)完成程度相對指標(biāo)是實際完成值與目標(biāo)計劃值進(jìn)行對比,通常用百分?jǐn)?shù)表示。其計算公式為:3.2統(tǒng)計指標(biāo)的具體介紹3.統(tǒng)計指標(biāo)的分類平均指標(biāo):平均指標(biāo)又叫平均數(shù),是指反映總體各單位某一數(shù)量標(biāo)志值在具體時間、地點、條件下達(dá)到的一般水平的綜合指標(biāo)。平均指標(biāo)按計算和確定方法的不同,分為算術(shù)平均數(shù)和幾何平均數(shù)。1.算術(shù)平均數(shù)算術(shù)平均數(shù)是指總體的總量指標(biāo)與單位總數(shù)的比值。算術(shù)平均數(shù)是一種應(yīng)用最為廣泛的平均數(shù),其計算公式為:3.2統(tǒng)計指標(biāo)的具體介紹3.統(tǒng)計指標(biāo)的分類幾何平均數(shù):幾何平均數(shù)是n個數(shù)連乘積開n次方根,其計算公式為:對于同一組數(shù)據(jù)來說,幾何平均數(shù)≤算術(shù)平均數(shù)。幾何平均數(shù)適用于計算平均合格率、平均本利率、平均發(fā)展速度、平均增長速度等。3.2統(tǒng)計指標(biāo)的具體介紹數(shù)據(jù)分析及可視化技術(shù)2.(常用數(shù)據(jù)分析軟件介紹)目錄1.常用數(shù)據(jù)分析軟件總覽2.數(shù)據(jù)分析軟件詳情11.1常用數(shù)據(jù)分析軟件總覽常用數(shù)據(jù)分析軟件介紹1.1常用數(shù)據(jù)分析軟件總覽數(shù)據(jù)分析的工具千萬種,綜合起來萬變不離其宗。無非是數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)計算、數(shù)據(jù)分析、數(shù)據(jù)展示等幾個方面。那么,這些工具本身到底有什么特點呢,首先我們先來看看時下主流的分析軟件有哪些:EXCELSASRpythonSPSSMySQL、OracleTableau、FineBI、PowerBI1.常用數(shù)據(jù)分析軟件介紹22.1傳統(tǒng)數(shù)據(jù)分析軟件介紹數(shù)據(jù)分析軟件詳情2.3數(shù)據(jù)庫類軟件介紹2.2編程類數(shù)據(jù)分析軟件介紹2.4可視化類軟件介紹Excel作為一款有著將近30年歷史的軟件,EXCEL無疑是做數(shù)據(jù)分析的人都會接觸的軟件。業(yè)內(nèi)有這樣的說法:初級學(xué)圖表,中級學(xué)函數(shù)透視表,高級學(xué)習(xí)VBA。EXCEL能幫助你完成日常工作中大部分的統(tǒng)計及分析工作,而且非常適合小批量、快速反饋分析結(jié)果的場景。而時下是大數(shù)據(jù)時代,面臨海量數(shù)據(jù),Excel的處理效率面臨挑戰(zhàn),然而,Excel依然是所有數(shù)據(jù)分析人員必須接觸、掌握的軟件之一,它依然活躍在各行各業(yè)的日常工作中。2.數(shù)據(jù)分析軟件詳情2.1傳統(tǒng)數(shù)據(jù)分析軟件介紹

2.2.5SPSS軟件全稱IBMSPSSStatistics23,它是一款非常著名的數(shù)據(jù)統(tǒng)計分析管理軟件。它擁有數(shù)據(jù)的編輯、數(shù)據(jù)統(tǒng)計、圖形的生成和編輯、表格的生成和編輯等等功能,另外軟件本身現(xiàn)在還具有穩(wěn)健而成熟的功能和程序,可應(yīng)對整個分析生命周期計算,還能夠?qū)馕鋈笔?shù)據(jù),對企業(yè)常用的一些數(shù)據(jù)源都能夠完美的支持?,F(xiàn)在已經(jīng)廣泛使用在自然科學(xué)、技術(shù)科學(xué)、社會科學(xué)的各個領(lǐng)域。另外,軟件支持與其他軟件的聯(lián)接、批量裝入數(shù)據(jù)庫中以及可編程性增強(qiáng)功能等諸多實用功能,新增內(nèi)容地理空間關(guān)聯(lián)規(guī)則、空間時間預(yù)測,提供時間因果模型,方便用戶使用,讓他們在軟件內(nèi)操作起來更加簡便。2.數(shù)據(jù)分析軟件詳情SPSS2.1傳統(tǒng)數(shù)據(jù)分析軟件介紹

2.數(shù)據(jù)分析軟件詳情2.1傳統(tǒng)數(shù)據(jù)分析軟件介紹

SASSAS(全稱STATISTICALANALYSISSYSTEM,簡稱SAS)是全球最大的軟件公司之一,是由美國NORTHCAROLINA州立大學(xué)1966年開發(fā)的統(tǒng)計分析軟件。1976年SAS軟件研究所(SASINSTITUTEINC。)成立,開始進(jìn)行SAS系統(tǒng)的維護(hù)、開發(fā)、銷售和培訓(xùn)工作。SAS自面世以來經(jīng)歷許多版本迭代,經(jīng)過多年完善和發(fā)展,SAS最大的優(yōu)勢就是已經(jīng)在業(yè)界行成了一套體系,包括商業(yè)咨詢、生物統(tǒng)計、疾病控制、人口統(tǒng)計等領(lǐng)域的廣泛應(yīng)用,穩(wěn)健傳統(tǒng)的統(tǒng)計功能與第一方不斷更新的各種工具與擴(kuò)展程序,以及對應(yīng)的一套資格考試體系,這套體系在業(yè)界地位牢固,短時間內(nèi)難以撼動。2.數(shù)據(jù)分析軟件詳情2.2編程類數(shù)據(jù)分析軟件介紹

R語言R是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng)。其功能包括:數(shù)據(jù)存儲和處理系統(tǒng);數(shù)組運算工具(其向量、矩陣運算方面功能尤其強(qiáng)大);完整連貫的統(tǒng)計分析工具;優(yōu)秀的統(tǒng)計制圖功能;簡便而強(qiáng)大的編程語言:可操縱數(shù)據(jù)的輸入和輸出,可實現(xiàn)分支、循環(huán),用戶可自定義功能。與其說R是一種統(tǒng)計軟件,還不如說R是一種數(shù)學(xué)計算的環(huán)境,因為R并不是僅僅提供若干統(tǒng)計程序、使用者只需指定數(shù)據(jù)庫和若干參數(shù)便可進(jìn)行一個統(tǒng)計分析。R的思想是:它可以提供一些集成的統(tǒng)計工具,但更大量的是它提供各種數(shù)學(xué)計算、統(tǒng)計計算的函數(shù),從而使使用者能靈活機(jī)動的進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計計算方法。2.數(shù)據(jù)分析軟件詳情2.2編程類數(shù)據(jù)分析軟件介紹

PythonPython已經(jīng)成為最受歡迎的程序設(shè)計語言之一。自從2004年以后,python的使用率呈線性增長。由于Python語言的簡潔性、易讀性以及可擴(kuò)展性,在國外用Python做科學(xué)計算的研究機(jī)構(gòu)日益增多,一些知名大學(xué)已經(jīng)采用Python來教授程序設(shè)計課程。眾多開源的科學(xué)計算軟件包都提供了Python的調(diào)用接口,例如著名的計算機(jī)視覺庫OpenCV、三維可視化庫VTK、。而Python專用的科學(xué)計算擴(kuò)展庫就更多了,例如如下3個十分經(jīng)典的科學(xué)計算擴(kuò)展庫:NumPy、Pandas和matplotlib,它們分別為Python提供了快速數(shù)組處理、數(shù)值運算以及繪圖功能。Spyder、JupyterNotebook的出現(xiàn)使python更加為大眾所接受。Python語言及其眾多的擴(kuò)展庫所構(gòu)成的開發(fā)環(huán)境十分適合工程技術(shù)、科研人員處理實驗數(shù)據(jù)、制作圖表,甚至開發(fā)科學(xué)計算應(yīng)用程序。2.數(shù)據(jù)分析軟件詳情2.2編程類數(shù)據(jù)分析軟件介紹

2.數(shù)據(jù)分析軟件詳情JupyterNotebook2.2編程類數(shù)據(jù)分析軟件介紹

2.數(shù)據(jù)分析軟件詳情spyder2.2編程類數(shù)據(jù)分析軟件介紹

MySQL是一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng),由瑞典MySQLAB公司開發(fā),目前屬于Oracle旗下產(chǎn)品。MySQL最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),在WEB應(yīng)用方面MySQL是最好的RDBMS(RelationalDatabaseManagementSystem,關(guān)系數(shù)據(jù)庫管理系統(tǒng))應(yīng)用軟件之一。MySQL是一種關(guān)聯(lián)數(shù)據(jù)庫管理系統(tǒng),關(guān)聯(lián)數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中,而不是將所有數(shù)據(jù)放在一個大倉庫內(nèi),這樣就增加了速度并提高了靈活性。MySQL所使用的SQL語言是用于訪問數(shù)據(jù)庫的最常用標(biāo)準(zhǔn)化語言。MySQL軟件采用了雙授權(quán)政策,它分為社區(qū)版和商業(yè)版,由于其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,一般中小型網(wǎng)站的開發(fā)都選擇MySQL作為網(wǎng)站數(shù)據(jù)庫。2.數(shù)據(jù)分析軟件詳情MySQL2.3數(shù)據(jù)庫類軟件介紹

ORACLE數(shù)據(jù)庫系統(tǒng)是美國ORACLE公司(甲骨文)提供的以分布式數(shù)據(jù)庫為核心的一組軟件產(chǎn)品,是目前最流行的客戶/服務(wù)器(CLIENT/SERVER)或B/S體系結(jié)構(gòu)的數(shù)據(jù)庫之一。ORACLE數(shù)據(jù)庫是目前世界上使用最為廣泛的數(shù)據(jù)庫管理系統(tǒng),作為一個通用的數(shù)據(jù)庫系統(tǒng),它具有完整的數(shù)據(jù)管理功能;作為一個關(guān)系數(shù)據(jù)庫,它是一個完備關(guān)系的產(chǎn)品;作為分布式數(shù)據(jù)庫它實現(xiàn)了分布式處理功能。2.數(shù)據(jù)分析軟件詳情Oracle2.3數(shù)據(jù)庫類軟件介紹

TableauSoftware致力于幫助人們查看并理解數(shù)據(jù)。Tableau幫助任何人快速分析、可視化并分享信息。超過42,000家客戶通過使用Tableau在辦公室或隨時隨地快速獲得結(jié)果。數(shù)以萬計的用戶使用TableauPublic在博客與網(wǎng)站中分享數(shù)據(jù)。Tableau公司將數(shù)據(jù)運算與美觀的圖表完美地嫁接在一起。它的程序很容易上手,各公司可以用它將大量數(shù)據(jù)拖放到數(shù)字“畫布”上,轉(zhuǎn)眼間就能創(chuàng)建好各種圖表。這一軟件的理念是,界面上的數(shù)據(jù)越容易操控,公司對自己在所在業(yè)務(wù)領(lǐng)域里的所作所為到底是正確還是錯誤,就能了解得越透徹。2.數(shù)據(jù)分析軟件詳情Tableau2.4可視化類軟件介紹

2.數(shù)據(jù)分析軟件詳情Tableau2.4可視化類軟件介紹

FineBI是帆軟公司推出一款BI工具,帆軟早期做報表軟件,finereport很厲害,也是最早做商業(yè)智能BI的公司之一,目前最新版已迭代到V5.0。它不僅可以直接導(dǎo)入Excel、CSV、TXT等常規(guī)文件數(shù)據(jù),而且還可以直接讀取Oracle、SQLServer、MySQL的數(shù)據(jù)分析。支持GBase,ADS,Hbase等主流的數(shù)據(jù)庫平臺,支持通過服務(wù)器數(shù)據(jù)集對多維數(shù)據(jù)庫進(jìn)行對接。FineBI對一些有關(guān)數(shù)據(jù)的加工處理功能,統(tǒng)稱為“自助數(shù)據(jù)集”。包括過濾、分組匯總、新增列、合并表、自循環(huán)列(可以有樹結(jié)構(gòu)的數(shù)據(jù)進(jìn)行分層等集團(tuán)性企業(yè))、行列轉(zhuǎn)換等操作。都可以快速進(jìn)行處理,且可視化無代碼。2.數(shù)據(jù)分析軟件詳情FineBI2.4可視化類軟件介紹

2.數(shù)據(jù)分析軟件詳情FineBI2.4可視化類軟件介紹

PowerBIPowerBI是一款實力非凡的產(chǎn)品,出自于微軟公司,我一說是微軟,大家肯定都對這款工具有了初步的信任感。PowerBI是基于Excel的高級功能,在這上面延伸并開發(fā)出了多樣化的功能點作為集合,最后造就了這款BI工具。能就常規(guī)的文件格式數(shù)據(jù)進(jìn)行直接導(dǎo)入分析,比如大家熟知的Excel、TXT等等,也可以直接對傳統(tǒng)數(shù)據(jù)庫和多維數(shù)據(jù)庫的對接。不容分說,PowerBI作為大廠的手筆,穩(wěn)定性和使用的流暢度都是很奈斯的。另外,PowerBI提供了一些可視化界面的操作選項,結(jié)合M語言和DAX函數(shù),可以進(jìn)行數(shù)據(jù)加工處理。當(dāng)然也存在一些功能缺陷有待改善,比如在數(shù)據(jù)加工處理的功能上,用戶要有一定的編碼能力才能使用的了,其次,不支持接入現(xiàn)在比較流行的大數(shù)據(jù)平臺。最后,在一些需要基于java定制的api程序數(shù)據(jù)集中,PowerBI不支持進(jìn)行對接,所以如果企業(yè)需要功能上的定制服務(wù),就需要移步其他BI工具了。2.數(shù)據(jù)分析軟件詳情2.4可視化類軟件介紹

2.數(shù)據(jù)分析軟件詳情2.4可視化類軟件介紹

PowerBI數(shù)據(jù)分析及可視化技術(shù)3.(數(shù)據(jù)收集)目錄1.理解數(shù)據(jù)2.數(shù)據(jù)的來源11.1數(shù)據(jù)的類型1.2數(shù)據(jù)清單理解數(shù)據(jù)1.1數(shù)據(jù)的類型

在Excel中,數(shù)據(jù)類型細(xì)分起來有很多(見圖1),但是歸根結(jié)底還是四大類,分別是:數(shù)值、貨幣、日期與時間、文本。1.數(shù)據(jù)理解在數(shù)據(jù)運算過程中,我們發(fā)現(xiàn),數(shù)值、貨幣、日期與時間都可以進(jìn)行加、減、乘、除等算術(shù)運算,所以統(tǒng)稱為數(shù)值型;而文本只能進(jìn)行簡單的“計數(shù)”,不能進(jìn)行算術(shù)運算,仍稱文本型。在Excel數(shù)據(jù)分析中,我們把數(shù)據(jù)類型分成兩種:數(shù)值型數(shù)據(jù)和文本型數(shù)據(jù)。數(shù)值型數(shù)據(jù)對應(yīng)統(tǒng)計學(xué)中的數(shù)量標(biāo)志的標(biāo)志表現(xiàn),文本型數(shù)據(jù)對應(yīng)統(tǒng)計學(xué)中的品質(zhì)標(biāo)志的標(biāo)志表現(xiàn)。1.數(shù)據(jù)理解1.1數(shù)據(jù)的類型

數(shù)據(jù)的呈現(xiàn)形式:不同個體在同一標(biāo)志上的不同取值。在Excel中,這樣的數(shù)據(jù)可以排成一列,也可以排成一行或一個矩形塊。以下為某公司100名職工的月基本工資數(shù)據(jù)資料。如圖2和圖3所示。圖2單列數(shù)據(jù)圖3矩形塊數(shù)據(jù)1.數(shù)據(jù)理解1.1數(shù)據(jù)的類型

1.2數(shù)據(jù)清單不同個體在多個標(biāo)志上的取值所組成的二維表格,在Excel中叫數(shù)據(jù)清單,如圖4所示。圖4數(shù)據(jù)清單1.數(shù)據(jù)理解1.2數(shù)據(jù)清單

Excel數(shù)據(jù)清單包含一行列標(biāo)題和多行數(shù)據(jù),清單中的每一列稱為一個字段,列標(biāo)題稱為字段名(即統(tǒng)計學(xué)中的標(biāo)志);清單中的每一列數(shù)據(jù)的類型和格式完全相同;清單中每一行數(shù)據(jù)稱為一條記錄。數(shù)據(jù)清單中不能有合并單元格的形式。多個相關(guān)的數(shù)據(jù)清單在一起,就稱為一個數(shù)據(jù)庫。1.數(shù)據(jù)理解22.1獲取數(shù)據(jù)的方法數(shù)據(jù)的來源2.2數(shù)據(jù)的來源2.1獲取數(shù)據(jù)的方法一手?jǐn)?shù)據(jù):一手?jǐn)?shù)據(jù)(Primarysource)也稱為原始數(shù)據(jù),原始數(shù)據(jù)是指通過訪談、詢問、問卷、測定等方式直截了當(dāng)獲得的,通過收集一手?jǐn)?shù)據(jù)可以解決待定問題。1)觀察法觀察法是指調(diào)查人員親自到現(xiàn)場對調(diào)查對象進(jìn)行觀察,在被調(diào)查者不察覺的情況下獲得數(shù)據(jù)資料的一種調(diào)查方法。2)采訪法采訪法是通過指派調(diào)查人員對被調(diào)查者提問,據(jù)被調(diào)查者的答復(fù)取得資料的一種調(diào)查方法。2.數(shù)據(jù)的來源2.1獲取數(shù)據(jù)的方法3)問卷調(diào)查法問卷調(diào)查法是把調(diào)查項目列于表格上形成問卷,通過發(fā)放問卷搜集調(diào)查對象情況的一種采集資料的方法。問卷中問題的設(shè)計應(yīng)注意以下原則:(1)具體性原則,即問題的內(nèi)容要具體,不要提抽象、籠統(tǒng)的問題。(2)單一性原則,s即問題的內(nèi)容要單一,不要把兩個或兩個以上的問題合在一起提。(3)通俗性原則,即表述問題的語言要通俗,不要使用使被調(diào)查者感到陌生的語言,特別要避免使用過于專業(yè)的術(shù)語。(4)準(zhǔn)確性原則,即表述問題的語言要準(zhǔn)確,不要使用模棱兩可、含混不清或容易產(chǎn)生歧義的語言或概念。2.數(shù)據(jù)的來源2.1獲取數(shù)據(jù)的方法3)問卷調(diào)查法(5)簡明性原則,即表述問題的語言應(yīng)該盡可能簡單明確,不要冗長和啰唆。(6)客觀性原則,即表述問題的語言要客觀,不要有誘導(dǎo)性或傾向性語言。(7)非否定性原則,即要避免使用否定句形式表述問題。(8)可能性原則,即必須符合被調(diào)查者回答問題的能力。凡是超越被調(diào)查者理解能力、記憶能力、計算能力、回答能力的問題,都不應(yīng)該提出。(9)自愿性原則,即必須考慮被調(diào)查者是否自愿真實回答問題。凡被調(diào)查者不可能自愿真實回答的問題,都不應(yīng)該正面提出。2.數(shù)據(jù)的來源2.1獲取數(shù)據(jù)的方法4)抽樣調(diào)查法抽樣調(diào)查法是根據(jù)隨機(jī)性原則,從研究對象的總體中抽取一部分個體作為樣本進(jìn)行調(diào)查研究,據(jù)此推斷有關(guān)總體的數(shù)字特征的研究方法。抽樣應(yīng)遵循以下原則。(1)隨機(jī)取樣。(2)取樣應(yīng)具有代表性。(3)若樣本由具有明顯不同特征的部分組成,應(yīng)按比例從各部分抽樣。5)實驗法實驗法是在設(shè)定的特殊實驗場所、特殊狀態(tài)下,對調(diào)查對象進(jìn)行實驗以獲得所需的資料。2.數(shù)據(jù)的來源2.數(shù)據(jù)的來源6)報告法報告法是通過報告單位根據(jù)一定的原始記錄和臺賬,根據(jù)統(tǒng)計表的格式和要求,按照隸屬關(guān)系,逐級向有關(guān)部門提供統(tǒng)計資料的一種調(diào)查方法。7)自動生成在大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生方式呈現(xiàn)多樣化,如從傳感器、攝像頭自動收集的數(shù)據(jù),電子商務(wù)在線交易日志數(shù)據(jù)、應(yīng)用服務(wù)器日志數(shù)據(jù)等自動保存的數(shù)據(jù)都是自動生成的數(shù)據(jù)。2.1獲取數(shù)據(jù)的方法二手?jǐn)?shù)據(jù):二手?jǐn)?shù)據(jù)也稱為次級數(shù)據(jù),是指那些從同行或一些媒體上獲得的、經(jīng)過加工整理的數(shù)據(jù),比如國家統(tǒng)計局定期發(fā)布的各種數(shù)據(jù),從報紙、電視上獲取的各種數(shù)據(jù)。1.導(dǎo)入Access數(shù)據(jù)(1)在Excel中單擊“數(shù)據(jù)”|“自Access”按鈕,如圖5所示。圖5導(dǎo)入Access數(shù)據(jù)2.數(shù)據(jù)的來源2.2數(shù)據(jù)的來源2)在彈出的對話框中選擇需要的Access文件“圖書銷售.accdb”,如圖6所示。圖6選擇Access文件2.數(shù)據(jù)的來源2.2數(shù)據(jù)的來源(3)單擊“打開”按鈕,在彈出的對話框中選擇需要的表“銷售情況”,如圖7所示。(4)在彈出的對話框中確定數(shù)據(jù)的顯示方式和放置位置,如圖8所示。圖7選擇Access表圖8選擇顯示方式和放置位置2.數(shù)據(jù)的來源2.2數(shù)據(jù)的來源(5)單擊“確定”按鈕,導(dǎo)入的結(jié)果如圖9所示。圖9導(dǎo)入的結(jié)果2.數(shù)據(jù)的來源2.2數(shù)據(jù)的來源導(dǎo)入網(wǎng)站表格數(shù)據(jù):(1)在Excel中單擊“數(shù)據(jù)”|“自網(wǎng)站”按鈕,如圖10所(2)輸入或復(fù)制并粘貼網(wǎng)址。圖10導(dǎo)入網(wǎng)站數(shù)據(jù)圖11選擇導(dǎo)入的表格2.數(shù)據(jù)的來源2.2數(shù)據(jù)的來源

導(dǎo)入的結(jié)果如圖12所示。(3)也可以選擇網(wǎng)頁上的數(shù)據(jù)后,單擊鼠標(biāo)右鍵,在彈出的快捷菜單中選擇“復(fù)制”命令,如圖3-13所示,再到Excel中粘貼即可。圖12導(dǎo)入的結(jié)果圖13復(fù)制數(shù)據(jù)2.數(shù)據(jù)的來源2.2數(shù)據(jù)的來源利用爬蟲軟件下載網(wǎng)絡(luò)數(shù)據(jù):萬維網(wǎng)上更多的數(shù)據(jù)是以非表格形式呈現(xiàn)的,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的軟件——聚焦網(wǎng)絡(luò)爬蟲應(yīng)運而生。聚焦網(wǎng)絡(luò)爬蟲是一種能自動下載萬維網(wǎng)數(shù)據(jù)的程序,它能按照一定的規(guī)則,根據(jù)既定的目標(biāo),自動地抓取萬維網(wǎng)上的數(shù)據(jù)。2.數(shù)據(jù)的來源2.2數(shù)據(jù)的來源數(shù)據(jù)分析及可視化技術(shù)4.(數(shù)據(jù)清洗)目錄1.數(shù)據(jù)一致性處理2.數(shù)據(jù)的缺失值處理3.數(shù)據(jù)的重復(fù)值處理4.數(shù)據(jù)的分列11.1數(shù)據(jù)清洗的定義1.2數(shù)據(jù)一致性處理數(shù)據(jù)一致性處理1.1數(shù)據(jù)清洗的定義1.數(shù)據(jù)一致性處理數(shù)據(jù)清洗就是將格式錯誤的數(shù)據(jù)進(jìn)行處理糾正,將錯誤的數(shù)據(jù)糾正或刪除,將缺失的數(shù)據(jù)補(bǔ)充完整,將重復(fù)多余的數(shù)據(jù)刪除。1.2數(shù)據(jù)一致性處理通過統(tǒng)計調(diào)查收集上來的數(shù)據(jù),經(jīng)常會出現(xiàn)同一字段的數(shù)據(jù)格式不一致的問題,如圖1所示。這會直接影響后續(xù)的數(shù)據(jù)分析,所以必須對數(shù)據(jù)的格式做出一致性處理。圖1數(shù)據(jù)格式不一致的資料1.2數(shù)據(jù)一致性處理1.數(shù)據(jù)一致性處理下面就以圖2所示的數(shù)據(jù)為例,將“身高”這個字段中的數(shù)據(jù)去掉字符cm。打開Excel文件“數(shù)據(jù)處理.xlsx”,找到“數(shù)據(jù)清洗”工作表。(1)把鼠標(biāo)指針移到字母C上,當(dāng)指針變成

向下的箭頭時,單擊選擇C列,如圖所示。(2)選擇“查找和選擇”|“替換”命令,如圖3所示。1.數(shù)據(jù)一致性處理圖2選擇C列圖3選擇“替換”命令1.2數(shù)據(jù)一致性處理(3)在“查找和替換”對話框的“查找內(nèi)容”中輸入“cm”,設(shè)置“替換為”為空,單擊“全部替換”按鈕完成替換,如圖4所示。替換后的結(jié)果如圖5所示。1.數(shù)據(jù)一致性處理圖4輸入查找內(nèi)容和替換內(nèi)容圖5替換后的結(jié)果1.2數(shù)據(jù)一致性處理22.1解決數(shù)據(jù)缺失值的方法數(shù)據(jù)的缺失值處理2.2缺失值處理具體步驟2.1解決數(shù)據(jù)缺失值的方法2.數(shù)據(jù)的缺失值處理數(shù)據(jù)清單中,單元格如果出現(xiàn)空值,就認(rèn)為數(shù)據(jù)存在缺失。缺失數(shù)據(jù)的處理方法通常有以下3種:1)用樣本均值(或眾數(shù)、中位數(shù))代替缺失值;2)將有缺失值的記錄刪除;3)保留該記錄,在要用到該值做分析時,將其臨時刪除(最常用方法)。首先來解決如何發(fā)現(xiàn)缺失數(shù)據(jù),僅靠眼睛來搜索缺失數(shù)據(jù)顯然是不現(xiàn)實的,一般我們用“定位條件”來查找缺失數(shù)據(jù)的單元格。下面演示將“年齡”字段中的空值均替換為“18”。(1)選擇“年齡”所在的E列。(2)選擇“查找和選擇”|“定位條件”命令,如圖6所示。(3)在“定位條件”對話框中,選中“空值”單選項,如圖7所示。2.數(shù)據(jù)的缺失值處理圖6選擇“定位條件”命令

圖7選擇定位條件“空值”2.2缺失值處理具體步驟(4)單擊“確定”按鈕后,E列所有的空白單元格呈選中狀態(tài),如圖8所示。(5)輸入替代值“18”,按Ctrl+Enter組合鍵確認(rèn),結(jié)果如圖9所示。2.數(shù)據(jù)的缺失值處理圖8查找到所有空白單元格圖9統(tǒng)一輸入新的數(shù)據(jù)2.2缺失值處理具體步驟3數(shù)據(jù)的重復(fù)值處理3.1刪除重復(fù)記錄刪除重復(fù)記錄的操作極其簡單,只需單擊數(shù)據(jù)表的任意位置,再單擊“數(shù)據(jù)”|“刪除重復(fù)項”按鈕即可,如圖10所示。1.數(shù)據(jù)清洗圖10刪除重復(fù)項3.1刪除重復(fù)記錄4數(shù)據(jù)的分列4.1字段分列介紹4.2字段分列具體操作在談到Excel數(shù)據(jù)處理相關(guān)技巧時,分列功能經(jīng)常被提到。分列功能不僅能夠?qū)崿F(xiàn)對數(shù)據(jù)地有效拆分,而且還是規(guī)范數(shù)據(jù)格式的利器。以下是分列功能在學(xué)習(xí)工作中具體的使用場景:1)根據(jù)指定符號,將一列數(shù)據(jù)迅速拆分成多列2)分列不僅可以按特殊字符分列,還可以按照漢字來分列3)按空格進(jìn)行分列,如下所示提取身份證信息4.數(shù)據(jù)的分列4.1字段分列介紹字段分列:1)選擇“字段分列”工作表的A列數(shù)據(jù),如圖11所示。2)單擊“數(shù)據(jù)”|“分列”按鈕,如圖12所示。4.數(shù)據(jù)的分列圖11選擇A列圖12數(shù)據(jù)分列4.2字段分列具體操作3)要將字段“姓名”中的第一個字分列出來,所以選中“固定列寬”單選項,如圖13所示。4.數(shù)據(jù)的分列圖13選中“固定列寬”單選項4.2字段分列具體操作4)單擊“下一步”按鈕,在刻度尺上單擊鼠標(biāo)確定分列的位置,如圖14所示。5)單擊“下一步”按鈕,確定目標(biāo)區(qū)域的起點單元格D1,如圖15所示。4.數(shù)據(jù)的分列圖14確定分列位置圖15確定目標(biāo)區(qū)域4.2字段分列具體操作6)單擊“完成”按鈕,分列的結(jié)果如圖16所示。4.數(shù)據(jù)的分列圖16分列結(jié)果4.2字段分列具體操作數(shù)據(jù)分析及可視化技術(shù)5.(數(shù)據(jù)處理)目錄2.數(shù)據(jù)抽取1.數(shù)據(jù)關(guān)聯(lián)3.數(shù)據(jù)計算4.數(shù)據(jù)分組11.1

數(shù)據(jù)關(guān)聯(lián)介紹數(shù)據(jù)關(guān)聯(lián)1.2

數(shù)據(jù)關(guān)聯(lián)具體步驟1.1數(shù)據(jù)關(guān)聯(lián)介紹1.數(shù)據(jù)關(guān)聯(lián)圖1“全校名單”工作表圖2“四級名單”工作表字段匹配就是將原數(shù)據(jù)清單中沒有但其他數(shù)據(jù)清單中有的字段匹配過來。例如,文件“數(shù)據(jù)處理.xlsx”中的“全校名單”工作表是某校2015級全體學(xué)生的基本信息,“四級名單”工作表是2015級學(xué)生中報考了英語四級的學(xué)生名單。(1)將“白有成”的身份證號碼匹配到單元格D2。(2)雙擊D2的填充柄完成填充,將所有人的身份證號碼都匹配過來,結(jié)果如圖4所示。1.數(shù)據(jù)關(guān)聯(lián)圖3vlookup函數(shù)的參數(shù)設(shè)置圖4匹配結(jié)果1.1數(shù)據(jù)關(guān)聯(lián)具體步驟22.1數(shù)據(jù)抽取的介紹數(shù)據(jù)抽取2.2數(shù)據(jù)抽取具體步驟數(shù)據(jù)抽取是指利用原數(shù)據(jù)清單中某些字段的部分信息得到一個新字段。常用的提取方法有:1)公式提取法如:left()、right()、mid()、year()、month()、day()、weekday()。2)快速填充法此功能僅2013及以上版本才有。運用快速填充時,先輸入一組到三組數(shù)據(jù),讓excel識別你的操作意圖,使用快捷鍵Ctrl+E即可打到目的。本節(jié)著重介紹公式提取法。2.數(shù)據(jù)抽取2.1數(shù)據(jù)抽取介紹常用的數(shù)據(jù)抽取函數(shù)有:left()、right()、mid()、year()、month()、day()、weekday()。2.數(shù)據(jù)抽取圖5-5weekday函數(shù)應(yīng)用2.2數(shù)據(jù)抽取具體步驟3數(shù)據(jù)計算3.2日期類數(shù)據(jù)計算3.1數(shù)值類數(shù)據(jù)計算3.3取整函數(shù)介紹例1:文件“數(shù)據(jù)處理.xlsx”的“數(shù)據(jù)計算1”工作表中只有“銷量”和“單價”,沒有“銷售額”,通過公式

銷售額=單價×銷量

來計算銷售額,如圖5所示。3.數(shù)據(jù)計算圖5計算銷售額3.1數(shù)值類數(shù)據(jù)計算例2:文件“數(shù)據(jù)處理.xlsx”的“數(shù)據(jù)計算2”工作表中只有“成交單數(shù)”和“好評單數(shù)”,可以通過公式

好評率=好評單數(shù)/成交單數(shù)來計算好評率,如圖6所示。3.數(shù)據(jù)計算圖6計算好評率3.1數(shù)值類數(shù)據(jù)計算例3:文件“數(shù)據(jù)處理.xlsx”的“數(shù)據(jù)計算3”工作表中,已知商品的“上架日期”和“下架日期”,可以通過公式

銷售天數(shù)=下架日期-上架日期

來計算商品的銷售天數(shù),如圖7所示。3.數(shù)據(jù)計算圖7計算銷售天數(shù)3.1數(shù)值類數(shù)據(jù)計算例4:文件“數(shù)據(jù)處理.xlsx”的“數(shù)據(jù)計算4”工作表中,已知商品的“上架日期”,要計算迄今為止的上架天數(shù),可以用函數(shù)today來獲取當(dāng)天的日期,用公式=today()-B2來計算上架天數(shù),如圖8所示。3.數(shù)據(jù)計算圖8計算上架天數(shù)3.2日期類數(shù)據(jù)計算例5:文件“數(shù)據(jù)處理.xlsx”的“數(shù)據(jù)計算3”工作表中,可以用公式

=D2/360計算銷售年數(shù),結(jié)果為3.6,如圖9所示。3.數(shù)據(jù)計算圖9計算銷售年數(shù)3.2日期類數(shù)據(jù)計算這樣計算出來的年數(shù)通常是一個小數(shù),如果希望得到整數(shù),可以用int函數(shù)取整,即用公式

=int(E2),int函數(shù)的功能是返回不大于括號內(nèi)參數(shù)的整數(shù)。如圖10所示。3.數(shù)據(jù)計算圖10用int函數(shù)取整3.3取整函數(shù)介紹如果要進(jìn)行四舍五入式取整,則要用函數(shù)round。當(dāng)round(number,digits)函數(shù)的第二個參數(shù)為0時,就可以對第一個參數(shù)進(jìn)行四舍五入式取整,所以在編輯欄將公式修改為

=round(E2,0)即可,如圖11所示。3.數(shù)據(jù)計算圖11用round函數(shù)取整3.3取整函數(shù)介紹函數(shù)int(number)的功能是向下取整(數(shù)軸上離左邊最近的整數(shù)),如圖12所示。3.數(shù)據(jù)計算圖12int函數(shù)解釋3.3取整函數(shù)介紹所以,int(6.4)=int(6.7)=6,int(-6.4)=int(-6.7)=-7。函數(shù)round(number,digits)的功能是進(jìn)行四舍五入運算,功能解釋如圖13所示。3.數(shù)據(jù)計算圖13round函數(shù)解釋number1263.472digits-2-1012四舍五入的位數(shù)十位個位取整保留1位小數(shù)保留2位小數(shù)結(jié)果1300126012631263.51263.473.3取整函數(shù)介紹44.1統(tǒng)計分組的概念4.2單項式分組數(shù)據(jù)分組4.3組距式分組4.1統(tǒng)計分組的概念4.數(shù)據(jù)分組統(tǒng)計分組是根據(jù)統(tǒng)計研究的需要,按照一定的標(biāo)志,將總體區(qū)分為若干個性質(zhì)不同而又有聯(lián)系的組成部分,并計算各組的頻數(shù)或比重的一種統(tǒng)計方法。這些組成部分稱為這一總體的“組”。按照每組標(biāo)志表現(xiàn)的多少,統(tǒng)計分組可以分成單項式分組和組距式分組。4.2單項式分組一個變量值作為一組,稱為單項式分組,一般適用于離散型變量且變量變動不大的場合。例如,如果考試成績以五分制計算,則全體學(xué)生的成績可以分為六組,即5分、4分、3分、2分、1分、0分,如右圖所示。以一個區(qū)間作為一組,稱為組距式分組,一般適用于連續(xù)型變量或離散數(shù)據(jù)較多的場合。組距式分組又可以分成等距分組和不等距分組。例如,如果學(xué)生的成績以百分制計算,則全體學(xué)生的成績可以采用等距分組分成10組,如圖14所示;也可以采用不等距分組分成5組,如圖15所示。4.數(shù)據(jù)分組圖14等距分組圖15不等距分組4.3組距式分組對于某一個組(a,b),我們稱a為該組的下限,b為該組的上限;上限與下限之差(b-a)叫組距,

叫組中值。組中值未必是該組數(shù)據(jù)的平均值,但由于其計算簡單,常作為該組的代表值。采用組距式分組一般經(jīng)過以下幾個步驟。(1)確定組數(shù)。(2)確定各組的組距。(3)統(tǒng)計各組的頻數(shù)。4.數(shù)據(jù)分組4.3組距式分組例1:打開工作簿“數(shù)據(jù)分組.xlsx”,利用數(shù)據(jù)透視表功能統(tǒng)計“一月銷售記錄”工作表中每種商品的總銷售額。(1)單擊“一月銷售記錄”工作表數(shù)據(jù)區(qū)域的任意一個單元格,再選擇“插入”|“數(shù)據(jù)透視表”命令,打開“創(chuàng)建數(shù)據(jù)透視表”對話框,里面自動選擇了要分析的數(shù)據(jù)為“一月銷售記錄!$A:$C”,透視表的位置為“新工作表”,如圖16所示。4.數(shù)據(jù)分組圖16確定數(shù)據(jù)及透視表放置位置4.3組距式分組(2)將“銷售商品”拖至“行標(biāo)簽”處,將“銷售額”拖至“數(shù)值”處,即得到每種商品的總銷售額,如圖17所示。4.數(shù)據(jù)分組圖17統(tǒng)計每種商品的總銷售額4.3組距式分組例2:將工作簿“數(shù)據(jù)分組.xlsx”中的“2015年銷售記錄”工作表的數(shù)據(jù)根據(jù)“日期”字段按季度分組,并統(tǒng)計每個季度的“成交商品數(shù)”。(1)單擊“2015年銷售記錄”工作表數(shù)據(jù)區(qū)域的任意一個單元格,再選擇“插入”|“數(shù)據(jù)透視表”命令,打開“創(chuàng)建數(shù)據(jù)透視表”對話框。(2)要分析的數(shù)據(jù)區(qū)域為“'2015年銷售記錄'!$A:$F”,透視表的位置為“新工作表”,如圖18所示。4.數(shù)據(jù)分組圖18要分析的數(shù)據(jù)及透視表放置位置4.3組距式分組(3)將“日期”拖到“行標(biāo)簽”處,將“成交商品數(shù)”拖到“數(shù)值”處,如圖5-19所示。4.數(shù)據(jù)分組圖19按日期分組統(tǒng)計成交商品數(shù)4.3組距式分組(4)在透視表的“行標(biāo)簽”下任意單元格上單擊鼠標(biāo)右鍵,在彈出的快捷菜單中選擇“創(chuàng)建組”命令,如圖20所示。(5)在隨后打開的“分組”對話框中選擇“步長“為“季度”,如圖21所示。4.數(shù)據(jù)分組圖20創(chuàng)建組圖21按季度分組4.3組距式分組(6)單擊“確定”按鈕,統(tǒng)計結(jié)果如圖5-22所示。4.數(shù)據(jù)分組圖22各季度的成交商品數(shù)4.3組距式分組數(shù)據(jù)分析及可視化技術(shù)6.(常用統(tǒng)計量)目錄1.描述集中趨勢的統(tǒng)計量2.描述離散程度的統(tǒng)計量11.1平均值1.2中位數(shù)描述集中趨勢的統(tǒng)計量1.3眾數(shù)1.描述集中趨勢的統(tǒng)計量定義:可簡稱為平均數(shù)或均數(shù),是用以度量次數(shù)分布集中趨勢及位置最常用的集中量數(shù)??傮w平均數(shù)加權(quán)平均數(shù)1.1平均值1.描述集中趨勢的統(tǒng)計量平均數(shù)的性質(zhì):每一個觀測值加上一個相同常數(shù)C,其平均數(shù)為原來的平均數(shù)加常數(shù)C每一個觀測值乘以一個相同常數(shù)C,其平均數(shù)為原來的平均數(shù)乘常數(shù)C每個觀測值都乘以一個相同常數(shù)c,再加上一個常數(shù)d后,計算得到的平均數(shù)等于原平均數(shù)乘以該常數(shù)c再加上常數(shù)d觀測值與平均數(shù)的差(離均差)的總和等于零觀測值與任意常數(shù)C的離差平方和不小于觀測值與平均數(shù)的差的平方和。-離差平方和最小,樣板平均數(shù)是總體平均數(shù)的最佳估計。1.1平均值1.描述集中趨勢的統(tǒng)計量平均數(shù)的優(yōu)點:反應(yīng)靈敏,確定嚴(yán)密,簡明易解,計算簡便并能作進(jìn)一步的代數(shù)演算,是應(yīng)用最普遍的一種集中量數(shù)。適用情境:數(shù)據(jù)準(zhǔn)確可靠,且又同質(zhì),需要每一個數(shù)據(jù)都能加入計算,同時還要作進(jìn)一步的代數(shù)運算時,一般都用算術(shù)平均數(shù)表示集中趨勢。注意:易受極端數(shù)據(jù)影響、出現(xiàn)模糊數(shù)據(jù)和存在不同質(zhì)數(shù)據(jù)時無法計算1.1平均值1.描述集中趨勢的統(tǒng)計量中數(shù)又稱中位數(shù),符號記為Mdn。中數(shù)是指位于一組數(shù)列中中間位置的那個數(shù),它可以是數(shù)列中的某一個原始數(shù)據(jù),也可以不是原始數(shù)據(jù)而是通過計算得到的一個數(shù)??傊绻麑⒁唤M數(shù)據(jù)按大小排列,則中數(shù)一定是將數(shù)據(jù)個數(shù)平均分為大小相等兩部分的那個數(shù)。中數(shù)的特點:計算簡單,不受極端數(shù)據(jù)影響,但由于是根據(jù)數(shù)據(jù)的相對位置來確定的,在計算時不是每個數(shù)據(jù)都加入,從而有較大的抽樣誤差,不如平均數(shù)穩(wěn)定,且會流失很多的被試信息,同時,中數(shù)難以作進(jìn)一步的代數(shù)運算。1.2中位數(shù)1.描述集中趨勢的統(tǒng)計量眾數(shù)又稱為范數(shù),指次數(shù)分布中出現(xiàn)次數(shù)最多的那個數(shù)的數(shù)值,常用Mo表示。適用條件:當(dāng)一組數(shù)據(jù)中出現(xiàn)不同質(zhì)的情況,或分布中出現(xiàn)極端數(shù)據(jù)時,常用眾數(shù)作為集中量數(shù)的粗略估計。計算眾數(shù)的皮爾遜經(jīng)驗法:Mo=3Mdn-2M注意:如果次數(shù)分布最多的有兩個數(shù),而且兩個數(shù)是相鄰的,那么一般取兩者的平均值作為眾數(shù);如果這兩個數(shù)不相鄰,那么一般需要報告兩個眾數(shù),而且認(rèn)為該組數(shù)據(jù)是bimodal雙峰分布的1.3眾數(shù)22.1樣本方差、樣本標(biāo)準(zhǔn)差2.2極差描述離散程度的統(tǒng)計量2.描述離散程度的統(tǒng)計量方差與標(biāo)準(zhǔn)差事最經(jīng)常用于描述次數(shù)分布離散程度的量數(shù)??傮w方差與總體標(biāo)準(zhǔn)差樣本方差與樣本標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差的合成標(biāo)準(zhǔn)差的意義方差與標(biāo)準(zhǔn)差的優(yōu)缺點2.1樣本方差、樣本標(biāo)準(zhǔn)差2.描述離散程度的統(tǒng)計量什么是方差?什么是標(biāo)準(zhǔn)差呢?方差:每個數(shù)據(jù)與該組數(shù)據(jù)平均數(shù)之差乘方后的均值,即離均差平方和的平均數(shù)。標(biāo)準(zhǔn)差:方差的算術(shù)平方根,表示一列數(shù)據(jù)的平均差距。2.1樣本方差、樣本標(biāo)準(zhǔn)差2.描述離散程度的統(tǒng)計量總體方差的表示:總體標(biāo)準(zhǔn)差的表示:2.1樣本方差、樣本標(biāo)準(zhǔn)差2.1樣本方差、樣本標(biāo)準(zhǔn)差樣本方差與樣本標(biāo)準(zhǔn)差2.描述離散程度的統(tǒng)計量樣本方差的表示:樣本標(biāo)準(zhǔn)差的表示:樣本方差為什么要除以(n-1)與自由度(degreesoffreedom)有關(guān)。自由度是數(shù)學(xué)名詞,在統(tǒng)計學(xué)中,n個數(shù)據(jù)如不受任何條件的限制,則n個數(shù)據(jù)可取任意值,稱為有n個自由度。若受到k個條件的限制,就只有(n-k)個自由度了。計算樣本方差時,n個變量值本身有n個自由度。但受到樣本均數(shù)的限制,任何一個“離均差”均可以用另外的(n-1)個“離均差”表示,所以只有(n-1)個獨立的“離均差”,因此只有(n-1)個自由度。2.描述離散程度的統(tǒng)計量方差具有可加性。在已知幾個組方差或標(biāo)準(zhǔn)差的情況下,可以計算她們的總方差或總標(biāo)準(zhǔn)差。-只有在應(yīng)用同一種觀測手段,對不同樣本的統(tǒng)一特質(zhì)進(jìn)行測量時才能使用。2.1樣本方差、樣本標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差的合成2.描述離散程度的統(tǒng)計量每一個觀測值都加一個常數(shù)c后,計算得到的標(biāo)準(zhǔn)差等于原標(biāo)準(zhǔn)差。每一個觀測值都乘以一個常數(shù)c,則所得的標(biāo)準(zhǔn)差等于原標(biāo)準(zhǔn)差乘以這個常數(shù)。每個觀測值都乘以同一個常數(shù)c(c≠0),再加上一個常數(shù)d,所得標(biāo)準(zhǔn)差等于原標(biāo)準(zhǔn)差乘以這個常數(shù)c。2.1樣本方差、樣本標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差的性質(zhì)2.描述離散程度的統(tǒng)計量方差和標(biāo)準(zhǔn)差是表示一組數(shù)據(jù)離散程度的最好指標(biāo)。值越大,說明次數(shù)分布的離散程度越大。優(yōu)點缺點(1)反應(yīng)靈敏;(2)計算嚴(yán)密;(3)受抽樣變動影響?。?)不太容易理解;(2)易受極端數(shù)值影響;(3)有個別數(shù)值模糊不清時,無法計算。2.1樣本方差、樣本標(biāo)準(zhǔn)差方差與標(biāo)準(zhǔn)差的優(yōu)缺點2.描述離散程度的統(tǒng)計量極差又稱為全距。是一組數(shù)據(jù)的最大值與最小值之差。極差的計算公式:R=max(Xi)-min(Xi)例:一組數(shù)中的最大值為544,最小值為28,求改組數(shù)的極差。解:R=max(Xi)-min(Xi)=544-28=5162.2極差數(shù)據(jù)分析及可視化技術(shù)7.描述性統(tǒng)計分析目錄1.頻率分析與頻數(shù)分析2.描述性分析3.探索性分析11.1基本概念及統(tǒng)計原理1.2SPSS實例分析頻率分析與頻數(shù)分析1.3頻率分析及頻數(shù)分析應(yīng)用1.1基本概念及統(tǒng)計原理1.描述性統(tǒng)計分析頻率就是一個變量在各個變量值上取值的個案數(shù),分析時不考慮其實際取值。基本統(tǒng)計分析往往從頻率分析開始。通過頻率分析能夠了解變量取值的狀況,對把握數(shù)據(jù)的分布特征是非常有用的。例如,調(diào)查消費者擁有數(shù)碼產(chǎn)品的數(shù)量,首先分析受訪者的總?cè)藬?shù)、家庭收入情況、受教育程度、性別等,獲取樣本是否具有總體代表性、抽樣是否存在系統(tǒng)偏差等信息。這些可以通過頻率分析來實現(xiàn),經(jīng)過頻率分析可以得到如下結(jié)果:頻率分布表:該表中包含頻率、各頻率占總樣本數(shù)的百分比、有效百分比、累計百分比。統(tǒng)計圖:用統(tǒng)計圖形展示變量的取值狀況,頻率分析中提供的統(tǒng)計圖形可以是條形圖、餅圖或者直方圖。1.2SPSS實例分析1.描述性統(tǒng)計分析【例4-1】以下是調(diào)查問卷中針對被調(diào)查人設(shè)置的兩個問題:1.您的家庭月收入大約是:(請包括所有工資、獎金、津貼等在內(nèi),以人民幣為單位)單選500-1000……..1;1000-1999……2;2000-2999……3;3000-3999……4;4000-4999……5;5000-5999……6;6000-6999……7;7000-7999……8;8000-8999……9;9000-9999……10;10000及以上…112.您的教育程度:(指您受過的最高或正在接受的教育程度)單選沒有受過正式教育/小學(xué)-1;初中-2;高中/中專/技校-3;大專/大學(xué)非本科/高職高專-4;大學(xué)本科-5;研究生及以上-6從問卷中收集到的數(shù)據(jù)如表4.1所示,試對收集到的數(shù)據(jù)進(jìn)行頻數(shù)分析1.3頻率分析及頻數(shù)分析應(yīng)用1.描述性統(tǒng)計分析第1步數(shù)據(jù)組織:根據(jù)表1生成數(shù)據(jù)文件,建2個變量:“收入”、“教育”,度量標(biāo)準(zhǔn)均為序號。第2步頻率分析設(shè)置:選擇菜單:“分析→描述統(tǒng)計→頻率”,打開“頻率(F)”對話框,將“教育”和“收入”加入到“變量”列表框中。打開“統(tǒng)計量”對話框,選中“百分位數(shù)”、“眾數(shù)”,并在“百分位數(shù)”中添加30.0、60.0、90.0;打開“圖表”對話框,選中“直方圖”及后面的復(fù)選框家庭月收入受教育程度3515251515……6410545表7.1表11.3頻率分析及頻數(shù)分析應(yīng)用1.描述性統(tǒng)計分析第3步主要結(jié)果及分析:統(tǒng)計量表變量“教育”的頻率分布表表中分別顯示兩個分析變量“教育”及“收入”的有效個案數(shù)、缺失值個數(shù)、及兩個分析變量的“眾數(shù)”及對應(yīng)于30%、60%及90%的百分位數(shù)。

表中顯示了變量“教育”在各個取值上出現(xiàn)的次數(shù)(頻率)、其頻率占所有個案中的百分比、有效百分比及累積百分比。統(tǒng)計量教育收入N有效835836缺失10眾數(shù)53百分位數(shù)304.003.00605.004.00905.007.00教育頻率百分比有效百分比累積百分比有效181.01.01.02394.74.75.6311413.613.719.3416519.719.839.0545654.554.693.76536.36.3100.0合計83599.9100.0缺失系統(tǒng)1.1合計836100.01.3頻率分析及頻數(shù)分析應(yīng)用1.描述性統(tǒng)計分析收入頻率百分比有效百分比累積百分比有效02.2.2.218710.410.410.6215218.218.228.8315718.818.847.6413716.416.464.058810.510.574.568510.210.284.77526.26.290.98273.23.294.1991.11.195.21081.01.096.211323.83.8100.0合計836100.0100.0變量“收入”的頻率分布表表中顯示了變量“收入”在各個取值上出現(xiàn)的次數(shù)(頻率)、其頻率占所有個案中的百分比、有效百分比及累積百分比。1.3頻率分析及頻數(shù)分析應(yīng)用1.描述性統(tǒng)計分析變量“教育”的直方圖變量“收入”的直方圖表中顯示了變量“教育”的直方圖,從圖上可以看出受訪者教育程度同正態(tài)分布相比左偏,不具備明顯的正態(tài)分布。表中顯示了變量“收入”的直方圖,從圖上可以看出受訪者家庭收入同正態(tài)分布相比右偏,不具備明顯的正態(tài)分布。22.1基本概念及統(tǒng)計原理2.2實例分析描述性分析2.描述性分析描述性分析主要用于輸出變量的各類描述性統(tǒng)計量的值,通過上一節(jié)的學(xué)習(xí)可知,頻率分析同樣可以做到,都是以計算數(shù)值型單變量的統(tǒng)計量為主。描述性統(tǒng)計分析沒有圖形功能,也不能生成頻率表,但描述性分析可以將原始數(shù)據(jù)標(biāo)準(zhǔn)化為Z分?jǐn)?shù),并以變量形式存入數(shù)據(jù)文件中,以便后續(xù)分析時應(yīng)用。2.1基本概念及統(tǒng)計原理2.2實例分析2.描述性分析以下實例是5歲兒童體重、身高、胸圍的部分SPSS數(shù)據(jù),試嘗試對兒童身高作描述性統(tǒng)計分析打開數(shù)據(jù)文件;描述性分析設(shè)置:1)選擇菜單“分析→描述統(tǒng)計→描述”,打開“描述性”主對話框,將要分析的變量“身高”加入“變量”列表框中。2)打開“描述:選項”對話框,選中“均值”、“標(biāo)準(zhǔn)差”、“最小值”、“最大值”、“峰度”、“偏度”及顯示順序的“變量列表”等選項。2.2實例分析2.描述性分析3)運行結(jié)果及分析L:描述性分析結(jié)果表描述統(tǒng)計量N極小值極大值均值標(biāo)準(zhǔn)差偏度峰度統(tǒng)計量統(tǒng)計量統(tǒng)計量統(tǒng)計量統(tǒng)計量統(tǒng)計量標(biāo)準(zhǔn)誤統(tǒng)計量標(biāo)準(zhǔn)誤身高9699.3125.0109.8915.9633.350.246-.446.488有效的

N(列表狀態(tài))96表中分析變量“身高”的個案數(shù)、所有個案中的極大值、極小值、均值、標(biāo)準(zhǔn)差及偏度和峰度33.1探索性分析介紹探索性分析3.2

探索性分析實例3.1探索性分析介紹3.探索性分析基本概念及統(tǒng)計原理:與前面介紹的兩種分析方法相比,探索性分析更加強(qiáng)大,它是一種在對資料的性質(zhì)、分布特點等完全不清楚的情況下,對變量進(jìn)行更深入研究的描述性統(tǒng)計方法。在進(jìn)行統(tǒng)計分析前,通常需要尋求和確定適合所研究的問題的統(tǒng)計方法,SPSS提供的探索性分析是解決此類問題的有效辦法。探索性分析提供了很多關(guān)于數(shù)據(jù)的概括分析和圖表直觀描述的方法,不僅對個案數(shù)據(jù)有效,而且還可以針對分組個案。在輸出常用描述性統(tǒng)計量的基礎(chǔ)之上,探索性分析增加了有關(guān)數(shù)據(jù)詳細(xì)分布特征的文字與圖形表述,如莖葉圖、箱圖等,顯得更加詳細(xì)、完整,還可以以方差齊性為目的的變量交換提供線索,有助于用戶制定更進(jìn)一步分析的方案。

3.2探索性分析實例3.探索性分析實例分析:以下是某班3門課程對應(yīng)成績的統(tǒng)計數(shù)據(jù),試對其作探索性分析并做是否服從正態(tài)分布的檢驗。1)數(shù)據(jù)組織:定義2個變量,分別為:“科目”、“成績”,“科目”的度量標(biāo)準(zhǔn)為“名義”,“成績”的度量標(biāo)準(zhǔn)為“度量”。2)探索分析設(shè)置:選擇菜單“分析→描述統(tǒng)計→探索”,打開“探索”對話框,,將“成績”字段移入“因變量列表”,“科目”移入“因子列表”。科目111111222成績837473306095731116科目222333333成績7556198591115532563.2探索性分析實例3.探索性分析打開“統(tǒng)計量”對話框,選中“描述性”及“M-估計量”選項;打開“探索:圖”對話框,選中“按因子水平分組”、“莖葉圖”、“帶檢驗的正態(tài)圖”等選項。打開“探索:選項”,選中“按列表排除個案”選項。(3)運行結(jié)果及分析:“成績”按科目分組的案例處理摘要表案例處理摘要科目案例有效缺失合計N百分比N百分比N百分比成績語文6100.0%0.0%6100.0%數(shù)學(xué)6100.0%0.0%6100.0%英語6100.0%0.0%6100.0%表中顯示“成績”按“科目”分組后各組的有效個案數(shù)、個案缺失數(shù)及缺失比例等。3.探索性分析描述科目統(tǒng)計量標(biāo)準(zhǔn)誤成績語文均值69.179.156均值的95%置信區(qū)間下限45.63上限92.705%修整均值69.91中值73.50方差502.967標(biāo)準(zhǔn)差22.427極小值30極大值95范圍65四分位距34偏度-1.085.845峰度1.6171.741表中顯示“成績”按“科目”分組后各分組的描述性統(tǒng)計量,左表中只顯示的是”語文“分組的均值、均值的95%置信區(qū)間的上下限、中值、方差、標(biāo)準(zhǔn)差、極大/小值、偏度、峰度等。3.2探索性分析實例3.2

探索性分析實例3.探索性分析M均值估計量M-估計器科目Huber的

M-估計器aTukey的雙權(quán)重bHampel的

M-估計器cAndrews波d成績語文72.5475.7872.8876.05數(shù)學(xué)41.4241.1341.6741.13英語56.6855.6055.0055.60a.加權(quán)常量為

1.339。b.加權(quán)常量為

4.685。c.加權(quán)常量為

1.700、3.400和

8.500d.加權(quán)常量為

1.340*pi。表中提供了四種估計方法,每種估計方法的加權(quán)量在表下方給出,對于有異常值或極端值的數(shù)據(jù),M均值估計有很好的穩(wěn)定性,用M估計值代替均值或中位數(shù),結(jié)果更準(zhǔn)確。根據(jù)樣本值的權(quán)重不同,可以得到不同的估計量3.2

探索性分析實例3.探索性分析科目Kolmogorov-SmirnovaShapiro-Wilk統(tǒng)計量dfSig.統(tǒng)計量dfSig.成績語文.2356.200*.9296.573數(shù)學(xué).2776.165.8276.102英語.1706.200*.9466.706a.Lilliefors顯著水平修正。*.這是真實顯著水平的下限。

表中顯示了按科目分為的3個分組的兩種檢驗方法的正態(tài)性檢驗結(jié)果,包括各分組的統(tǒng)計量、自由度及顯著性水平,以K-S方法的“語文”分組為例分析:其自由度sig.=0.200,明顯大于0.05,故應(yīng)接受原假設(shè),認(rèn)為”語文“分組中的數(shù)據(jù)服從正態(tài)分布。3.2

探索性分析實例3.探索性分析箱圖

箱圖中顯示成績按科目分成的三個分組,每個分組中的數(shù)據(jù)繪制成對應(yīng)的箱體。每一個箱體上方那條線的取值代表該分組中最大值,下方那條線的取值代表最小值。箱體自身的三條線從上到下分別代表3/4分位點、中位點、1/4分位點的取值。3.2

探索性分析實例3.探索性分析語文成績的標(biāo)準(zhǔn)Q-Q圖及趨降標(biāo)準(zhǔn)Q-Q圖上圖為“科目=語文”分組的成績標(biāo)準(zhǔn)Q-Q圖,Q-Q圖可以用來檢驗數(shù)據(jù)是否服從某種分布,在Q-Q圖中,檢驗數(shù)據(jù)是否較好地服從給定分布的標(biāo)準(zhǔn)有兩個:①看標(biāo)準(zhǔn)Q-Q圖上的數(shù)據(jù)點與直線的重合度;②Q-Q趨勢圖上的點是否關(guān)于直線Y=0在較小的范圍內(nèi)上下波動。從上圖中可以看出,”科目=語文“的分組中的數(shù)據(jù)與直線重合度較好,故很好地服從正態(tài)分布,這與前面的正態(tài)檢驗表中的結(jié)果是一致的。數(shù)據(jù)分析及可視化技術(shù)8.(推斷性統(tǒng)計分析-抽樣分布)目錄1.抽樣分布2.樣本均值的抽樣分布3.正態(tài)分布和T分布11.2抽樣分布圖解1.3抽樣分布的概念抽樣分布1.1各種分布的概念1.1

各種分布的概念1.抽樣分布總體分布:總體中所有個體在某個變量上觀測值的頻次分布。樣本分布:從總體中抽取一個容量為n的樣本,這n個觀測值構(gòu)成的頻次分布。抽樣分布:假如我們對總體進(jìn)行重復(fù)抽樣,根據(jù)每個樣本可以計算出一個樣本統(tǒng)計量,從所有這些樣本得出的樣本統(tǒng)計量構(gòu)成的分布稱為抽樣分布1.2抽樣分布圖解1.抽樣分布1.3抽樣分布的概念1.抽樣分布1.抽樣分布是樣本統(tǒng)計量的概率分布。2.它只是一種理論上存在的概率分布,結(jié)果來自無數(shù)樣本量相同的所有可能樣本。3.依靠抽樣分布,我們就能夠?qū)嶋H觀測到的樣本結(jié)果與其他所有可能的樣本結(jié)果進(jìn)行比較,從而建立起單一樣本和總體之間的聯(lián)系。而這就是統(tǒng)計推斷的理論依據(jù)。4.抽樣分布的標(biāo)準(zhǔn)差稱為“標(biāo)準(zhǔn)誤”。它用來測量使用某個樣本統(tǒng)計量來估計總體參數(shù)時的抽樣誤差。22.1樣本均值的抽樣分布例子2.2樣本均值的抽樣分布比較樣本均值的抽樣分布2.3樣本均值的抽樣分布一般規(guī)律2.1樣本均值的抽樣分布例子2.樣本均值的抽樣分布2.1樣本均值的抽樣分布例子2.樣本均值的抽樣分布2.1樣本均值的抽樣分布例子2.樣本均值的抽樣分布2.2樣本均值的抽樣分布比較2.樣本均值的抽樣分布2.2樣本均值的抽樣分布比較2.樣本均值的抽樣分布總體分布和抽樣分布的比較:2.3樣本均值的抽樣分布一般規(guī)律2.樣本均值的抽樣分布當(dāng)總體服從正態(tài)分布時,來自該總體的所有樣本量為n的樣本的均值也服從正態(tài)分布,且X的數(shù)學(xué)期望為μ,方差為σ^2。即:2.3樣本均值的抽樣分布一般規(guī)律2.樣本均值的抽樣分布中心極限定理(CentralLimitTheorem):從均值為,方差為的任意總體(不一定服從正態(tài)分布)中抽取樣本量為的樣本。只要樣本量足夠大,樣本均值的抽樣分布將近似服從均值為,方差為的正態(tài)分布:即:

33.1正態(tài)分布特征3.2T分布特征正態(tài)分布和T分布3.1正態(tài)分布特征3.正態(tài)分布和T分布正態(tài)分布特征:(1)單峰、對稱、鐘形;(2)漸進(jìn):曲線無論向左或向右延伸,都愈來愈接近橫軸,但不會和橫軸相交,以橫軸為漸進(jìn)線;(3)一個位置參數(shù),一個描述離散程度的參數(shù);(4)均值、中值、和眾值都相等。完美的特征:無論μ和σ為何值,也就是說對任意一個正態(tài)分布,約68%(或者說2/3)的值落在區(qū)間;約95%的值落在區(qū)間;約99.7%的值落在區(qū)間。3.1正態(tài)分布特征3.正態(tài)分布和T分布68.27%~95.45%~99.73%規(guī)則:3.2T分布特征3.正態(tài)分布和T分布T分布的圖形是對稱的,均值為0,離散程度比標(biāo)準(zhǔn)正態(tài)分布要大,也就是說方差大于1;形狀由一個參數(shù)(自由度)來決定;當(dāng)樣本量n很大時(n>30),就可用標(biāo)準(zhǔn)正態(tài)分布N(0,1)來近似t分布。3.2T分布特征3.正態(tài)分布和T分布非負(fù)值,最小值為;正偏;具體形狀由來決定;均值,方差;均值和方差隨著的增加而增加,這樣,分布的均值隨之向右偏移,離散度也隨之增加;隨著的增加,分布偏度和峰度都較小,將趨近于正態(tài)分布。數(shù)據(jù)分析及可視化技術(shù)9.(推斷性統(tǒng)計分析-參數(shù)估計)目錄1.什么是參數(shù)估計2.點估計3.區(qū)間估計4.總體均值的置信區(qū)間11.1參數(shù)估計介紹參數(shù)估計1.1參數(shù)估計介紹1.參數(shù)估計參數(shù)估計:指從總體中隨機(jī)抽取一個樣本,利用樣本統(tǒng)計量推算總體參數(shù)的過程。參數(shù)估計

點估計區(qū)間估計矩陣估計最小二乘法最大似然法22.1點估計的概念點估計2.2點估計的評判標(biāo)準(zhǔn)2.1點估計的概念2.點估計點估計:根據(jù)樣本統(tǒng)計量計算出一個確切的數(shù)來估計總體的未知參數(shù)用于估計總體某一參數(shù)的樣本統(tǒng)計量,被稱為估計量(estimator)。估計量是一個隨機(jī)變量,隨著抽取的樣本的不同,取值會發(fā)生變化。對應(yīng)的值稱為“估計值(estimate)”。比如:樣本均值是總體均值的一個估計量如果抽取一個樣本,得出,5萬就是的估計值點估計的理論基礎(chǔ)是“抽樣分布”點估計沒有給出估計值接近總體參數(shù)的程度。也就是說,從點估計,我們并不知道估計誤差的大小。2.2點估計的評判標(biāo)準(zhǔn)2.點估計無偏性(unbiasedness):估計量的數(shù)學(xué)期望(即所有可能樣本得到的估計值所組成的抽樣分布的均值)等于被估計的總體參數(shù)。2.2點估計的評判標(biāo)準(zhǔn)2.點估計有效性(efficiency):如果估計量的抽樣分布的方差小于其它任何估計量,則稱是更有效的估計量。2.2點估計的評判標(biāo)準(zhǔn)2.點估計一致性(consistency):隨著樣本容量的增大,估計量越來越接近被估計的總體參數(shù)的真實值。33.2置信區(qū)間的計算3.3理解置信區(qū)間區(qū)間估計3.1區(qū)間估計的概念3.1區(qū)間估計的概念3.區(qū)間估計什么是區(qū)間估計?根據(jù)樣本計算出一個取值范圍來對總體的未知參數(shù)進(jìn)行估計,并給出置信度。定義:如果用作為總體參數(shù)的估計值,那么參數(shù)的置信區(qū)間與的關(guān)系為:顯著性水平(significancelevel),表示置信區(qū)間不包含真實參數(shù)的概率,即估錯的概率置信概率;置信度或置信水平(confidencelevel),表示這樣的置信區(qū)間包含真實參數(shù)的概率。3.2置信區(qū)間的計算3.區(qū)間估計置信區(qū)間=點估計±臨界值*標(biāo)準(zhǔn)誤差標(biāo)準(zhǔn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論