SPSS數據分析基礎課件_第1頁
SPSS數據分析基礎課件_第2頁
SPSS數據分析基礎課件_第3頁
SPSS數據分析基礎課件_第4頁
SPSS數據分析基礎課件_第5頁
已閱讀5頁,還剩161頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據統(tǒng)計分析

SPSS實戰(zhàn)入門第一天課程

數據統(tǒng)計分析

SPSS實戰(zhàn)入門第一天課程1課程目標了解基本的統(tǒng)計思想和分析方法了解SPSS軟件的特點掌握SPSS的基本操作能夠應用SPSS進行基本的統(tǒng)計分析可以有效的對SPSS進行進一步的自學SPSS數據分析的流程課程目標了解基本的統(tǒng)計思想和分析方法2課程安排第一講數據分析概述統(tǒng)計學的思想與概念第二講SPSS概述SPSS操作實踐第三講應用案例簡介第四講SPSS數據分析可視化第五講實踐中的SPSS數據分析方法方差分析課程安排第一講3第六講SPSS回歸模型SPSS多元線性回歸SPSSLogistic回歸第七講SPSS因子分析SPSS主成分分析第八講SPSS聚類分析SPSS決策樹第九講SPSS時間序列第六講4第一講數據分析概述

在當今世界,企業(yè)怎樣搜集、管理、利用數據和信息,并迅速作出決策和反應將是能否在激烈競爭的全球一體化市場經濟中能否生存和成敗的關鍵之舉。企業(yè)需要可靠的決策,可靠的決策來自于系統(tǒng)地定義問題,收集數據,比較和分析數據,結合研究設計,并從數據中得到結論。企業(yè)研究是一個系統(tǒng)性的研究過程,提供解決管理問題的信息,作為決策基礎。用系統(tǒng)化的方法采集數據并基于這些數據做出決定的過程,對于建立可靠的決策,從而幫助管理者了解企業(yè)的各項問題,提供知識與技術來面對變化快速的環(huán)境第一講數據分析概述在當今世界,企業(yè)怎樣搜5

大量數據和信息匱乏的矛盾從數據中提取信息不是數據庫自動能夠解決的數據分析統(tǒng)計學數據的科學統(tǒng)計學:隨機性與規(guī)律性統(tǒng)計工具利用統(tǒng)計學原理服務于數據分析第一講數據分析概述大量數據和信息匱乏的矛盾數據分析統(tǒng)計學數據的科學統(tǒng)計工具6統(tǒng)計學的本質

當我們不能預測一件事情的結果時,隨機性就和這件事情聯(lián)系起來了.(危險來臨,喜從天降)

通過看上去隨機的現(xiàn)象進行統(tǒng)計分析,我們開始了解這個世界.統(tǒng)計學的本質當我們不能預測一件事情的結果時7什么時候需要數據分析?商業(yè)問題數據問題!商業(yè)問題解決方案把商業(yè)問題轉化為數據問題數據分析及分析結果把數據結果轉化為商業(yè)解決方案什么時候需要數據分析?商業(yè)問題數據問題!商業(yè)問題解決方案把商8實際中的問題(企業(yè))當你買了一只手表時,被告知一年內可以免費保修。你想過廠家為什么說一年而不說三個月或兩年呢?顯然:說多了,廠家會損失;說少了,會失去競爭,也是損失。到底這個保修期是怎樣決定的呢?在同一年級中,同樣一門課程可能由一些不同教師講授。教師講課方式當然不一樣,考試題目也不一定相同。那么如何比較不同班級的成績呢?CEO的收入是一個非常敏感的問題,到底和一個企業(yè)的資產價值有怎樣的關系,如何制訂才會比較公平?不同的機構得出不同的結果;各自都說自己是客觀、公正和有道理的。到底如何理解這些不同的結果呢?實際中的問題(企業(yè))當你買了一只手表時,被告知一年內可以免費9實際中的問題(政府)信用評價體系影響到低體重早產兒的社會和制度因素是什么?收入支出比平衡問題?社會安全保障與房地產定價策略問題?……實際中的問題(政府)信用評價體系10數據的價值和利用數據無處不在數據包含的信息很多,但是數據中的信息往往是分散的,單個數據很難直接被應用起來統(tǒng)計學就是把數據轉化為信息的科學數據的價值和利用數據無處不在數據包含的信息很多,但是數據中的11統(tǒng)計學

統(tǒng)計學(Statistics)是一個系統(tǒng)搜集數據并基于數據做出決定的過程.它是指導人們正確地認識客觀世界的研究方法,是研究受到隨機影響的數據的一門學科。

基本特點:

1)是一個在隨機現(xiàn)象中尋找規(guī)律性的科學;2)由描述和推斷兩部分方法構成;3)是科學地度量問題,收集問題,表示問題和分析問題的研究方法.統(tǒng)計學統(tǒng)計學(Statistics)是一個12運用統(tǒng)計的領域包括…精算農業(yè)動物學人類學考古學審計學晶體學人口統(tǒng)計學牙醫(yī)學生態(tài)學經濟計量學教育學選舉預測和策劃工程流行病學金融水產漁業(yè)研究遺傳學地理學地質學歷史研究人類遺傳學水文學工業(yè)法律語言學文學勞動力計劃管理科學市場營銷學醫(yī)學診斷氣象學軍事科學核材料安全管理眼科學制藥學物理學政治學心理學心理物理學質量控制宗教研究社會學調查抽樣分類學氣象改善搏采,等等...運用統(tǒng)計的領域包括…精算金融氣象學13數據分析過程原始數據、二手數據確定研究目標、范圍選擇研究方案選擇數據收集方式和分析技術分析評估所需樣本量建立項目預算描述性統(tǒng)計分析推斷性統(tǒng)計分析人工智能等數據挖掘特有的算法計分析清理數據使之適合于分析應用對數據進行變換評估數據質量,填充缺失數據對表格、圖形進行編輯用word、excel、text、html展示數據數據分析數據管理數據收集計劃結果發(fā)布數據理解數據分析過程原始數據、確定研究目標、范圍描述性統(tǒng)計分析清理數14描述統(tǒng)計為什么不夠?描述統(tǒng)計為什么不夠?15數據的層次性:

律師的困惑辛普森悖論(Simpson‘sParadox)亦有人譯為辛普森詭論,為英國統(tǒng)計學家E.H.辛普森E.H.Simpson于1951年提出的悖論,即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合并考慮,卻可能導致相反的結論。例題:一所美國高校的兩個學院,分別是法學院和商學院,新學期招生。人們懷疑這兩個學院有性別歧視。法學院商學院

申請性別法學院商學院女男錄取率數據的層次性:

律師的困惑辛普森悖論(Simpson‘sP16總體和樣本總體(population)研究對象的全體,其中的每一個元素稱為個體分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數目是有限的無限總體所包括的元素是無限的,不可數的樣本(sample)從總體中抽取的一部分元素的集合構成樣本的元素的數目稱為樣本量(size)總體和樣本總體(population)17參數和統(tǒng)計量參數(parameter)研究者想要了解的總體的某種特征值所關心的參數主要有總體均值()、標準差()、總體比例()、總體的協(xié)差陣(Σ)等總體參數通常用希臘字母表示統(tǒng)計量(statistic)根據樣本數據計算出來的一個量所關心的樣本統(tǒng)計量有樣本均值(x)、樣本標準差(s)、樣本比例(p)、樣本的協(xié)差陣等樣本統(tǒng)計量通常用小寫英文字母來表示參數和統(tǒng)計量參數(parameter)18變量(Variable)

說明現(xiàn)象某種特征的概念如商品銷售額、受教育程度、產品的質量等級等變量的具體表現(xiàn)稱為變量值,即數據;變量可以分為分類變量(categoricalvariable)

:說明事物類別的一個名稱順序變量(rankvariable)

:說明事物有序類別的一個名稱數值型變量(metricvariable)

:說明事物數字特征的一個名稱離散變量:取有限個值連續(xù)變量:可以取無窮多個值變量(Variable)說明現(xiàn)象某種特征的概念19統(tǒng)計中的幾個基本概念平均數標準差比例參數p統(tǒng)計量xs總體樣本統(tǒng)計中的幾個基本概念參數統(tǒng)計量總體樣本20點估計(PointEstimator)點估計(PointEstimator)21置信區(qū)間(IntervalConfidence)置信區(qū)間(IntervalConfidence)22假設檢驗(HypothesisTest)假設檢驗(HypothesisTest)23理念統(tǒng)計模型的嚴格數學表達很復雜、繁瑣,但是其背后的思想往往很簡單做為信息時代的管理者,要理解管理的科學性,科學的基礎是測量,沒有測量談不到深入的和恰當的管理制度的建立.統(tǒng)計學只是一個工具,SPSS更是工具的工具,不要指望它能夠“自動”解決你面臨的商業(yè)問題.要注意統(tǒng)計學方法的適用條件,濫用統(tǒng)計學會造成“嚴重”的負效果.理念統(tǒng)計模型的嚴格數學表達很復雜、繁瑣,但是其背后的思想24第二講SPSS概述SPSS:StatisticalPackageforSocialScienceStatisticalProductandServiceSolutionsSPSS的發(fā)展:60年代:美國斯坦福大學三位研究生研制70年代:SPSS總部成立于芝加哥,推出SPSSX中小型機版80年代:SPSS公司(SPSS/PC+微機版1~3)90年代:SPSS公司(SPSSWINDOWS版5~11)第二講SPSS概述SPSS:25SPSS軟件的特點

功能強大;兼容性好;容易使用;企業(yè)級統(tǒng)計分析解決方案;結果的權威性.SPSS軟件的特點

功能強大;26統(tǒng)計軟件SPSS:這是一個很受歡迎的統(tǒng)計軟件;它容易操作,輸出漂亮,功能齊全,價格合理。它也有自己的程序語言,但基本上已經“傻瓜化”。它對于非專業(yè)統(tǒng)計工作者是很好的選擇。

Excel:它嚴格說來并不是專業(yè)統(tǒng)計軟件,但作為數據表格軟件,必然有一定統(tǒng)計計算功能。而且凡是有MicrosoftOffice的計算機,基本上都裝有Excel。但要注意,有時在裝Office時沒有裝數據分析的功能,那就必須裝了才行。當然,畫圖功能是都具備的。對于簡單分析,Excel還算方便,但隨著問題的深入,Excel就不那么“傻瓜”,需要使用函數,甚至根本沒有相應的方法了。多數專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。統(tǒng)計軟件SPSS:這是一個很受歡迎的統(tǒng)計軟件;它容易操作,輸27SPSS軟件基本介紹1、SPSS的基本構成:11個模塊2、SPSS五個窗口的基本功能3、應用SPSS執(zhí)行統(tǒng)計分析的幾種方法4、SPSS的四種結果5、SPSS無處不在的Help6、SPSS五種結果保存方式SPSS軟件基本介紹1、SPSS的基本構成:11個模塊28SPSSClient/ServerSPSSBase----基礎模塊SPSSAdvanced----多元方差分析、生存分析SPSSRegression----回歸SPSSTrends----時間序列SPSSCategories----分類數據分析SPSSConjoint----正交設計和分析SPSSTables----表格展示數據SPSSMaps----地圖展示數據SPSSMissingValueAnalysis----缺失值分析SPSSExactTestAnalysis----精確檢驗SPSSComplexSamples----復雜抽樣SPSSClient/ServerSPSSBase---29SPSS模塊與過程讀/錄入數據數據整理描述統(tǒng)計數據分析圖表展示結果編輯結果報告AdvancedCategoriesConjointRegressionTrendsExactTestComplexSampleMissingValueBaseTableMapSPSS模塊與過程讀/錄入數據數據整理描述統(tǒng)計數據分析圖表展30SPSS操作界面----五個窗口DataEditor----數據編輯窗口DataViewVariableViewSyntaxEditor----程序編輯窗口Viewer----結果管理窗口DraftViewer----草稿結果窗口Script----腳本編輯窗口SPSS操作界面----五個窗口DataEditor--31完全窗口菜單方式:所有分析操作過程都是通過菜單和按鈕及對話框方式進行的.是經常使用的一種運行方式,適用于一般分析和SPSS的初學者.完全窗口菜單方式:32SPSS的結果SPSS的四種結果文本格式的結果表格結果標準圖結果交互圖結果SPSS的結果SPSS的四種結果33SPSS的結果保存方式SPSS結果文件格式Html格式Word格式Text格式Excel格式圖形:jpg、pct…練習:將savetype.spo打開,將其中的對象以不同的格式保存。SPSS的結果保存方式SPSS結果文件格式練習:將savet34SPSS的幫助系統(tǒng)幫助菜單TopicsTutorialCaseStudiesStatisticsCoachCommandSyntaxGuide對話框幫助無處不在的What’sthis?SPSS的幫助系統(tǒng)幫助菜單35第三講SPSS操作實踐1.SPSS數據文件的創(chuàng)建與保存2.利用SPSS整理數據3.數據抽樣方法4.利用SPSS展現(xiàn)數據:專業(yè)的報表和圖形5.利用SPSS分析數據第三講SPSS操作實踐1.SPSS數據文件的創(chuàng)建與保存363.1SPSS數據文件SPSS數據文件是一種有結構的數據文件。年級性別 問題1…… 問題n1 1 ………. 42 2 ……… 2 …………………...3 1 ………… 1文件結構數據個案case變量名變量SPSS數據文件一般只能通過SPSS軟件打開3.1SPSS數據文件SPSS數據文件是一種有結構的數據文37SPSS數據文件的特點原始數據文件格式:數據文件中的一列為一個變量,每個變量有一個唯一的存取標志:變量名數據文件中的一行為一個個案(case)匯總數據文件格式:男女高價值客戶1023低價值客戶1220SPSS數據文件的特點原始數據文件格式:男女高價值客戶10238SPSS數據文件的結構(一)變量名(Variablename):

變量名是變量存取的唯一標志。

起名規(guī)則:不多于64個字符組成不區(qū)分大小寫允許漢字作為變量名默認變量名為VARn,如:var00001SPSS數據文件的結構(一)變量名(Variablenam39SPSS數據訪問(一)打開數據文件

菜單選項:File->Open->.sav(二)數據定位按個案號碼定位菜單:Data->Gotocase->輸入樣本號按值定位光標定位到某列變量上

->Edit->Find...SPSS數據訪問(一)打開數據文件40SPSS數據的編輯(三)插入和刪除一個個案插入:data->insertcase刪除:選定待刪行,鼠標右鍵找到Cut(四)插入和刪除一個變量插入:光標定位到某列變量上

->Data->InsertVariable(插到某列前)或鼠標右鍵刪除:選定列,鼠標右鍵Cut項SPSS數據的編輯(三)插入和刪除一個個案41SPSS數據編輯(五)數據移動、復制和刪除定義源數據塊鼠標右鍵:cutcopyclear確定目標單元鼠標右鍵:pasteSPSS數據編輯(五)數據移動、復制和刪除42SPSS數據的錄入錄入時應注意:黑框確定當前數據單元。錄入帶有變量值標簽的數據:手工輸入代碼,屏幕顯示變量值標簽。SPSS數據的錄入錄入時應注意:43SPSS數據的保存數據保存:操作保存格式:

(1)*.sav:SPSS數據文件(默認)。(2)*.dbf:dbase數據文件。(3)*.xls:Excel工作表文件。注意:有些信息會丟失SPSS數據的保存數據保存:44練習2:1.將文件telenew.sav導出到mydocuments\myspsscredit\tele1.xls2.將文件telen.txt導入到spss窗口,另存為mydocuments\myspsscredit\tele2.sav練習2:45SPSS變量定義變量的類型(type)和顯示寬度(width)變量名標簽(Variablelabel)變量值標簽(Valuelabel)變量列格式(ColumnFormat)缺失值(MissingValues)變量計量尺度(Measurement)利用變量視圖查看變量定義的情況SPSS變量定義變量的類型(type)和顯示寬度(width46一個基本的分析例題例:xuelin.sav

要求

(1)數據的基本描述過程descriptive(2)數據的分布histogram(3)基本的比較推論t檢驗

(4)保存結果為*.spo文件,*.html文件

(5)使用拆分文件進行分類比較

(6)使用篩選變量進行數據的初步探索一個基本的分析例題例:xuelin.sav47兩個總體均值之差的檢驗

(12、22

未知且相等,小樣本)H0:1-2=0H1:1-2

0=0.05n1=12,n2

=14臨界值(s):檢驗統(tǒng)計量:決策:結論:

=0.05的水平上拒絕H0有證據表明兩種方法生產的產品其抗拉強度有顯著差異Z01.96-1.96.025拒絕H0拒絕H0.025兩個總體均值之差的檢驗

(12、22未知且相等,小482.用SPSS加工和整理數據數據文件的整理

個案排序、個案選取、文件合并、文件轉置數據加工變量計算、產生計數變量數據分組自動分組、手工分組數據文件的其他處理功能指定加權變量、SPSS變量集的定義和使用2.用SPSS加工和整理數據數據文件的整理492.用SPSS加工和整理數據數據清理:檢查錄入錯誤、清除不合理數據、定義或彌補缺失值變量重新編碼(Recode)生成新變量(Compute)按關鍵變量對記錄排序(Sort)按關鍵變量對記錄分組(Aggregate)變量和記錄之間轉置(Transpose)數據合并與拆分(Merge/Split)對記錄加權(Weight)2.用SPSS加工和整理數據數據清理:檢查錄入錯誤、清除不502.1變量重新編碼Recode過程(xuelin.sav)xuelinlevel=0,xuelin<120,xuelin>=210,1<xuelin<2問題:如果僅對有些組進行如何?2.1變量重新編碼Recode過程(xuelin.sav)512.2生成新變量Compute過程目的:產生新變量或對原變量進行必要的轉換處理理論需要:

預測問題產生比率數據偏態(tài)數據的正態(tài)處理時間序列的平穩(wěn)處理等應用例:身高2/體重肥胖指數負債/收益資產負債信貸額度-貸款余額信用評級總通話時間/總呼叫次數通話質量2.2生成新變量Compute過程目的:產生新變量或對原變522.2生成新變量Compute過程目的:產生新變量或對原變量進行必要的轉換處理(如:預測問題/產生比率數據/偏態(tài)數據的正態(tài)處理/時間序列的平穩(wěn)處理等)(1)含義:

根據用戶給出的SPSS算術表達式,對所有或部分樣本數據進行加工。(2)SPSS算術表達式(NumericExpression):

由算術運算符(+、-、*、/、**)、SPSS函數以及SPSS變量名組成的式子。2.2生成新變量Compute過程目的:產生新變量或對原變53temp=1,xuelin>12,xuelin<=1temp=1,xuelin>12,xuelin<=154算術函數統(tǒng)計函數分布函數邏輯函數字符串函數日期時間函數缺失值函數其他函數Abs()sqrt()exp()lg10()rnd()trunc()mod()mean()sd()sum()cfvar()max()min()normal()uniform()rv.()cdf.()idf.()range()any()index()length()lower()lpad()ltrim()substr()missing()sysmis()lag()(3)SPSS函數算術函數Abs()sqrt()exp()lg10552.3按關鍵變量對記錄排序(Sort)

目的:將所有個案按照用戶指定的某一個或多個變量的變量值的升序或降序重新排列。菜單選項: data->sortcases注意: (1)Ascending:升序、Descending:降序。 (2)多重排序,選擇變量名的次序很關鍵。2.3按關鍵變量對記錄排序(Sort)

目的:56練習:對xuelin.sav分別按照血磷濃度和年齡進行排序。練習:對xuelin.sav分別按照血磷濃度和年齡進行排序。572.4按關鍵變量對記錄分組(Aggregate)(1)含義:按指定的分類變量的變量值對個案分組;計算每組個案的匯總變量的基本統(tǒng)計量;將計算結果生成到一新文件中,即:在新文件中對應分類變量的每一個分類值產生一個個案。原始數據按性別變量匯總數據2.4按關鍵變量對記錄分組(Aggregate)(1)含義58(2)菜單選項:

data->aggregate(3)說明:多重分組時,變量名的選擇順序。生成的新文件名默認為:aggr.sav??尚薷摹I傻男伦兞棵J為原變量名后加_1。可修改??梢栽谛挛募写尜A個分組個案數.(2)菜單選項: 592.5變量和記錄之間轉置(Transpose)

目的:將數據文件行列互換,即:將個案轉為變量,變量轉為個案.轉置前轉置后2.5變量和記錄之間轉置(Transpose)

目的:轉置602.5變量和記錄之間轉置Restructure過程2.5變量和記錄之間轉置Restructure過程612.6數據合并與拆分(Merge/Split)

目的:

將兩個SPSS數據文件合并到一個數據文件中。文件合并的方式:縱向合并橫向合并2.6數據合并與拆分(Merge/Split)

目的:62(一)縱向數據合并(1)含義:

將磁盤上的一個SPSS數據文件追加到當前dataeditor窗口中的數據文件中。(2)前提:

兩個SPSS數據文件應可以合并的內容,且最好有相同的變量名和變量類型。(3)菜單選項:

data->mergefile->addcases(一)縱向數據合并63(二)橫向數據合并(1)含義:

將磁盤上的一個SPSS數據文件中的若干個變量增加到當前dataeditor窗口的數據文件中。(2)前提:

a.兩個數據文件必須有一個共同的變量名為關鍵字段---合并的依據;

b..兩個數據文件應事先按關鍵字段升序排序。

(二)橫向數據合并64(二)橫向數據合并(3)菜單選項:

data->mergefile->addvariable(4)選項說明:mathcasesonkeyvariablesinsortedfiles:以關鍵字作為合并標志。

Bothfilesprovidecases:合并后的文件的數據由兩個文件共同提供。Externalfileiskeyedtable:以dataeditor的數據為基礎。Workingdatafileiskeyedtable:以磁盤文件的數據為基礎。(二)橫向數據合并652.7對記錄加權(Weight)

(1)含義:

指定某一變量為加權變量。如:商品平均價格(2)菜單選項: data->weightcase(3)說明如果取消加權變量應重新定義:data->weightcasedonotweightcases(4)舉例:打開文件average.sav2.7對記錄加權(Weight)

(1)含義:66課堂練習:針對Employeedata.sav進行以下思考與練習:(1)生成變量表示員工的年齡;(2)按照性別分類計算平均工資;(3)將薪水分成不同的級別:“高4”“中高3”“中下2”“下1”;課堂練習:針對Employeedata.sav進行以下思67第一問第一問68第二問第二問69SPSS數據分析基礎課件703.抽樣數據隨機數抽樣等距抽樣(*)分層抽樣(*)整群抽樣(*)3.抽樣數據隨機數抽樣71在抽樣方案設計部分提供了詳細的向導,便于用戶使用模塊功能抽樣方案設計:在原始數據集中生成抽樣子集抽樣數據描述:基于抽樣設計文件進行相應數據的統(tǒng)計描述在抽樣方案設計部分提供了詳細的向導,便于用戶使用72例題:在文件newcar.sav中的數據隨機選擇70%數據定義篩選變量,使用frequency過程進行篩選前后結果觀察。例題:73練習:對employee.sav中的數據進行抽樣,利用70%抽樣數據按如下薪水公式預測,目前薪水=-12824+1.9*底薪+177*工作時間將得到的模型用于未知結果的預測,比較結果預測模型的差異。練習:對employee.sav中的數據進行抽樣,利用70%74練習:xuelin.sav

要求

(1)定義新變量將xuelin>2和xuelin<1都視為異常數據。

(2)使用篩選變量剔除異常數據進行分析。練習:xuelin.sav75SPSS數據分析基礎課件76第三講應用案例簡介第三講應用案例簡介77一個例子——羅斯文商貿公司背景介紹:羅斯文商貿公司是Microsoft數據庫產品(Access,SQLServer等)中的一個示例數據庫;它虛擬了一家經銷日用品的商貿公司的情況;目前該公司保存的歷史數據資料,見下頁;如何對客戶價值進行評估。商業(yè)問題:微軟公司提供的案例數據庫——羅斯文商貿公司,我們需要對客戶的價值進行評估,以便采取有效的市場銷售策略。一個例子——羅斯文商貿公司背景介紹:78羅斯文商貿公司數據羅斯文商貿公司數據79羅斯文商貿公司統(tǒng)計問題統(tǒng)計問題:(1)如何描述客戶價值?——購買總金額?購買頻次?平均每次購買金額?最近購買金額?它們的線性組合?——使用最簡單的購買總金額(2)需要什么樣的數據挖掘方法?——描述匯總?分類?預測?概念描述?細分?相關分析?——使用最簡單的描述匯總(3)需要的數據從哪里來?——從以下幾個來源:客戶訂單訂單明細羅斯文商貿公司統(tǒng)計問題統(tǒng)計問題:80羅斯文商貿公司商業(yè)問題解決方案

商業(yè)問題解決方案從所有客戶中找出最有價值的10個客戶,將名單發(fā)給市場部門,讓其對這些客戶進行更多的關注羅斯文商貿公司商業(yè)問題解決方案商業(yè)問題解決方案81結束語當你盡了自己的最大努力時,失敗也是偉大的,所以不要放棄,堅持就是正確的。WhenYouDoYourBest,FailureIsGreat,SoDon'TGiveUp,StickToTheEnd結束語82謝謝大家榮幸這一路,與你同行It'SAnHonorToWalkWithYouAllTheWay演講人:XXXXXX時間:XX年XX月XX日

謝謝大家演講人:XXXXXX83

數據統(tǒng)計分析

SPSS實戰(zhàn)入門第一天課程

數據統(tǒng)計分析

SPSS實戰(zhàn)入門第一天課程84課程目標了解基本的統(tǒng)計思想和分析方法了解SPSS軟件的特點掌握SPSS的基本操作能夠應用SPSS進行基本的統(tǒng)計分析可以有效的對SPSS進行進一步的自學SPSS數據分析的流程課程目標了解基本的統(tǒng)計思想和分析方法85課程安排第一講數據分析概述統(tǒng)計學的思想與概念第二講SPSS概述SPSS操作實踐第三講應用案例簡介第四講SPSS數據分析可視化第五講實踐中的SPSS數據分析方法方差分析課程安排第一講86第六講SPSS回歸模型SPSS多元線性回歸SPSSLogistic回歸第七講SPSS因子分析SPSS主成分分析第八講SPSS聚類分析SPSS決策樹第九講SPSS時間序列第六講87第一講數據分析概述

在當今世界,企業(yè)怎樣搜集、管理、利用數據和信息,并迅速作出決策和反應將是能否在激烈競爭的全球一體化市場經濟中能否生存和成敗的關鍵之舉。企業(yè)需要可靠的決策,可靠的決策來自于系統(tǒng)地定義問題,收集數據,比較和分析數據,結合研究設計,并從數據中得到結論。企業(yè)研究是一個系統(tǒng)性的研究過程,提供解決管理問題的信息,作為決策基礎。用系統(tǒng)化的方法采集數據并基于這些數據做出決定的過程,對于建立可靠的決策,從而幫助管理者了解企業(yè)的各項問題,提供知識與技術來面對變化快速的環(huán)境第一講數據分析概述在當今世界,企業(yè)怎樣搜88

大量數據和信息匱乏的矛盾從數據中提取信息不是數據庫自動能夠解決的數據分析統(tǒng)計學數據的科學統(tǒng)計學:隨機性與規(guī)律性統(tǒng)計工具利用統(tǒng)計學原理服務于數據分析第一講數據分析概述大量數據和信息匱乏的矛盾數據分析統(tǒng)計學數據的科學統(tǒng)計工具89統(tǒng)計學的本質

當我們不能預測一件事情的結果時,隨機性就和這件事情聯(lián)系起來了.(危險來臨,喜從天降)

通過看上去隨機的現(xiàn)象進行統(tǒng)計分析,我們開始了解這個世界.統(tǒng)計學的本質當我們不能預測一件事情的結果時90什么時候需要數據分析?商業(yè)問題數據問題!商業(yè)問題解決方案把商業(yè)問題轉化為數據問題數據分析及分析結果把數據結果轉化為商業(yè)解決方案什么時候需要數據分析?商業(yè)問題數據問題!商業(yè)問題解決方案把商91實際中的問題(企業(yè))當你買了一只手表時,被告知一年內可以免費保修。你想過廠家為什么說一年而不說三個月或兩年呢?顯然:說多了,廠家會損失;說少了,會失去競爭,也是損失。到底這個保修期是怎樣決定的呢?在同一年級中,同樣一門課程可能由一些不同教師講授。教師講課方式當然不一樣,考試題目也不一定相同。那么如何比較不同班級的成績呢?CEO的收入是一個非常敏感的問題,到底和一個企業(yè)的資產價值有怎樣的關系,如何制訂才會比較公平?不同的機構得出不同的結果;各自都說自己是客觀、公正和有道理的。到底如何理解這些不同的結果呢?實際中的問題(企業(yè))當你買了一只手表時,被告知一年內可以免費92實際中的問題(政府)信用評價體系影響到低體重早產兒的社會和制度因素是什么?收入支出比平衡問題?社會安全保障與房地產定價策略問題?……實際中的問題(政府)信用評價體系93數據的價值和利用數據無處不在數據包含的信息很多,但是數據中的信息往往是分散的,單個數據很難直接被應用起來統(tǒng)計學就是把數據轉化為信息的科學數據的價值和利用數據無處不在數據包含的信息很多,但是數據中的94統(tǒng)計學

統(tǒng)計學(Statistics)是一個系統(tǒng)搜集數據并基于數據做出決定的過程.它是指導人們正確地認識客觀世界的研究方法,是研究受到隨機影響的數據的一門學科。

基本特點:

1)是一個在隨機現(xiàn)象中尋找規(guī)律性的科學;2)由描述和推斷兩部分方法構成;3)是科學地度量問題,收集問題,表示問題和分析問題的研究方法.統(tǒng)計學統(tǒng)計學(Statistics)是一個95運用統(tǒng)計的領域包括…精算農業(yè)動物學人類學考古學審計學晶體學人口統(tǒng)計學牙醫(yī)學生態(tài)學經濟計量學教育學選舉預測和策劃工程流行病學金融水產漁業(yè)研究遺傳學地理學地質學歷史研究人類遺傳學水文學工業(yè)法律語言學文學勞動力計劃管理科學市場營銷學醫(yī)學診斷氣象學軍事科學核材料安全管理眼科學制藥學物理學政治學心理學心理物理學質量控制宗教研究社會學調查抽樣分類學氣象改善搏采,等等...運用統(tǒng)計的領域包括…精算金融氣象學96數據分析過程原始數據、二手數據確定研究目標、范圍選擇研究方案選擇數據收集方式和分析技術分析評估所需樣本量建立項目預算描述性統(tǒng)計分析推斷性統(tǒng)計分析人工智能等數據挖掘特有的算法計分析清理數據使之適合于分析應用對數據進行變換評估數據質量,填充缺失數據對表格、圖形進行編輯用word、excel、text、html展示數據數據分析數據管理數據收集計劃結果發(fā)布數據理解數據分析過程原始數據、確定研究目標、范圍描述性統(tǒng)計分析清理數97描述統(tǒng)計為什么不夠?描述統(tǒng)計為什么不夠?98數據的層次性:

律師的困惑辛普森悖論(Simpson‘sParadox)亦有人譯為辛普森詭論,為英國統(tǒng)計學家E.H.辛普森E.H.Simpson于1951年提出的悖論,即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合并考慮,卻可能導致相反的結論。例題:一所美國高校的兩個學院,分別是法學院和商學院,新學期招生。人們懷疑這兩個學院有性別歧視。法學院商學院

申請性別法學院商學院女男錄取率數據的層次性:

律師的困惑辛普森悖論(Simpson‘sP99總體和樣本總體(population)研究對象的全體,其中的每一個元素稱為個體分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數目是有限的無限總體所包括的元素是無限的,不可數的樣本(sample)從總體中抽取的一部分元素的集合構成樣本的元素的數目稱為樣本量(size)總體和樣本總體(population)100參數和統(tǒng)計量參數(parameter)研究者想要了解的總體的某種特征值所關心的參數主要有總體均值()、標準差()、總體比例()、總體的協(xié)差陣(Σ)等總體參數通常用希臘字母表示統(tǒng)計量(statistic)根據樣本數據計算出來的一個量所關心的樣本統(tǒng)計量有樣本均值(x)、樣本標準差(s)、樣本比例(p)、樣本的協(xié)差陣等樣本統(tǒng)計量通常用小寫英文字母來表示參數和統(tǒng)計量參數(parameter)101變量(Variable)

說明現(xiàn)象某種特征的概念如商品銷售額、受教育程度、產品的質量等級等變量的具體表現(xiàn)稱為變量值,即數據;變量可以分為分類變量(categoricalvariable)

:說明事物類別的一個名稱順序變量(rankvariable)

:說明事物有序類別的一個名稱數值型變量(metricvariable)

:說明事物數字特征的一個名稱離散變量:取有限個值連續(xù)變量:可以取無窮多個值變量(Variable)說明現(xiàn)象某種特征的概念102統(tǒng)計中的幾個基本概念平均數標準差比例參數p統(tǒng)計量xs總體樣本統(tǒng)計中的幾個基本概念參數統(tǒng)計量總體樣本103點估計(PointEstimator)點估計(PointEstimator)104置信區(qū)間(IntervalConfidence)置信區(qū)間(IntervalConfidence)105假設檢驗(HypothesisTest)假設檢驗(HypothesisTest)106理念統(tǒng)計模型的嚴格數學表達很復雜、繁瑣,但是其背后的思想往往很簡單做為信息時代的管理者,要理解管理的科學性,科學的基礎是測量,沒有測量談不到深入的和恰當的管理制度的建立.統(tǒng)計學只是一個工具,SPSS更是工具的工具,不要指望它能夠“自動”解決你面臨的商業(yè)問題.要注意統(tǒng)計學方法的適用條件,濫用統(tǒng)計學會造成“嚴重”的負效果.理念統(tǒng)計模型的嚴格數學表達很復雜、繁瑣,但是其背后的思想107第二講SPSS概述SPSS:StatisticalPackageforSocialScienceStatisticalProductandServiceSolutionsSPSS的發(fā)展:60年代:美國斯坦福大學三位研究生研制70年代:SPSS總部成立于芝加哥,推出SPSSX中小型機版80年代:SPSS公司(SPSS/PC+微機版1~3)90年代:SPSS公司(SPSSWINDOWS版5~11)第二講SPSS概述SPSS:108SPSS軟件的特點

功能強大;兼容性好;容易使用;企業(yè)級統(tǒng)計分析解決方案;結果的權威性.SPSS軟件的特點

功能強大;109統(tǒng)計軟件SPSS:這是一個很受歡迎的統(tǒng)計軟件;它容易操作,輸出漂亮,功能齊全,價格合理。它也有自己的程序語言,但基本上已經“傻瓜化”。它對于非專業(yè)統(tǒng)計工作者是很好的選擇。

Excel:它嚴格說來并不是專業(yè)統(tǒng)計軟件,但作為數據表格軟件,必然有一定統(tǒng)計計算功能。而且凡是有MicrosoftOffice的計算機,基本上都裝有Excel。但要注意,有時在裝Office時沒有裝數據分析的功能,那就必須裝了才行。當然,畫圖功能是都具備的。對于簡單分析,Excel還算方便,但隨著問題的深入,Excel就不那么“傻瓜”,需要使用函數,甚至根本沒有相應的方法了。多數專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。統(tǒng)計軟件SPSS:這是一個很受歡迎的統(tǒng)計軟件;它容易操作,輸110SPSS軟件基本介紹1、SPSS的基本構成:11個模塊2、SPSS五個窗口的基本功能3、應用SPSS執(zhí)行統(tǒng)計分析的幾種方法4、SPSS的四種結果5、SPSS無處不在的Help6、SPSS五種結果保存方式SPSS軟件基本介紹1、SPSS的基本構成:11個模塊111SPSSClient/ServerSPSSBase----基礎模塊SPSSAdvanced----多元方差分析、生存分析SPSSRegression----回歸SPSSTrends----時間序列SPSSCategories----分類數據分析SPSSConjoint----正交設計和分析SPSSTables----表格展示數據SPSSMaps----地圖展示數據SPSSMissingValueAnalysis----缺失值分析SPSSExactTestAnalysis----精確檢驗SPSSComplexSamples----復雜抽樣SPSSClient/ServerSPSSBase---112SPSS模塊與過程讀/錄入數據數據整理描述統(tǒng)計數據分析圖表展示結果編輯結果報告AdvancedCategoriesConjointRegressionTrendsExactTestComplexSampleMissingValueBaseTableMapSPSS模塊與過程讀/錄入數據數據整理描述統(tǒng)計數據分析圖表展113SPSS操作界面----五個窗口DataEditor----數據編輯窗口DataViewVariableViewSyntaxEditor----程序編輯窗口Viewer----結果管理窗口DraftViewer----草稿結果窗口Script----腳本編輯窗口SPSS操作界面----五個窗口DataEditor--114完全窗口菜單方式:所有分析操作過程都是通過菜單和按鈕及對話框方式進行的.是經常使用的一種運行方式,適用于一般分析和SPSS的初學者.完全窗口菜單方式:115SPSS的結果SPSS的四種結果文本格式的結果表格結果標準圖結果交互圖結果SPSS的結果SPSS的四種結果116SPSS的結果保存方式SPSS結果文件格式Html格式Word格式Text格式Excel格式圖形:jpg、pct…練習:將savetype.spo打開,將其中的對象以不同的格式保存。SPSS的結果保存方式SPSS結果文件格式練習:將savet117SPSS的幫助系統(tǒng)幫助菜單TopicsTutorialCaseStudiesStatisticsCoachCommandSyntaxGuide對話框幫助無處不在的What’sthis?SPSS的幫助系統(tǒng)幫助菜單118第三講SPSS操作實踐1.SPSS數據文件的創(chuàng)建與保存2.利用SPSS整理數據3.數據抽樣方法4.利用SPSS展現(xiàn)數據:專業(yè)的報表和圖形5.利用SPSS分析數據第三講SPSS操作實踐1.SPSS數據文件的創(chuàng)建與保存1193.1SPSS數據文件SPSS數據文件是一種有結構的數據文件。年級性別 問題1…… 問題n1 1 ………. 42 2 ……… 2 …………………...3 1 ………… 1文件結構數據個案case變量名變量SPSS數據文件一般只能通過SPSS軟件打開3.1SPSS數據文件SPSS數據文件是一種有結構的數據文120SPSS數據文件的特點原始數據文件格式:數據文件中的一列為一個變量,每個變量有一個唯一的存取標志:變量名數據文件中的一行為一個個案(case)匯總數據文件格式:男女高價值客戶1023低價值客戶1220SPSS數據文件的特點原始數據文件格式:男女高價值客戶102121SPSS數據文件的結構(一)變量名(Variablename):

變量名是變量存取的唯一標志。

起名規(guī)則:不多于64個字符組成不區(qū)分大小寫允許漢字作為變量名默認變量名為VARn,如:var00001SPSS數據文件的結構(一)變量名(Variablenam122SPSS數據訪問(一)打開數據文件

菜單選項:File->Open->.sav(二)數據定位按個案號碼定位菜單:Data->Gotocase->輸入樣本號按值定位光標定位到某列變量上

->Edit->Find...SPSS數據訪問(一)打開數據文件123SPSS數據的編輯(三)插入和刪除一個個案插入:data->insertcase刪除:選定待刪行,鼠標右鍵找到Cut(四)插入和刪除一個變量插入:光標定位到某列變量上

->Data->InsertVariable(插到某列前)或鼠標右鍵刪除:選定列,鼠標右鍵Cut項SPSS數據的編輯(三)插入和刪除一個個案124SPSS數據編輯(五)數據移動、復制和刪除定義源數據塊鼠標右鍵:cutcopyclear確定目標單元鼠標右鍵:pasteSPSS數據編輯(五)數據移動、復制和刪除125SPSS數據的錄入錄入時應注意:黑框確定當前數據單元。錄入帶有變量值標簽的數據:手工輸入代碼,屏幕顯示變量值標簽。SPSS數據的錄入錄入時應注意:126SPSS數據的保存數據保存:操作保存格式:

(1)*.sav:SPSS數據文件(默認)。(2)*.dbf:dbase數據文件。(3)*.xls:Excel工作表文件。注意:有些信息會丟失SPSS數據的保存數據保存:127練習2:1.將文件telenew.sav導出到mydocuments\myspsscredit\tele1.xls2.將文件telen.txt導入到spss窗口,另存為mydocuments\myspsscredit\tele2.sav練習2:128SPSS變量定義變量的類型(type)和顯示寬度(width)變量名標簽(Variablelabel)變量值標簽(Valuelabel)變量列格式(ColumnFormat)缺失值(MissingValues)變量計量尺度(Measurement)利用變量視圖查看變量定義的情況SPSS變量定義變量的類型(type)和顯示寬度(width129一個基本的分析例題例:xuelin.sav

要求

(1)數據的基本描述過程descriptive(2)數據的分布histogram(3)基本的比較推論t檢驗

(4)保存結果為*.spo文件,*.html文件

(5)使用拆分文件進行分類比較

(6)使用篩選變量進行數據的初步探索一個基本的分析例題例:xuelin.sav130兩個總體均值之差的檢驗

(12、22

未知且相等,小樣本)H0:1-2=0H1:1-2

0=0.05n1=12,n2

=14臨界值(s):檢驗統(tǒng)計量:決策:結論:

=0.05的水平上拒絕H0有證據表明兩種方法生產的產品其抗拉強度有顯著差異Z01.96-1.96.025拒絕H0拒絕H0.025兩個總體均值之差的檢驗

(12、22未知且相等,小1312.用SPSS加工和整理數據數據文件的整理

個案排序、個案選取、文件合并、文件轉置數據加工變量計算、產生計數變量數據分組自動分組、手工分組數據文件的其他處理功能指定加權變量、SPSS變量集的定義和使用2.用SPSS加工和整理數據數據文件的整理1322.用SPSS加工和整理數據數據清理:檢查錄入錯誤、清除不合理數據、定義或彌補缺失值變量重新編碼(Recode)生成新變量(Compute)按關鍵變量對記錄排序(Sort)按關鍵變量對記錄分組(Aggregate)變量和記錄之間轉置(Transpose)數據合并與拆分(Merge/Split)對記錄加權(Weight)2.用SPSS加工和整理數據數據清理:檢查錄入錯誤、清除不1332.1變量重新編碼Recode過程(xuelin.sav)xuelinlevel=0,xuelin<120,xuelin>=210,1<xuelin<2問題:如果僅對有些組進行如何?2.1變量重新編碼Recode過程(xuelin.sav)1342.2生成新變量Compute過程目的:產生新變量或對原變量進行必要的轉換處理理論需要:

預測問題產生比率數據偏態(tài)數據的正態(tài)處理時間序列的平穩(wěn)處理等應用例:身高2/體重肥胖指數負債/收益資產負債信貸額度-貸款余額信用評級總通話時間/總呼叫次數通話質量2.2生成新變量Compute過程目的:產生新變量或對原變1352.2生成新變量Compute過程目的:產生新變量或對原變量進行必要的轉換處理(如:預測問題/產生比率數據/偏態(tài)數據的正態(tài)處理/時間序列的平穩(wěn)處理等)(1)含義:

根據用戶給出的SPSS算術表達式,對所有或部分樣本數據進行加工。(2)SPSS算術表達式(NumericExpression):

由算術運算符(+、-、*、/、**)、SPSS函數以及SPSS變量名組成的式子。2.2生成新變量Compute過程目的:產生新變量或對原變136temp=1,xuelin>12,xuelin<=1temp=1,xuelin>12,xuelin<=1137算術函數統(tǒng)計函數分布函數邏輯函數字符串函數日期時間函數缺失值函數其他函數Abs()sqrt()exp()lg10()rnd()trunc()mod()mean()sd()sum()cfvar()max()min()normal()uniform()rv.()cdf.()idf.()range()any()index()length()lower()lpad()ltrim()substr()missing()sysmis()lag()(3)SPSS函數算術函數Abs()sqrt()exp()lg101382.3按關鍵變量對記錄排序(Sort)

目的:將所有個案按照用戶指定的某一個或多個變量的變量值的升序或降序重新排列。菜單選項: data->sortcases注意: (1)Ascending:升序、Descending:降序。 (2)多重排序,選擇變量名的次序很關鍵。2.3按關鍵變量對記錄排序(Sort)

目的:139練習:對xuelin.sav分別按照血磷濃度和年齡進行排序。練習:對xuelin.sav分別按照血磷濃度和年齡進行排序。1402.4按關鍵變量對記錄分組(Aggregate)(1)含義:按指定的分類變量的變量值對個案分組;計算每組個案的匯總變量的基本統(tǒng)計量;將計算結果生成到一新文件中,即:在新文件中對應分類變量的每一個分類值產生一個個案。原始數據按性別變量匯總數據2.4按關鍵變量對記錄分組(Aggregate)(1)含義141(2)菜單選項:

data->aggregate(3)說明:多重分組時,變量名的選擇順序。生成的新文件名默認為:aggr.sav??尚薷?。生成的新變量名默認為原變量名后加_1??尚薷?。可以在新文件中存貯個分組個案數.(2)菜單選項: 1422.5變量和記錄之間轉置(Transpose)

目的:將數據文件行列互換,即:將個案轉為變量,變量轉為個案.轉置前轉置后2.5變量和記錄之間轉置(Transpose)

目的:轉置1432.5變量和記錄之間轉置Restructure過程2.5變量和記錄之間轉置Restruct

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論