第1講Stata的學習背景與學習意義_第1頁
第1講Stata的學習背景與學習意義_第2頁
第1講Stata的學習背景與學習意義_第3頁
第1講Stata的學習背景與學習意義_第4頁
第1講Stata的學習背景與學習意義_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、統(tǒng)計分析方法與Stata應用(2015年春季學期)第一講 Stata的學習背景與學習意義一、Stata是什么?“Stata”并非數(shù)個單詞的縮寫(因此其正確拼寫為Stata而非STATA),而是由“statistics”和“data”合成的一個新詞,Stata公司的員工都將其讀做“Stay-ta”。從這個小小的趣聞中,可以看出Stata在問世之初(1985年)的主要功能在于統(tǒng)計分析和數(shù)據(jù)處理。經(jīng)歷了三十余年的發(fā)展,Stata已經(jīng)升級到第13.1版(表1),在不斷強化上述功能的同時,Stata在矩陣運算、繪圖、編程等方面的功能也在不斷加強。表1 Stata發(fā)展歷程版本發(fā)布日期版本發(fā)布日期13.1O

2、ct-137Dec-0013Jun-136Jan-9912.1Jan-125Sep-9612Jul-114Jan-9511.2Mar-113.1Aug-9311.1Jun-103Mar-9211Jul-092.1Aug-9010.1Aug-082.05Apr-8910Jun-072Jun-889.2Apr-061.5Feb-879.1Sep-051.4May-869Apr-051.3Aug-858.2Oct-031.2May-858.1Jul-031.1Feb-858Jan-031Jan-85資料來源:http:/www.S/support/faqs/res/history.h

3、tmlStata擅長數(shù)據(jù)處理、面板數(shù)據(jù)分析、時間序列分析、生存分析,以及調查數(shù)據(jù)分析,但其它方面的功能也并不遜色(表2)。表2Stata的功能一覽數(shù)據(jù)處理和繪圖Data managementGraphics統(tǒng)計分析和檢驗Basic statisticsNonparametric methodsExact statisticsANOVA/MANOVA其它檢驗方法和函數(shù)回歸分析Linear modelsGLMMLEGMMMultilevel mixed modelsPanel dataProbit/Logit/CountTime series多變量模型(多元統(tǒng)計)抽樣和模擬分析Multivaria

4、te methodsCluster analysisResampling and simulation調查分析和生存分析Survey methodsSurvival analysisEpidemiologists編程Programming languageMataUser-written commands二、為什么要學習Stata1.時代發(fā)展的需要:大數(shù)據(jù)時代的興起(1)什么是大數(shù)據(jù)?傳統(tǒng)的統(tǒng)計分析常常希望數(shù)據(jù)多多益善。也就是說,數(shù)據(jù)越多,分析越深入,所得的結論就越全面。從字面含義上理解似乎指的是數(shù)量龐大信息量巨大的數(shù)據(jù)。大數(shù)據(jù)常常被描述成已經(jīng)大到無法用傳統(tǒng)的數(shù)據(jù)處理工具進行管理和分析的極大的

5、數(shù)據(jù)集。超大的數(shù)據(jù)量只是大數(shù)據(jù)概念的一個部分。大數(shù)據(jù)涉及結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)這三類數(shù)據(jù)。結構化數(shù)據(jù)通常指的是傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù),利用結構化查詢語言(Structured Query Language,簡稱SQL) 來存取數(shù)據(jù)以及查詢、更新和管理數(shù)據(jù)庫系統(tǒng)。非結構化數(shù)據(jù)一般無法直接進行商業(yè)智能分析,這是由于非結構化數(shù)據(jù)無法直接存儲到數(shù)據(jù)庫表中,也無法被程序直接使用。二進制圖片文件就是非結構化數(shù)據(jù)的一個典型例子。半結構化數(shù)據(jù)介于結構化數(shù)據(jù)和非結構化數(shù)據(jù)之間。半結構化數(shù)據(jù)不具有嚴格的結構因而不同于結構化數(shù)據(jù)。半結構化數(shù)據(jù)也不同于非結構化數(shù)據(jù),它使用標簽和各種標識區(qū)分不同的元素,并利

6、用層級結構來定義數(shù)據(jù)。(2)理解大數(shù)據(jù)的概念需要把握4個維度,統(tǒng)稱為4V特征。海量性(Volume)。大數(shù)據(jù)都是數(shù)量巨大的數(shù)據(jù)。很多企業(yè)都擁有海量數(shù)據(jù),數(shù)據(jù)量很容易就積累到TB(1012字節(jié))級,甚至躍升至PB(1015字節(jié))級。多樣性(Variety)。大數(shù)據(jù)沖破結構化數(shù)據(jù)的局限,不僅包括結構化數(shù)據(jù),還覆蓋了如文本、音頻、視頻、點擊流、日志文件等各種類型的非結構化數(shù)據(jù)。精確性(Veracity)。數(shù)據(jù)量多不見得都是好事,龐雜的數(shù)據(jù)可能會導致對收集到的信息的誤讀或統(tǒng)計誤差,因此信息的純度對價值發(fā)掘至關重要。時效性(Velocity)。大數(shù)據(jù)對時效性要求很高,企業(yè)必須能夠在短時間內(nèi)高速、流暢地處

7、理源源不斷產(chǎn)生或流入企業(yè)的海量實時數(shù)據(jù),方能最大化地顯現(xiàn)出大數(shù)據(jù)的商業(yè)價值。與此同時,大數(shù)據(jù)還應被歸檔存儲,以備不時之需。(3)在大數(shù)據(jù)的范疇下,包含如下方面。傳統(tǒng)商業(yè)智能(Traditional Business Intelligence, BI)。傳統(tǒng)的商業(yè)智能對來自數(shù)據(jù)庫、應用程序和其他可訪問數(shù)據(jù)源提供的詳細商業(yè)數(shù)據(jù)進行深度分析,通過運用基于事實的決策支持系統(tǒng),給用戶提供可操作性的建議,輔助企業(yè)用戶做出更好的商業(yè)決策。數(shù)據(jù)挖掘 (Data Mining, DM)。數(shù)據(jù)挖掘是人們對數(shù)據(jù)進行多角度的分析并從中提煉有價值的信息的過程。數(shù)據(jù)挖掘的對象通常是靜態(tài)數(shù)據(jù)和歸檔數(shù)據(jù)。統(tǒng)計應用 (Stat

8、istical Application)。統(tǒng)計應用通常是基于統(tǒng)計學原理利用算法來處理數(shù)據(jù),一般用于民意調查、人口普查以及其他統(tǒng)計數(shù)據(jù)集。為了更好地估計、測試或預測分析,可以使用統(tǒng)計軟件分析收集到的樣本觀測值來推斷總體特征。調查問卷和實驗報告這類經(jīng)驗數(shù)據(jù)都是用于數(shù)據(jù)分析的主要數(shù)據(jù)來源。預測分析 (Predictive Analysis)。預測分析是統(tǒng)計應用的一個分支,人們基于從各個數(shù)據(jù)庫得到的發(fā)展趨勢及其他相關信息,分析數(shù)據(jù)集進行預測。預測分析在金融和科學領域顯得尤為重要,因為加入對外部影響因素的分析,更容易形成高質量的預測結論。預測分析的一個主要目標是為業(yè)務流程、市場銷售和生產(chǎn)制造等規(guī)避風險并

9、尋求機遇。(4)大數(shù)據(jù)的商業(yè)價值正在得到越來越多的實現(xiàn)和證明。對大數(shù)據(jù)商業(yè)價值的渴求,促使組織機構利用企業(yè)內(nèi)部和外部數(shù)據(jù)“倉庫”中的數(shù)據(jù)來揭示發(fā)展規(guī)律、進行數(shù)據(jù)統(tǒng)計、獲取競爭情報,協(xié)助他們部署下一步戰(zhàn)略。據(jù)IBM公司稱,全球每天產(chǎn)生2.5億億(2.51018)字節(jié)的數(shù)據(jù),當今世界90%的數(shù)據(jù)都是近兩年產(chǎn)生的。這些數(shù)據(jù)來源廣泛,有的來自收集氣候信息的傳感器,有的來自社交媒體網(wǎng)站,還有的是網(wǎng)絡上傳的數(shù)字照片和視頻、電子商務交易記錄,甚至是手機GPS信號等。大數(shù)據(jù)的價值及其重要性已經(jīng)在一些領域得到了證明。美國國家海洋和大氣管理局(NOAA)、美國國家航空航天局(NASA)、部分制藥公司和許多能源公司

10、正在把大數(shù)據(jù)技術運用于日常工作并從海量的數(shù)據(jù)中提取價值。美國國家海洋和大氣管理局運用大數(shù)據(jù)的方法助力氣候、生態(tài)系統(tǒng)、天氣和商業(yè)研究,美國國家航空航天局則使用大數(shù)據(jù)從事航空航天等研究。在大數(shù)據(jù)的幫助下,制藥公司和能源公司已經(jīng)在藥物測試和地理分析方面得到了實際的效益。紐約時報利用大數(shù)據(jù)工具進行文本分析和Web挖掘;迪士尼公司則分析了旗下所有店鋪、主題公園和網(wǎng)站的數(shù)據(jù),試圖發(fā)現(xiàn)數(shù)據(jù)間的關聯(lián)性,進而理解用戶行為。2.自身進步的需要兩個政策背景:一個是國家要加大職業(yè)技術教育,另一個是取消文理分科。一個教育背景:人大、北大等名校都開設Stata課。結論:文科生要加強技術方法的學習。3.為什么選擇Stata

11、由圖可知,SAS比Stata使用更廣泛。好了,下面是一張預測圖三、如何學習Stata?1. 三門基礎課微積分、線性代數(shù)、概率論與數(shù)理統(tǒng)計,缺一不可。基礎有多重要?有一句廣告詞:ItsonlyaboutFundamentals.你只需做好基本功?;A打好了,學習統(tǒng)計、計量,真的勢如破竹;如果基礎不行,想要有多難,就有多難。1.1 微積分。推薦教材:同濟六版高等數(shù)學,國內(nèi)相關的參考資料非常豐富,內(nèi)容詳略基本得當,也比較流行。想比較有深度的,可以看史濟懷、常庚哲的數(shù)學分析(高等教育出版社,2012)。1.2 線性代數(shù)。1.3 概率論與數(shù)理統(tǒng)計。1.4基礎課程的系列教材,如果能找到視頻,就更好了。比如

12、吉林大學陳殿友的線性代數(shù)、高等數(shù)學,麻省理工的Gilbert Strang的線性代數(shù),中科大的繆柏其概率論與數(shù)理統(tǒng)計,中科大史濟懷或復旦陳紀修的數(shù)學分析,都是極好的。不過要真看完你就研究生畢業(yè)了(如果你是兩年制的研究生)。另外,我覺得有些考研的數(shù)學視頻也是不錯。個人覺得Strang的線代超贊,但適合先經(jīng)歷一次國內(nèi)教材和教授方式的“洗腦”,你就覺得老外講得真心好!沒有比較的話,你會發(fā)現(xiàn)線代永遠是那么的抽象。2 Stata圖書1.應用STATA做統(tǒng)計分析 (更新至STATA10.0版)(勞倫斯?jié)h密爾頓著,郭志剛等譯,重慶大學出版社,2011)。2.社會統(tǒng)計分析與數(shù)據(jù)處理技術:STATA軟件的應用(

13、楊菊華,中國人民大學出版社,2008)我個人覺得是最適合入門的教材。3. 數(shù)據(jù)管理與模型分析:STATA軟件應用(楊菊華,中國人民大學出版社,2012)。4. 陳強-高級計量經(jīng)濟學及Stata應用 第二版5. 人大陳傳波stata十八講6. 現(xiàn)代醫(yī)學統(tǒng)計方法與Stata應用_第二版(陳峰)(1)網(wǎng)絡資源值得一提的有如下幾個:Stata官方網(wǎng)站。Stata公司提供的Web resources,涵蓋了大量相關網(wǎng)絡資源;其FAQ則提供了各種常見問題的解答;Statalist則是一個類似于人大經(jīng)濟論壇的免費的討論區(qū)。加入Statalist的方法很簡單,你只需要發(fā)送郵件至,郵件內(nèi)容無需任何稱謂,只需寫上

14、“subscribe Statalist”的字樣即可。接到確認信息后,你便成為一名Statalist的成員了。當然,即使不加入,你仍然可以瀏覽,但不能提問。Stata website:http:/www.S 導航圖Sata resources:http:/www.S/links/resources1.html(大量網(wǎng)絡教程鏈接)Stata journal:http:/www.S/support/faqs/res/sj.htmlStata library:http:/www.ats.ucla

15、.edu/stat/Stata/library/Statalist archive:/cgi-bin/lwgate/STATALIST/archives/Stata FAQs:http:/www.S/support/faqs/Stata statistics FAQs:http:/www.S/support/faqs/stat/Stata listserver:http:/www.S/support/Statalist/Stata discussion list:Statalisthsphsun

16、2.Stata bookstore:http:/www.S/bookstore/Stata Manual:http:/www.S/manuals/ UCLA(加州大學洛杉磯分校)提供的網(wǎng)絡教程。該網(wǎng)站提供的Data Management、Graphics、Regression、Logistic Regression、Multilevel Modeling、Survey Data Analysis等模塊都非常出色;其Web Books、Textbook Examples模塊則非常細致地呈現(xiàn)了幾十本非常流行的統(tǒng)計和計量教材的Stat

17、a實例;對于LaTeX感興趣的朋友,則可以通過Stata Tools for LaTeX模塊獲得諸多有用的信息;在Graph examples模塊中,則列舉了四十余種圖形的繪制方法;最后,在Classes and Seminars模塊中,你可以在線觀看數(shù)十個Stata教學視頻。Data ManagementGraphicsANOVARegressionLogistic (and Categorical) RegressionCount ModelsMultilevel ModelingSurvival AnalysisSurvey Data AnalysisFrequently Asked Q

18、uestions(FAQ) Statistical AnalysisData Analysis Examples(絕佳的數(shù)據(jù)處理專題)Annotated Output(詳細解讀Stata輸出結果)Textbook Examples(包含十余本教科書的Stata實例)Web Books(兩本Stata網(wǎng)絡教程)What statistical analysis should I use?(常用統(tǒng)計分析的Stata實例)Stata Portal(a comprehensive links)人大經(jīng)濟論壇。若從人數(shù)上來講,人大經(jīng)濟論壇或許是全球最大的經(jīng)濟類論壇了。目前,其計量經(jīng)濟學板塊又細分出多個計量

19、軟件專題討論區(qū)。在Stata專版已發(fā)布了4000余個討論主題(18000余條回復),而Stata上傳下載區(qū)則匯集了大量學習資料。在統(tǒng)計軟件培訓班VIP答疑區(qū)中,Stata培訓班的學員所提出的問題,可以在24小時內(nèi)得到詳盡的回復。人大經(jīng)濟論壇Stata專版:/bbs/forum-67-1.html人大經(jīng)濟論壇Stata上傳下載區(qū):/bbs/forum-121-1.html人大經(jīng)濟論壇統(tǒng)計軟件培訓班VIP答疑區(qū)(針對Stata視頻教程學員):/bbs/forum-114-1.ht

20、ml(所有Stata問題24小時內(nèi)回復)3.5 一些常用的網(wǎng)站:3.5.2 人大經(jīng)濟論壇:/3.5.3 新浪愛問: /3.5.4 統(tǒng)計之都: /3.5.5 UCLA stata: /stat/stata/3.5.7 coursera:/4 一些適用于社會科學類的實證教材4.1 社會學教材教參方法系列(全5本):謝宇:社會學方法與定量研究(社會科學文獻出版社,2012),回歸分析(社會科學文

21、獻出版社,2012);4.2 萬卷方法叢書4.3 格致方法定量研究系列:如高級回歸分析(格致出版社,2011),數(shù)據(jù)分析方法五種,線性回歸分析基礎,等等。4.4 計量經(jīng)濟學系列: 杰弗里M伍德里奇,計量經(jīng)濟學導論,中國人民大學出版社,2010第4版。 威廉H格林,計量經(jīng)濟分析,中國人民大學出版社,第6版。3 所有這些書籍,配套的stata數(shù)據(jù)、程序與答案都不難找到。如果你能找到英文版,看英文的也很好(如果你有能力?。U娴模瑢W完這些書,基本上在社會學的研究生畢業(yè)之前,不太需要別的什么方法書了。你所需要的,只是如何將這些應用于社會學研究的實踐而已。面板數(shù)據(jù)計量經(jīng)濟分析_4ed(Baltagi)5

22、.統(tǒng)計學圖書:現(xiàn)代外國優(yōu)秀統(tǒng)計學著作譯叢全套15本中英對照:01外國統(tǒng)計學優(yōu)秀著作譯叢 統(tǒng)計學統(tǒng)計與真理統(tǒng)計學的世界(第五版)愛上統(tǒng)計學(第2版)馴服偶然.(加)伊恩哈金女士品茶四、如何學好Stata?(1) 好腦瓜不如爛筆頭。這是一個適用于學習任何新知識的“秘訣”,對于功能強大,以敲命令為基礎的Stata軟件而言尤其如此。因此,你要時刻記錄新學到的命令、方法和技巧,并定期整理。若能將這些手記與其他Stata用戶分享,你會有更多的收獲。(2) 學以致用。在了解了Stata的基本功能和架構后,想要進一步提升自己的最佳途徑就是動手寫一篇實證分析的論文,并自始至終用Stata解決所有問題。這項工作的起點是一份以txt或Excel格式存儲的原始數(shù)據(jù)文件,中間過程完整地記錄于一個do-files文檔中,最終的分析結果要自動輸出到Word, Excel或LaTeX文檔中。(3) 不恥下問。這個不用多言了,你只需克服“不恥”,進而多花些精力考慮考慮該如何提問即可(注:很多人不會提問)。五、Stat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論