




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、如何零基礎(chǔ)入門數(shù)據(jù)分析 隨著數(shù)據(jù)分析相關(guān)領(lǐng)域變得火爆, 最近越來越多的被問到: 數(shù)據(jù)分析如何從 頭學(xué)起?其中很多提問者都是商科背景,之前沒有相關(guān)經(jīng)驗和基礎(chǔ)。我在讀 Buisness Analytics 碩士之前是商科背景,由于個人興趣愛好,從 大三開始到現(xiàn)在即將碩士畢業(yè), 始終沒有停下自學(xué)的腳步。 Coursera 和 EDX 等 平臺上大概上過 20 多門網(wǎng)課, Datacamp 上 100 多門課里,刷過 70 多門。這 篇文章是想談一談個人的數(shù)據(jù)分析學(xué)習(xí)經(jīng)驗, 希望對想要入門這個領(lǐng)域的各位有 幫助。1. 基本工具學(xué)習(xí)數(shù)據(jù)分析的第一步,是了解相關(guān)工具Excelexcel 至是最基礎(chǔ)的數(shù)據(jù)分
2、析工具,至今還是非常有效的,原因是它便于使 用,受眾范圍極廣,且分析結(jié)果清晰可見。相信大多數(shù)人都有使用 excel 的基本經(jīng)驗, 不需要根據(jù)教材去學(xué)習(xí)了。 重點 掌握:基本操作的快捷鍵;函數(shù):計算函數(shù)、if類、字符串函數(shù)、查找類(vlookup 和 match) ,一定要熟悉函數(shù)功能的絕對和相對引用; 數(shù)據(jù)透視表功能等。 另外, excel 可以導(dǎo)入一些模塊來使用,典型的包括數(shù)據(jù)分析模塊,作假設(shè)檢驗常用; 規(guī)劃求解, 作線性規(guī)劃和決策等問題非常有效。 利用這些模塊可以獲得很不錯的 分析報告,簡單且高效。SQL數(shù)據(jù)分析的絕對核心! 大部分數(shù)據(jù)分析工作都是對數(shù)據(jù)框進行的, 在這個過 程中,需要不斷
3、的根據(jù)已有變量生成新變量、過濾掉一些樣本還有轉(zhuǎn)換 level 。SQL 的設(shè)計就是為了解決這些問題。其他常用的數(shù)據(jù)操作工具,包括 R 語言的 數(shù)據(jù)框、 Python 里的 pandas ,基本都是借鑒了 SQL 的思想,一通百通。SQL 入門容易,它的語法極其簡單,基本可以說上過一門相關(guān)的課或看過 一本相關(guān)的書就可以了解大概, 但融會貫通并能夠進行各種邏輯復(fù)雜的操作, 就 需要長時間的錘煉了。SQL 的學(xué)習(xí)建議,隨便找一本書或者網(wǎng)課就好,因為主流的課程基本都是一個思路:先講SELECT WHERE、GROUP BY(配合簡單的聚合函數(shù))、ORDERBY 這類單表操作,之后講 JOIN 進行多表
4、連接。除此之外,必會的基本技能還應(yīng)該包括 WINDOW FUNCTION 和CASE WHEN等等。學(xué)了基本的內(nèi)容之后, 就是找項目多練,不斷提升。R/Python熟練 SQL 之后,對數(shù)據(jù)操作方面的內(nèi)容就得心應(yīng)手了。接下來更復(fù)雜的問 題,如搜索和建模,則需要使用編程語言。R vs Python目前最主流的數(shù)據(jù)分析編程語言就是 R和Python ,網(wǎng)上遍是關(guān)于這兩者的 爭論,有興趣的可以簡單看一下,但不用陷入過度的糾結(jié)。我個人的經(jīng)驗來看, 熟練兩者其中的任何一個都可以勝任數(shù)據(jù)分析中的大部分工作, 不存在某一個語 言有明顯缺陷的情況。這里不想大篇幅的比較兩者,但是想簡單的說一下兩者的側(cè)重點:R
5、語言是為了解決統(tǒng)計問題而設(shè)計的, 因此它有一個很人性化的地方: 最大 程度的簡化語言, 從而讓分析人員忽略編程內(nèi)容, 直面數(shù)據(jù)分析。 也因為是統(tǒng)計 語言,很多基本的統(tǒng)計分析內(nèi)容在 R里都是內(nèi)置函數(shù),調(diào)用十分便捷。此外,R 的報告能力很強, 大部分模型庫在訓(xùn)練模型后都會提供很多細節(jié), 也比較容易通 過 rmd 轉(zhuǎn)換成優(yōu)美的 doc/pdf/html 。Python 先是一門 general 的編程語言,之后才是數(shù)據(jù)分析工具。初學(xué) python ,語法肯定是不如 R 容易理解的。但使用到后來,當越來越多的需要自 己定義時, Python 的優(yōu)勢就顯現(xiàn)出來了。另外, Python 在數(shù)據(jù)量大時速度會
6、 比較快。至于先學(xué)哪一個, 需要結(jié)合自己的規(guī)劃來看: 如果最終兩個都要學(xué), 那我毫 不猶豫的建議從 R 開始;如果兩個選一個學(xué)的話,我目前傾向于 Python ,不過 如果你確定自己以后只做業(yè)務(wù)方面的內(nèi)容,那 R 可能更好一些。另外,如果有 專注的領(lǐng)域的話, 那么要結(jié)合自己的領(lǐng)域來定, 比如搞投資分析的可以看一看 R 語言的 PortfolioAnalytics庫,大概就明白, 說 R 語言把編程簡化專注結(jié)果所言非虛。R 語言學(xué)習(xí)當然無論入門哪種語言, 學(xué)習(xí)路徑都很重要。 R 語言的學(xué)習(xí)建議從基礎(chǔ)數(shù)據(jù) 結(jié)構(gòu)開始,了解 R 中的 vector 、 dataframe 和 list 等結(jié)構(gòu),對語法
7、有基本的理 解。之后建議學(xué)習(xí) dplyr 和 ggplot2 這兩個庫,兩者分別是數(shù)據(jù)操縱和可視化 庫,學(xué)過之后可以做一些基本的數(shù)據(jù)項目了。 學(xué)習(xí)平臺首推 datacamp ,是付費 的但絕對物有所值,沒有比邊學(xué)邊練更好的學(xué)習(xí)方式了。此外推薦一本 R 語言 實戰(zhàn)(R in Actio n),可以當作學(xué)習(xí)手冊。Python 學(xué)習(xí)包括我在內(nèi)的很多同學(xué)都把 Coursera 上的 Python for everyone 當作啟蒙 教材,這是一門很好的課程,但對于專注數(shù)據(jù)分析的 Python 使用者而言,課程沒有提供最完美的學(xué)習(xí)路徑。學(xué)習(xí) Python 也應(yīng)該從數(shù)據(jù)結(jié)構(gòu)開始, list 、dictio
8、nary 、tuple 這些數(shù)據(jù)結(jié)構(gòu)要了解。之后建議學(xué)習(xí) numpy 、 pandas 和 matplotlib ,分別是矩陣庫、數(shù)據(jù)框庫和可視化庫,基本就算是入門了。學(xué)習(xí) Python ,Datacamp 依然是個很不錯的平臺,但是資源不如 R 豐富。首推一本 叫利用 python 進行數(shù)據(jù)分析 (Python for data analysis) 的教材,直接傳授 數(shù)據(jù)分析最需要的編程技能, 熟悉書中的知識基本就可以說學(xué)會 Python 數(shù)據(jù)分 析的基本操作了。2. 描述性分析和統(tǒng)計基礎(chǔ)了解基本工具之后, 還要擁有相關(guān)的知識才能正式開始數(shù)據(jù)分析。 分析的基 礎(chǔ)是統(tǒng)計知識, 相信大部分人都學(xué)
9、過概率和統(tǒng)計相關(guān)的課程, 自己基礎(chǔ)是否夠扎 實,可以考一考自己:均值 /標準差 / 相關(guān)性等指標,各種探索性分析場景用哪種 可視化方法比較好,抽樣分布 /置信區(qū)間 /假設(shè)檢驗,貝葉斯理論等。在這些相關(guān) 內(nèi)容沒有徹底熟練之前, 建議不要認為自己基礎(chǔ)已經(jīng)足夠扎實了, 這些內(nèi)容都是 值得反復(fù)學(xué)習(xí)的。另外,可以結(jié)合數(shù)據(jù)分析工具來學(xué)習(xí), 比如用R或Python進 行雙均值假設(shè)檢驗 (當然這里是手寫而不是調(diào)用函數(shù)) ,對理解編程和理解統(tǒng)計 都有幫助。這里推薦深入淺出統(tǒng)計學(xué)和深入淺出數(shù)據(jù)分析兩本書,可以作為入 門,也可以作為復(fù)習(xí),當然如果統(tǒng)計背景比較深,沒必要看了,太基礎(chǔ)了。也推 薦 Coursera 杜克
10、大學(xué)的 Statistics with R ,前三門課質(zhì)量都比較高,需要有 R 的基本知識,可以邊學(xué)統(tǒng)計邊練 R。描述性分析真的很重要, 這里需要再強調(diào)一下。 如果真的想做數(shù)據(jù)分析, 尤 其是業(yè)務(wù)導(dǎo)向的數(shù)據(jù)分析, 建議一定要重視這部分。 平時做項目也是一樣的, 拿 到數(shù)據(jù)后先徹底的理解數(shù)據(jù),不要急著往模型里放。3. 機器學(xué)習(xí) 終于到了機器學(xué)習(xí),我猜對于很多數(shù)據(jù)分析學(xué)習(xí)者,機器學(xué)習(xí)是本質(zhì)目的。 機器學(xué)習(xí)是有不同種學(xué)法的:對于業(yè)務(wù)數(shù)據(jù)分析者,了解各類模型的使用場景、 優(yōu)劣勢,基本就足夠了; 對于偏數(shù)據(jù)科學(xué)和挖掘的人員來說, 要深入理解每一種 模型,至少得寫出推導(dǎo)步驟; 更深入的算法導(dǎo)向人員, 還要
11、有從頭實現(xiàn)算法的能 力。這篇文章的目標讀者主要是第一類和第二類。學(xué)習(xí)機器學(xué)習(xí)模型可以從理解模型和實現(xiàn)兩個方向入手, 目前主流的實現(xiàn)工 具還是R和Python °Datacamp上有很多用R和Python進行機器學(xué)習(xí)的課程, 看了之后基本可以了解機器學(xué)習(xí)模型在做什么, 平時的應(yīng)用場景大概怎樣。 流行 的模型一定要理解,像邏輯回、支持向量機 (核函數(shù) )、k 鄰近、樸素貝葉斯、集 成學(xué)習(xí)模型 (隨機森林和各類 boosting) 都是很常用的模型; bias-variance tradeoff 、標準化、正則化、交叉檢驗、重采樣,這些概念也要了解。如果想進一步深入的去理解模型細節(jié), 那么
12、微積分和線性代數(shù)是必要的先修 課,否則無法繼續(xù)進行了。當然如果決定進一步學(xué)習(xí)細節(jié),需要看更多的教材, 上一些相關(guān)課程。網(wǎng)上的相關(guān)課有很多,目前最火爆的肯定是 Coursera Andrew Ng 的機器 學(xué)習(xí)。這門課也是我的入門課, 確切的說我第一次學(xué)這門課的時候, 甚至還不會 調(diào)包,也不太會編程,就跟著一步一步做,很艱難的完成了作業(yè)。做到神經(jīng)網(wǎng)絡(luò) 那部分,當時實在寫不出來,去網(wǎng)上找答案看。到現(xiàn)在,這門課我應(yīng)該看過有五 遍了,基本上每隔幾個月重新看一下都有新的收獲。Coursera 還有另一系列的機器學(xué)習(xí)課來自華盛頓大學(xué),質(zhì)量也很高,課程用 Python( 缺陷是使用的庫不是 pandas 和
13、 sklearn ,而是授課者自己開發(fā)的庫 ) , 很大一部分內(nèi)容是手寫模型,很有助于打好基礎(chǔ)。此外,因為這是一系列課,所 以覆蓋范圍要比 Andrew Ng 的課廣一些,回歸問題、分類問題、非監(jiān)督問題, 都單獨成為一門課程。很多機器學(xué)習(xí)的教材寫的也不錯,比如 An Introduction to Statistical Learning(ISL) 和 Machine Learning with R ,兩者都是講模型的數(shù)學(xué)推導(dǎo),并 用 R 語言實現(xiàn)。機器學(xué)習(xí)確實是很深奧的東西, 如果時間允許建議經(jīng)典的課程和教材都看一 看,有的課甚至可以多看幾遍。4. 更進一步如果以上內(nèi)容都比較扎實的完成, 可
14、以說能夠進行大部分項目了, 也對數(shù)據(jù) 分析有著很成體系的理解。 之后可以結(jié)合自己的需求, 深入學(xué)習(xí)更多的內(nèi)容, 或 者結(jié)合實際項目練習(xí)。嘗試著找一些完整的項目去做,比如說 kaggle 就是很不 錯的平臺,會提供數(shù)據(jù)集進行使用。 kaggle 的入門賽也做的很好,簡單易懂, 讓新人不會太迷茫。如果有額外興趣的話, 還是有很多更深奧的東西值得學(xué)習(xí)的, 比如深度學(xué)習(xí) 范圍的內(nèi)容或者大數(shù)據(jù)的相關(guān)技術(shù)等。5. 結(jié)尾的話很多人在入門數(shù)據(jù)分析時候都會問: 我從零開始, 多久能學(xué)會機器學(xué)習(xí)?其 實取決于你怎么理解會,如果從頭學(xué) python ,到能使用 sklearn 調(diào)出機器學(xué)習(xí) 模型,大概一個月就完成了
15、。 但深入的去理解以上內(nèi)容, 確實不是一年半載能完 成的。我見過很多人追求速成,也確實速成了。遇到項目基本就是把數(shù)據(jù)導(dǎo)進來,不做特征處理,然后調(diào)出各種模型(其中不乏像神經(jīng)網(wǎng)絡(luò)和boosting這種比較高 級的模型),每個用默認參數(shù)試一次,看看效果。然而數(shù)據(jù)分析沒那么簡單,也 沒那么fancy。做一個項目,80%的時間都在準備,涉及到許多數(shù)據(jù)清理和操作, 其中的一些東西是任何教材和課程都無法傳授的。還是更建議一步一個腳印的去學(xué)習(xí),邊學(xué)邊做、邊學(xué)邊想,記好學(xué)習(xí)筆記, 并定期總結(jié)學(xué)習(xí)心得。打好基礎(chǔ)不可急于求成,才是學(xué)習(xí)的最好途徑。物業(yè)安保培訓(xùn)方案來源:http:/bbs.tianya.en/m/po
16、st-414-69222-1.shtml為規(guī)范保安工作,使保安工作系統(tǒng)化/規(guī)范化,最終使保安具備滿足工作需要的知識和技能,特制定本教學(xué)教材大綱。一、課程設(shè)置及內(nèi)容全部課程分為專業(yè)理論知識和技能訓(xùn)練兩大科目。其中專業(yè)理論知識內(nèi)容包括:保安理論知識、消防業(yè)務(wù)知識、職業(yè)道德、法律常識、保安禮儀、救護知識。作技能訓(xùn)練內(nèi)容包括:崗位操作指引、勤務(wù)技能、消防技能、軍事技能。二培訓(xùn)的及要求培訓(xùn)目的1保安人員培訓(xùn)應(yīng)以保安理論知識、消防知識、法律常識教學(xué)為主,在教學(xué)過程中,應(yīng)要求學(xué)員全面熟知保安理論知識及消防專業(yè)知識,在工作中的操作與運用,并基本掌握現(xiàn)場保護及處理知識2)職業(yè)道德課程的教學(xué)應(yīng)根據(jù)不同的崗位元而予以不同的內(nèi)容,使保安在各自不同的工作崗位上都能養(yǎng)成具有本職業(yè)特點的良好職業(yè)道德和行為規(guī)范)法律常識教學(xué)是理論課的主要內(nèi)容之一,要求所有保安都應(yīng)熟知國家有關(guān)法律、法規(guī),成為懂法、知法、守法的公民,運用法律這一有力武器與違法犯罪分子作斗爭。工作入口門 衛(wèi)守護,定點守衛(wèi)及區(qū)域巡邏為主要內(nèi)容,在日常管理和發(fā)生突發(fā)事件時能夠運用所學(xué)的技能保護公司財產(chǎn)以及自身安全。2、培訓(xùn)要求1保安理論培訓(xùn)通過培訓(xùn)使保安熟知保
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 夏天超市促銷活動方案
- 大學(xué)開學(xué)后舉辦活動方案
- 外貿(mào)特價促銷活動方案
- 酥皮類糕點市場發(fā)展分析及行業(yè)投資戰(zhàn)略研究報告2025-2028版
- 航空租賃行業(yè)風險投資發(fā)展分析及投資融資策略研究報告2025-2028版
- 純麻面料行業(yè)市場發(fā)展分析及投資前景研究報告2025-2028版
- 電商平臺行業(yè)十四五競爭格局分析及投資前景與戰(zhàn)略規(guī)劃研究報告2025-2028版
- 財務(wù)總監(jiān)財務(wù)共享中心勞動合同
- 旅游景區(qū)場地租賃合同終止與旅游服務(wù)質(zhì)量保障函
- 餐飲品牌特許經(jīng)營區(qū)域保護合同
- 煤礦應(yīng)急醫(yī)療救護常識課件
- 基于毫米波的工業(yè) 5G 創(chuàng)新應(yīng)用白皮書
- DB37T 2640-2022 監(jiān)獄安全防范系統(tǒng)建設(shè)技術(shù)規(guī)范
- 學(xué)校各功能室管理人員工作職責
- kpi績效考核培訓(xùn)課件
- 2023-2024學(xué)年滬科版(2019)高中信息技術(shù)必修二第三單元項目五《規(guī)劃并連接數(shù)字家庭系統(tǒng)的網(wǎng)絡(luò)-組建小型信息系統(tǒng)網(wǎng)絡(luò)(一)》說課稿
- RPA財務(wù)機器人開發(fā)與應(yīng)用 課件 6.2 RPA銀企對賬機器人
- 2024年研究生考試考研植物生理學(xué)與生物化學(xué)(414)試題與參考答案
- 天津市南開區(qū)2023-2024學(xué)年六年級下學(xué)期期末數(shù)學(xué)試題
- 公司招聘保安合同模板
- 老年患者術(shù)后譫妄護理
評論
0/150
提交評論