




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù)技術(shù)1. 什么是數(shù)據(jù)挖掘,什么是機器學習:什么是機器學習關(guān)注的問題:計算機程序如何隨著經(jīng)驗積累自動提高性能;研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能;通過輸入和輸出,來訓練一個模型。2.大數(shù)據(jù)分析系統(tǒng)層次結(jié)構(gòu):應(yīng)用層、算法層、系統(tǒng)軟件層、基礎(chǔ)設(shè)施層3.傳統(tǒng)的機器學習流程預處理-特征提取-特征選擇-再到推理-預測或者識別。手工地選取特征是一件非常費力、啟發(fā)式(需要專業(yè)知識)的方法,如果數(shù)據(jù)被很好的表達成了特征,通常線性模型就能達到滿意的精度。4. 大數(shù)據(jù)分析的主要思想方法4.1三個思維上的轉(zhuǎn)變關(guān)注全集(不是隨機樣本而是全體數(shù)
2、據(jù)):面臨大規(guī)模數(shù)據(jù)時,依賴于采樣分析;統(tǒng)計學習的目的用盡可能少的數(shù)據(jù)來證實盡可能重大的發(fā)現(xiàn);大數(shù)據(jù)是指不用隨機分析這樣的捷徑,而是采用大部分或全體數(shù)據(jù)。關(guān)注概率(不是精確性而是概率):大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復雜算法更有效關(guān)注關(guān)系(不是因果關(guān)系而是相關(guān)關(guān)系):建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預測是大數(shù)據(jù)的核心,相關(guān)關(guān)系的核心是量化兩個數(shù)據(jù)值之間的數(shù)理關(guān)系,關(guān)聯(lián)物是預測的關(guān)鍵。4.2數(shù)據(jù)創(chuàng)新的思維方式可量化是數(shù)據(jù)的核心特征(將所有可能與不可能的信息數(shù)據(jù)化);挖掘數(shù)據(jù)潛在的價值是數(shù)據(jù)創(chuàng)新的核心;三類最有價值的信息:位置信息、信令信息以及網(wǎng)管和日志。數(shù)據(jù)混搭為創(chuàng)造新應(yīng)用提供了重要支持。數(shù)據(jù)墳墓:提供
3、數(shù)據(jù)服務(wù),其他人都比我聰明!數(shù)據(jù)廢氣:是用戶在線交互的副產(chǎn)品,包括了瀏覽的頁面,停留了多久,鼠標光標停留的位置、輸入的信息。4.3大數(shù)據(jù)分析的要素大數(shù)據(jù)“價值鏈”構(gòu)成:數(shù)據(jù)、技術(shù)與需求(思維);數(shù)據(jù)的價值在于正確的解讀。5.數(shù)據(jù)化與數(shù)字化的區(qū)別數(shù)據(jù)化:將現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^程;數(shù)字化:將模擬數(shù)據(jù)轉(zhuǎn)換成使用0、1表示的二進制碼的過程6.基于協(xié)同過濾的推薦機制基于協(xié)同過濾的推薦(這種機制是現(xiàn)今應(yīng)用最為廣泛的推薦機制)基于模型的推薦(SVM、聚類、潛在語義分析、貝葉斯網(wǎng)絡(luò)、線性回歸、邏輯回歸)余弦距離(又稱余弦相似度):表示是否有相同的傾向歐幾里得距離(又稱歐幾里得相似度):表示絕對的
4、距離這種推薦方法的優(yōu)缺點:它不需要對物品或者用戶進行嚴格的建模,而且不要求物品的描述是機器可理解的;推薦是開放的,可以共用他人的經(jīng)驗,很好的支持用戶發(fā)現(xiàn)潛在的興趣偏好。數(shù)據(jù)稀疏性問題,大量的用戶只是評價了一小部分的項目,而大多數(shù)的項目是沒有進行評分;冷啟動問題,新物品和新用戶依賴于用戶歷史偏好數(shù)據(jù)的多少和準確性,一些特殊品味的用戶不能給予很好的推薦。7.機器學習:構(gòu)建復雜系統(tǒng)的可能方法/途徑機器學習使用場景的核心三要素:存在潛在模式、不容易列出規(guī)則并編程實現(xiàn)、有歷史的數(shù)據(jù)8. 機器學習的基礎(chǔ)算法之PLA算法和Pocket算法(貪心PLA)感知器線性二維分類器,都屬于二分類算法二者的區(qū)別:迭代過
5、程有所不同,結(jié)束條件有所不同;證明了線性可分的情況下是PLA和Pocket可以收斂。9. 機器為什么能學習學習過程被分解為兩個問題:能否確保Eout(g) 與 Ein(g) 足夠相似?能否使 Ein(g) 足夠???規(guī)模較大的N,有限的dVC,較低的Ein條件下,學習是可能的。切入點:利用具體特征的,基于有監(jiān)督方式的,批量學習的分析,進行二分類預測。10. VC維:11. 噪聲的種類:12. 誤差函數(shù)(損失函數(shù))13. 給出數(shù)據(jù)計算誤差14. 線性回歸算法:簡單并且有效的方法,典型公式線性回歸的誤差函數(shù):使得各點到目標線/平面的平均距離最?。?5. 線性回歸重點算法部分:16. 線性分類與線性回
6、歸的區(qū)別:17. 過擬合:原因:模型復雜太高,噪聲,數(shù)據(jù)量規(guī)模有限。解決方案:使用簡單的模型,數(shù)據(jù)清洗(整形),正則化,驗證。18. 正則化 19. 分布式文件系統(tǒng):一種通過網(wǎng)絡(luò)實現(xiàn)文件在多臺主機上進行分布式存儲的文件系統(tǒng);分布式文件系統(tǒng)一般采用C/S模式,客戶端以特定的通信協(xié)議通過網(wǎng)絡(luò)與服務(wù)器建立連接,提出文件訪問請求;客戶端和服務(wù)器可以通過設(shè)置訪問權(quán)限來限制請求方對底層數(shù)據(jù)存儲塊的訪問。20. 計算機集群結(jié)構(gòu):分布式文件系統(tǒng)把文件分布存儲到多個計算機節(jié)點上,成千上萬的計算機節(jié)點構(gòu)成計算機集群。與之前使用多個處理器和專用高級硬件的并行化處理裝置不同的是,目前的分布式文件系統(tǒng)所采用的計算機集群
7、都是由普通硬件構(gòu)成的,因此大大降低了硬件上的開銷。21. 分布式文件系統(tǒng)的結(jié)構(gòu):分布式文件系統(tǒng)在物理結(jié)構(gòu)上是由計算機集群中的多個節(jié)點構(gòu)成,這些節(jié)點分為兩類,一類叫“主節(jié)點”(MasterNode)或者也被稱為“名稱結(jié)點”(NameNode),另一類叫“從節(jié)點”(Slave Node)或者也被稱為“數(shù)據(jù)節(jié)點。22. HDFS主要特性:兼容廉價的硬件設(shè)備、支持大數(shù)據(jù)存儲、流數(shù)據(jù)讀寫、簡單的文件模型、強大的跨平臺兼容性;局限性:不適合低延遲數(shù)據(jù)處理、無法高校存儲大量小文件、不支持多用戶寫入及任意修改文件塊:hdfs的名稱節(jié)點存儲元數(shù)據(jù)、元數(shù)據(jù)保存在內(nèi)存中、保存文件,block,datanode之間的
8、映射關(guān)系;hdfs的數(shù)據(jù)節(jié)點存儲文件內(nèi)容、文件內(nèi)容保存在磁盤、維護了block id到datanode本地文件的映射關(guān)系。23. 分布式數(shù)據(jù)庫概述:四類典型的作用于大數(shù)據(jù)存儲和管理的分布式數(shù)據(jù)庫:并行數(shù)據(jù)庫、NoSQL數(shù)據(jù)管理系統(tǒng)、NewSQL數(shù)據(jù)管理系統(tǒng)、云數(shù)據(jù)管理系統(tǒng)。并行數(shù)據(jù)庫:NoSQL數(shù)據(jù)管理系統(tǒng):NewSQL數(shù)據(jù)管理系統(tǒng):云數(shù)據(jù)管理系統(tǒng):Nosql簡介:數(shù)據(jù)模型靈活、簡潔;水平可擴展性強;系統(tǒng)吞吐量高;關(guān)系數(shù)據(jù)庫無法滿足大數(shù)據(jù)表現(xiàn):無法滿足海量數(shù)據(jù)的管理需求、無法滿足數(shù)據(jù)高并發(fā)的需求、無法滿足高可拓展性和高可用性的需求。Nosql與關(guān)系數(shù)據(jù)庫的比較:NoSQL的四大類型:鍵值數(shù)據(jù)庫
9、、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫、圖形數(shù)據(jù)庫NoSQL的理論基礎(chǔ)(CAP與ACID、BASE)CAP:一個分布式系統(tǒng)不可能同時滿足一致性、可用性和分區(qū)容忍性這三個需求。ACID(關(guān)系數(shù)據(jù)庫的事務(wù)具有的四個特性)BASENoSQL到NewSQL:大數(shù)據(jù)應(yīng)用:百度大數(shù)據(jù)引擎的構(gòu)成:開放云、數(shù)據(jù)工廠、百度大腦開放云:數(shù)據(jù)工廠:百度大腦:阿里大數(shù)據(jù)應(yīng)用:去IOE大數(shù)據(jù)在電信行業(yè)的應(yīng)用:24. 分布式并行編程框架MapReduce25.MapReduce的體系結(jié)構(gòu):Client、JobTracker、TaskTracker、TaskMapReduce的工作流程:Split(分片):Map端的Shuffle過程詳解:Reduce端的shuffle詳解:MapReduce小結(jié):26. Spark特點:Hadoop的局限性:Spark生態(tài)系統(tǒng):RDD:RDD的優(yōu)勢:RDD之間依賴關(guān)系的兩種類型:Stage劃分:Sprak小結(jié):流數(shù)據(jù):流計算處理流程:數(shù)據(jù)實時采集(保證實時性、低延遲、可靠穩(wěn)定)、數(shù)據(jù)實時計算、實時查詢服務(wù)(實時查詢服務(wù)可以不斷更新結(jié)果,并將用戶所需的結(jié)果實時推送給用戶)。流處理系統(tǒng)與傳統(tǒng)數(shù)據(jù)處理系統(tǒng)的區(qū)別:開源流計算框架Storm(免費、開源的分布式實時計算系統(tǒng)):Storm的工作流程:流計算小結(jié):圖計算系統(tǒng)Pregel簡介:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度建筑包工包料與建筑節(jié)能技術(shù)研發(fā)合同
- 二零二五年度南京市國有企業(yè)員工勞務(wù)派遣服務(wù)合同
- 工匠型人才發(fā)展合同
- 醫(yī)療衛(wèi)生網(wǎng)絡(luò)系統(tǒng)建設(shè)的咨詢合同
- 產(chǎn)品方案開發(fā)合合同6篇
- 2025年按揭購房合同范本6篇
- 大修自住住房合同7篇
- 2025年企業(yè)信息技術(shù)服務(wù)承包合同
- 2025年工程設(shè)備租賃合同樣本在線查閱
- 小企業(yè)銷售經(jīng)理勞動合同書
- 鋼結(jié)構(gòu)安裝方案(彩鋼屋面)
- 混凝土模板支撐工程專項施工方案(140頁)
- 方管、矩形管規(guī)格與理論重量參考表82835
- 腫瘤標志物檢驗(課堂PPT)
- HY∕T 0289-2020 海水淡化濃鹽水排放要求
- 監(jiān)管方式征免性質(zhì)對應(yīng)關(guān)系表
- NLP高效能溝通影響力集團李炫華
- 預應(yīng)力錨索安全專項施工方案
- 站長辦公會議事規(guī)則
- 在泰居留90天移民局報到表格(TM47)
- 銅陵職業(yè)技術(shù)學院“十三五”發(fā)展規(guī)劃編制工作方案
評論
0/150
提交評論