![大數(shù)據(jù)時代下的數(shù)據(jù)挖掘-簡易ppt_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/29/1a7bd4ae-294e-461b-ae19-8536cdba0eb9/1a7bd4ae-294e-461b-ae19-8536cdba0eb91.gif)
![大數(shù)據(jù)時代下的數(shù)據(jù)挖掘-簡易ppt_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/29/1a7bd4ae-294e-461b-ae19-8536cdba0eb9/1a7bd4ae-294e-461b-ae19-8536cdba0eb92.gif)
![大數(shù)據(jù)時代下的數(shù)據(jù)挖掘-簡易ppt_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/29/1a7bd4ae-294e-461b-ae19-8536cdba0eb9/1a7bd4ae-294e-461b-ae19-8536cdba0eb93.gif)
![大數(shù)據(jù)時代下的數(shù)據(jù)挖掘-簡易ppt_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/29/1a7bd4ae-294e-461b-ae19-8536cdba0eb9/1a7bd4ae-294e-461b-ae19-8536cdba0eb94.gif)
![大數(shù)據(jù)時代下的數(shù)據(jù)挖掘-簡易ppt_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-5/29/1a7bd4ae-294e-461b-ae19-8536cdba0eb9/1a7bd4ae-294e-461b-ae19-8536cdba0eb95.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)時代 生活、工作與思維的大變革L(fēng)iving, working and thinking big changes 大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型。就想望遠(yuǎn)鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)一場生活、工作與思維的大變革一場生活、工作與思維的大變革大數(shù)據(jù),變革公共衛(wèi)生大數(shù)據(jù),變革商業(yè)大數(shù)據(jù),變革思維大數(shù)據(jù),開啟重大的時代轉(zhuǎn)型預(yù)測,大數(shù)據(jù)的核心大數(shù)據(jù),大挑戰(zhàn)什么是大數(shù)據(jù)2009年,甲型H1N1流感在全球爆發(fā)傳播,為了發(fā)現(xiàn)和控制疫情,各國政府和衛(wèi)生相關(guān)部門付出了巨大努力,但得到的數(shù)據(jù)仍然
2、滯后一兩周,而Google對人們的搜索的歷史記錄進(jìn)行處理,建立合理的數(shù)學(xué)模型后,得到的預(yù)測結(jié)果與官方的數(shù)據(jù)相關(guān)性高達(dá)97%,能夠立刻判斷出流感是從哪里傳播出來的,沒有一兩周的滯后。Google處理了5000萬條歷史記錄、4.5億個不同的數(shù)學(xué)模型。什么是大數(shù)據(jù)Farecast是一個對機(jī)票價格進(jìn)行預(yù)測的公司,幫助消費者抓住最佳購買機(jī)票的時機(jī),使乘客節(jié)省很多錢。最初預(yù)測系統(tǒng)建立在41天之內(nèi)的12000個價格樣本基礎(chǔ)上,數(shù)據(jù)是從旅游網(wǎng)站上抓取的,如今已經(jīng)擁有超過2000億條飛行記錄。系統(tǒng)只推測機(jī)票的價格何時最便宜,不關(guān)心是什么原因?qū)е碌膬r格下降。FarecastBing大數(shù)據(jù)的特性大數(shù)據(jù)大數(shù)據(jù)的特性的
3、特性大數(shù)據(jù)時代的思維變革大數(shù)據(jù)時代的商業(yè)變革大數(shù)據(jù)時代的管理變革“更多”不是隨機(jī)樣本,而是全體數(shù)據(jù) 當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生翻天覆地的變化時,在大數(shù)據(jù)時代進(jìn)行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數(shù)據(jù),“樣本總體”。讓數(shù)據(jù)“發(fā)聲”小數(shù)據(jù)時代的隨機(jī)采樣,最少的數(shù)據(jù)獲得最多的信息全數(shù)據(jù)模式,樣本總體“更雜”不是精確性,而是混雜性 執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物。只有5%的數(shù)據(jù)是有框架且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不能接受混亂,剩下95%的非框架數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。允許不精確大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有
4、效紛繁的數(shù)據(jù)越多越好混雜性,不是竭力避免,而是標(biāo)準(zhǔn)途徑新的數(shù)據(jù)庫設(shè)計的誕生“更好”不是因果關(guān)系,而是相關(guān)關(guān)系 知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。關(guān)聯(lián)物,預(yù)測的關(guān)鍵“是什么”,而不是“為什么”改變,從操作方式開始大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒ā皵?shù)據(jù)化”一切皆可“量化” 大數(shù)據(jù)發(fā)展的核心動力來源于人類測量、記錄和分析世界的渴望。信息技術(shù)變革隨處可見,但是如今信息技術(shù)變革的重點在“T”(技術(shù))上,而不是在“I”(信息)上?,F(xiàn)在,我們是時候把聚光燈打向“I”,開始關(guān)注信息本身了。數(shù)據(jù),從最不可能的地方提取出來數(shù)據(jù)化,不是
5、數(shù)字化量化一切,數(shù)據(jù)化的核心當(dāng)文字變成數(shù)據(jù)當(dāng)方位變成數(shù)據(jù)當(dāng)溝通成為數(shù)據(jù)一切事物的數(shù)據(jù)化“價值”“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新 數(shù)據(jù)就像一個神奇的鉆石礦,當(dāng)它的首要價值被發(fā)掘后仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)數(shù)據(jù)創(chuàng)新3:可擴(kuò)展數(shù)據(jù)數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值數(shù)據(jù)創(chuàng)新5:數(shù)據(jù)廢氣數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)給數(shù)據(jù)估值“角色定位”數(shù)據(jù)、技術(shù)與思維的三足鼎立 微軟以1.1億美元的價格購買了大數(shù)據(jù)公司Farecast,而兩年后谷歌則以7億美元的價格購買了給Farecast提供數(shù)據(jù)的ITA Softw
6、are公司。如今,我們正處在大數(shù)據(jù)時代的早期,思維和技術(shù)是最有價值的,但是最終大部分價值還是必須從數(shù)據(jù)本身來挖掘。大數(shù)據(jù)價值的3大構(gòu)成大數(shù)據(jù)掌控公司大數(shù)據(jù)技術(shù)公司大數(shù)據(jù)思維公司和個人全新的數(shù)據(jù)中間商專家的消亡與數(shù)據(jù)科學(xué)家的崛起大數(shù)據(jù),決定企業(yè)的競爭力“風(fēng)險”讓數(shù)據(jù)主宰一切的隱憂 我們時刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,而微博似乎什么都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關(guān)系網(wǎng)。無處不在的“第三只眼”我們的隱私被二次利用了預(yù)測與懲罰,不是因為“所做”,而是因為“將做”數(shù)據(jù)獨裁掙脫大數(shù)據(jù)的困境“掌控”責(zé)任與自由并舉的信息管理 當(dāng)世
7、界開始邁向大數(shù)據(jù)時代時,社會也將經(jīng)歷類似的地殼運動。在改變?nèi)祟惢镜纳钆c思考方式的同時,大數(shù)據(jù)早已在推動人類信息管理準(zhǔn)則上重新定位。然而,不同于印刷革命,我們沒有幾個世紀(jì)的時間去適應(yīng),我們也許只有幾年時間。管理變革1:個人隱私保護(hù),從個人許可到讓數(shù)據(jù)使用者承擔(dān)責(zé)任管理變革2:個人動因VS預(yù)測分析管理變革3:擊碎黑盒子,大數(shù)據(jù)程序員的崛起管理變革4:反數(shù)據(jù)壟斷大亨正在發(fā)生的未來大數(shù)據(jù)并不是一個充斥著算法和機(jī)器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。大數(shù)據(jù)時代下的數(shù)據(jù)挖掘 Contents數(shù)據(jù)挖掘簡介
8、數(shù)據(jù)挖掘簡介1數(shù)據(jù)挖掘分類數(shù)據(jù)挖掘分類2成功案例成功案例3總結(jié)與展望總結(jié)與展望4數(shù)據(jù)挖掘簡介數(shù)據(jù)挖掘簡介 產(chǎn)生背景隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展,快速增長的海量數(shù)據(jù)收集、存放在大量數(shù)據(jù)儲存庫中理解他們已經(jīng)遠(yuǎn)遠(yuǎn)超出人的能力數(shù)據(jù)墳?zāi)闺y得再訪問的數(shù)據(jù)檔案數(shù)據(jù)豐富,但信息缺乏如何利用大量數(shù)據(jù)如何利用大量數(shù)據(jù)數(shù)據(jù)挖掘定義v從大量的、不完全的、有噪聲的、隨機(jī)的數(shù)據(jù)中提取含在其中的、人們事先不知道的、有用的信息和知識的過程。v功能的廣義觀點:從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)知識的過程v數(shù)據(jù)挖掘是一個新興、交叉學(xué)科領(lǐng)域演變歷程演變歷程數(shù)據(jù)倉庫數(shù)據(jù)挖掘數(shù)據(jù)庫原始文件原始文件處理原始文件處理紙張紙
9、張界面、查詢界面、查詢硬盤硬盤聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理各個數(shù)據(jù)庫各個數(shù)據(jù)庫各種媒體各種媒體20世紀(jì)60年代前20世紀(jì)60年代20世紀(jì)80年代現(xiàn)在現(xiàn)在 數(shù)據(jù)挖掘受多學(xué)科的影響數(shù)據(jù)挖掘受多學(xué)科的影響統(tǒng)計學(xué)數(shù)據(jù)庫技術(shù)信息科學(xué)其他學(xué)科機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘步驟數(shù)據(jù)挖掘步驟結(jié)果解釋和評估數(shù)據(jù)挖掘算法執(zhí)行數(shù)據(jù)收集數(shù)據(jù)收集和與處理和與處理問題定義數(shù)據(jù)挖掘分類數(shù)據(jù)挖掘分類離群點離群點分析分析分類分類分析分析聚類聚類分析分析關(guān)聯(lián)關(guān)聯(lián)分析分析時間時間序列序列數(shù)據(jù)挖掘數(shù)據(jù)挖掘 分類分析:找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使模型預(yù)測未知的對象類 常用方法:分類規(guī)則;決策樹;神經(jīng)網(wǎng)絡(luò); 聚類分析:根據(jù)最大化類內(nèi)部的相
10、似性、最小化類之間的相似性的原則進(jìn)行聚類或分組 常用算法:K-MEAMS;分層凝聚發(fā);估算最大值法 關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)庫中不同項之間的聯(lián)系 常用方法:Apriori;MAQA;IUA; 時間序列分析:描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模匹配方法:ARMA模型 離群點分析:檢測和分析離群點離群點:與數(shù)據(jù)的一般行為或模型不一致的點成功案例成功案例 啤酒加尿布 地點:沃爾瑪在美國加州的某連鎖店 起因:每天銷售信息和顧客基本情況的數(shù)據(jù)庫中發(fā)現(xiàn)購買嬰兒尿布的顧客多是男性,而且往往也同時購買啤酒 經(jīng)過:重新布置貨架,把啤酒類商品布置在嬰兒尿布貨架附近,并在兩者之間放上土豆之類的佐酒小食品和男性生活用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45172-2024感官分析方法定量描述感官評價小組表現(xiàn)評估導(dǎo)則
- OVA-PEG-Cy3-生命科學(xué)試劑-MCE-7080
- JCS-1-生命科學(xué)試劑-MCE-4278
- 二零二五年度廠房物業(yè)管理與員工食堂運營合同
- 2025年度股權(quán)融資協(xié)議書范本
- 2025年度文化產(chǎn)業(yè)過橋墊資合作協(xié)議書
- 二零二五年度稅務(wù)籌劃與稅務(wù)籌劃財務(wù)解決方案合同
- 2025年度全屋智能家居裝修質(zhì)保服務(wù)合同模板
- 施工現(xiàn)場施工防自然災(zāi)害侵襲威脅制度
- 醫(yī)療護(hù)理醫(yī)學(xué)培訓(xùn) 小學(xué)二年級健康課課件
- 電網(wǎng)工程設(shè)備材料信息參考價(2024年第四季度)
- 2025年江蘇農(nóng)牧科技職業(yè)學(xué)院高職單招職業(yè)技能測試近5年常考版參考題庫含答案解析
- 2025江蘇連云港市贛榆城市建設(shè)發(fā)展集團(tuán)限公司招聘工作人員15人高頻重點提升(共500題)附帶答案詳解
- 江蘇省揚州市蔣王小學(xué)2023~2024年五年級上學(xué)期英語期末試卷(含答案無聽力原文無音頻)
- 數(shù)學(xué)-湖南省新高考教學(xué)教研聯(lián)盟(長郡二十校聯(lián)盟)2024-2025學(xué)年2025屆高三上學(xué)期第一次預(yù)熱演練試題和答案
- 績效考核管理醫(yī)院績效分配方案包括實施細(xì)則考核表
- 大學(xué)成績單(大專)
- 網(wǎng)絡(luò)設(shè)備安裝與調(diào)試(華為eNSP模擬器)整套教學(xué)課件
- GB/T 15234-1994塑料平托盤
- 教科版科學(xué)五年級下冊《生物與環(huán)境》單元教材解讀及教學(xué)建議
- “20道游標(biāo)卡尺題目及答案”
評論
0/150
提交評論