![大數(shù)據(jù)時代數(shù)據(jù)處理過程中的風(fēng)險控制_第1頁](http://file4.renrendoc.com/view/dd5b092b012859ce60b457f1aabaf547/dd5b092b012859ce60b457f1aabaf5471.gif)
![大數(shù)據(jù)時代數(shù)據(jù)處理過程中的風(fēng)險控制_第2頁](http://file4.renrendoc.com/view/dd5b092b012859ce60b457f1aabaf547/dd5b092b012859ce60b457f1aabaf5472.gif)
![大數(shù)據(jù)時代數(shù)據(jù)處理過程中的風(fēng)險控制_第3頁](http://file4.renrendoc.com/view/dd5b092b012859ce60b457f1aabaf547/dd5b092b012859ce60b457f1aabaf5473.gif)
![大數(shù)據(jù)時代數(shù)據(jù)處理過程中的風(fēng)險控制_第4頁](http://file4.renrendoc.com/view/dd5b092b012859ce60b457f1aabaf547/dd5b092b012859ce60b457f1aabaf5474.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)時代數(shù)據(jù)處理過程中的風(fēng)險控制摘要文章通過分析現(xiàn)階段市場主流大數(shù)據(jù)處理方式,及該流程下易產(chǎn)生的數(shù)據(jù)失真原因和導(dǎo)致的后果,提出相應(yīng)的有針對性的處理方式,從而討論大數(shù)據(jù)處理過程中的風(fēng)險控制可行性,并對未來用戶數(shù)據(jù)隱私保護(hù)時代和海量數(shù)據(jù)背景下如何增強(qiáng)數(shù)據(jù)有效性收集提出部分設(shè)想。關(guān)鍵詞大數(shù)據(jù)挖掘;黑天鵝;樣本免疫;血字?jǐn)?shù)據(jù)中圖分類號G2文獻(xiàn)標(biāo)識碼A文章編號1674-6708(2019)235-0120-02大數(shù)據(jù)處理現(xiàn)狀目前行業(yè)內(nèi)大數(shù)據(jù)常用的處理流程可以概括為四步,分別是數(shù)據(jù)采集、導(dǎo)入和預(yù)處理、統(tǒng)計分析以及挖掘。數(shù)據(jù)采集大數(shù)據(jù)的采集是通過多個數(shù)據(jù)庫介質(zhì)來接收發(fā)自客戶端的數(shù)據(jù)(隨著智能手機(jī)的普及,A
2、pp端口采集已經(jīng)成為主要來源),且數(shù)據(jù)采集者可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高訪問量在峰值時達(dá)到上百萬或千萬級別,如“天貓雙11”和春運(yùn)搶票以及各種網(wǎng)購平臺促銷時的“秒殺”活動,都要求采集端部署大量數(shù)據(jù)庫才能支撐,負(fù)載均衡和分片處理將是采集端設(shè)計的重點考量范圍。導(dǎo)入預(yù)處理很多業(yè)內(nèi)流行的做法是在采集端進(jìn)行前端數(shù)據(jù)導(dǎo)入的大型分布式匯總,且在分布式儲存群中進(jìn)行數(shù)據(jù)的清洗和和預(yù)處理,甚至嵌入流式計算步驟。此步驟要注意的是百兆、千兆每秒的數(shù)據(jù)量處理難度較大。統(tǒng)計分析傳統(tǒng)統(tǒng)計與分析的需求端運(yùn)用EMC勺GreenPlum、Oracle的Exadat
3、a,以及基于MySQL勺歹U式存儲Infobright。實際運(yùn)用過程中我們常遇到批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求,這點應(yīng)當(dāng)區(qū)分考慮,同時統(tǒng)計、分析步驟涉及到的數(shù)據(jù)量十分巨大,近年來隨著數(shù)據(jù)采集量的爆炸式增長,系統(tǒng)資源占用往往沒有上線,這點硬件布局時應(yīng)當(dāng)充分考慮。挖掘市場上目前挖掘方式,主要是在現(xiàn)有數(shù)據(jù)根據(jù)客戶需求進(jìn)行基于各種算法的計算,從而起到預(yù)測的效果,高級別數(shù)據(jù)分析的需求,也往往是基于初級算法的嵌套性疊加。往年典型算法有用于聚類的K-Means、用于統(tǒng)計學(xué)習(xí)的SVM用于分類的NaiveBayes,使用工具有Python、Hadoop等,該過程的難點往往是精準(zhǔn)把握用戶數(shù)據(jù)需求,再基于需求的
4、基礎(chǔ)之上進(jìn)行算法的調(diào)整。大數(shù)據(jù)失真的危害及風(fēng)險在處理流程中,采集、導(dǎo)入預(yù)處理、統(tǒng)計分析,都可以通等預(yù)設(shè)數(shù)據(jù)庫完成。而真正用于企業(yè)營銷、戰(zhàn)略、市場分析的核心數(shù)據(jù)挖掘階段則是完全無法具體量化,可以說不同行業(yè)和不同市場階段有著截然不同的數(shù)據(jù)庫需求,如果我們挖掘和提煉數(shù)據(jù)的等程嚴(yán)重或者部分失效,則在數(shù)據(jù)分析的蝴蝶效應(yīng)之下得出的結(jié)果一定與事實情況是天壤之別。2014年電影黃金時代和2018年電影阿修羅大數(shù)據(jù)端在票房和市場預(yù)測方面失算的案例充分說明大數(shù)據(jù)的推演失真所造成的結(jié)果是災(zāi)難性的。隨著“關(guān)系鏈和數(shù)據(jù)流應(yīng)成為企業(yè)估值的新核心指標(biāo)”這一把數(shù)據(jù)價值提升到前所未有的理論誕生。各中商業(yè)資本開始瘋狂的引入大數(shù)據(jù)
5、概念,各種相對應(yīng)所謂的數(shù)據(jù)分析公司應(yīng)運(yùn)而生。然而大數(shù)據(jù)真的那么神奇嗎?是否真的可以像宣傳的那樣神奇到對目標(biāo)無孔不入地分析?據(jù)資料統(tǒng)計黃金時代在百發(fā)有戲的發(fā)布會上,百度大數(shù)據(jù)部產(chǎn)品規(guī)劃負(fù)責(zé)人祖崢介紹了百度票房預(yù)測產(chǎn)品,通等百度搜索數(shù)據(jù)、新浪微博數(shù)據(jù)以及10年來電影行業(yè)數(shù)據(jù)、同類電影數(shù)據(jù)等,以及電影受眾分析,預(yù)測黃金時代票房將在2億至2.3億之間。由此可見其數(shù)據(jù)挖掘階段的主要參數(shù)是“百度搜索”“新浪微博”“電影行業(yè)歷史數(shù)據(jù)”等存量數(shù)據(jù)指標(biāo),雖然算法筆者個人不得而知。但作為一個軟件行業(yè)從業(yè)人員從數(shù)據(jù)源的角度分析:首先百度搜索和新浪微博等支流平臺其收集的只是所謂關(guān)注度數(shù)據(jù),我們無法將關(guān)注真正轉(zhuǎn)化為票房
6、;其次,中國電影在票房統(tǒng)計上有先天的缺陷,影院對票房的瞞報早已成為業(yè)內(nèi)的潛規(guī)則,而21世紀(jì)初我國才開始建立票房統(tǒng)計制度,其時間周期不等10年左右。最后受眾分析方面,發(fā)行方和百度數(shù)據(jù)利用所謂的問卷調(diào)查為依據(jù)樣本,推演出數(shù)據(jù)結(jié)果殊不知這樣的數(shù)據(jù)嚴(yán)重受制于“受眾免疫”現(xiàn)象。(受眾免疫:泛指調(diào)查樣本在已知條件下對調(diào)查行為采取的與實際不符的行為方式,其結(jié)果會產(chǎn)生調(diào)查數(shù)據(jù)折射)。大數(shù)據(jù)處理等程中的風(fēng)險控制步驟大數(shù)據(jù)究其核心無外是用等去推斷未來?;蚴怯玫热ゼ榷ǖ囊呀?jīng)發(fā)生的同類事件推測未來與之相似事件的結(jié)果。其誕生就飽受爭議。筆者認(rèn)為,合理控制數(shù)據(jù)采集和統(tǒng)計分析等程中的數(shù)據(jù)源精準(zhǔn)度是減小和控制大數(shù)據(jù)推斷結(jié)果風(fēng)
7、險的核心要素。具體步驟為:1)淡化模糊數(shù)據(jù)的收集,精確采集源重點收集血字?jǐn)?shù)據(jù)。隨著互聯(lián)網(wǎng)技術(shù)的全面運(yùn)用,海量數(shù)據(jù)的產(chǎn)生已遠(yuǎn)遠(yuǎn)大于存儲介質(zhì)的容量,如果“大數(shù)據(jù)”的收集只是一味求“大”不求“精”,那么所收集的混沌數(shù)據(jù)將毫無意義,即:掌握了所有數(shù)據(jù)其實等于沒掌握數(shù)據(jù)。而血字?jǐn)?shù)據(jù)則不同,(所謂血字?jǐn)?shù)據(jù)是指反應(yīng)事物本身聯(lián)系無法掩飾和修飾的唯一性數(shù)據(jù)如:居民身份證號碼、銀行卡等級、衛(wèi)星定位點等等無法或者掩飾難度極大的數(shù)據(jù)。其得名于柯南道爾福爾摩斯系列小說中經(jīng)典故事“血字的研究”)。在法律和保護(hù)消費(fèi)者范圍內(nèi)合法收集關(guān)鍵數(shù)據(jù)可以直接提高大數(shù)據(jù)的采集精度和推斷廣度,在源頭上解決數(shù)據(jù)收集過程中巨量的采集和超高的服
8、務(wù)器荷載。不但節(jié)約企業(yè)硬件成本而且還能直觀提高采集效率,減少決策過程中蝴蝶效應(yīng)的發(fā)生概率。2)增強(qiáng)數(shù)據(jù)挖掘過程中的企業(yè)獨(dú)特性,引入先進(jìn)分析方法和現(xiàn)代統(tǒng)計學(xué)、概率分布矩陣經(jīng)驗來降低數(shù)據(jù)挖掘過程中小概率事件的發(fā)生風(fēng)險。市場調(diào)查公司AC尼爾森發(fā)布的“尼爾森數(shù)據(jù)”就是獨(dú)特數(shù)據(jù)挖掘的典范。即對數(shù)據(jù)采取“質(zhì)量控制”。未來大數(shù)據(jù)時代尤其是金融領(lǐng)域,面對相同的數(shù)據(jù)不同的處理方式和挖掘手法可能得出的結(jié)果完全不同。正如喬治索羅斯在金融煉金術(shù)一書中提到:在認(rèn)識函數(shù)中,參與者的認(rèn)識依賴于情鏡;在參與函數(shù)中,情境受參與者認(rèn)知的影響。3)提出控制預(yù)警方案以應(yīng)對大數(shù)據(jù)時代的“黑天鵝事件”。大數(shù)據(jù)反對派的關(guān)鍵王牌就是黑天鵝現(xiàn)
9、象,持此觀點者普遍認(rèn)為黑天鵝現(xiàn)象不可預(yù)知如“911事件”“印度洋海嘯”“日本核泄漏”等極端事件無法通過歷史所謂的大數(shù)據(jù)和經(jīng)驗去預(yù)知,而其造成的巨大風(fēng)險將會嚴(yán)重透支常規(guī)事件中企業(yè)所取得的利潤。簡言之就是大的災(zāi)難造成的損失可能使正常事件積累的財富一夜化為烏有。但他們恰恰忽略了歷史上發(fā)生的黑天鵝事件本身就是大數(shù)據(jù)分析的最好素材基磁,正式因為其獨(dú)特性和唯一性反而造就了上文所說的血字?jǐn)?shù)據(jù),黑天鵝事件的大數(shù)據(jù)分析往往能夠更為精準(zhǔn),究其原因很大程度上是因為事件本身的獨(dú)一無二。少數(shù)的黑天鵝事件幾乎能夠解釋這個世界中的所有事情,從思想的勝利到歷史事件的變遷,到我們的個人生活。我們無法避免黑天鵝事件的發(fā)生,但恰恰
10、是對以往事件的分析和統(tǒng)計研究可以避免和減少未來新的黑天鵝事件帶來的損失。這一點恰恰是黑天鵝事件中風(fēng)險控制的靈魂所在。結(jié)論倫敦皇家學(xué)院的DavidHand教授講過一句話,“現(xiàn)在我們有了一些新的數(shù)據(jù)來源,但是沒有人想要數(shù)據(jù),人們要的是答案”。大數(shù)據(jù)已經(jīng)到來,但它并沒有帶來新的真理?,F(xiàn)在的挑戰(zhàn)是要吸取統(tǒng)計學(xué)中老的教訓(xùn),在比以前大得多的數(shù)據(jù)規(guī)模下去解決新的問題、獲取新的答案。自2018年歐盟新的用戶隱私法規(guī)實施以來,用戶日益覺醒的隱私保護(hù)觀念和海量數(shù)據(jù)中的有效性處理,已經(jīng)成為了大數(shù)據(jù)采集、導(dǎo)入、預(yù)處理和統(tǒng)計分析環(huán)節(jié)中的重要瓶頸。對此在未來的數(shù)據(jù)分析采集中,我們應(yīng)當(dāng)避免目前階段我國主流數(shù)據(jù)收集收集公司統(tǒng)計學(xué)和市場調(diào)查般的海量堆砌數(shù)據(jù),再花大的精力進(jìn)行后期處理;這種方法在早期PC端用戶時代和智能手機(jī)崛起初期有明顯效果,那時數(shù)據(jù)生成量有限且用戶對個人敏感數(shù)據(jù)的保護(hù)性并不十分強(qiáng)烈,而今我國已經(jīng)成為世界上數(shù)量最多的移動端用戶保有量國家,且2020年5G時代將全面來臨,巨量的峰值數(shù)據(jù)和兆億般的系統(tǒng)資源占有量負(fù)載,現(xiàn)有海量數(shù)據(jù)收集篩選法將會無法適用。對此,我們必須布局未來,從思路上進(jìn)行有效數(shù)據(jù)的挖掘處理機(jī)制探索,并形成體系化的處理工作流和新型架構(gòu)理論,才能全面應(yīng)對未來大數(shù)據(jù)處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 代辦簽證服務(wù)合同范例
- 2025年度建筑用五金配件購銷合同模板
- 醫(yī)用氣體合同范本
- 公路維修封路合同范例
- 2025年度防水材料環(huán)保認(rèn)證服務(wù)合同標(biāo)準(zhǔn)
- 2025年度湖北城市排水管道維護(hù)及清疏合同
- 冰柜采購合同范本
- 勞務(wù)公司簽合同范本
- 中興合同范本
- 醫(yī)廢清運(yùn)合同范例
- 2024年貴州云巖區(qū)總工會招聘工會社會工作者考試真題
- 2024版冷水機(jī)組安裝合同
- GB/T 21369-2024火力發(fā)電企業(yè)能源計量器具配備和管理要求
- 2025年全體員工安全意識及安全知識培訓(xùn)
- 寧波北侖區(qū)教育局招聘事業(yè)編制教師筆試真題2023
- 用戶畫像在醫(yī)療健康領(lǐng)域的應(yīng)用-洞察分析
- 地質(zhì)勘探行業(yè)市場分析
- 2024年度超詳細(xì)!上海新能源汽車充電樁合作協(xié)議3篇
- 年新增1萬噸SQ-06Li鋰吸附材料技改擴(kuò)能項目環(huán)評資料環(huán)境影響
- 智研咨詢發(fā)布-2025年中國少兒編程行業(yè)市場競爭格局、行業(yè)政策及需求規(guī)模預(yù)測報告
- 分管安全副校長在教師會議上講話:到底如何抓好安全從哪些細(xì)節(jié)來抓安全
評論
0/150
提交評論