




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《大數(shù)據(jù)導(dǎo)論》熟悉大數(shù)據(jù)的定義所謂大數(shù)據(jù),狹義上可以定義為:用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。對(duì)大量數(shù)據(jù)進(jìn)行分析,并從中獲得有用觀點(diǎn),這種做法在一部分研究機(jī)構(gòu)和大企業(yè)中,過去就已經(jīng)存在了?,F(xiàn)在的大數(shù)據(jù)和過去相比,主要有三點(diǎn)區(qū)別:第一,隨著社交媒體和傳感器網(wǎng)絡(luò)等的發(fā)展,在我們身邊正產(chǎn)生出大量且多樣的數(shù)據(jù);第二,隨著硬件和軟件技術(shù)的發(fā)展,數(shù)據(jù)的存儲(chǔ)、處理成本大幅下降;第三,隨著云計(jì)算興起,大數(shù)據(jù)的存儲(chǔ)、處理環(huán)境已經(jīng)沒有必要自行搭建。一、大數(shù)據(jù)的定義所謂“用現(xiàn)有的一般技術(shù)難以管理”,例如是指用目前在企業(yè)數(shù)據(jù)庫(kù)占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫(kù)無(wú)法進(jìn)行管理的、具有復(fù)雜結(jié)構(gòu)的數(shù)據(jù);或者也可以說,是指由于數(shù)據(jù)量的增大,導(dǎo)致對(duì)數(shù)據(jù)的查詢(Query)響應(yīng)時(shí)間超出允許范圍的龐大數(shù)據(jù)。研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。一、大數(shù)據(jù)的定義麥肯錫說:“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫(kù)軟件獲取、存儲(chǔ)、營(yíng)理和分析的能力。這是一個(gè)被故意設(shè)計(jì)成主觀性的定義,并且是一個(gè)關(guān)于多大的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù)的可變定義,即并不定義大于一個(gè)特定數(shù)字的TB才叫大數(shù)據(jù)。因?yàn)殡S著技術(shù)的不斷發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會(huì)增長(zhǎng);并且定義隨不同的行業(yè)也有變化,這依賴于在一個(gè)特定行業(yè)通常使用何種軟件和數(shù)據(jù)集有多大。因此,大數(shù)據(jù)在今天不同行業(yè)中的范圍可以從幾十TB到幾PB?!币?、大數(shù)據(jù)的定義隨著“大數(shù)據(jù)”的出現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價(jià)值的利用正逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn),在全球引領(lǐng)了又一輪數(shù)據(jù)技術(shù)革新的浪潮。一、大數(shù)據(jù)的定義從字面來(lái)看,“大數(shù)據(jù)”這個(gè)詞可能會(huì)讓人覺得只是容量非常大的數(shù)據(jù)集合而已。但容量只不過是大數(shù)據(jù)特征的一個(gè)方面,如果只拘泥于數(shù)據(jù)量,就無(wú)法深入理解當(dāng)前圍繞大數(shù)據(jù)所進(jìn)行的討論。因?yàn)椤坝矛F(xiàn)有的一般技術(shù)難以管理”這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個(gè)因素所造成的。IBM說:“可以用3個(gè)特征相結(jié)合來(lái)定義大數(shù)據(jù):數(shù)量(Volume,或稱容量)、種類(Variety,或稱多樣性)和速度(Velocity),或者就是簡(jiǎn)單的3V,即龐大容量、極快速度和種類豐富的數(shù)據(jù)”。二、大數(shù)據(jù)的3V和5V特征二、大數(shù)據(jù)的3V和5V特征(1)Volume(數(shù)量)最初考慮到數(shù)據(jù)的容量,是指被大數(shù)據(jù)解決方案所處理的數(shù)據(jù)量大,并且在持續(xù)增長(zhǎng)。數(shù)據(jù)容量大能夠影響數(shù)據(jù)的獨(dú)立存儲(chǔ)和處理需求,同時(shí)還能對(duì)數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)恢復(fù)、數(shù)據(jù)管理的操作產(chǎn)生影響。如今,存儲(chǔ)的數(shù)據(jù)數(shù)量正在急劇增長(zhǎng)中,我們存儲(chǔ)所有事物,包括:環(huán)境數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)等。有關(guān)數(shù)據(jù)量的對(duì)話已從TB級(jí)別轉(zhuǎn)向PB級(jí)別,并且不可避免地會(huì)轉(zhuǎn)向ZB級(jí)別??墒?,隨著可供企業(yè)使用的數(shù)據(jù)量不斷增長(zhǎng),可處理、理解和分析的數(shù)據(jù)的比例卻不斷下降。二、大數(shù)據(jù)的3V和5V特征典型的生成大量數(shù)據(jù)的數(shù)據(jù)源包括:(1)在線交易,例如官方在線銷售點(diǎn)和網(wǎng)銀。(2)科研實(shí)驗(yàn),例如大型強(qiáng)子對(duì)撞機(jī)和阿塔卡瑪大型毫米及次毫米波陣列望遠(yuǎn)鏡。(3)傳感器,例如GPS傳感器,RFID標(biāo)簽,智能儀表或者信息技術(shù)。(4)社交媒體、臉書、推特、微信、QQ等。二、大數(shù)據(jù)的3V和5V特征(2)Variety(種類、多樣性)數(shù)據(jù)多樣性指的是大數(shù)據(jù)解決方案需要支持多種不同格式、不同類型的數(shù)據(jù)。數(shù)據(jù)多樣性給企業(yè)帶來(lái)的挑戰(zhàn)包括數(shù)據(jù)聚合、數(shù)據(jù)交換、數(shù)據(jù)處理和數(shù)據(jù)存儲(chǔ)等。隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)中的數(shù)據(jù)也變得更加復(fù)雜,因?yàn)樗粌H包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來(lái)自網(wǎng)頁(yè)、互聯(lián)網(wǎng)日志文件(包括單擊流數(shù)據(jù))、搜索索引、社交媒體論壇、電子郵件、文檔、主動(dòng)和被動(dòng)系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。二、大數(shù)據(jù)的3V和5V特征種類表示所有的數(shù)據(jù)類型。其中,爆發(fā)式增長(zhǎng)的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型數(shù)據(jù)庫(kù)是很難存儲(chǔ)的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。當(dāng)然,在這些數(shù)據(jù)中,有一些是過去就一直存在并保存下來(lái)的。和過去不同的是,除了存儲(chǔ),還需要對(duì)這些大數(shù)據(jù)進(jìn)行分析,并從中獲得有用的信息。例如監(jiān)控?cái)z像機(jī)中的視頻數(shù)據(jù)。近年來(lái),超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控?cái)z像機(jī),最初目的是為了防范盜竊,但現(xiàn)在也出現(xiàn)了使用監(jiān)控?cái)z像機(jī)的視頻數(shù)據(jù)來(lái)分析顧客購(gòu)買行為的案例。二、大數(shù)據(jù)的3V和5V特征3.Velocity(速度,速率)數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個(gè)重要特征。在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)產(chǎn)生得很快,在極短的時(shí)間內(nèi)就能聚集起大量的數(shù)據(jù)集。從企業(yè)的角度來(lái)說,數(shù)據(jù)的速率代表數(shù)據(jù)從進(jìn)入企業(yè)邊緣到能夠馬上進(jìn)行處理的時(shí)間。處理快速的數(shù)據(jù)輸入流,需要企業(yè)設(shè)計(jì)出彈性的數(shù)據(jù)處理方案,同時(shí)也需要強(qiáng)大的數(shù)據(jù)存儲(chǔ)能力。有效處理大數(shù)據(jù)需要在數(shù)據(jù)變化的過程中對(duì)它的數(shù)量和種類執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。根據(jù)數(shù)據(jù)源的不同,速率不可能一直很快。二、大數(shù)據(jù)的3V和5V特征
IBM在3V的基礎(chǔ)上又歸納總結(jié)了第四個(gè)V一一Veracity(真實(shí)和準(zhǔn)確)?!爸挥姓鎸?shí)而準(zhǔn)確的數(shù)據(jù)才能讓對(duì)數(shù)據(jù)的管控和治理真正有意義。隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實(shí)性及安全性?!倍?、大數(shù)據(jù)的3V和5V特征IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)說:“大數(shù)據(jù)是一個(gè)貌似不知道從哪里冒出來(lái)的大的動(dòng)力。但是實(shí)際上,大數(shù)據(jù)并不是新生事物。然而,它確實(shí)正在進(jìn)入主流,并得到重大關(guān)注,這是有原因的。廉價(jià)的存儲(chǔ)、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過云和虛擬化存儲(chǔ)設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動(dòng)著大數(shù)據(jù)。大數(shù)據(jù)不是一個(gè)‘事物’,而是一個(gè)跨多個(gè)信息技術(shù)領(lǐng)域的動(dòng)力/活動(dòng)。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),其被設(shè)計(jì)用于:通過使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價(jià)值(Value)?!倍?、大數(shù)據(jù)的3V和5V特征這個(gè)定義除了揭示大數(shù)據(jù)傳統(tǒng)的3V基本特征,即大數(shù)據(jù)量、多樣性和高速之外,還增添了一個(gè)新特征:價(jià)值??紤]到非結(jié)構(gòu)化數(shù)據(jù)的較低信噪比需要,數(shù)據(jù)真實(shí)性(Veracity)隨后也被添加到這個(gè)特征列表中。最終,其目的是執(zhí)行能夠及時(shí)向企業(yè)傳遞高價(jià)值、高質(zhì)量結(jié)果的分析。二、大數(shù)據(jù)的3V和5V特征除了數(shù)據(jù)真實(shí)性和時(shí)間,價(jià)值也受如下幾個(gè)生命周期相關(guān)的因素影響:(1)數(shù)據(jù)是否存儲(chǔ)良好?(2)數(shù)據(jù)有價(jià)值的部分是否在數(shù)據(jù)清洗的時(shí)候被刪除了?(3)數(shù)據(jù)分析時(shí)我們提出的問題是正確的嗎?(4)數(shù)據(jù)分析的結(jié)果是否準(zhǔn)確地傳達(dá)給了做決策的人員?二、大數(shù)據(jù)的3V和5V特征大數(shù)據(jù)實(shí)現(xiàn)的主要價(jià)值可以基于下面3個(gè)評(píng)價(jià)準(zhǔn)則中的1個(gè)或多個(gè)進(jìn)行評(píng)判:(1)它提供了更有用的信息嗎?(2)它改進(jìn)了信息的精確性嗎?(3)它改進(jìn)了響應(yīng)的及時(shí)性嗎?總之,大數(shù)據(jù)是個(gè)動(dòng)態(tài)的定義,不同行業(yè)根據(jù)其應(yīng)用的不同有著不同的理解,其衡量標(biāo)準(zhǔn)也在隨著技術(shù)的進(jìn)步而改變。二、大數(shù)據(jù)的3V和5V特征
狹義上,大數(shù)據(jù)的定義著眼點(diǎn)于數(shù)據(jù)的性質(zhì)上,我們?cè)趶V義層面上再為大數(shù)據(jù)下一個(gè)定義。三、廣義的大數(shù)據(jù)廣義的大數(shù)據(jù)“所謂大數(shù)據(jù),是一個(gè)綜合性概念,它包括因具備3V特征而難以進(jìn)行管理的數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行存儲(chǔ)、處理、分析的技術(shù),以及能夠通過分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織?!薄按鎯?chǔ)、處理、分析的技術(shù)”,指的是用于大規(guī)模數(shù)據(jù)分布式處理的框架Hadoop、具備良好擴(kuò)展性的NoSQL數(shù)據(jù)庫(kù),以及機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析等;“能夠通過分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織”,指的是目前十分緊俏的“數(shù)據(jù)科學(xué)家”這類人才,以及能夠?qū)Υ髷?shù)據(jù)進(jìn)行有效運(yùn)用的組織。三、廣義的大數(shù)據(jù)大數(shù)據(jù)具有多種形式,從高度結(jié)構(gòu)化的財(cái)務(wù)數(shù)據(jù),到文本文件、多媒體文件和基因定位圖的任何數(shù)據(jù),都可以稱為大數(shù)據(jù)。數(shù)據(jù)量大是大數(shù)據(jù)的一致特征。由于數(shù)據(jù)自身的復(fù)雜性,作為一個(gè)必然的結(jié)果,處理大數(shù)據(jù)的首選方法就是在并行計(jì)算的環(huán)境中進(jìn)行大規(guī)模并行處理(MassivelyParallelProcessing,MPP),這使得同時(shí)發(fā)生的并行攝取、并行數(shù)據(jù)裝載和分析成為可能。實(shí)際上,大多數(shù)的大數(shù)據(jù)都是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,這需要不同的技術(shù)和工具來(lái)處理和分析。四、大數(shù)據(jù)的結(jié)構(gòu)類型大數(shù)據(jù)最突出的特征是它的結(jié)構(gòu)。如圖顯示了幾種不同數(shù)據(jù)結(jié)構(gòu)類型數(shù)據(jù)的增長(zhǎng)趨勢(shì),由圖可知,未來(lái)數(shù)據(jù)增長(zhǎng)的80%~90%將來(lái)自于不是結(jié)構(gòu)化的數(shù)據(jù)類型(半、準(zhǔn)和非結(jié)構(gòu)化)。四、大數(shù)據(jù)的結(jié)構(gòu)類型人們通常最熟悉結(jié)構(gòu)化數(shù)據(jù)的分析,然而,半結(jié)構(gòu)化數(shù)據(jù)(XML)、“準(zhǔn)”結(jié)構(gòu)化數(shù)據(jù)(網(wǎng)站地址字符串)和非結(jié)構(gòu)化數(shù)據(jù)代表了不同的挑戰(zhàn),需要不同的技術(shù)來(lái)分析。除了三種基本的數(shù)據(jù)類型以外,還有一種重要的數(shù)據(jù)類型為元數(shù)據(jù)。元數(shù)據(jù)提供了一個(gè)數(shù)據(jù)集的特征和結(jié)構(gòu)信息。這種數(shù)據(jù)主要由機(jī)器生成,并且能夠添加到數(shù)據(jù)集中。搜尋元數(shù)據(jù)對(duì)于大數(shù)據(jù)存儲(chǔ)、處理和分析是至關(guān)重要的一步,因?yàn)樵獢?shù)據(jù)提供了數(shù)據(jù)系譜信息,以及數(shù)據(jù)處理的起源。數(shù)據(jù)的例子包括:XML文件中提供作者和創(chuàng)建日期信息的標(biāo)簽;數(shù)碼照片中提供文件大小和分辨率的屬性文件。四、大數(shù)據(jù)的結(jié)構(gòu)類型感謝聆聽!《大數(shù)據(jù)引發(fā)思維變革》02大數(shù)據(jù)技術(shù)的應(yīng)用01大數(shù)據(jù)時(shí)代思維變革目錄2第一部分大
數(shù)
據(jù)
時(shí)
代
思
維
變
革傳統(tǒng)的思維方式傳統(tǒng)的思維方式首先,需要有一個(gè)簡(jiǎn)單的元模型,這個(gè)模型可能是假設(shè)出來(lái)的,然后再用這個(gè)元模型構(gòu)建復(fù)雜的模型其次,整個(gè)模型要和歷史數(shù)據(jù)相吻合。這在今天動(dòng)態(tài)規(guī)劃管理學(xué)上還被廣泛地使用,其核心思想和托勒密的方法論是一致的傳統(tǒng)的思維方式傳統(tǒng)的思維方式機(jī)械思維更廣泛的影響力是作為一種準(zhǔn)則指導(dǎo)人們的行為,其核心思想可概括成確定性(或者可預(yù)測(cè)性)和因果關(guān)系。牛頓可以把所有天體運(yùn)動(dòng)的規(guī)律用幾個(gè)定律講清楚,并且應(yīng)用到任何場(chǎng)合都是正確的,這就是確定性.類似地,當(dāng)我們給物體施加一個(gè)外力時(shí),它就獲得一個(gè)加速度,而加速度的大小取決于外力和物體本身的質(zhì)量,這是一種因果關(guān)系。沒有這些確定性和因果關(guān)系,我們就無(wú)法認(rèn)識(shí)世界。傳統(tǒng)的思維方式傳統(tǒng)的思維方式0102世界變化的規(guī)律是確定的,這一點(diǎn)從托勒密到牛頓大家都認(rèn)可因?yàn)橛写_定性做保障,因此規(guī)律不僅是可以被認(rèn)識(shí)的,而且可以用簡(jiǎn)單的公式或者語(yǔ)言描述清楚。這一點(diǎn)在牛頓之前,大部分人并不認(rèn)可,而是簡(jiǎn)單地把規(guī)律歸結(jié)為神的作用。03這些規(guī)律應(yīng)該是放之四海而皆準(zhǔn)的,可以應(yīng)用到各種未知領(lǐng)域指導(dǎo)實(shí)踐,這種認(rèn)識(shí)是在牛頓之后才有的大數(shù)據(jù)時(shí)代需要新的思維方式大數(shù)據(jù)時(shí)代需要新的思維方式010203其次,像過去那樣找到因果關(guān)系已經(jīng)變得非常困難,因?yàn)楹?jiǎn)單的因果關(guān)系規(guī)律性都已經(jīng)被發(fā)現(xiàn)了,剩下那些沒有被發(fā)現(xiàn)的因果關(guān)系規(guī)律性,具有很強(qiáng)的隱蔽性,發(fā)現(xiàn)的難度很高另外,隨著人類對(duì)世界認(rèn)識(shí)得越來(lái)越清楚,人們發(fā)現(xiàn)世界本身存在著很大的不確定性,并非如過去想象的那樣一切都是可以確定的首先,并非所有的規(guī)律都可以用簡(jiǎn)單的原理來(lái)描述;大數(shù)據(jù)時(shí)代需要新的思維方式大數(shù)據(jù)時(shí)代需要新的思維方式02轉(zhuǎn)變思維方式,努力把身邊的事物量化,以數(shù)據(jù)的形式加以對(duì)待,這是實(shí)現(xiàn)大數(shù)據(jù)時(shí)代思維方式轉(zhuǎn)變的“核心”0401不確定性在我們生活的世界里無(wú)處不在,由于不確定性是這個(gè)世界的重要特征,以至于我們按照傳統(tǒng)的方法——機(jī)械論的方法,很難做出準(zhǔn)確的預(yù)測(cè)數(shù)據(jù)學(xué)家認(rèn)為,世界的本質(zhì)是數(shù)據(jù)。通過采集、量化、計(jì)算、分析各種事物,來(lái)重新解釋和定義這個(gè)世界,并通過數(shù)據(jù)來(lái)消除不確定性,對(duì)未來(lái)加以預(yù)測(cè)03世界的不確定性,折射出在信息時(shí)代的方法論:獲得更多的信息,有助于消除不確定性,因此,誰(shuí)掌握了信息,誰(shuí)就能夠獲取財(cái)富,這就如同在工業(yè)時(shí)代,誰(shuí)掌握了資本誰(shuí)就能獲取財(cái)富一樣大數(shù)據(jù)時(shí)代需要新的思維方式理解思維轉(zhuǎn)變之一:樣本=總體理解思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性理解思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系大數(shù)據(jù)思維方式理解思維轉(zhuǎn)變之四:以數(shù)據(jù)為中心理解思維轉(zhuǎn)變之五:數(shù)據(jù)共享理解思維轉(zhuǎn)變之一:樣本=總體19世紀(jì)以來(lái),當(dāng)面臨大量數(shù)據(jù)時(shí),社會(huì)都依賴于采樣分析。但是采樣分析是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)代的產(chǎn)物。以前我們通常把這看成是理所當(dāng)然的限制,但高性能數(shù)字技術(shù)的流行讓我們意識(shí)到,這其實(shí)是一種人為的限制。與局限在小數(shù)據(jù)范圍相比,使用一切數(shù)據(jù)為我們帶來(lái)了更高的精確性,也讓我們看到了一些以前無(wú)法發(fā)現(xiàn)的細(xì)節(jié),大數(shù)據(jù)讓我們更清楚地看到了樣本無(wú)法揭示的細(xì)節(jié)信息。大數(shù)據(jù)時(shí)代的第一個(gè)轉(zhuǎn)變,是要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。我們需要的是所有的數(shù)據(jù),“樣本=總體”。抽樣樣本總體u
蘭州大學(xué)對(duì)2021.11-2022.04全球新冠肺炎疫情的預(yù)測(cè)與分析預(yù)測(cè)結(jié)果顯示,從今年11月初至明年4月底,全球大部分國(guó)家的新冠肺炎日增確診病例數(shù)或?qū)⒊尸F(xiàn)下降趨勢(shì),但部分國(guó)家的疫情仍將較為嚴(yán)重。蘋果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭(zhēng)的過程中采用了不同的方式,成為世界上第一個(gè)對(duì)自身所有DNA和腫瘤DNA進(jìn)行排序的人,他得到的不是一個(gè)只有一系列標(biāo)記的樣本,他得到了包括整個(gè)基因密碼的
數(shù)據(jù)文檔。史蒂夫?喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導(dǎo)致藥物失效,醫(yī)生可以及時(shí)更換另一種藥。喬布斯曾經(jīng)開玩笑地說:“我要么是第一個(gè)通過這種方式戰(zhàn)勝癌癥的人,要么就是最后一個(gè)因?yàn)檫@種方式死于癌癥的人?!彪m然他的愿望都沒有實(shí)現(xiàn),但是這種獲得所有數(shù)據(jù)而不僅是樣本的方法還是將他的生命延長(zhǎng)了好幾年。理解思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性當(dāng)我們測(cè)量事物的能力受限時(shí),關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的。直到今天,我們的數(shù)字技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,所以必須盡可能精準(zhǔn)地量化我們的記錄。在某些方面,我們已經(jīng)意識(shí)到了差別。例如,一個(gè)小商店在晚上打烊的時(shí)候要把收銀臺(tái)里的每分錢都數(shù)清楚,但是我們不會(huì)、也不可能用“分”這個(gè)單位去精確度量國(guó)民生產(chǎn)總值。隨著規(guī)模的擴(kuò)大,對(duì)精確度的癡迷將減弱。在這個(gè)大數(shù)據(jù)時(shí)代,很多時(shí)候,追求精確度已經(jīng)變得不可行,甚至不受歡迎了。當(dāng)我們擁有海量即時(shí)數(shù)據(jù)時(shí),絕對(duì)的精準(zhǔn)不再是我們追求的主要目標(biāo)。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,分布在全球多個(gè)服務(wù)器上。擁有了大數(shù)據(jù),我們不再需要對(duì)一個(gè)現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可。當(dāng)然,我們也不是完全放棄了精確度,只是不再沉迷于此。適當(dāng)忽略微觀層面上的精確度會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力。大數(shù)據(jù)時(shí)代的第二個(gè)轉(zhuǎn)變,是我們樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再一味追求其精確性。從這個(gè)圖上我們可以看出全球各國(guó)猴痘病例的日新增量和月累計(jì)增加量。相比依賴于小數(shù)據(jù)和精確性的時(shí)代,大數(shù)據(jù)因?yàn)楦鼜?qiáng)調(diào)數(shù)據(jù)的完整性和混雜性,幫助我們進(jìn)一步接近事實(shí)的真相?!安糠帧焙汀按_切”的吸引力是可以理解的。但是,當(dāng)我們的視野局限在我們可以分析和能夠確定的數(shù)據(jù)上時(shí),我們對(duì)世界的整體理解就可能產(chǎn)生偏差和錯(cuò)誤。不僅失去了去盡力收集一切數(shù)據(jù)的動(dòng)力,也失去了從各個(gè)不同角度來(lái)觀察事物的權(quán)利。所以,局限于狹隘的小數(shù)據(jù)中,我們可以自豪于對(duì)精確性的追求,但是就算我們可以分析得到細(xì)節(jié)中的細(xì)節(jié),也依然會(huì)錯(cuò)過事物的全貌。大數(shù)據(jù)要求我們有所改變,我們必須能夠接受混亂和不確定性。精確性似乎一直是我們生活的支撐,但認(rèn)為每個(gè)問題只有一個(gè)答案的想法是站不住腳的。理解思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系傳統(tǒng)情況下,人類是通過因果關(guān)系了解世界的。首先,我們的直接愿望就是了解因果關(guān)系。即使無(wú)因果聯(lián)系存在,我們也還是會(huì)假定其存在。研究證明,這只是我們的認(rèn)知方式,與每個(gè)人的文化背景、生長(zhǎng)環(huán)境以及教育水平無(wú)關(guān)。當(dāng)我們看到兩件事情接連發(fā)生的時(shí)候,我們會(huì)習(xí)慣性地從因果關(guān)系的角度來(lái)看待它們??纯聪旅娴娜湓挘骸案ダ椎碌母改高t到了;供應(yīng)商快到了;弗雷德生氣了?!弊x到這里時(shí),我們可能立馬就會(huì)想到弗雷德生氣并不是因?yàn)楣?yīng)商快到了,而是他父母遲到了的緣故。實(shí)際上,我們也不知道到底是什么情況。即便如此,我們還是不禁認(rèn)為這些假設(shè)的因果關(guān)系是成立的。尋找因果關(guān)系是人類長(zhǎng)久以來(lái)的習(xí)慣,在大數(shù)據(jù)時(shí)代,我們無(wú)須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系,這會(huì)給我們提供非常新穎且有價(jià)值的觀點(diǎn)。相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會(huì)發(fā)生,但是它會(huì)提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經(jīng)足夠大了。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時(shí)代,我們不必知道現(xiàn)象背后的原因,只要讓數(shù)據(jù)自己發(fā)聲。我們不再需要在還沒有收集數(shù)據(jù)之前,就把分析建立在早已設(shè)立的少量假設(shè)的基礎(chǔ)之上。讓數(shù)據(jù)發(fā)聲,我們會(huì)注意到很多以前從來(lái)沒有意識(shí)到的聯(lián)系的存在。啤酒與尿布l 啤酒與尿布啤酒與尿布的故事理解思維轉(zhuǎn)變之四:以數(shù)據(jù)為中心l 以數(shù)據(jù)為中心全世界各個(gè)領(lǐng)域數(shù)據(jù)不斷向外擴(kuò)展,漸漸形成了另外一個(gè)特點(diǎn),那就是很多數(shù)據(jù)開始出現(xiàn)交叉,各個(gè)維度的數(shù)據(jù)從點(diǎn)和線漸漸連成了網(wǎng),或者說,數(shù)據(jù)之間的關(guān)聯(lián)性極大地增強(qiáng),在這樣的背景下,就出現(xiàn)了大數(shù)據(jù),使得“以數(shù)據(jù)為中心”的思考解決問題的方式優(yōu)勢(shì)逐漸得到顯現(xiàn)。l
數(shù)據(jù)共享
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 美術(shù)核心素養(yǎng)視角下的初中雕塑欣賞課教學(xué)實(shí)踐研究
- 快時(shí)尚服裝企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 鈀催化劑企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 中藥草本護(hù)膚品OEM服務(wù)企業(yè)制定與實(shí)施新質(zhì)生產(chǎn)力戰(zhàn)略研究報(bào)告
- 扇形噴頭企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 天然植物潤(rùn)體乳企業(yè)制定與實(shí)施新質(zhì)生產(chǎn)力戰(zhàn)略研究報(bào)告
- 家用便攜式心電監(jiān)測(cè)儀企業(yè)制定與實(shí)施新質(zhì)生產(chǎn)力戰(zhàn)略研究報(bào)告
- 夜游項(xiàng)目合同范本
- 制藥用高效精餾塔企業(yè)制定與實(shí)施新質(zhì)生產(chǎn)力戰(zhàn)略研究報(bào)告
- 中藥材飲片標(biāo)準(zhǔn)化生產(chǎn)行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 分布式光伏系統(tǒng)項(xiàng)目EPC總承包合同模板
- (正式版)JBT 11270-2024 立體倉(cāng)庫(kù)組合式鋼結(jié)構(gòu)貨架技術(shù)規(guī)范
- 危險(xiǎn)化學(xué)品押運(yùn)員培訓(xùn)
- 華為培訓(xùn)教程01網(wǎng)絡(luò)基礎(chǔ)
- 腦梗合并心衰護(hù)理查房
- 新星諾亞外語(yǔ)學(xué)校劍橋少兒英語(yǔ)一級(jí)上冊(cè)期中測(cè)試題
- QCT 291-2023 汽車機(jī)械式分動(dòng)器總成性能要求和臺(tái)架試驗(yàn)方法 (正式版)
- 浙教版勞動(dòng)八年級(jí)下冊(cè)全冊(cè)教案教學(xué)設(shè)計(jì)
- 盤扣式腳手架培訓(xùn)課件
- 2024年中國(guó)血糖健康管理行業(yè)白皮書
- 文華財(cái)經(jīng)“麥語(yǔ)言”函數(shù)手冊(cè)
評(píng)論
0/150
提交評(píng)論