大數(shù)據(jù)管理與應(yīng)用概論 課件 1.2 大數(shù)據(jù)的概念與特征_第1頁
大數(shù)據(jù)管理與應(yīng)用概論 課件 1.2 大數(shù)據(jù)的概念與特征_第2頁
大數(shù)據(jù)管理與應(yīng)用概論 課件 1.2 大數(shù)據(jù)的概念與特征_第3頁
大數(shù)據(jù)管理與應(yīng)用概論 課件 1.2 大數(shù)據(jù)的概念與特征_第4頁
大數(shù)據(jù)管理與應(yīng)用概論 課件 1.2 大數(shù)據(jù)的概念與特征_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1.2大數(shù)據(jù)的概念與特征從數(shù)據(jù)到大數(shù)據(jù)數(shù)據(jù)(Data)是對客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記錄和描述的物理符號或物理符號的組合,是事實或觀察的結(jié)果。與數(shù)據(jù)這一概念相關(guān)的還有信息、知識、智慧等。智慧知識信息數(shù)據(jù)對客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的物理符號或其組合。有規(guī)律的數(shù)據(jù),表示物質(zhì)存在的一種方式、形式或運動狀態(tài),用以減少不確定性。對信息的進(jìn)一步加工和應(yīng)用,對事物內(nèi)在規(guī)律和原理的認(rèn)識,體現(xiàn)了知識的價值。人基于知識所做出的推理、判斷和主張等,是創(chuàng)造性活動。從數(shù)據(jù)到大數(shù)據(jù)全球信息化浪潮以來,智能硬件、網(wǎng)絡(luò)技術(shù)、軟件應(yīng)用及其創(chuàng)新集成得到了極大的發(fā)展,可以說大數(shù)據(jù)時代已經(jīng)到來。大數(shù)據(jù)的基本概念難以用現(xiàn)有的一般技術(shù)管理的大量數(shù)據(jù)的集合,即所涉及的資料規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)實現(xiàn)獲取、管理、處理、并使之成為有效的輔助企業(yè)經(jīng)營決策的信息。狹義除了數(shù)據(jù)集合的含義外,還包括對這些數(shù)據(jù)進(jìn)行存儲、處理和分析的技術(shù),以及從中發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新動能的新技術(shù)和新業(yè)態(tài)。其中,“存儲、處理和分析的技術(shù)”是指用于大規(guī)模數(shù)據(jù)分時處理的框架Hadoop等。廣義大數(shù)據(jù)所代表的不僅僅是重要的技術(shù)要素,更是一種戰(zhàn)略性資源,大數(shù)據(jù)服務(wù)業(yè)已成為前景廣闊的新技術(shù)產(chǎn)業(yè)。大數(shù)據(jù)的資源觀來源定義視角麥肯錫公司(McKinsey&

Company)大數(shù)據(jù)是個大的數(shù)據(jù)池,其中的數(shù)據(jù)可以被采集、傳遞、聚集、存儲和分析。把大數(shù)據(jù)看作是一種與固定資產(chǎn)和人力資本類似的重要生產(chǎn)要素。高德納咨詢公司(GartnerGroup)大數(shù)據(jù)是大容量、高速度和形式多樣的信息資產(chǎn)。從技術(shù)特征、處理方法和應(yīng)用價值3個方面對大數(shù)據(jù)做出了界定。IBM公司用規(guī)模性(volume)、高速性(velocity)、多樣性(variety)和真實性(veracity)來描述大數(shù)據(jù)。將大數(shù)據(jù)定義為一種數(shù)據(jù)集合,指出了大數(shù)據(jù)4個方面的技術(shù)特征。維基百科(Wikipedia)大數(shù)據(jù)是指規(guī)模龐大且復(fù)雜的數(shù)據(jù)集合。從大數(shù)據(jù)的處理方法和處理工具的視角認(rèn)識大數(shù)據(jù)。美國國家科學(xué)基金會(NSF)大數(shù)據(jù)是指由科學(xué)儀器等和/或所有其它現(xiàn)在或?qū)砜捎玫臄?shù)字源產(chǎn)生的大規(guī)模、多樣的、復(fù)雜的、縱向的和/或分布式的數(shù)據(jù)集。對開展大數(shù)據(jù)的科學(xué)研究沒有設(shè)置任何邊界。由于人們分析大數(shù)據(jù)的背景和應(yīng)用大數(shù)據(jù)的目的存在眾多差異,因此對大數(shù)據(jù)的定義也有所不同,下表總結(jié)了幾個基于不同視角的有代表性的定義。大數(shù)據(jù)的資源觀管理視角大數(shù)據(jù)是一類能夠反映物質(zhì)世界和精神世界運動狀態(tài)和狀態(tài)變化的信息資源,一般具有多種潛在價值。復(fù)雜性決策有用性可重復(fù)開采性高速增長性價值稀疏性獲取問題加工問題應(yīng)用問題作為重要的戰(zhàn)略資源,大數(shù)據(jù)中包含諸多關(guān)鍵的管理問題,尤其是當(dāng)大數(shù)據(jù)被看作一類“資源”時,就不可忽略這種資源的管理問題。產(chǎn)權(quán)問題產(chǎn)業(yè)問題法規(guī)問題……管理特征功能多樣性大數(shù)據(jù)的發(fā)展過程摩爾定律的貢獻(xiàn)不僅是計算機(jī)硬件功能的指數(shù)增長,還使硬件成本的急劇降低,使智能手機(jī)迅速普及,使傳感器成本極大下降,進(jìn)而使自動化數(shù)據(jù)收集成本趨于微不足道,從而迎來大數(shù)據(jù)的爆發(fā)。摩爾定律奠定基礎(chǔ)網(wǎng)絡(luò)連接使得數(shù)據(jù)爆炸式增長,并快速匯聚。隨著互聯(lián)網(wǎng)與各行各業(yè)的深度融合,工業(yè)互聯(lián)網(wǎng)、能源互聯(lián)網(wǎng)、醫(yī)聯(lián)網(wǎng)等使得各種機(jī)器和設(shè)備都在無時無刻不在接入網(wǎng)絡(luò)并產(chǎn)生大規(guī)模數(shù)據(jù)?;ヂ?lián)網(wǎng)推動大連接大數(shù)據(jù)應(yīng)用的核心技術(shù)是軟件,軟件的作用不僅僅是大數(shù)據(jù)資源的數(shù)據(jù)挖掘,還是智能技術(shù)集成創(chuàng)新的粘合劑,軟件工程的發(fā)展與軟件工具的積累為大數(shù)據(jù)智能系統(tǒng)的大量涌現(xiàn)奠定了基礎(chǔ)。軟件與新技術(shù)的創(chuàng)新驅(qū)動大數(shù)據(jù)體現(xiàn)的是多種信息技術(shù)共生的新生態(tài)環(huán)境?;A(chǔ)技術(shù)的出現(xiàn)為新技術(shù)、新應(yīng)用的創(chuàng)新提供了良好機(jī)會。新技術(shù)是已有技術(shù)的集成創(chuàng)新,積累的技術(shù)越多創(chuàng)新機(jī)會就越多,這是一個正反饋循環(huán)。大數(shù)據(jù)生態(tài)日漸完善大數(shù)據(jù)發(fā)展的技術(shù)背景大數(shù)據(jù)的發(fā)展過程概念解釋大數(shù)據(jù)大數(shù)據(jù)是一類能夠反映物質(zhì)世界和精神世界運動狀態(tài)和狀態(tài)變化的信息資源,它具有復(fù)雜性、決策有用性、高速增長性、價值稀疏性和可重復(fù)開采性,一般具有多種潛在價值。海量數(shù)據(jù)規(guī)模量巨大的結(jié)構(gòu)性數(shù)據(jù),規(guī)模量>1PB。小數(shù)據(jù)小數(shù)據(jù)是指以特定對象為中心、以回應(yīng)特定需求為導(dǎo)向、以解決特定問題為目的,具有多源性、異質(zhì)性、動態(tài)性、全息性的數(shù)據(jù)集以及相關(guān)的數(shù)據(jù)采集、處理、分析和人機(jī)交互的思維方式及數(shù)據(jù)處理方法。大數(shù)據(jù)VS海量數(shù)據(jù)大數(shù)據(jù)VS小數(shù)據(jù)結(jié)構(gòu)性數(shù)據(jù)結(jié)構(gòu)性數(shù)據(jù)半結(jié)構(gòu)性數(shù)據(jù)非結(jié)構(gòu)性數(shù)據(jù)全部數(shù)據(jù)模糊數(shù)據(jù)關(guān)注相關(guān)性抽樣數(shù)據(jù)精確數(shù)據(jù)追究因果性相關(guān)概念的區(qū)分大數(shù)據(jù)的分類商務(wù)大數(shù)據(jù)是大數(shù)據(jù)技術(shù)賦能商業(yè)創(chuàng)新的重要技術(shù)支撐。醫(yī)療大數(shù)據(jù)結(jié)合人工智能技術(shù)可全面提升醫(yī)療領(lǐng)域的服務(wù)水平。能源大數(shù)據(jù)是支撐智慧能源管理和節(jié)能增效的重要資源。工業(yè)大數(shù)據(jù)融合智能制造新技術(shù),創(chuàng)造工業(yè)新模式、新價值。金融大數(shù)據(jù)以提升金融領(lǐng)域資源配置效率等為目標(biāo)。政務(wù)大數(shù)據(jù)賦能數(shù)字政府建設(shè),提升政務(wù)服務(wù)效能。準(zhǔn)確理解不同用戶不同場景下的大數(shù)據(jù)含義,針對不用領(lǐng)域的大數(shù)據(jù)應(yīng)用模式、商業(yè)模式的研究和探索將是大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展的關(guān)鍵。大數(shù)據(jù)的一般特征對大數(shù)據(jù)特征的認(rèn)識,也可以從不同視角展開,主要從一般特征、形態(tài)特征、分析特征和資源特征等不同維度,介紹大數(shù)據(jù)的特征。2001年道格·萊尼指出,數(shù)據(jù)增長有4個方向的挑戰(zhàn)和機(jī)遇:大量(Volume)、多樣性(Variety)、速度(Velocity)和價值(Value)。在此理論基礎(chǔ)上,IBM提出的大數(shù)據(jù)的“4V”特征。大數(shù)據(jù)的形態(tài)特征多源性大數(shù)據(jù)來源的復(fù)雜性。需要將關(guān)聯(lián)的信息以整體的視覺思考整理,并打破原有垂直系統(tǒng)之間的信息孤島,構(gòu)造統(tǒng)一的數(shù)據(jù)平臺,做到多源數(shù)據(jù)的有效融合。大數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性。由于數(shù)據(jù)生成的多樣性,非結(jié)構(gòu)化數(shù)據(jù)成為主流,蘊含著非常有價值的信息。實時性數(shù)據(jù)更新的實時性。互聯(lián)網(wǎng)中許多應(yīng)用都有實時更新的需求,比如如何在網(wǎng)頁中搜索幾分鐘之前的新聞結(jié)果,購物時商品價格,庫存信息的實時更新。數(shù)據(jù)變化后通過其他服務(wù)的實時性。比如,作為一站式的旅游服務(wù)平臺的攜程網(wǎng)站,這些提供跨業(yè)務(wù)線的推薦和實時推薦,能有效滿足用戶的需求,也能為網(wǎng)站帶來更加豐富的回報。不確定性數(shù)據(jù)在不同尺度、不同維度上都表現(xiàn)出一定的不確定性。大數(shù)據(jù)的分析和挖掘面臨更多的細(xì)粒度數(shù)據(jù),數(shù)據(jù)的采集、存儲、建模、挖掘等方面都需要新的方法來應(yīng)對不確定性帶來的挑戰(zhàn)。模型的不確定性。同時要把握模型的表達(dá)能力與復(fù)雜程度之間的平衡。學(xué)習(xí)的不確定性。在大數(shù)據(jù)環(huán)境下,傳統(tǒng)近似的、不確定的學(xué)習(xí)方法需要面對規(guī)模和時效的挑戰(zhàn)。由于大數(shù)據(jù)產(chǎn)生的過程中諸多的不確定性,使得大數(shù)據(jù)的表現(xiàn)形態(tài)多種多樣。大數(shù)據(jù)的分析特征非結(jié)構(gòu)性對比項定義結(jié)構(gòu)與內(nèi)容的關(guān)系示例結(jié)構(gòu)化數(shù)據(jù)具有數(shù)據(jù)結(jié)構(gòu)描述信息的數(shù)據(jù)。先有結(jié)構(gòu),再有數(shù)據(jù)。各類表格。非結(jié)構(gòu)化數(shù)據(jù)不方便用固定結(jié)構(gòu)來表現(xiàn)的數(shù)據(jù)。只有數(shù)據(jù),無結(jié)構(gòu)。圖形、圖像、音頻、視頻信息。半結(jié)構(gòu)化數(shù)據(jù)處于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的數(shù)據(jù)。先有數(shù)據(jù),再有結(jié)構(gòu)。HTML文檔,它一般是自描述的,數(shù)據(jù)的內(nèi)容與結(jié)構(gòu)混在一起。如何將大數(shù)據(jù)轉(zhuǎn)化成一個結(jié)構(gòu)化的格式是一項重大挑戰(zhàn),如何將數(shù)據(jù)組織成合理的結(jié)構(gòu)也是大數(shù)據(jù)管理中的一個重要問題。從大數(shù)據(jù)分析視角看,大數(shù)據(jù)在增長、分布和處理方面具有更多復(fù)雜的性質(zhì)。大數(shù)據(jù)的分析特征不完備性所獲取的數(shù)據(jù)常常包含一些不完整的信息和錯誤的數(shù)據(jù),即臟數(shù)據(jù)。在數(shù)據(jù)分析階段之前,需要進(jìn)行抽取、清洗、集成,進(jìn)而得到高質(zhì)量的數(shù)據(jù)之后,再進(jìn)行挖掘和分析。時效性安全性可靠性數(shù)據(jù)規(guī)模越大,分析處理時間就會越長,所以高速度進(jìn)行數(shù)據(jù)處理非常重要。在許多情況下,用戶要求立即得到數(shù)據(jù)的分析結(jié)果,需要在處理速度和規(guī)模的折中考慮尋求新的方法。大數(shù)據(jù)高度依賴數(shù)據(jù)存儲和共享,必須考慮尋找更好的方法來消除各種隱患和漏洞,才能有效地管控安全風(fēng)險。大數(shù)據(jù)安全性問題是一個重要的研究方向??梢酝ㄟ^數(shù)據(jù)清洗、去冗等技術(shù)來提取有價值數(shù)據(jù),實現(xiàn)數(shù)據(jù)質(zhì)量高效管理,以及對數(shù)據(jù)的安全訪問和隱私保護(hù),這已成為大數(shù)據(jù)可靠性的關(guān)鍵需求。大數(shù)據(jù)的資源特征復(fù)雜性決策有用性高速增長性大數(shù)據(jù)的形式和特征是極其復(fù)雜的。一方面表現(xiàn)在其數(shù)量規(guī)模之大、來源的廣泛性和形態(tài)結(jié)構(gòu)的多樣性,另一方面表現(xiàn)在其狀態(tài)變化和開發(fā)方式等方面的不確定性。大數(shù)據(jù)是客觀存在的大規(guī)模數(shù)據(jù)資源,其直接功用是有限的。通過分析、挖掘和發(fā)現(xiàn)其中蘊藏的知識,可以為各種實際應(yīng)用提供其它資源難以提供的決策支持,大數(shù)據(jù)的價值也主要通過其決策有用性體現(xiàn)。隨著不斷的開采,大數(shù)據(jù)資源不僅不會減少,反而會迅速增加。大數(shù)據(jù)資源的增加是指數(shù)性的,甚至呈現(xiàn)爆發(fā)性態(tài)勢。利用大數(shù)據(jù)支持管理決策面臨的一個主要挑戰(zhàn)就是實效性問題。作為一種重要的戰(zhàn)略資源,大數(shù)據(jù)中包含諸多關(guān)鍵的管理問題。對大數(shù)據(jù)資源管理特征的準(zhǔn)確認(rèn)識是研究其中具體管理問題的前提。下面將從復(fù)雜性、決策有用性、高速增長性、價值稀疏性、可重復(fù)開采性和功能多樣性等六個方面逐一分析大數(shù)據(jù)資源的管理特征。大數(shù)據(jù)的資源特征價值稀疏性可重復(fù)開采性功能多樣性大數(shù)據(jù)的數(shù)據(jù)量之大帶來了大數(shù)據(jù)價值的低密度問題,大數(shù)據(jù)資源的數(shù)量雖大,但其中蘊藏的有用的價值卻是稀疏的,這就增加了開發(fā)和利用大數(shù)據(jù)資源的難度。相比自然資源,大數(shù)據(jù)資源可以被重復(fù)開采。對于給定的大數(shù)據(jù)資源,任何擁有該資源使用權(quán)的人或組織都可以對其進(jìn)行開采和挖掘。之后,該大數(shù)據(jù)資源仍可以被其他人或組織繼續(xù)開采和挖掘。對于特定的大數(shù)據(jù)資源,基于不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論