版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第1章大數(shù)據(jù)分析基礎(chǔ)大數(shù)據(jù)分析與實(shí)踐——社會(huì)研究與數(shù)字治理奧利·阿什菲爾特是普林斯頓大學(xué)的一位經(jīng)濟(jì)學(xué)家,他的日常工作
就是琢磨數(shù)據(jù),利用統(tǒng)計(jì)學(xué),他從大量的數(shù)據(jù)資料中提取出隱藏在數(shù)
據(jù)背后的信息。奧利非常喜歡喝葡萄酒,他說(shuō):“當(dāng)上好的紅葡萄酒有了一定的年份時(shí),就會(huì)發(fā)生一些非常神奇的事情。”當(dāng)然,奧利指的不僅僅是葡萄酒的口感,還有隱藏在葡萄酒背后的力量?!懊看文阗I(mǎi)到上好的紅葡萄酒時(shí),”他說(shuō),“其實(shí)就是在進(jìn)行投資,因?yàn)檫@瓶酒以后很有可能會(huì)變得更好。重要的不是它現(xiàn)在值多少錢(qián),而是將來(lái)值多少錢(qián)——即使你并不打算賣(mài)掉它,而是喝掉它。如果你想知道把從當(dāng)前消費(fèi)中得到的愉悅推遲,將來(lái)能從中得到多少愉悅,那么這將是一個(gè)永遠(yuǎn)也討論不完的、吸引人的話題?!标P(guān)于這個(gè)話題,奧利已研究了25年。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析奧利花費(fèi)心思研究的一個(gè)問(wèn)題是,如何通過(guò)數(shù)字來(lái)評(píng)估波爾多葡
萄酒的品質(zhì)。與品酒專家通常所使用的“品咂并吐掉”的方法不同,
奧利用數(shù)字指標(biāo)來(lái)判斷能拍出高價(jià)的酒所應(yīng)該具有的品質(zhì)特征。法國(guó)波爾多葡萄園第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析“其實(shí)很簡(jiǎn)單,”他說(shuō),“酒是一種農(nóng)產(chǎn)品,每年都會(huì)受到氣候
條件的強(qiáng)烈影響?!币虼?,奧利采集了法國(guó)波爾多地區(qū)的氣候數(shù)據(jù)
加以研究,他發(fā)現(xiàn)如果收割季節(jié)干旱少雨且整個(gè)夏季的平均氣溫較高,該年份就容易生產(chǎn)出品質(zhì)上乘的葡萄酒。當(dāng)葡萄熟透、汁液高度濃縮時(shí),波爾多葡萄酒是最好的。夏季特別炎熱的年份,葡萄很容易熟透,酸度就會(huì)降低。炎熱少雨的年份,葡萄汁也會(huì)高度濃縮。因此,天氣越炎熱
干燥,越容易生產(chǎn)出品質(zhì)一流的葡萄酒。熟透的葡萄能生產(chǎn)出口感柔潤(rùn)(
即低敏度)的葡萄酒,而汁液高度濃縮的葡萄能夠生產(chǎn)出醇厚的葡萄酒。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析奧利把這個(gè)關(guān)于葡萄酒的理論簡(jiǎn)化為下面的方程式:葡萄酒的品質(zhì)=12.145+0.00117×冬天降雨量+0.0614
×葡萄生長(zhǎng)期平均氣溫-0.00386×收獲季節(jié)降雨量正如彼得·帕塞爾在《紐約時(shí)報(bào)》中報(bào)告的那樣,奧利給出的統(tǒng)計(jì)方程與實(shí)際高度吻合。把任何年份的氣候數(shù)據(jù)代入上面這個(gè)式子,就能夠預(yù)測(cè)出任意一種葡萄酒的平均品質(zhì)。如果把這個(gè)式子變得再稍微復(fù)雜精巧一些,奧利還能更精確地預(yù)測(cè)出100多個(gè)酒莊的葡萄
酒品質(zhì)。他承認(rèn)“這看起來(lái)有點(diǎn)太數(shù)字化了”,“但這恰恰是法國(guó)人把他
們葡萄酒莊園排成著名的1855個(gè)等級(jí)時(shí)所使用的方法”。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析然而,當(dāng)時(shí)傳統(tǒng)的評(píng)酒專家并未接受奧利利用數(shù)據(jù)預(yù)測(cè)葡萄酒品
質(zhì)的做法。英國(guó)的《葡萄酒》雜志認(rèn)為,“這條公式顯然是很可笑
的,我們無(wú)法重視它?!奔~約葡萄酒商人威廉姆·薩科林認(rèn)為,從波爾多葡萄酒產(chǎn)業(yè)的角度來(lái)看,奧利的做法“介于極端和滑稽可笑之間”。因此,奧利常常被業(yè)界人士取笑。當(dāng)奧利在克里斯蒂拍賣(mài)行酒品部做關(guān)于葡萄酒的演講時(shí),坐在后排的交易商噓聲一片。傳統(tǒng)的評(píng)酒大師認(rèn)為,如果要對(duì)葡萄酒的品質(zhì)評(píng)判得更準(zhǔn)確,應(yīng)該親自去品嘗一下。但是有這樣一個(gè)問(wèn)題:在好幾個(gè)月的生產(chǎn)時(shí)間里,人們是無(wú)法品嘗到葡萄酒的。波爾多和勃艮第的
葡萄酒在裝瓶之前需要盛放在橡木桶里發(fā)酵18~24個(gè)月。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析像帕克這樣的評(píng)酒專家需要在桶裝4個(gè)月以后才能第一次品嘗,這
個(gè)階段的葡萄酒還只是臭臭的、發(fā)酵的葡萄而已。不知道此時(shí)這種無(wú)
法下咽的“酒”是否能夠使品嘗者得出關(guān)于酒的品質(zhì)的準(zhǔn)確信息。例如,巴特菲德拍賣(mài)行酒品部的前經(jīng)理布魯斯·凱澤曾經(jīng)說(shuō)過(guò):“發(fā)酵初期的葡萄酒變化非常快,沒(méi)有人,我是說(shuō)不可能有人,能夠通過(guò)品嘗來(lái)準(zhǔn)確地評(píng)估酒的好壞。至少要放上10年,甚至更久?!迸c之形成鮮明對(duì)比的是,奧利從對(duì)數(shù)字的分析中能夠得出氣候與酒價(jià)之間的關(guān)系。他發(fā)現(xiàn)冬季降雨量每增加1毫米,酒價(jià)就有可能提高0.00117美元。當(dāng)然,這只是“有可能”而已。不過(guò),對(duì)數(shù)據(jù)的分析使奧利可以在葡萄酒的未來(lái)品質(zhì)——這是品酒師有機(jī)會(huì)嘗到第一口酒的數(shù)月之前,更是在葡萄酒賣(mài)出的數(shù)年之前。在葡萄酒期貨交易活躍的今天,奧利的預(yù)測(cè)能夠給葡萄酒收集者極大的幫助。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析20世紀(jì)80年代后期,奧利開(kāi)始在半年刊的簡(jiǎn)報(bào)《流動(dòng)資產(chǎn)》上發(fā)
布他的預(yù)測(cè)數(shù)據(jù)。最初有600多人開(kāi)始訂閱。這些訂閱者的分布很廣,
包括很多百萬(wàn)富翁以及癡迷葡萄酒的人——這是一些可以接受計(jì)量方法的葡萄酒收集愛(ài)好者。但與每年花30美元來(lái)訂閱簡(jiǎn)報(bào)《葡萄酒愛(ài)好者》的30000人相比,《流動(dòng)資產(chǎn)》的訂閱人數(shù)確實(shí)少得可憐。20世紀(jì)90年代初期,《紐約時(shí)報(bào)》在頭版頭條登出了奧利的最新預(yù)測(cè)數(shù)據(jù),這使得更多人了解了他的思想。奧利公開(kāi)批判了帕克對(duì)1986年波爾多葡萄酒的估價(jià)。帕克對(duì)1986年波爾多葡萄酒的評(píng)價(jià)是“品質(zhì)一流,甚至非常出色”。但是奧利不這么認(rèn)為,他認(rèn)為由于生產(chǎn)期內(nèi)過(guò)低的平均氣溫以及收獲期過(guò)多的雨水,這一年葡萄酒的品質(zhì)注定平平。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析當(dāng)然,奧利對(duì)1989年波爾多葡萄酒的預(yù)測(cè)才是這篇文章中真正讓人吃驚的地方,盡管當(dāng)時(shí)這些酒在木桶里僅僅放置了3個(gè)月,還從未被品酒師品嘗過(guò),奧利預(yù)測(cè)這些酒將成為“世紀(jì)佳釀”。他保證這些酒的品質(zhì)將會(huì)“令人震驚地一流”。根據(jù)他自己的評(píng)級(jí),如果1961年的波爾多葡萄酒評(píng)級(jí)為100的話,那么1989年的葡萄酒將會(huì)達(dá)到149。奧利甚至大膽地預(yù)測(cè),這些酒“能夠賣(mài)出過(guò)去35年中所生
產(chǎn)的葡萄酒的最高價(jià)”。
葡萄酒收藏第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析看到這篇文章,評(píng)酒專家非常生氣。評(píng)酒專家們開(kāi)始辯解,竭力指
責(zé)奧利本人以及他所提出的方法。他們說(shuō)他的方法是錯(cuò)的,因?yàn)檫@一
方法無(wú)法準(zhǔn)確地預(yù)測(cè)未來(lái)的酒價(jià)。然而,對(duì)于統(tǒng)計(jì)學(xué)家(以及對(duì)此稍加思考的人)來(lái)說(shuō),預(yù)測(cè)有時(shí)過(guò)高,有時(shí)過(guò)低是件好事,因?yàn)檫@恰好說(shuō)明估計(jì)量是無(wú)偏的。1990年,奧利更加陷于孤立無(wú)援的境地。在宣稱1989年的葡萄酒將成為“世紀(jì)佳釀”之后,數(shù)據(jù)告訴他1990年的葡萄酒將會(huì)更好,而且他也照實(shí)說(shuō)了?,F(xiàn)在回頭再看,我們可
以發(fā)現(xiàn)當(dāng)時(shí)《流動(dòng)資產(chǎn)》的預(yù)測(cè)驚人地準(zhǔn)確。1989年的葡萄酒確實(shí)是難得
的佳釀,而1990年的也確實(shí)更好。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析怎么可能在連續(xù)兩年中生產(chǎn)出兩種“世紀(jì)佳釀”呢?事實(shí)上,
自1986年以來(lái),每年葡萄生長(zhǎng)期的氣溫都高于平均水平。法國(guó)的天
氣連續(xù)20多年溫暖和煦。對(duì)于葡萄酒愛(ài)好者們而言,這顯然是生產(chǎn)柔潤(rùn)的波爾多葡萄酒的最適宜的時(shí)期。傳統(tǒng)的評(píng)酒專家們現(xiàn)在才開(kāi)始更多地關(guān)注天氣因素。盡管他們當(dāng)中很多人從未公開(kāi)承認(rèn)奧利的預(yù)測(cè),但他們自己的預(yù)測(cè)也開(kāi)始越來(lái)越密切地與奧利那個(gè)簡(jiǎn)單的方程式聯(lián)系在一
起。指責(zé)奧利的人仍然把他的思想看作是異端邪說(shuō),因?yàn)樗噲D把葡萄酒
的世界看得更清楚。他從不使用華麗的辭藻和毫無(wú)意義的術(shù)語(yǔ),而是直接
說(shuō)出預(yù)測(cè)的依據(jù)。第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析整個(gè)葡萄酒產(chǎn)業(yè)毫不妥協(xié)不僅僅是在做表面文章。“葡萄酒經(jīng)銷(xiāo)
商及專欄作家只是不希望公眾知道奧利所做出的預(yù)測(cè)?!眲P澤說(shuō),
“這一點(diǎn)從1986年的葡萄酒就已經(jīng)顯現(xiàn)出來(lái)了。奧利說(shuō)品酒師們的評(píng)級(jí)是騙人的,因?yàn)槟且荒甑臍夂驅(qū)τ谄咸训纳L(zhǎng)來(lái)說(shuō)非常不利,雨水泛濫,氣溫也不夠高。但是當(dāng)時(shí)所有的專欄作家都言辭激烈地堅(jiān)持認(rèn)為那一年的酒會(huì)是好酒。事實(shí)證明奧利是對(duì)的,但是正確的觀點(diǎn)不一定總是受歡迎的?!钡?章導(dǎo)讀案例葡萄酒的品質(zhì)分析葡萄酒經(jīng)銷(xiāo)商和專欄評(píng)論家們都能夠從維持自己在葡萄酒品質(zhì)方
面的信息壟斷者地位中受益。葡萄酒經(jīng)銷(xiāo)商利用長(zhǎng)期高估的最初評(píng)
級(jí)來(lái)穩(wěn)定葡萄酒價(jià)格。《葡萄酒觀察家》和《葡萄酒愛(ài)好者》能否保持葡萄酒品質(zhì)的仲裁者地位,決定著上百萬(wàn)資金的生死。很多人要謀生,就只能依賴于喝酒的人不相信這個(gè)方程式。也有跡象表明事情正在發(fā)生變化。倫敦克里斯蒂拍賣(mài)行國(guó)際酒品部主席邁克爾·布羅德本
特委婉地說(shuō):“很多人認(rèn)為奧利是個(gè)怪人,我也認(rèn)為他在很多方面的確很
怪。但是我發(fā)現(xiàn),他的思想和工作會(huì)在多年后依然留下光輝的痕跡。他所
做的努力對(duì)于打算買(mǎi)酒的人來(lái)說(shuō)非常有幫助。”第1章導(dǎo)讀案例葡萄酒的品質(zhì)分析目錄大數(shù)據(jù)基礎(chǔ)大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型大數(shù)據(jù)對(duì)分析的影響定性分析與定量分析12345四種數(shù)據(jù)分析方法6大數(shù)據(jù)分析的行業(yè)作用大數(shù)據(jù)基礎(chǔ)PART011.11.1大數(shù)據(jù)基礎(chǔ)信息社會(huì)所帶來(lái)的好處是顯而易見(jiàn)的:每個(gè)人口袋里都揣著一部手機(jī),每臺(tái)辦公桌上都放著一臺(tái)電腦,每間辦公室內(nèi)都連接到局域網(wǎng)或者互聯(lián)網(wǎng)。半個(gè)世紀(jì)以來(lái),隨著計(jì)算機(jī)技術(shù)全面和深度地融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。信息總量的變化還導(dǎo)致了信息形態(tài)的變化——量變引起了質(zhì)變。1.1大數(shù)據(jù)基礎(chǔ)如今,人們不再認(rèn)為數(shù)據(jù)是靜止和陳舊的。但在以前,一旦完成了收集數(shù)據(jù)的目的之后,數(shù)據(jù)就會(huì)被認(rèn)為已經(jīng)沒(méi)有用處了。比方說(shuō),在飛機(jī)降落之后,票價(jià)數(shù)據(jù)就沒(méi)有用了——設(shè)計(jì)人員如果沒(méi)有大數(shù)據(jù)的理念,就會(huì)丟失掉很多有價(jià)值的數(shù)據(jù)。數(shù)據(jù)已經(jīng)成為一種商業(yè)資本,一項(xiàng)重要的經(jīng)濟(jì)投入,可以創(chuàng)造新的經(jīng)濟(jì)利益。事實(shí)上,一旦思維轉(zhuǎn)變過(guò)來(lái),數(shù)據(jù)就能被巧妙地用來(lái)激發(fā)新產(chǎn)品和新服務(wù)。今天,大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價(jià)值的源泉,大數(shù)據(jù)還是
改變市場(chǎng)、組織機(jī)構(gòu)以及政府與公民關(guān)系的方法。
大數(shù)據(jù)時(shí)代對(duì)我們的生活和與世界交流的方式都提
出了挑戰(zhàn)。1.1.3廣義的大數(shù)據(jù)1.1.1定義大數(shù)據(jù)1.1.2大數(shù)據(jù)的3V特征大數(shù)據(jù)時(shí)代對(duì)我們的生活和與世界交流的方式都提出了挑戰(zhàn)。1.1大數(shù)據(jù)基礎(chǔ)1.1.1
定義大數(shù)據(jù)所謂大數(shù)據(jù),狹義上可以定義為:用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合。這實(shí)際上是指用目前在企業(yè)數(shù)據(jù)庫(kù)占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫(kù)無(wú)法進(jìn)行管理的、具有復(fù)雜結(jié)構(gòu)的數(shù)據(jù)?;蛘咭部梢哉f(shuō),是指由于數(shù)據(jù)量的增大,導(dǎo)致對(duì)數(shù)據(jù)的查詢響應(yīng)時(shí)間超出了允許的范圍。研究機(jī)構(gòu)加特納給出了這樣的定義:“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。”1.1.1
定義大數(shù)據(jù)世界級(jí)領(lǐng)先的全球管理咨詢公司麥肯錫說(shuō):“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過(guò)了傳統(tǒng)數(shù)據(jù)庫(kù)軟件獲取、存儲(chǔ)、營(yíng)理和分析的能力。這是一個(gè)被故意設(shè)計(jì)成主觀性的定義,并且是一個(gè)關(guān)于多大的數(shù)據(jù)集才能被認(rèn)為是大數(shù)據(jù)的可變定義,即并不定義大于一個(gè)特定數(shù)字的TB才叫大數(shù)據(jù)。因?yàn)殡S著技術(shù)的不斷發(fā)展,符合大數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)集容量也會(huì)增長(zhǎng);并且定義隨不同的行業(yè)也有變化,這依賴于在一個(gè)特定行業(yè)通常使用何種軟件和數(shù)據(jù)集有多大。因此,大數(shù)據(jù)在今天不同行業(yè)中的范圍可以從幾十TB到幾PB?!彪S著“大數(shù)據(jù)”的出現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價(jià)值的利用正逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn),在全球引領(lǐng)了又一輪數(shù)據(jù)技術(shù)革新的浪潮。1.1.2
大數(shù)據(jù)的3V特征從字面上看,“大數(shù)據(jù)”這個(gè)詞可能會(huì)讓人覺(jué)得只是容量非常大的數(shù)據(jù)集合而已,但容量只不過(guò)是大數(shù)據(jù)特征的一個(gè)方面,如果只拘泥于數(shù)據(jù)量,就無(wú)法深入理解當(dāng)前圍繞大數(shù)據(jù)所進(jìn)行的討論。因?yàn)椤坝矛F(xiàn)有的一般技術(shù)難以管理”這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個(gè)因素所造成的。IBM說(shuō):“可以用3個(gè)特征相結(jié)合來(lái)定義
大數(shù)據(jù):數(shù)量(Volume,或稱容量)、
種類(lèi)(Variety,或稱多樣性)和速度
(Velocity),或者就是簡(jiǎn)單的3V,
即龐大容量、極快速度和種類(lèi)豐富的數(shù)
據(jù)。”1.1.2
大數(shù)據(jù)的3V特征(1)Volume(數(shù)量)。用現(xiàn)有技術(shù)無(wú)法管理的數(shù)據(jù)量,從現(xiàn)狀來(lái)看,基本上是指從幾十TB到幾PB這樣的數(shù)量級(jí)。當(dāng)然,隨著技術(shù)的進(jìn)步,這個(gè)數(shù)值也會(huì)不斷變化。如今,存儲(chǔ)的數(shù)據(jù)量在急劇增長(zhǎng)中,我們存儲(chǔ)所有事物,包括環(huán)境數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)等等,數(shù)據(jù)量不可避免地會(huì)轉(zhuǎn)向ZB級(jí)別。可是,隨著可供企業(yè)使用的數(shù)據(jù)量不斷增長(zhǎng),可處理、理解和分析的數(shù)據(jù)的比例卻不斷在下降。1.1.2
大數(shù)據(jù)的3V特征(2)Variety(種類(lèi)、多樣性)。隨著傳感器、智能設(shè)備以及社交協(xié)作技術(shù)的激增,企業(yè)中的數(shù)據(jù)也變得更加復(fù)雜,因?yàn)樗粌H包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來(lái)自網(wǎng)頁(yè)、互聯(lián)網(wǎng)日志文件(包括流數(shù)據(jù))、搜索索引、社交媒體、電子郵件、文檔、主動(dòng)和被動(dòng)系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。種類(lèi)表示所有的數(shù)據(jù)類(lèi)型。其中,爆發(fā)式增長(zhǎng)的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻數(shù)據(jù)等,用目前企業(yè)主流的關(guān)系型數(shù)據(jù)庫(kù)是很難存儲(chǔ)的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。1.1.2
大數(shù)據(jù)的3V特征當(dāng)然,這些數(shù)據(jù)中有些是過(guò)去就一直存在并保存下來(lái)的。和過(guò)去不同的是,除了存儲(chǔ),還需要對(duì)這些大數(shù)據(jù)進(jìn)行分析,并從中獲得有用的信息。例如監(jiān)控?cái)z像機(jī)中的視頻數(shù)據(jù),超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控?cái)z像機(jī),最初目的是為了防范盜竊,但現(xiàn)在也出現(xiàn)了使用視頻數(shù)據(jù)來(lái)分析顧客購(gòu)買(mǎi)行為的案例。例如,美國(guó)高級(jí)文具制造商萬(wàn)寶龍過(guò)去是憑經(jīng)驗(yàn)和直覺(jué)來(lái)決定商品陳列布局的,現(xiàn)在嘗試?yán)帽O(jiān)控?cái)z像頭對(duì)顧客在店內(nèi)的行為進(jìn)行分析。通過(guò)分析監(jiān)控?cái)z像數(shù)據(jù),將最想賣(mài)出去的商品移動(dòng)到最容易吸引顧客目光的位置,使得銷(xiāo)售額提高了20%。1.1.2
大數(shù)據(jù)的3V特征美國(guó)移動(dòng)運(yùn)營(yíng)商T-Mobile也在其全美1000家店中安裝了帶視頻分析功能的監(jiān)控?cái)z像機(jī),可以統(tǒng)計(jì)來(lái)店人數(shù),還可以追蹤顧客在店內(nèi)的行動(dòng)路線、在展臺(tái)前停留的時(shí)間,甚至是試用了哪一款手機(jī)、試用了多長(zhǎng)時(shí)間等,對(duì)顧客在店內(nèi)的購(gòu)買(mǎi)行為進(jìn)行分析。1.1.2
大數(shù)據(jù)的3V特征(3)Velocity(速度)。數(shù)據(jù)產(chǎn)生和更新的頻率也是衡量大數(shù)據(jù)的一個(gè)重要特征。就像我們收集和存儲(chǔ)的數(shù)據(jù)量和種類(lèi)發(fā)生了變化一樣,生成和需要處理數(shù)據(jù)的速度也在變化。這里,速度的概念不僅是與數(shù)據(jù)存儲(chǔ)相關(guān)的增長(zhǎng)速率,還應(yīng)該動(dòng)態(tài)地應(yīng)用到數(shù)據(jù)流動(dòng)的速度上。有效地處理大數(shù)據(jù),需要在數(shù)據(jù)變化的過(guò)程中對(duì)它的數(shù)量和種類(lèi)執(zhí)行分析,而不只是在它靜止后執(zhí)行分析。例如,遍布全國(guó)的各種便利店在24小時(shí)內(nèi)產(chǎn)生的POS機(jī)數(shù)據(jù),電商網(wǎng)站中由用戶訪問(wèn)所產(chǎn)生的網(wǎng)站點(diǎn)擊流數(shù)據(jù),高峰時(shí)達(dá)到每秒近萬(wàn)條的微信短文,全國(guó)公路上安裝的交通探測(cè)傳感器和路面狀況傳感器(可檢測(cè)結(jié)冰、積雪等路面狀態(tài))等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。1.1.2
大數(shù)據(jù)的3V特征在3V的基礎(chǔ)上,IBM又歸納總結(jié)了第四個(gè)V——Veracity(真實(shí)和準(zhǔn)確)。“只有真實(shí)而準(zhǔn)確的數(shù)據(jù)才能讓對(duì)數(shù)據(jù)的管控和治理真正有意義。隨著新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實(shí)性及安全性。”1.1.2
大數(shù)據(jù)的3V特征互聯(lián)網(wǎng)數(shù)據(jù)中心IDC說(shuō):“大數(shù)據(jù)是一個(gè)貌似不知道從哪里冒出來(lái)的大的動(dòng)力。但是實(shí)際上,大數(shù)據(jù)并不是新生事物。然而,它確實(shí)正在進(jìn)入主流并得到重大關(guān)注,這是有原因的。廉價(jià)的存儲(chǔ)、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過(guò)云和虛擬化存儲(chǔ)設(shè)施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動(dòng)著大數(shù)據(jù)。大數(shù)據(jù)不是一個(gè)‘事物’,而是一個(gè)跨多個(gè)信息技術(shù)領(lǐng)域的動(dòng)力/活動(dòng)。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),它被設(shè)計(jì)用于:通過(guò)使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣(Variety)數(shù)據(jù)中經(jīng)濟(jì)地提取價(jià)值(Value)?!边@個(gè)定義除了揭示大數(shù)據(jù)傳統(tǒng)的3V基本特征,即大數(shù)據(jù)量、多樣性和高速,還增添了一個(gè)新特征:價(jià)值。1.1.2
大數(shù)據(jù)的3V特征總之,大數(shù)據(jù)是個(gè)動(dòng)態(tài)的定義,不同行業(yè)根據(jù)其應(yīng)用的不同有著不同的理解,其衡量標(biāo)準(zhǔn)也在隨著技術(shù)的進(jìn)步而改變。1.1.3
廣義的大數(shù)據(jù)大數(shù)據(jù)的狹義定義著眼點(diǎn)在數(shù)據(jù)的性質(zhì)上,我們從廣義層面上再為大數(shù)據(jù)下一個(gè)定義:“所謂‘大數(shù)據(jù)’是一個(gè)綜合性概念,它包括因具備3V(Volume/Variety/Velocity,數(shù)量/品種/速度)特征而難以進(jìn)行管理的數(shù)據(jù),對(duì)這
些數(shù)據(jù)進(jìn)行存儲(chǔ)、處理、分析的技術(shù),以及能夠通過(guò)分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織?!?/p>
廣義的大數(shù)據(jù)1.1.3
廣義的大數(shù)據(jù)“存儲(chǔ)、處理、分析的技術(shù)”指的是用于大規(guī)模數(shù)據(jù)分布式處理的框架Hadoop、具備良好擴(kuò)展性的NoSQL數(shù)據(jù)庫(kù),以及機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析等;“能夠通過(guò)分析這些數(shù)據(jù)獲得實(shí)用意義和觀點(diǎn)的人才和組織”,指的是目前十分緊俏的“數(shù)據(jù)科學(xué)家”這類(lèi)人才以及能夠?qū)Υ髷?shù)據(jù)進(jìn)行有效運(yùn)用的組織。大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型PART021.21.2大數(shù)據(jù)析的結(jié)構(gòu)類(lèi)型數(shù)據(jù)量大是大數(shù)據(jù)的一致特征。由于數(shù)據(jù)自身的復(fù)雜性,作為一個(gè)必然的結(jié)果,處理大數(shù)據(jù)的首選方法是在并行計(jì)算的環(huán)境中進(jìn)行大規(guī)模并行處理(MassivelyParallelProcessing,MPP),這使得同時(shí)發(fā)生的并行攝取、并行數(shù)據(jù)裝載和分析成為可能。實(shí)際上,大多數(shù)的大數(shù)據(jù)都是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,需要不同的技術(shù)和工具來(lái)處理和分析。1.2大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型大數(shù)據(jù)最突出的特征是它的結(jié)構(gòu)。下圖顯示了幾種不同數(shù)據(jù)結(jié)構(gòu)類(lèi)型數(shù)據(jù)的增長(zhǎng)趨勢(shì),由圖可知,未來(lái)數(shù)據(jù)增長(zhǎng)的80%~90%將來(lái)自于不是結(jié)構(gòu)化的數(shù)據(jù)類(lèi)型(半、準(zhǔn)和非結(jié)構(gòu)化)。
數(shù)據(jù)增長(zhǎng)日益趨向非結(jié)構(gòu)化1.2大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型實(shí)際上,有時(shí)這4種不同的、相分離的數(shù)據(jù)類(lèi)型是可以被混合在一起的。例如,一個(gè)傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)保存著一個(gè)軟件支持呼叫中心的通話日志,這里有典型的結(jié)構(gòu)化數(shù)據(jù),比如日期/時(shí)間戳、機(jī)器類(lèi)型、問(wèn)題類(lèi)型、操作系統(tǒng),這些都是在線支持人員通過(guò)圖形用戶界面上的下拉式菜單輸入的。另外,還有非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),比如自由形式的通話日志信息,這些可能來(lái)自包含問(wèn)題的電子郵件,或者技術(shù)問(wèn)題和解決方案的實(shí)際通話描述。另外一種可能是與結(jié)構(gòu)化數(shù)據(jù)有關(guān)的實(shí)際通話的語(yǔ)音日志或者音頻文字實(shí)錄。即使是現(xiàn)在,大多數(shù)分析人員還無(wú)法分析這種通話日志歷史數(shù)據(jù)庫(kù)中的最普通和高度結(jié)構(gòu)化的數(shù)據(jù),因?yàn)橥诰蛭谋拘畔⑹且豁?xiàng)強(qiáng)度很大的工作,并且無(wú)法簡(jiǎn)單地實(shí)現(xiàn)自動(dòng)化。1.2大數(shù)據(jù)的結(jié)構(gòu)類(lèi)型人們通常最熟悉結(jié)構(gòu)化數(shù)據(jù)的分析,然而,半結(jié)構(gòu)化數(shù)據(jù)(XML)、“準(zhǔn)”結(jié)構(gòu)化數(shù)據(jù)(網(wǎng)站地址字符串)和非結(jié)構(gòu)化數(shù)據(jù)代表了不同的挑戰(zhàn),需要不同的技術(shù)來(lái)分析。除了三種基本的數(shù)據(jù)類(lèi)型以外,還有一種重要的數(shù)據(jù)類(lèi)型為元數(shù)據(jù)。元數(shù)據(jù)提供了一個(gè)數(shù)據(jù)集的特征和結(jié)構(gòu)信息,這種數(shù)據(jù)主要由機(jī)器生成并且能夠添加到數(shù)據(jù)集中。搜尋元數(shù)據(jù)對(duì)于大數(shù)據(jù)存儲(chǔ)、處理和分析是至關(guān)重要的一步,因?yàn)樗峁┝藬?shù)據(jù)系譜信息以及數(shù)據(jù)處理的起源。元數(shù)據(jù)的例子包括:·XML文件中提供作者和創(chuàng)建日期信息的標(biāo)簽;·數(shù)碼照片中提供文件大小和分辨率的屬性文件。大數(shù)據(jù)對(duì)分析的影響PART031.31.3大數(shù)據(jù)對(duì)分析的影響大數(shù)據(jù)技術(shù)已經(jīng)改變了數(shù)據(jù)分析的現(xiàn)狀,并且需要一個(gè)新的方法——就是我們所說(shuō)的“現(xiàn)代分析”?!按髷?shù)據(jù)分析”在很多情況下又稱為“大數(shù)據(jù)預(yù)測(cè)分析”。數(shù)據(jù)分析是數(shù)據(jù)處理流程的核心,因?yàn)閿?shù)據(jù)中所蘊(yùn)藏的價(jià)值就產(chǎn)生于分析的過(guò)程,它和以往數(shù)據(jù)分析最重要的差別在于數(shù)據(jù)量的急劇增長(zhǎng),也正因?yàn)榇?,使得?duì)于數(shù)據(jù)的存儲(chǔ)、查詢以及分析的要求迅速提高。1.3.2大數(shù)據(jù)分析的定義1.3.1大數(shù)據(jù)的影響數(shù)據(jù)分析是數(shù)據(jù)處理流程的核心,因?yàn)閿?shù)據(jù)中所蘊(yùn)藏的價(jià)值就產(chǎn)生于分析的過(guò)程,它和以往數(shù)據(jù)分析最重要的差別在于數(shù)據(jù)量的急劇增長(zhǎng),。1.3大數(shù)據(jù)對(duì)分析的影響1.3.1
大數(shù)據(jù)的影響大數(shù)據(jù)有多“大”?就分析而言,我們?yōu)榇髷?shù)據(jù)下一個(gè)不同的定義:如果數(shù)據(jù)滿足以下任何一個(gè)條件,那么就視其為大數(shù)據(jù):(1)分析數(shù)據(jù)集非常大,以至于無(wú)法匹配到單臺(tái)機(jī)器的內(nèi)存中。(2)分析數(shù)據(jù)集非常大,以至于無(wú)法移到一個(gè)傳統(tǒng)的專用分析平臺(tái)上。(3)分析的源數(shù)據(jù)存儲(chǔ)在一個(gè)大數(shù)據(jù)存儲(chǔ)庫(kù)中,例如Hadoop、MPP數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)或者NewSQL數(shù)據(jù)庫(kù)。1.3.1
大數(shù)據(jù)的影響大數(shù)據(jù)所具有的特性使其在“數(shù)據(jù)規(guī)?!薄皵?shù)據(jù)類(lèi)型多樣性”“響應(yīng)速度”等方面影響著大數(shù)據(jù)的分析過(guò)程。當(dāng)分析師在矩陣或者表格中處理結(jié)構(gòu)化數(shù)據(jù)時(shí),“數(shù)量”意味著更多的行、更多的列或者兩者都有。分析師日常使用隨機(jī)采樣記錄的數(shù)據(jù)集,包含數(shù)以百萬(wàn)計(jì)甚至數(shù)以億計(jì)的行,然后使用樣本來(lái)訓(xùn)練和驗(yàn)證預(yù)測(cè)模型。如果目標(biāo)是為總體建立單個(gè)預(yù)測(cè)模型,建模行為的發(fā)生率相對(duì)較高而且在總體中發(fā)生較為均勻,采樣的效果會(huì)非常好。但是,使用現(xiàn)代分析技術(shù),采樣變成了一個(gè)可選擇的方法,不會(huì)因?yàn)橛?jì)算資源有限而成為分析師必須使用的方法。1.3.1
大數(shù)據(jù)的影響將更多的行加入分析數(shù)據(jù)集中,會(huì)對(duì)分析產(chǎn)生截然不同的影響。改善預(yù)測(cè)模型效果最有效的方法是加入具有信息價(jià)值的新變量,但是你不會(huì)總是事先知道什么變量將給一個(gè)模型增加價(jià)值。這意味著,當(dāng)增加一個(gè)量到一個(gè)分析數(shù)據(jù)集中,需要工具來(lái)使分析師能夠很快瀏覽眾多變量,進(jìn)而找到那些能夠給預(yù)測(cè)模型增加價(jià)值的變量。有多個(gè)行和列也意味著有更多的方法來(lái)確定一個(gè)預(yù)測(cè)模型。例如,一個(gè)應(yīng)答指標(biāo)和五個(gè)預(yù)測(cè)因子的分析數(shù)據(jù)集——一個(gè)在任何標(biāo)準(zhǔn)下都算小的數(shù)據(jù)集。五個(gè)預(yù)測(cè)因子有29個(gè)特定組合作為主要影響,如果考慮到預(yù)測(cè)因子的相互作用和各種轉(zhuǎn)換,將會(huì)有許多其他可能的模型形式??赡艿哪P托问降臄?shù)量會(huì)隨著變量的增加而爆炸性增長(zhǎng),那些能使分析師有效搜索到最佳模型的方法和技術(shù)就會(huì)非常有用。1.3.1
大數(shù)據(jù)的影響“種類(lèi)”意味著所處理的數(shù)據(jù)不是矩陣或表格形式的結(jié)構(gòu)化數(shù)據(jù)。本質(zhì)上,這不是新的,分析師已經(jīng)處理許多不同格式的數(shù)據(jù)多年,而文本挖掘也是一個(gè)成熟的領(lǐng)域。大數(shù)據(jù)趨勢(shì)下帶來(lái)的最重要的變化是分析數(shù)據(jù)存儲(chǔ)中非結(jié)構(gòu)化格式的大規(guī)模應(yīng)用,以及越來(lái)越多的人認(rèn)識(shí)到非結(jié)構(gòu)化數(shù)據(jù)——網(wǎng)絡(luò)日志、醫(yī)療服務(wù)提供者記錄、社會(huì)媒體評(píng)論等,為預(yù)測(cè)建模提供了顯著的價(jià)值。這意味著分析師規(guī)劃和建立公司分析架構(gòu)工具時(shí)必須考慮非結(jié)構(gòu)數(shù)據(jù)。1.3.1
大數(shù)據(jù)的影響“速度”在兩個(gè)方面影響著預(yù)測(cè)分析:數(shù)據(jù)源和目標(biāo)。分析師處理流數(shù)據(jù),例如賽車(chē)的遙測(cè)或者醫(yī)院ICU監(jiān)控設(shè)備的實(shí)時(shí)反饋,必須使用特殊的技術(shù)來(lái)采樣和觀測(cè)數(shù)據(jù)流,這些技術(shù)將連續(xù)的流轉(zhuǎn)換成一個(gè)獨(dú)立的時(shí)間序列以便于分析。當(dāng)分析師試圖對(duì)流數(shù)據(jù)應(yīng)用預(yù)測(cè)分析時(shí),例如在一個(gè)實(shí)時(shí)評(píng)分中,大多數(shù)組織在對(duì)單個(gè)交易進(jìn)行評(píng)分時(shí)將會(huì)使用一個(gè)能夠提供實(shí)時(shí)響應(yīng)的高性能決策引擎。1.3.2
大數(shù)據(jù)分析的定義大數(shù)據(jù)是一個(gè)含義廣泛的術(shù)語(yǔ),是如此龐大而復(fù)雜的,需要專門(mén)設(shè)計(jì)的硬件和軟件工具進(jìn)行處理的大數(shù)據(jù)集。這些數(shù)據(jù)集收集自各種各樣的來(lái)源:傳感器,氣象信息,公開(kāi)信息如雜志、報(bào)紙、文章等等。大數(shù)據(jù)產(chǎn)生的其他例子包括購(gòu)買(mǎi)交易記錄、網(wǎng)絡(luò)日志、病歷、監(jiān)控、視頻和圖像檔案以及大型電子商務(wù)。傳統(tǒng)批處理數(shù)據(jù)分析的典型場(chǎng)景是這樣的:在整個(gè)數(shù)據(jù)集準(zhǔn)備好后,在整體中進(jìn)行統(tǒng)計(jì)抽樣。然而,出于理解流式數(shù)據(jù)的需求,大數(shù)據(jù)可以從批處理轉(zhuǎn)換成實(shí)時(shí)處理。這些流式數(shù)據(jù)、數(shù)據(jù)集不停地積累,并且以時(shí)間順序排序。由于分析結(jié)果有存儲(chǔ)期(保質(zhì)期),流式數(shù)據(jù)強(qiáng)調(diào)及時(shí)處理,無(wú)論是識(shí)別向當(dāng)前客戶繼續(xù)銷(xiāo)售的機(jī)會(huì),還是在工業(yè)環(huán)境中發(fā)覺(jué)異常情況后需要進(jìn)行干預(yù)以保護(hù)設(shè)備或保證產(chǎn)品質(zhì)量,時(shí)間都是至關(guān)重要的。1.3.2
大數(shù)據(jù)分析的定義在不同行業(yè)中,那些專門(mén)從事行業(yè)數(shù)據(jù)的搜集、對(duì)收集的數(shù)據(jù)進(jìn)行整理、對(duì)整理的數(shù)據(jù)進(jìn)行深度分析,并依據(jù)數(shù)據(jù)分析結(jié)果做出行業(yè)的研究、評(píng)估、洞察和預(yù)測(cè)的工作被稱為數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,是指用適當(dāng)?shù)姆椒▽?duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論,從而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。或者,顧名思義,大數(shù)據(jù)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)分析是大數(shù)據(jù)到信息,再到知識(shí)的關(guān)鍵步驟。如果分析者熟悉行業(yè)知識(shí)、公司業(yè)務(wù)及流程,對(duì)自己的工作內(nèi)容有一定的了解,比如熟悉行業(yè)認(rèn)知和公司業(yè)務(wù)背景,這樣的分析結(jié)果就會(huì)有很大的使用價(jià)值。1.3.2
大數(shù)據(jù)分析的定義大數(shù)據(jù)分析結(jié)合了傳統(tǒng)統(tǒng)計(jì)分析方法和數(shù)據(jù)分析方法,在研究大量數(shù)據(jù)的過(guò)程中尋找有價(jià)值的模式和信息模式,用量化的方式幫助決策者做出更明智的決策以更好地適應(yīng)變化。首先,我們要列出搭建數(shù)據(jù)分析框架的要求,比如確定分析思路就需要用到營(yíng)銷(xiāo)、管理等理論知識(shí);另一方面是針對(duì)數(shù)據(jù)分析結(jié)論提出有指導(dǎo)意義的分析建議。能夠掌握數(shù)據(jù)分析基本原理與一些有效的數(shù)據(jù)分析方法,并能靈活運(yùn)用到實(shí)踐工作中,這對(duì)于開(kāi)展數(shù)據(jù)分析起著至關(guān)重要的作用。數(shù)據(jù)分析方法是理論,而數(shù)據(jù)分析工具就是實(shí)現(xiàn)數(shù)據(jù)分析方法理論的工具,面對(duì)越來(lái)越龐大的數(shù)據(jù),必須依靠強(qiáng)大的數(shù)據(jù)分析工具幫我們完成數(shù)據(jù)分析工作。1.3.2
大數(shù)據(jù)分析的定義(1)數(shù)據(jù)分析可以讓人們對(duì)數(shù)據(jù)產(chǎn)生更加優(yōu)質(zhì)的詮釋,而具有預(yù)知意義的分析可以讓分析者根據(jù)可視化分析和數(shù)據(jù)分析后的結(jié)果做出一些預(yù)測(cè)性的推斷。(2)大數(shù)據(jù)的分析與存儲(chǔ)和數(shù)據(jù)的管理是一些數(shù)據(jù)分析層面的最佳實(shí)踐。通過(guò)規(guī)范的流程和工具對(duì)數(shù)據(jù)進(jìn)行分析,可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。(3)不管使用者是數(shù)據(jù)分析領(lǐng)域中的專家還是普通的用戶,作為數(shù)據(jù)分析工具的數(shù)據(jù)可視化可以直觀地展示數(shù)據(jù),讓數(shù)據(jù)自己表達(dá),讓客戶在交互中獲得理想的結(jié)果。(4)只有經(jīng)過(guò)分析的數(shù)據(jù)才能對(duì)用戶產(chǎn)生重要的價(jià)值,所以大數(shù)據(jù)的分析方式在IT領(lǐng)域顯得格外重要,是決定最終信息是否有價(jià)值的決定性因素。定性分析與定量分析PART041.41.4定性分析與定量分析定性分析與定量分析都是一種數(shù)據(jù)分析技術(shù)。其中,定性分析專注于用語(yǔ)言描述不同數(shù)據(jù)的質(zhì)量。與定量分析相對(duì)比,定性分析涉及分析相對(duì)小而深入的樣本。由于樣本很小,這些分析結(jié)果不能適用于整個(gè)數(shù)據(jù)集,它們也不能測(cè)量數(shù)值或用于數(shù)值比較。例如,冰激凌銷(xiāo)量分析可能揭示了五月份銷(xiāo)量圖不像六月份一樣高。分析結(jié)果僅僅說(shuō)明了“不像它一樣高”,而并未提供數(shù)字偏差。定性分析的結(jié)果是描述性的,即用語(yǔ)言對(duì)關(guān)系的描述。1.4定性分析與定量分析定量分析專注于量化從數(shù)據(jù)中發(fā)現(xiàn)的模式和關(guān)聯(lián)?;诮y(tǒng)計(jì)方法,這項(xiàng)技術(shù)涉及大量從數(shù)據(jù)集中得到的觀測(cè)結(jié)果。定量分析結(jié)果是絕對(duì)數(shù)值型的,因此可以被用在數(shù)值比較上。例如,對(duì)于冰激凌銷(xiāo)量的定量分析可能發(fā)現(xiàn):溫度上升5度,冰激凌銷(xiāo)量提升15%。1.4定性分析與定量分析此外,關(guān)鍵績(jī)效指標(biāo)(KPI)也是一種用來(lái)衡量一次業(yè)務(wù)過(guò)程是否成功的度量標(biāo)準(zhǔn)。它與企業(yè)整體的戰(zhàn)略目標(biāo)和任務(wù)相聯(lián)系。同時(shí),它常常用來(lái)識(shí)別經(jīng)營(yíng)業(yè)績(jī)中的一些問(wèn)題,以及闡釋一些執(zhí)行標(biāo)準(zhǔn)。因此,KPI通常是一個(gè)測(cè)量企業(yè)整體績(jī)效的特定方面的定量參考指標(biāo)。KPI常常通過(guò)專門(mén)的儀表板顯示。儀表板將多個(gè)
關(guān)鍵績(jī)效指標(biāo)聯(lián)合起來(lái)展示,并且將實(shí)測(cè)值與關(guān)鍵績(jī)
效指標(biāo)閾值相比較。圖1-7醫(yī)院服務(wù)綜合KPI四種數(shù)據(jù)分析方法PART051.51.5四種數(shù)據(jù)分析方法數(shù)據(jù)分析是一個(gè)通過(guò)處理數(shù)據(jù),從中發(fā)現(xiàn)一些深層知識(shí)、模式、關(guān)系或是趨勢(shì)的過(guò)程,它的總體目標(biāo)是做出更好的決策。通過(guò)數(shù)據(jù)分析,可以對(duì)分析過(guò)的數(shù)據(jù)建立起關(guān)系與模式。數(shù)據(jù)分析學(xué)是一個(gè)包含數(shù)據(jù)分析,且比數(shù)據(jù)分析更為寬泛的概念,這門(mén)學(xué)科涵蓋了對(duì)整個(gè)數(shù)據(jù)生命周期的管理,而數(shù)據(jù)生命周期包含了數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳輸、數(shù)據(jù)加工、數(shù)據(jù)利用、數(shù)據(jù)銷(xiāo)毀等過(guò)程。此外,數(shù)據(jù)分析學(xué)還包括數(shù)據(jù)分析用到的相關(guān)理論、方法、模型、技術(shù)和工具。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析學(xué)發(fā)展了數(shù)據(jù)分析在高度可擴(kuò)展的、分布式技術(shù)和框架中的應(yīng)用,使之有能力處理大量的來(lái)自不同信息源的數(shù)據(jù)。1.5四種數(shù)據(jù)分析方法不同的行業(yè)會(huì)以不同的方式使用大數(shù)據(jù)分析工具和技術(shù),例如:·在商業(yè)組織中,利用大數(shù)據(jù)的分析結(jié)果能降低運(yùn)營(yíng)開(kāi)銷(xiāo),有助于優(yōu)化決策?!ぴ诳蒲蓄I(lǐng)域,大數(shù)據(jù)分析能夠確認(rèn)一個(gè)現(xiàn)象的起因,并且能基于此提出更為精確的預(yù)測(cè)?!ぴ诜?wù)業(yè)領(lǐng)域,比如公眾行業(yè),大數(shù)據(jù)分析有助于人們以更低的開(kāi)銷(xiāo)提供更好的服務(wù)。1.5四種數(shù)據(jù)分析方法大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實(shí)際的數(shù)據(jù)而不僅僅依賴于過(guò)去的經(jīng)驗(yàn)或者直覺(jué)。根據(jù)分析結(jié)果的不同,我們大致可以將分析歸為4類(lèi),即描述性分析、診斷性分析、預(yù)測(cè)性分析和規(guī)范性分析。不同的分析類(lèi)型需要不同的技術(shù)和分析算法,這意味著在傳遞多種類(lèi)型的分析結(jié)果的時(shí)候,可能會(huì)有大量不同的數(shù)據(jù)、存儲(chǔ)、處理要求,生成的高質(zhì)量分析結(jié)果將加大分析環(huán)境的復(fù)雜性和開(kāi)銷(xiāo)。每一種分析方法都對(duì)業(yè)務(wù)分析具有很大的幫助,同時(shí)也應(yīng)用在數(shù)據(jù)分析的各個(gè)方面。圖1-8四種數(shù)據(jù)分析方法的價(jià)值和復(fù)雜性不斷提升1.5.3預(yù)測(cè)性分析1.5.1描述性分析1.5.4規(guī)范性分析1.5.2診斷性分析大數(shù)據(jù)分析使得決策有了科學(xué)基礎(chǔ),現(xiàn)在做決策可以基于實(shí)際的數(shù)據(jù)而不僅僅依賴于過(guò)去的經(jīng)驗(yàn)或者直覺(jué)。1.5四種數(shù)據(jù)分析方法1.5.1
描述性分析描述性分析是最常見(jiàn)的分析方法,是探索歷史數(shù)據(jù)并描述發(fā)生了什么,是對(duì)已經(jīng)發(fā)生的事件進(jìn)行問(wèn)答和總結(jié)。這一層次包括對(duì)數(shù)據(jù)的總體統(tǒng)計(jì)規(guī)律(如總體分布的相關(guān)信息)進(jìn)行數(shù)量或可視化展示,為數(shù)據(jù)分析師提供了重要指標(biāo)和業(yè)務(wù)的衡量方法。這種形式的分析需要將數(shù)據(jù)置于生成信息的上下文中考慮,例如每月的營(yíng)收和損失賬單,分析師可以通過(guò)這些賬單,獲取大量的客戶數(shù)據(jù)。如下
圖中可以明確地看到哪些商品的銷(xiāo)售達(dá)到了銷(xiāo)
售量預(yù)期。利用可視化工具,能夠有效地增強(qiáng)
描述型分析所提供的信息。
圖1-9各產(chǎn)品銷(xiāo)售量統(tǒng)計(jì)表預(yù)警圖1.5.1
描述性分析相關(guān)問(wèn)題可能包括:·過(guò)去12個(gè)月的銷(xiāo)售量如何?·根據(jù)事件嚴(yán)重程度和地理位置分類(lèi),收到的求助電話的數(shù)量如何?·每一位銷(xiāo)售經(jīng)理的月銷(xiāo)售額是多少?據(jù)估計(jì),生成的分析結(jié)果80%都是自然可描述的。描述性分析提供的價(jià)值較低,但也只需要相對(duì)基礎(chǔ)的訓(xùn)練集。1.5.1
描述性分析進(jìn)行描述性分析常常借助OLTP(聯(lián)機(jī)事務(wù)處理過(guò)程)、CRM(客戶關(guān)系管理系統(tǒng))、ERP(企業(yè)資源規(guī)劃系統(tǒng))等信息系統(tǒng),經(jīng)過(guò)描述性分析工具的處理生成即席報(bào)表或者數(shù)據(jù)儀表板。報(bào)表常常是靜態(tài)的,并且是以數(shù)據(jù)表格或圖表形式呈現(xiàn)的歷史數(shù)據(jù)。查詢處理往往基于企業(yè)內(nèi)部存儲(chǔ)的可操作數(shù)據(jù),例如CRM或者ERP。1.5.2
診斷性分析診斷性分析旨在尋求一個(gè)已發(fā)生事件的發(fā)生原因。這類(lèi)分析通過(guò)評(píng)估描述性數(shù)據(jù),利用診斷分析工具讓數(shù)據(jù)分析師深入分析數(shù)據(jù),鉆取數(shù)據(jù)核心。其目標(biāo)是通過(guò)獲取一些與事件相關(guān)的信息來(lái)回答有關(guān)的問(wèn)題,最后得出事件發(fā)生的原因。相關(guān)的問(wèn)題可能包括:·為什么Q2商品比Q1賣(mài)得多?·為什么來(lái)自東部地區(qū)的求助電話比來(lái)自西部地區(qū)的要多?·為什么最近三個(gè)月內(nèi)病人再入院的比率有所提升?1.5.2
診斷性分析診斷性分析是基于分析處理系統(tǒng)中的多維數(shù)據(jù)進(jìn)行的。與描述性分析相比,診斷性分析的查詢處理更加復(fù)雜,它比描述性分析提供了更加有價(jià)值的信息,但同時(shí)也要求更加高級(jí)的訓(xùn)練集。診斷性分析常常需要從不同信息源搜集數(shù)據(jù),并以一種易于進(jìn)行下鉆和上卷分析的結(jié)構(gòu)加以保存。診斷性分析的結(jié)果可以由交互式可視化界面顯示,讓用戶能夠清晰地了解模式與趨勢(shì)。良好設(shè)計(jì)的BI儀表板能夠整合信息,按照時(shí)間序列進(jìn)行數(shù)據(jù)讀入、特征過(guò)濾和鉆取數(shù)據(jù)等功能,以便更好地分析數(shù)據(jù)。例如從“銷(xiāo)售控制臺(tái)”圖中可以分析出“區(qū)域銷(xiāo)售構(gòu)成”“客戶分布情況”“產(chǎn)品類(lèi)別構(gòu)成”和“預(yù)算完成情況”等信息。1.5.3
預(yù)測(cè)性分析預(yù)測(cè)性分析用于預(yù)測(cè)未來(lái)的概率和趨勢(shì),例如基于邏輯回歸的預(yù)測(cè)、基于分類(lèi)器的預(yù)測(cè)等。預(yù)測(cè)性分析預(yù)測(cè)事件未來(lái)發(fā)生的可能性、預(yù)測(cè)一個(gè)可量化的值,或者是預(yù)估事情發(fā)生的時(shí)間點(diǎn),這些都可以通過(guò)預(yù)測(cè)模型來(lái)完成。通過(guò)預(yù)測(cè)性分析,可以獲得參與建模的條件變量和目標(biāo)變量的映射規(guī)律,以及條件變量對(duì)于目標(biāo)變量的影響力和重要程度。這種影響力和重要程度構(gòu)成了基于過(guò)去事件對(duì)未來(lái)進(jìn)行預(yù)測(cè)的模型的基礎(chǔ)。通常,這些用于預(yù)測(cè)性分析的模型與過(guò)去已經(jīng)發(fā)生的事件的潛在條件是隱式相關(guān)的,如果這些潛在的條件改變了,那么用于預(yù)測(cè)性分析的模型也需要進(jìn)行更新。1.5.3
預(yù)測(cè)性分析預(yù)測(cè)模型通常會(huì)使用各種可變數(shù)據(jù)來(lái)實(shí)現(xiàn)預(yù)測(cè)。數(shù)據(jù)成員的多樣化與預(yù)測(cè)結(jié)果密切相關(guān)。在充滿不確定性的環(huán)境下,預(yù)測(cè)能夠幫助做出更好的決定。預(yù)測(cè)模型也是很多領(lǐng)域正在使用的重要方法。如下圖中的“銷(xiāo)售額和銷(xiāo)售量”,可以分析出全面的銷(xiāo)售量和銷(xiāo)售額基本呈上升趨勢(shì),借此可推斷下一年的基本銷(xiāo)售趨勢(shì)。圖1-10預(yù)測(cè)基本銷(xiāo)售趨勢(shì)1.5.3
預(yù)測(cè)性分析預(yù)測(cè)性分析提出的問(wèn)題常常以假設(shè)的形式出現(xiàn),例如:·離散型的,如銀行客戶風(fēng)險(xiǎn)等級(jí)預(yù)測(cè);·連續(xù)型的,如國(guó)家外匯儲(chǔ)備預(yù)測(cè)。預(yù)測(cè)性分析嘗試著基于模式、趨勢(shì)以及來(lái)自于歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)的期望,來(lái)預(yù)測(cè)事件的結(jié)果,這將讓我們能夠分辨風(fēng)險(xiǎn)與機(jī)遇。這種類(lèi)型的分析涉及包含外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)的大數(shù)據(jù)集以及多種分析方法。與描述性分析和診斷性分析相比,這種分析顯得更有價(jià)值,同時(shí)也要求更加高級(jí)的訓(xùn)練集。1.5.4
規(guī)范性分析規(guī)范性分析建立在預(yù)測(cè)性分析的結(jié)果之上,基于對(duì)“發(fā)生了什么”、“為什么會(huì)發(fā)生”和“可能發(fā)生什么”的分析,規(guī)范需要執(zhí)行的行動(dòng),幫助用戶決定應(yīng)該采取什么措施。規(guī)范性分析根據(jù)期望的結(jié)果、特定場(chǎng)景、資源以及對(duì)過(guò)去和當(dāng)前事件的了解對(duì)未來(lái)的決策給出建議,例如基于模擬的復(fù)雜系統(tǒng)分析和基于給定約束的優(yōu)化解生成。規(guī)范性分析通常不會(huì)單獨(dú)使用,而是在前面方法都完成之后,最后需要完成的分析方法。它注重的不僅是哪項(xiàng)操作最佳,還包括了其原因。換句話說(shuō),規(guī)范性分析提供了經(jīng)得起質(zhì)詢的結(jié)果,因?yàn)樗鼈兦度肓饲榫忱斫獾脑?。因此,這種分析常常用來(lái)建立優(yōu)勢(shì)或者降低風(fēng)險(xiǎn)。1.5.4
規(guī)范性分析例如,交通規(guī)劃分析考量了每條路線的距離、每條線路的行駛速度、以及目前的交通管制等方面因素,來(lái)幫助選擇最好的回家路線。下面是兩個(gè)這類(lèi)問(wèn)題的樣例:·這三種藥品中,哪一種能提供最好的療效?·何時(shí)才是拋售一只股票的最佳時(shí)機(jī)?1.5.4
規(guī)范性分析規(guī)范性分析比其他三種分析的價(jià)值都高,同時(shí)還要求最高級(jí)的訓(xùn)練集,甚至是專門(mén)的分析軟件和工具。這種分析將計(jì)算大量可能出現(xiàn)的結(jié)果,并且推薦出最佳選項(xiàng)。解決方案從解釋性的到建議性的均有,同時(shí)還能包括各種不同情境的模擬。這種分析能將內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)結(jié)合起來(lái)。內(nèi)部數(shù)據(jù)可能包括當(dāng)前和過(guò)去的銷(xiāo)售數(shù)據(jù)、消費(fèi)者信息、產(chǎn)品數(shù)據(jù)和商業(yè)規(guī)則。外部數(shù)據(jù)可能包括社會(huì)媒體數(shù)據(jù)、天氣情況、政府公文等等。如右圖所示,規(guī)范性分析涉及利用商業(yè)規(guī)則和大量的內(nèi)外部數(shù)據(jù)來(lái)模擬事件結(jié)果,并且提供最佳的做法。圖1-11規(guī)范性分析通過(guò)引入商業(yè)規(guī)則、內(nèi)部數(shù)據(jù)以及外部數(shù)據(jù)來(lái)進(jìn)行深入徹底的分析大數(shù)據(jù)分析的行業(yè)作用PART061.61.6大數(shù)據(jù)分析的行業(yè)作用大數(shù)據(jù)分析基于新的存儲(chǔ)和計(jì)算架構(gòu),是可在在結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來(lái)結(jié)果的算法和技術(shù),用于預(yù)測(cè)、優(yōu)化和模擬等許多用途。預(yù)測(cè)分析可幫助用戶評(píng)審和權(quán)衡潛在決策的影響力,用來(lái)分析歷史模式和概率,以預(yù)測(cè)未來(lái)業(yè)績(jī)并采取措施。1.6.3大數(shù)據(jù)分析的能力1.6.1大數(shù)據(jù)分析的決策支持價(jià)值1.6.4大數(shù)據(jù)分析面臨的問(wèn)題1.6.2大數(shù)據(jù)分析的關(guān)鍵應(yīng)用大數(shù)據(jù)分析基于新的存儲(chǔ)和計(jì)算架構(gòu),是可在結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來(lái)結(jié)果的算法和技術(shù),用于預(yù)測(cè)、優(yōu)化和模擬等許多用途。1.6大數(shù)據(jù)分析的行業(yè)作用1.6.1
大數(shù)據(jù)分析的決策支持價(jià)值大數(shù)據(jù)分析的主要作用包括:(1)決策管理。這是用來(lái)優(yōu)化并自動(dòng)化業(yè)務(wù)決策的一種卓有成效的成熟方法,通過(guò)預(yù)測(cè)分析讓組織能夠在制定決策以前有所行動(dòng),以便預(yù)測(cè)哪些行動(dòng)在將來(lái)最有可能獲得成功,優(yōu)化成果并解決特定的業(yè)務(wù)問(wèn)題。決策管理包括管理自動(dòng)化決策設(shè)計(jì)和部署的各個(gè)方面,供組織管理其與客戶、員工和供應(yīng)商的交互。從本質(zhì)上講,決策管理使優(yōu)化的決策成為企業(yè)業(yè)務(wù)流程的一部分。由于閉環(huán)系統(tǒng)不斷將有價(jià)值的反饋納入到?jīng)Q策制定過(guò)程中,所以,對(duì)于希望對(duì)變化的環(huán)境做出即時(shí)反應(yīng)并最大化每個(gè)決策的組織來(lái)說(shuō),它是非常理想的方法。1.6.1
大數(shù)據(jù)分析的決策支持價(jià)值當(dāng)今世界,競(jìng)爭(zhēng)的最大挑戰(zhàn)之一是組織如何在決策制定過(guò)程中更好地利用數(shù)據(jù)??捎糜谄髽I(yè)以及由企業(yè)生成的數(shù)據(jù)量非常高且以驚人的速度增長(zhǎng),而與此同時(shí),基于此數(shù)據(jù)制定決策的時(shí)間段卻非常短,且有日益縮短的趨勢(shì)。雖然業(yè)務(wù)經(jīng)理可能可以利用大量報(bào)告和儀表板來(lái)監(jiān)控業(yè)務(wù)環(huán)境,但是使用此信息來(lái)指導(dǎo)業(yè)務(wù)流程和客戶互動(dòng)的關(guān)鍵步驟通常是手動(dòng)的,因而不能及時(shí)響應(yīng)變化的環(huán)境。希望獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的組織必須尋找更好的方式。決策管理使用決策流程框架和分析來(lái)優(yōu)化并自動(dòng)化決策,通常專注于大批量決策并使用基于規(guī)則和基于分析模型的應(yīng)用程序?qū)崿F(xiàn)決策。對(duì)于傳統(tǒng)上使用歷史數(shù)據(jù)和靜態(tài)信息作為業(yè)務(wù)決策基礎(chǔ)的組織來(lái)說(shuō)這是一個(gè)突破性的進(jìn)展。1.6.1
大數(shù)據(jù)分析的決策支持價(jià)值(2)滾動(dòng)預(yù)測(cè)。預(yù)測(cè)是定期更新對(duì)未來(lái)績(jī)效的當(dāng)前觀點(diǎn),以反映新的或變化中的信息的過(guò)程,是基于分析當(dāng)前和歷史數(shù)據(jù)來(lái)決定未來(lái)趨勢(shì)的過(guò)程。為應(yīng)對(duì)這一需求,許多公司正在逐步采用滾動(dòng)預(yù)測(cè)方法。7×24小時(shí)的業(yè)務(wù)運(yùn)營(yíng)影響造就了一個(gè)持續(xù)而又瞬息萬(wàn)變的環(huán)境,風(fēng)險(xiǎn)、波動(dòng)和不確定性持續(xù)不斷。并且,任何經(jīng)濟(jì)動(dòng)蕩都具有近乎實(shí)時(shí)的深遠(yuǎn)影響。毫無(wú)疑問(wèn),對(duì)于這種變化感受最深的是CFO(財(cái)務(wù)總監(jiān))和財(cái)務(wù)部門(mén)。雖然業(yè)務(wù)戰(zhàn)略、產(chǎn)品定位、運(yùn)營(yíng)時(shí)間和產(chǎn)品線改進(jìn)的決策可能是在財(cái)務(wù)部門(mén)外部做出,但制定這些決策的基礎(chǔ)是財(cái)務(wù)團(tuán)隊(duì)使用績(jī)效報(bào)告和預(yù)測(cè)提供的關(guān)鍵數(shù)據(jù)和分析。具有前瞻性的財(cái)務(wù)團(tuán)隊(duì)意識(shí)到傳統(tǒng)的戰(zhàn)略預(yù)測(cè)不能完成這一任務(wù),他們正在迅速采用更加動(dòng)態(tài)的、滾動(dòng)的和基于驅(qū)動(dòng)因子的方法。1.6.1
大數(shù)據(jù)分析的決策支持價(jià)值在這種環(huán)境中,預(yù)測(cè)變?yōu)橐粋€(gè)極其重要的管理過(guò)程。為了抓住正確的機(jī)遇,為了滿足投資者的要求,以及在風(fēng)險(xiǎn)出現(xiàn)時(shí)對(duì)其進(jìn)行識(shí)別,很關(guān)鍵的一點(diǎn)就是深入了解潛在的未來(lái)發(fā)展,管理不能再依賴于傳統(tǒng)的管理工具。在應(yīng)對(duì)過(guò)程中,越來(lái)越多的企業(yè)已經(jīng)或者正準(zhǔn)備從靜態(tài)預(yù)測(cè)模型轉(zhuǎn)型到一個(gè)利用滾動(dòng)時(shí)間范圍的預(yù)測(cè)模型。采取滾動(dòng)預(yù)測(cè)的公司往往有更高的預(yù)測(cè)精度,更快的循環(huán)時(shí)間,更好的業(yè)務(wù)參與度和更多明智的決策制定。滾動(dòng)預(yù)測(cè)可以對(duì)業(yè)務(wù)績(jī)效進(jìn)行前瞻性預(yù)測(cè);為未來(lái)計(jì)劃周期提供一個(gè)基線;捕獲變化帶來(lái)的長(zhǎng)期影響;與靜態(tài)年度預(yù)測(cè)相比,滾動(dòng)預(yù)測(cè)能夠在覺(jué)察到業(yè)務(wù)決策制定的時(shí)間點(diǎn)得到定期更新,并減輕財(cái)務(wù)團(tuán)隊(duì)巨大的行政負(fù)擔(dān)。1.6.1
大數(shù)據(jù)分析的決策支持價(jià)值(3)預(yù)測(cè)分析與自適應(yīng)管理。穩(wěn)定、持續(xù)變化的工業(yè)時(shí)代已經(jīng)遠(yuǎn)去,現(xiàn)在是一個(gè)不可預(yù)測(cè)、非持續(xù)變化的信息時(shí)代。未來(lái)還將變得更加無(wú)法預(yù)測(cè),企業(yè)員工需要具備更高技能,創(chuàng)新的步伐將進(jìn)一步加快,價(jià)格將會(huì)更低,顧客將具有更多發(fā)言權(quán)。為了應(yīng)對(duì)這些變化,CFO(財(cái)務(wù)總監(jiān))們需要一個(gè)能讓各級(jí)經(jīng)理快速做出明智決策的系統(tǒng)。他們必須將年度計(jì)劃周期替換為更加常規(guī)的業(yè)務(wù)審核,通過(guò)滾動(dòng)預(yù)測(cè)提供支持,讓經(jīng)理能夠看到趨勢(shì)和模式,在競(jìng)爭(zhēng)對(duì)手之前取得突破,在產(chǎn)品與市場(chǎng)方面做出更明智決策。具體來(lái)說(shuō),CFO需要通過(guò)持續(xù)計(jì)劃周期進(jìn)行管理,讓滾動(dòng)預(yù)測(cè)成為主要的管理工具,每天和每周報(bào)告關(guān)鍵指標(biāo)。同時(shí)需要注意使用滾動(dòng)預(yù)測(cè)改進(jìn)短期可見(jiàn)性,并將預(yù)測(cè)作為管理手段,而不是度量方法。1.6.2
大數(shù)據(jù)分析的關(guān)鍵應(yīng)用在應(yīng)用大數(shù)據(jù)的行業(yè)中,營(yíng)銷(xiāo)分析、客戶和內(nèi)部運(yùn)管理是應(yīng)用最廣泛的三個(gè)領(lǐng)域:中國(guó)信息通訊研究院發(fā)布的《大數(shù)據(jù)白皮書(shū)》表明:61.7%的企業(yè)將大數(shù)據(jù)應(yīng)用于營(yíng)銷(xiāo)分析,50.2%的企業(yè)將大數(shù)據(jù)應(yīng)用于客戶分析,近50%的企業(yè)將大數(shù)據(jù)應(yīng)用于內(nèi)部運(yùn)營(yíng)管理。作為大數(shù)據(jù)時(shí)代的核心內(nèi)容,大數(shù)據(jù)的預(yù)測(cè)分析已在商業(yè)和社會(huì)中得到廣泛應(yīng)用。隨著越來(lái)越多的數(shù)據(jù)被記錄和整理,未來(lái)預(yù)測(cè)分析必定會(huì)成為所有領(lǐng)域的關(guān)鍵技術(shù)。例如:1.6.2
大數(shù)據(jù)分析的關(guān)鍵應(yīng)用(1)預(yù)測(cè)分析幫助制造業(yè)高效維護(hù)運(yùn)營(yíng)并更好地控制成本。一直以來(lái),制造業(yè)面臨的挑戰(zhàn)是在生產(chǎn)優(yōu)質(zhì)商品的同時(shí)在每一步流程中優(yōu)化資源。多年來(lái),制造商已經(jīng)制定了一系列成熟的方法來(lái)控制質(zhì)量、管理供應(yīng)鏈和維護(hù)設(shè)備。如今,面對(duì)著持續(xù)的成本控制工作,管理人員、維護(hù)工程師和質(zhì)量控制的監(jiān)督執(zhí)行人員都希望知道如何在維持質(zhì)量標(biāo)準(zhǔn)的同時(shí)避免昂貴的非計(jì)劃停機(jī)時(shí)間或設(shè)備故障,以及如何控制維護(hù)、修理和大修業(yè)務(wù)的人力和庫(kù)存成本。此外,財(cái)務(wù)和客戶服務(wù)部門(mén)的管理人員,以及高級(jí)別的管理人員,與生產(chǎn)流程能否很好地交付成品息息相關(guān)。1.6.2
大數(shù)據(jù)分析的關(guān)鍵應(yīng)用(2)預(yù)測(cè)分析幫助電信運(yùn)營(yíng)商更深入了解客戶。受技術(shù)和法規(guī)要求的推動(dòng),以及基于互聯(lián)網(wǎng)的通信服務(wù)提供商和模式的新型生態(tài)系統(tǒng)的出現(xiàn),電信提供商要想獲得新的價(jià)值來(lái)源,需要對(duì)業(yè)務(wù)模式做出根本性的轉(zhuǎn)變,并且必須有能力將戰(zhàn)略資產(chǎn)和客戶關(guān)系與旨在抓住新市場(chǎng)機(jī)遇的創(chuàng)新相結(jié)合。預(yù)測(cè)和管理變革的能力將是未來(lái)電信服務(wù)提供商的關(guān)鍵能力。1.6.2
大數(shù)據(jù)分析的關(guān)鍵應(yīng)用(3)犯罪預(yù)測(cè)與預(yù)防,預(yù)測(cè)分析利用先進(jìn)的分析技術(shù)營(yíng)造安全的公共環(huán)境。為確保公共安全,執(zhí)法人員一直主要依靠個(gè)人直覺(jué)和可用信息來(lái)完成任務(wù)。為了能夠更加智慧地工作,許多警務(wù)組織正在充分合理地利用他們獲得和存儲(chǔ)的結(jié)構(gòu)化信息(如犯罪和罪犯數(shù)據(jù))和非結(jié)構(gòu)化信息(在溝通和監(jiān)督過(guò)程中取得的影音資料)。通過(guò)匯總、分析這些龐大的數(shù)據(jù),得出的信息不僅有助于了解過(guò)去發(fā)生的情況,還能夠幫助預(yù)測(cè)將來(lái)可能發(fā)生的事件。1.6.2
大數(shù)據(jù)分析的關(guān)鍵應(yīng)用利用歷史犯罪事件、檔案資料、地圖和類(lèi)型學(xué)以及誘發(fā)因素(如天氣)和觸發(fā)事件(如假期或發(fā)薪日)等數(shù)據(jù),警務(wù)人員將可以:確定暴力犯罪頻繁發(fā)生的區(qū)域;將地區(qū)性或全國(guó)性流氓團(tuán)伙活動(dòng)與本地事件進(jìn)行匹配;剖析犯罪行為以發(fā)現(xiàn)相似點(diǎn),將犯罪行為與有犯罪記錄的罪犯掛鉤;找出最可能誘發(fā)暴力犯罪的條件,預(yù)測(cè)將來(lái)可能發(fā)生這些犯罪活動(dòng)的時(shí)間和地點(diǎn);確定重新犯罪的可能性。1.6.3
大數(shù)據(jù)分析的能力分析在大數(shù)據(jù)背景下,對(duì)數(shù)據(jù)的有效存儲(chǔ)以及良好地分析利用變得越來(lái)越急迫,而數(shù)據(jù)分析能力的高低決定了大數(shù)據(jù)中價(jià)值發(fā)現(xiàn)過(guò)程的好壞與成敗。從實(shí)際操作角度看,“大數(shù)據(jù)分析”需要通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行分析來(lái)探究一種模式,尋找導(dǎo)致現(xiàn)實(shí)情況的根源因素,通過(guò)建立模型與預(yù)測(cè)進(jìn)行優(yōu)化,以實(shí)現(xiàn)社會(huì)運(yùn)行中的持續(xù)改善與創(chuàng)新。1.6.3
大數(shù)據(jù)分析的能力分析從行業(yè)實(shí)踐的角度看,只有少數(shù)幾個(gè)行業(yè)的部分企業(yè)能夠?qū)Υ髷?shù)據(jù)進(jìn)行基本分析和運(yùn)用,并在業(yè)務(wù)決策中以數(shù)據(jù)分析結(jié)果為依據(jù)。這些行業(yè)主要集中在銀行與保險(xiǎn),電信與電商等領(lǐng)域,但數(shù)據(jù)分析的深度尚可,廣度不夠,尚未擴(kuò)充到運(yùn)營(yíng)管理的各個(gè)領(lǐng)域;而中小銀行在數(shù)據(jù)分析方面的人員與能力建設(shè)尚處于起步階段,多數(shù)行業(yè)在IT方向的開(kāi)支還主要集中在公司日常的流程化管理領(lǐng)域。1.6.3
大數(shù)據(jù)分析的能力分析從技術(shù)發(fā)展的角度看,一些已經(jīng)較為成熟的數(shù)據(jù)分析處理技術(shù),例如商業(yè)智能和數(shù)據(jù)挖掘,在一些行業(yè)里得到廣泛和深入的應(yīng)用。最典型的就是電商行業(yè),運(yùn)用這些技術(shù)對(duì)行業(yè)數(shù)據(jù)進(jìn)行分析,對(duì)提高行業(yè)的整體運(yùn)行效率以及增加行業(yè)利潤(rùn)都起到了極大的推動(dòng)作用。但對(duì)于像Hadoop、非結(jié)構(gòu)化數(shù)據(jù)庫(kù)、數(shù)據(jù)可視化工具以及個(gè)性化推薦引擎這樣的新技術(shù),其較高的技術(shù)門(mén)檻和高昂的運(yùn)營(yíng)維護(hù)成本使得只有少數(shù)企業(yè)能夠?qū)⑵溥\(yùn)用到深入分析行業(yè)數(shù)據(jù)中。1.6.3
大數(shù)據(jù)分析的能力分析從數(shù)據(jù)來(lái)源的角度看,在能夠?qū)崿F(xiàn)數(shù)據(jù)化運(yùn)營(yíng)的企業(yè)中,絕大多數(shù)僅僅完成了依靠企業(yè)自身所產(chǎn)生的數(shù)據(jù)解決自身所面臨的問(wèn)題,并且是依據(jù)問(wèn)題來(lái)收集所需要的數(shù)據(jù)。而僅有極少數(shù)互聯(lián)網(wǎng)企業(yè)能夠發(fā)揮出大數(shù)據(jù)分析的真正價(jià)值:同時(shí)運(yùn)用企業(yè)外部和內(nèi)部的數(shù)據(jù)來(lái)解決企業(yè)自身的問(wèn)題,通過(guò)數(shù)據(jù)分析預(yù)測(cè)可能出現(xiàn)的問(wèn)題,并依據(jù)數(shù)據(jù)分析的結(jié)果進(jìn)行商業(yè)決策。在一定程度上實(shí)現(xiàn)了由數(shù)據(jù)化運(yùn)營(yíng)向運(yùn)營(yíng)數(shù)據(jù)的轉(zhuǎn)變。1.6.4
大數(shù)據(jù)分析面臨的問(wèn)題大數(shù)據(jù)分析存在的主要問(wèn)題是:(1)數(shù)據(jù)存儲(chǔ)問(wèn)題。隨著技術(shù)不斷發(fā)展,數(shù)據(jù)量從TB上升至PB,EB量級(jí),如果還用傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式,必將給大數(shù)據(jù)分析造成諸多不便,這就需要借助數(shù)據(jù)的動(dòng)態(tài)處理技術(shù),即隨著數(shù)據(jù)的規(guī)律性變更和顯示需求,對(duì)數(shù)據(jù)進(jìn)行非定期的處理。同時(shí),數(shù)量極大的數(shù)據(jù)不能直接使用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),人們需要探索一種適合大數(shù)據(jù)的數(shù)據(jù)儲(chǔ)存模式,也是當(dāng)下應(yīng)該著力解決的一大難題。圖1-13分布式存儲(chǔ)方案1.6.4
大數(shù)據(jù)分析面臨的問(wèn)題(2)分析資源調(diào)度問(wèn)題。大數(shù)據(jù)產(chǎn)生的時(shí)間點(diǎn),數(shù)據(jù)量都是很難計(jì)算的,這就是大數(shù)據(jù)的一大特點(diǎn),不確定性。所以我們需要確立一種動(dòng)態(tài)響應(yīng)機(jī)制,對(duì)有限的計(jì)算、存儲(chǔ)資源進(jìn)行合理的配置及調(diào)度。另外,如何以最小的成本獲得最理想的分析結(jié)果也是一個(gè)需要考慮的問(wèn)題。(3)專業(yè)的分析工具。在發(fā)展數(shù)據(jù)分析技術(shù)的同時(shí),傳統(tǒng)的軟件工具不再適用,而距離開(kāi)發(fā)出能夠滿足大數(shù)據(jù)分析需求的通用軟件還有一定距離。如若不能對(duì)這些問(wèn)題做出處理,在不久的將來(lái)大數(shù)據(jù)的發(fā)展就會(huì)進(jìn)入瓶頸,甚至有可能出現(xiàn)一段時(shí)間的滯留期,難以持續(xù)起到促進(jìn)經(jīng)濟(jì)發(fā)展的作用。1.6.4
大數(shù)據(jù)分析面臨的問(wèn)題(4)多源數(shù)據(jù)融合問(wèn)題。這是指利用相關(guān)手段將調(diào)查、分析獲取到的所有信息全部綜合到一起,并對(duì)信息進(jìn)行統(tǒng)一的評(píng)價(jià),最后得到統(tǒng)一的信息的技術(shù),其目的是將各種不同的數(shù)據(jù)信息進(jìn)行綜合,吸取不同數(shù)據(jù)源的特點(diǎn)然后從中提取出統(tǒng)一的,比單一數(shù)據(jù)更好、更豐富的信息。圖1-14多源數(shù)據(jù)融合示例1.6.4
大數(shù)據(jù)分析面臨的問(wèn)題例如在感知問(wèn)題上,單一的傳感器總是有一定的不足,就像我們?nèi)艘粯樱枰枚?、鼻、眼、四肢等多“傳感器”協(xié)作(融合)來(lái)探索和感知世界,即“多元融合”,而在道路兩側(cè)或者車(chē)載感知中,則需要多種傳感器來(lái)共同感知路面環(huán)境。這個(gè)問(wèn)題上,多源信息融合的目的,就是將各單一信號(hào)源的感知結(jié)果進(jìn)行組合優(yōu)化,從而輸出更有效的道路安全信息。第1章大數(shù)據(jù)分析基礎(chǔ)大數(shù)據(jù)分析與實(shí)踐——社會(huì)研究與數(shù)字治理第2章社會(huì)研究與方法大數(shù)據(jù)分析與實(shí)踐——社會(huì)研究與數(shù)字治理吉姆·格雷是一個(gè)傳奇人物。他是1998年圖靈獎(jiǎng)得主,著名的計(jì)算
機(jī)科學(xué)家。2007年1月28日,他在自己酷愛(ài)的航海運(yùn)動(dòng)中駕駛帆船失
蹤于茫茫大海之上。而就在短短17天之前,1月11日,他在加州山景城
召開(kāi)的國(guó)家研究委員會(huì)—計(jì)算機(jī)科學(xué)和電信委員會(huì)會(huì)議上,發(fā)表了他的著名演講:科學(xué)方法的一次革命。演講中,吉姆·格雷將科學(xué)研究的范式分為四類(lèi)——除了之前的實(shí)驗(yàn)范式、理論范式、仿真范式之外,信息技術(shù)已經(jīng)促使新的范式出現(xiàn)——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)。這個(gè)第四范式,所謂的“數(shù)據(jù)密集型”,也就是現(xiàn)在我們所稱的“大數(shù)據(jù)”。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義一、何謂“第四范式”“范式”一詞,一般指已經(jīng)形成模式的,可直接套用的某種特定方案或路線。在計(jì)算機(jī)科學(xué)界,編程有編程范式,數(shù)據(jù)庫(kù)有數(shù)據(jù)庫(kù)架構(gòu)的范式,不一而足??傊銓⑵湔J(rèn)為是某種必須遵循的規(guī)范或大家都在用的套路即可。在科學(xué)發(fā)現(xiàn)領(lǐng)域,第一范式是指以實(shí)驗(yàn)為基礎(chǔ)的科學(xué)研究模式。簡(jiǎn)單說(shuō)來(lái),就是以伽利略為代表的文藝復(fù)興時(shí)期的科學(xué)發(fā)展初級(jí)階段。在這一階段,伽利略老師爬上比薩斜塔扔兩個(gè)鐵球,掐著脈搏為擺動(dòng)計(jì)時(shí)等等我們耳熟能詳?shù)墓适拢瑸楝F(xiàn)代科學(xué)開(kāi)辟了嶄新的領(lǐng)域,開(kāi)啟了現(xiàn)代科學(xué)之門(mén)。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義當(dāng)實(shí)驗(yàn)條件不具備的時(shí)候,為了研究更為精確的自然現(xiàn)象,第二范
式,即理論研究為基礎(chǔ)的科學(xué)研究模式隨之而來(lái)。在這個(gè)階段,科學(xué)
家們會(huì)將無(wú)法用實(shí)驗(yàn)?zāi)M的科學(xué)原理用模型簡(jiǎn)化,去掉一些復(fù)雜的因素,
只留下關(guān)鍵因素,然后通過(guò)演算得到結(jié)論。比如我們熟知的牛頓第一定律:任何物體都要保持勻速直線運(yùn)動(dòng)或靜止?fàn)顟B(tài),直到外力迫使它改
變運(yùn)動(dòng)狀態(tài)為止。這個(gè)結(jié)論就是在假設(shè)沒(méi)有摩擦力的
情況下得出的。令人欣喜的是,當(dāng)時(shí)的理論科學(xué)與實(shí)
驗(yàn)科學(xué)結(jié)合得如此完美,任何一個(gè)理論都很容易被實(shí)
驗(yàn)所證實(shí)。因此第二范式很快成為重要的科研范式。圖2-1牛頓第一定律第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義第二范式發(fā)展到極致是19世紀(jì)末,當(dāng)時(shí)牛頓三大定律解釋了經(jīng)典力
學(xué),麥克斯韋理論解釋了電磁學(xué)。經(jīng)典物理學(xué)的大廈構(gòu)建得宏偉壯觀,
而且似乎毫無(wú)瑕疵。結(jié)果在20世紀(jì)初,天邊的兩朵烏云無(wú)情地破壞了它的完美。量子力學(xué)和相對(duì)論兩座嶄新的高山拔地而起,那是科學(xué)的另一個(gè)黃金時(shí)代。然而,不論是量子力學(xué)還是相對(duì)論,不約而同地以理論研究為主,超凡的頭腦和計(jì)算超越了實(shí)驗(yàn)。盡管在一段時(shí)間之后,經(jīng)過(guò)復(fù)雜設(shè)計(jì)的實(shí)驗(yàn)終究還是證實(shí)了計(jì)算的理論。因此,每一位中學(xué)物理老師都會(huì)把牛頓和愛(ài)因斯坦相提并論,并稱人類(lèi)歷史上最偉大的兩位物理學(xué)家。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義隨著驗(yàn)證理論的難度和經(jīng)濟(jì)投入越來(lái)越高,正在科學(xué)研究逐漸力不
從心之際,另一位頂尖科學(xué)家站了出來(lái)。馮·諾依曼在20世紀(jì)中期提出
了現(xiàn)代電子計(jì)算機(jī)的架構(gòu),并一直持續(xù)到今天。于是,隨著電子計(jì)算機(jī)的
高速發(fā)展,第三范式,即利用電子計(jì)算機(jī)對(duì)科學(xué)實(shí)驗(yàn)進(jìn)行模擬仿真的模式得到迅速普及。不論在基礎(chǔ)科學(xué)研究還是工程實(shí)驗(yàn)中,計(jì)算機(jī)仿真越來(lái)越多地取代實(shí)驗(yàn),成為科研的常用方法。半個(gè)世紀(jì)之后的2013年,諾貝爾化學(xué)獎(jiǎng)甚至授予了用計(jì)算機(jī)模擬開(kāi)發(fā)多尺度復(fù)雜化學(xué)系統(tǒng)模型的科學(xué)家卡普拉斯、萊維特和瓦謝勒。諾貝爾化學(xué)獎(jiǎng)評(píng)選委員會(huì)在聲明中說(shuō):現(xiàn)在,對(duì)化學(xué)家來(lái)說(shuō),計(jì)算機(jī)是同試管一樣重要的工具,計(jì)算機(jī)對(duì)真實(shí)生命的模擬已為化學(xué)領(lǐng)域大部分研究成果的取得立下了“汗馬功勞”。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義那么,時(shí)間進(jìn)入互聯(lián)網(wǎng)時(shí)代,吉姆·格雷認(rèn)為,鑒于數(shù)據(jù)的爆炸性增
長(zhǎng),數(shù)據(jù)密集范式理應(yīng)并且已經(jīng)從第三范式,即計(jì)算范式中分離出來(lái)成
為一個(gè)獨(dú)特的科學(xué)研究范式,即“第四范式”。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義二、“第四范式”的特點(diǎn)同樣是計(jì)算,第四范式與第三范式有什么區(qū)別呢?最顯著的區(qū)別就是:計(jì)算范式是先提出可能的理論,再搜集數(shù)據(jù),然后通過(guò)計(jì)算仿真進(jìn)行理論驗(yàn)證。而數(shù)據(jù)密集型范式是先有大量已知數(shù)據(jù),然后通過(guò)計(jì)算得出之前未知的可信理論。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義簡(jiǎn)單舉個(gè)例子吧。以前我們對(duì)一個(gè)問(wèn)題(比如霧霾)是這樣研究的:
首先,發(fā)現(xiàn)問(wèn)題,比如出現(xiàn)霧霾了,想知道霧霾是什么,怎么預(yù)防。其
次,發(fā)現(xiàn)這個(gè)事兒好像不那么簡(jiǎn)單,霧霾的形成機(jī)理除了源頭、成分等東
西之外,還包括氣象因素,如地形、風(fēng)向、濕度等,參數(shù)之多超出了我們的控制范圍。那么怎么辦呢?去除一些看起來(lái)不怎么重要的參數(shù),保留一些簡(jiǎn)單的參數(shù),提出一個(gè)理論。然后搜集數(shù)據(jù),用計(jì)算機(jī)進(jìn)行模擬,并不斷對(duì)理論進(jìn)行修正。最后得出可信度比較高的結(jié)果,以此來(lái)對(duì)可能形成霧霾天氣的預(yù)測(cè)。這條途徑大家都熟悉,這就是第三范式。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義但是,這條途徑中有一個(gè)看起來(lái)很小的問(wèn)題:你如何確定哪些參數(shù)
是重要的,哪些是不重要的?那些看起來(lái)不重要的參數(shù),會(huì)不會(huì)在某
些特定條件下,起到至關(guān)重要的作用?畢竟南美洲的一只蝴蝶扇扇翅膀
都可能引起印度洋的風(fēng)暴啊不是么?從這一點(diǎn)來(lái)看,能夠獲取最全面的數(shù)據(jù),也許才能真正探尋到霧霾的成因,以及做出更科學(xué)的預(yù)測(cè)。那么第四范式就是這樣一個(gè)研究方法。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義首先,布置海量的監(jiān)測(cè)點(diǎn),收集海量的數(shù)據(jù)。海量的意思就是比傳
統(tǒng)意義上多得多。傳統(tǒng)意義上我們?cè)诒本┦胁贾脦资畟€(gè)上百個(gè)監(jiān)測(cè)點(diǎn),
海量的意思……嗯,我們假設(shè)每款手機(jī)都自帶PM2.5測(cè)量功能,這樣全北
京市就有2000萬(wàn)個(gè)監(jiān)測(cè)點(diǎn),而且這些監(jiān)測(cè)點(diǎn)還有空間的移動(dòng)信息。這樣相對(duì)于固定監(jiān)測(cè)點(diǎn)所產(chǎn)生的數(shù)據(jù),就是海量數(shù)據(jù)。其次,利用這些數(shù)據(jù),分析得出霧霾的形成原因和預(yù)測(cè)。最后,驗(yàn)證預(yù)測(cè),從中總結(jié)出理論。大家已經(jīng)看到了,第二和第三步都只用了一句話。不是因?yàn)樗芎?jiǎn)單,恰恰相反,而是因?yàn)樗珡?fù)雜,無(wú)法在這里給出詳細(xì)闡述。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義事實(shí)上,在當(dāng)今,許多研究人員所面臨的最大問(wèn)題,已經(jīng)不是缺少
數(shù)據(jù),而是面對(duì)太多的數(shù)據(jù),不知道怎么來(lái)使用它們。因?yàn)檫@種體量
的數(shù)據(jù),基本上可以認(rèn)為,已經(jīng)超出了普通人的理解和認(rèn)知能力。幸運(yùn)的是我們有了超級(jí)計(jì)算機(jī),有了計(jì)算集群,有了超大的分布式數(shù)據(jù)庫(kù),還有了基于互聯(lián)網(wǎng)的云計(jì)算。這就使得運(yùn)用第四范式的科學(xué)研究成為可能。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義三、“第四范式”的挑戰(zhàn)第四范式科研已經(jīng)在氣象和環(huán)境、生物和醫(yī)學(xué)方面取得了很大進(jìn)展,但
很明顯,隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,各行各業(yè)產(chǎn)生的數(shù)據(jù)呈現(xiàn)爆炸式的增長(zhǎng),
科研人員所面對(duì)的各個(gè)領(lǐng)域的數(shù)據(jù)只會(huì)越來(lái)越多。那么問(wèn)題來(lái)了,實(shí)現(xiàn)第四范式的科研,從中發(fā)現(xiàn)更多更新的成果,所面臨的挑戰(zhàn)有哪些呢?第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義第一,不同結(jié)構(gòu)數(shù)據(jù)的整合。一個(gè)研究霧霾的人員需要?dú)庀髷?shù)據(jù),還需要工廠排放的數(shù)據(jù)、汽車(chē)尾氣
的數(shù)據(jù),這些不同來(lái)源的數(shù)據(jù)勢(shì)必有不同的形態(tài)。簡(jiǎn)單點(diǎn)說(shuō),一個(gè)Excel表
跟一個(gè)Word文檔,怎么把它們結(jié)合起來(lái)使用(當(dāng)然實(shí)際情況比這個(gè)復(fù)雜得多)。這是一開(kāi)始使用第四范式時(shí)就會(huì)面對(duì)的最大問(wèn)題。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義第二,海量數(shù)據(jù)的處理。使用Excel表可以處理多少條數(shù)據(jù)?很多人可能不知道,一個(gè)工作表是
65535行(2的16次方=65536)和255列(2的8次方=256)。使用Access數(shù)據(jù)
表呢?實(shí)際使用中基本上超過(guò)十萬(wàn)條速度就會(huì)很慢了。在SQLServer或者Oracle這類(lèi)商用數(shù)據(jù)庫(kù)中,百萬(wàn)到千萬(wàn)級(jí)數(shù)據(jù)記錄問(wèn)題不大,過(guò)億甚至到千億的量級(jí),憑借分布式處理也還可以支撐。但更多呢?千萬(wàn)億量級(jí)呢?第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義不要以為千萬(wàn)億量級(jí)是一個(gè)很遙遠(yuǎn)的概念。簡(jiǎn)單起見(jiàn),不按1024按
1000算,1MB就是1百萬(wàn)Byte,1GB就是十億,1TB就是萬(wàn)億,1PB就
是千萬(wàn)億……PB后面是EB、ZB、YB。阿里巴巴2014年3月宣布其數(shù)據(jù)量已經(jīng)超過(guò)100PB。所以說(shuō),當(dāng)你想剁手的時(shí)候,想象一下你給這么多數(shù)據(jù)里所做的貢獻(xiàn)也不過(guò)是滄海一粟。為了解決這么多數(shù)據(jù)的問(wèn)題,常見(jiàn)的數(shù)據(jù)庫(kù)肯定無(wú)能為力了。好在做搜索引擎的那些人早就要面對(duì)這個(gè)問(wèn)題,然后他們也比較好地解決了這個(gè)問(wèn)題。谷歌的MapReduce架構(gòu),阿帕奇在此基礎(chǔ)上弄出的Hadoop,幾年的工夫就席卷了計(jì)算機(jī)界,成為目前分析大數(shù)據(jù)的領(lǐng)先平臺(tái)。所以現(xiàn)在這個(gè)問(wèn)題暫時(shí)算是解決了,當(dāng)然了,永遠(yuǎn)只能是“暫時(shí)”解決。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義第三,算法的發(fā)展。其實(shí)針對(duì)大數(shù)據(jù)的算法基本上還是最開(kāi)始的那些算法。最基本的,如
貝葉斯、決策樹(shù)、k-關(guān)聯(lián)算法、聚類(lèi)分析等。值得一提的是人工智能,從
70年代發(fā)展以后,人工智能借著大數(shù)據(jù)的東風(fēng)發(fā)展了一把。因?yàn)槿斯ぶ悄苤饕揽看罅繑?shù)據(jù)的訓(xùn)練,所以數(shù)據(jù)越多,對(duì)人工智能的訓(xùn)練就越靠譜。因此,類(lèi)似于人工智能、遺傳算法之類(lèi)的分層次不太可控的算法,應(yīng)該是發(fā)展方向。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義第四,研究結(jié)論的展現(xiàn)。這是值得一提的方面。對(duì)于大數(shù)據(jù)的分析,展現(xiàn)出的結(jié)論一般人未必能
直觀地了解。過(guò)億數(shù)量級(jí)的數(shù)據(jù),已經(jīng)超出了人類(lèi)統(tǒng)計(jì)學(xué)的理解能力。如何
將其展現(xiàn)給人類(lèi)(甲方/用戶/普通群眾),則是一個(gè)如何將神化的東西接地氣的問(wèn)題。大數(shù)據(jù)分析結(jié)果的可視化,近年來(lái)是一個(gè)熱點(diǎn)。另一方面,移動(dòng)互聯(lián)時(shí)代,讀圖比讀文字要直觀得多。因此,如何將研究結(jié)果展現(xiàn)出來(lái),讓人腦能夠接受,這也是一個(gè)很重要的問(wèn)題。第2章導(dǎo)讀案例第四范式:大數(shù)據(jù)對(duì)于科研的意義目錄社會(huì)研究的概念社會(huì)研究的主要過(guò)程調(diào)查研究實(shí)驗(yàn)研究12345利用文獻(xiàn)的定量研究6實(shí)地調(diào)查社會(huì)研究的概念PART012.12.1社會(huì)研究的概念社會(huì)研究的目的在于認(rèn)識(shí)客觀社會(huì),解決社會(huì)中的各種問(wèn)題,探討社會(huì)發(fā)展的客觀規(guī)律,推動(dòng)社會(huì)的發(fā)展。社會(huì)研究的定義是:一種以經(jīng)驗(yàn)的方式,對(duì)社會(huì)世界人們的態(tài)度行為關(guān)系,以及由此形成的各種社會(huì)關(guān)系、社會(huì)產(chǎn)物所進(jìn)行的科學(xué)探究活動(dòng)。社會(huì)研究分為基礎(chǔ)研究和應(yīng)用研究?jī)煞N?;A(chǔ)研究是尋求理論知識(shí)的純粹科學(xué)研究。它探討的問(wèn)題是:是什么?怎么樣?為什么?應(yīng)用研究則是“求用”的研究,尋找實(shí)現(xiàn)其理論的路徑和方法,屬于應(yīng)用科學(xué),探究的問(wèn)題是:
做什么?怎樣做?如何解決現(xiàn)實(shí)中的問(wèn)題。基礎(chǔ)研
究和應(yīng)用研究相輔相成。2.1.3社會(huì)研究的基本方法2.1.1社會(huì)研究的特征2.1.2社會(huì)研究的理論問(wèn)題社會(huì)研究的目的在于認(rèn)識(shí)客觀社會(huì),解決社會(huì)中的各種問(wèn)題,探討社會(huì)發(fā)展的客觀規(guī)律,推動(dòng)社會(huì)的發(fā)展。2.1社會(huì)研究的概念2.1.1
社會(huì)研究的特征社會(huì)研究的三個(gè)基本特征是,研究主題是社會(huì)的而非自然的,研究方式是經(jīng)驗(yàn)的而非思辨的,所面對(duì)的問(wèn)題是科學(xué)的而非價(jià)值判斷的。同為科學(xué),社會(huì)研究和自然研究有著共同特點(diǎn):實(shí)證和邏輯。實(shí)證意味著要用事實(shí)說(shuō)話,真理最終要靠時(shí)間來(lái)檢驗(yàn)。邏輯意味著要自圓其說(shuō),不可自相矛盾。2.1.1
社會(huì)研究的特征社會(huì)研究和自然研究有著共同的科學(xué)規(guī)范。首先,兩者共同要恪守的第一類(lèi)基本規(guī)范有兩條:普遍主義和誠(chéng)實(shí)。普遍主義是研究共同體的評(píng)價(jià)原則,即評(píng)價(jià)的唯一根據(jù)是研究者的結(jié)果,其他各種社會(huì)屬性不應(yīng)對(duì)此產(chǎn)生影響;誠(chéng)實(shí)則是對(duì)每個(gè)研究者基本的道德要求,即從事研究必須具有嚴(yán)謹(jǐn)求實(shí)的科學(xué)態(tài)度。第二類(lèi)規(guī)范則是用倡導(dǎo)或偏好的方式表達(dá)的,我們可以把它們歸結(jié)為公有性、無(wú)私性和有條理的懷疑注意。社會(huì)研究的主要困難包括:人具有特殊性;研究有干擾性;社會(huì)現(xiàn)象有復(fù)雜性;研究受特定的制約;保持客觀性的困難。2.1.2
社會(huì)研究的理論問(wèn)題概念是構(gòu)建理論的“基石”和“基本材料”,是對(duì)現(xiàn)象的一種抽象,是客觀事物屬性的主觀反映。概念分為能直接觀察的,如房屋、黃金,還有不能直接觀察的,如階級(jí)、階層。概念的抽象層次有高有低。抽象層次越高,特征越模糊,覆蓋面越大。社會(huì)研究理論的構(gòu)成包括下面一些概念。2.1.2
社會(huì)研究的理論問(wèn)題(1)變量:是概念的一種,由若干子概念構(gòu)成,擁有一個(gè)以上的取值。概念的常量是指其只包含自身。概念是理論的基礎(chǔ),變量是構(gòu)成理論的元素??梢詫⒆兞糠譃樽宰兞浚海▁),引起其他變量發(fā)生變化;應(yīng)變量:(y),由于其他變量變化而導(dǎo)致自身發(fā)生變化;中介變量:表明自變量影響應(yīng)變量的方式。理論由變量語(yǔ)言構(gòu)成,目的在于描述不同變量之間的內(nèi)在邏輯關(guān)系。變量是構(gòu)成理論的元素。變量也可以分為類(lèi)別變量,順序變量,間距
變量和比率變量。對(duì)應(yīng)著測(cè)量層次的定類(lèi),定序,
定距和定比。2.1.2
社會(huì)研究的理論問(wèn)題(2)命題:直接由概念構(gòu)成。理論由一組命題構(gòu)成。(3)假設(shè):是社會(huì)研究中最為常用的命題形式,有關(guān)變量間關(guān)系的嘗試性陳述,或者一種可以用經(jīng)驗(yàn)事實(shí)檢驗(yàn)的命題。假設(shè)來(lái)源于常識(shí),現(xiàn)有理論或個(gè)人推測(cè)等等。(4)指標(biāo):是指可以被觀察到的一個(gè)概念或一個(gè)變量??梢?jiàn),理論由概念、變量、命題、假設(shè)構(gòu)成。其中,變量是一種特殊的概念,假設(shè)是一種特殊的命題。2.1.2
社會(huì)研究的理論問(wèn)題社會(huì)研究的理論問(wèn)題一般包括以下方面。(1)理論的含義與特征:理論是一種以系統(tǒng)化的方式講經(jīng)驗(yàn)世界中的某些方面概念化并組織起來(lái)的一組內(nèi)在相關(guān)的命題;理論的本質(zhì)是命題,來(lái)源于經(jīng)驗(yàn)世界,特點(diǎn)是抽象的系統(tǒng)的,目的在于解釋經(jīng)驗(yàn)現(xiàn)實(shí)。(2)理論的層次,包括:宏觀理論,針對(duì)全部社會(huì)現(xiàn)象和社會(huì)行為。又稱之為一般理論或巨型理論;中觀理論,針對(duì)某一方面社會(huì)現(xiàn)象和社會(huì)行為;微觀理論是一組陳述若干概念之間關(guān)系,并在邏輯上相互聯(lián)系的命題。所以,微觀理論由一組命題組成,在邏輯上相互聯(lián)系,這些命題的一部分可以由經(jīng)驗(yàn)解釋之。值得注意的是,研究者一般研究中觀理論或微觀理論。2.1.2
社會(huì)研究的理論問(wèn)題(3)判斷理論優(yōu)劣的標(biāo)準(zhǔn):解釋的范圍越廣,解釋越精確,結(jié)構(gòu)越精煉。(4)理論對(duì)經(jīng)驗(yàn)的作用:理論作為研究的基礎(chǔ)和背景,指導(dǎo)研究的方向,提供研究的解釋,為研究提供特定視野框架。(5)經(jīng)驗(yàn)對(duì)理論的作用:包括開(kāi)創(chuàng)理論、重建理論、扭轉(zhuǎn)理論、澄清理論。(6)理論的建構(gòu)與檢驗(yàn)(華萊士科學(xué)環(huán)的邏輯)。2.1.2
社會(huì)研究的理論問(wèn)題社會(huì)學(xué)家華萊士提出了社會(huì)研究的邏輯模型(1971年),即“科學(xué)環(huán)”。在這一模型中,華萊士用方框表示五個(gè)知識(shí)部分:①理論,②假設(shè),③經(jīng)驗(yàn)觀察,④經(jīng)驗(yàn)概括,⑤被檢驗(yàn)過(guò)的假設(shè);用橢圓表示研究各階段中使用的六套方法:①邏輯演繹方法,②操作方法,③量度、測(cè)定與分析方法,④檢驗(yàn)假設(shè)的方法,⑤邏輯推論的方法,⑥建立概念、命題和理論的方法。各個(gè)知識(shí)部分通過(guò)各種方法轉(zhuǎn)換為其他形式,圖中的箭頭表示知識(shí)形式轉(zhuǎn)換的階段。中心線的右邊是理論演繹的過(guò)程,即把理論應(yīng)用到現(xiàn)實(shí)中,在這一過(guò)程中使用演繹法。中心線的左邊是理論建構(gòu)的過(guò)程,它首先是運(yùn)用歸納法有經(jīng)驗(yàn)觀察概括出研究結(jié)論,然后再上升到抽象的概念和理論。在橫剖線的上方屬于理論研究,處于抽象層次。下方屬于經(jīng)驗(yàn)研究。2.1.2
社會(huì)研究的理論問(wèn)題這一模型是對(duì)社會(huì)研究中各種邏輯過(guò)程的概括,表明了社會(huì)研究是從理論——假設(shè)——經(jīng)驗(yàn)觀察——經(jīng)驗(yàn)概括或檢
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 八年級(jí)組第一學(xué)期工作計(jì)劃
- 留置導(dǎo)尿的操作流程
- 危險(xiǎn)化學(xué)品應(yīng)急管理策略-洞察分析
- 2023-2024學(xué)年山東省淄博市高一上學(xué)期期末考試生物試題(解析版)
- 新興市場(chǎng)金融波動(dòng)-洞察分析
- 血管生成素與動(dòng)脈瘤形成關(guān)聯(lián)研究-洞察分析
- 心電圖機(jī)操作流程
- 小學(xué)六年級(jí)數(shù)學(xué)上學(xué)期教學(xué)計(jì)劃
- 2024江蘇省建筑安全員-C證考試(專職安全員)題庫(kù)及答案
- 2024浙江省安全員-C證考試(專職安全員)題庫(kù)及答案
- 房地產(chǎn)估計(jì)第八章成本法練習(xí)題參考
- 2023年廣東羅浮山旅游集團(tuán)有限公司招聘筆試題庫(kù)及答案解析
- 《社會(huì)主義核心價(jià)值觀》優(yōu)秀課件
- DB11-T1835-2021 給水排水管道工程施工技術(shù)規(guī)程高清最新版
- 《妊娠期糖尿病患者個(gè)案護(hù)理體會(huì)(論文)3500字》
- 解剖篇2-1內(nèi)臟系統(tǒng)消化呼吸生理學(xué)
- 《小學(xué)生錯(cuò)別字原因及對(duì)策研究(論文)》
- 便攜式氣體檢測(cè)報(bào)警儀管理制度
- 酒店安全的管理制度
- (大潔王)化學(xué)品安全技術(shù)說(shuō)明書(shū)
- 2022年科學(xué)道德與學(xué)術(shù)規(guī)范知識(shí)競(jìng)賽決賽題庫(kù)(含答案)
評(píng)論
0/150
提交評(píng)論