人工智能通識(shí)教程 第2版 課件 第3章 大數(shù)據(jù)與人工智能_第1頁(yè)
人工智能通識(shí)教程 第2版 課件 第3章 大數(shù)據(jù)與人工智能_第2頁(yè)
人工智能通識(shí)教程 第2版 課件 第3章 大數(shù)據(jù)與人工智能_第3頁(yè)
人工智能通識(shí)教程 第2版 課件 第3章 大數(shù)據(jù)與人工智能_第4頁(yè)
人工智能通識(shí)教程 第2版 課件 第3章 大數(shù)據(jù)與人工智能_第5頁(yè)
已閱讀5頁(yè),還剩67頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2版人工智能通識(shí)教程第3章周蘇教授QQ:81505050大數(shù)據(jù)與人工智能導(dǎo)讀案例:電子商務(wù)的推薦系統(tǒng)知道人們?yōu)槭裁磳?duì)這些信息感興趣可能是有用的,但這個(gè)問題目前并不是很重要。但是,知道“是什么”可以創(chuàng)造點(diǎn)擊率,這種洞察力足以重塑很多行業(yè),不僅僅只是電子商務(wù)。01什么是模糊邏輯02模糊邏輯系統(tǒng)03數(shù)據(jù)思維與變革04大數(shù)據(jù)與人工智能目錄/CONTENTS模糊邏輯模仿人腦的不確定性概念判斷和推理思維方式,對(duì)于模型未知或不能確定的描述系統(tǒng)等,應(yīng)用模糊集合和模糊規(guī)則進(jìn)行推理,表達(dá)過渡性界限或定性知識(shí)經(jīng)驗(yàn),實(shí)行模糊綜合判斷,推理解決常規(guī)方法難于對(duì)付的規(guī)則型模糊信息問題。

圖3-1模糊推理過程第3章大數(shù)據(jù)與人工智能大數(shù)據(jù)是人工智能的基礎(chǔ)。大數(shù)據(jù)時(shí)代,人們對(duì)待數(shù)據(jù)的思維方式主要發(fā)生了以下三個(gè)變化:第一,人們處理的數(shù)據(jù)從樣本數(shù)據(jù)變成全部數(shù)據(jù);第二,由于是全樣本數(shù)據(jù),人們不得不接受數(shù)據(jù)的混雜性,而放棄對(duì)精確性的追求;第三,人們通過對(duì)大數(shù)據(jù)的處理,減少對(duì)因果關(guān)系的渴求,轉(zhuǎn)而關(guān)注相關(guān)關(guān)系。第3章大數(shù)據(jù)與人工智能PART01什么是模糊邏輯計(jì)算機(jī)的二進(jìn)制邏輯通常只有兩種狀態(tài),一句陳述要么是真要么是假,然而,現(xiàn)實(shí)生活中卻很少有這么一刀切的情況。一個(gè)人如果不餓不一定就是餓,有點(diǎn)餓和餓昏頭不是一回事兒,有點(diǎn)冷比凍僵了的程度也要輕得多。如果我們將含義的所有層次都納入考慮范疇,那么寫入計(jì)算機(jī)程序的規(guī)則將會(huì)變得過分的復(fù)雜難懂。3.1什么是模糊邏輯昆蟲有許多本能幫助其應(yīng)對(duì)不同環(huán)境。它可能傾向于遠(yuǎn)離光線,隱藏在樹葉和巖石下,這樣不容易被捕食者發(fā)現(xiàn)。然而,它也會(huì)朝食物移動(dòng),否則就會(huì)餓死。如果我們要制作一個(gè)甲蟲機(jī)器人,可以考慮賦予其如下規(guī)則:如果光線亮度高于50%,食物質(zhì)量低于50%,那么遠(yuǎn)離,否則接近。圖3-2甲蟲機(jī)器人3.1.1甲蟲機(jī)器人的規(guī)則如果食物和光線所占百分比一致會(huì)怎么樣?吃飽了的昆蟲會(huì)為了保持安全繼續(xù)藏匿在黑暗中,而饑餓的昆蟲就會(huì)冒險(xiǎn)去接近食物。光越亮,越危險(xiǎn);食物質(zhì)量越高,昆蟲越容易冒險(xiǎn)。我們可以根據(jù)這一情況制定出更多規(guī)則,例如:如果饑餓和光線高于75%,食物質(zhì)量低于25%,那么遠(yuǎn)離,否則接近。3.1.1甲蟲機(jī)器人的規(guī)則但是這些規(guī)則都無法很好把握極值。如果光線為76%,食物質(zhì)量為24%,機(jī)器人就會(huì)餓死,雖然這僅僅與所設(shè)置的規(guī)則相差1%。當(dāng)然,我們也可以設(shè)置更多規(guī)則來應(yīng)對(duì)極值和特殊情況,但這樣的操作很快就會(huì)把程序變成無法理解的一團(tuán)亂麻??墒?,在不讓其變復(fù)雜的前提下,怎么能夠處理所有變數(shù)呢?3.1.1甲蟲機(jī)器人的規(guī)則假設(shè)我們正在經(jīng)營(yíng)一家婚姻介紹所。一個(gè)客戶的要求是高個(gè)子但不富有的男子。我們的記錄中有一名男子,身高1.78米,年收入是全國(guó)平均水平的兩倍。應(yīng)該將這名男子介紹給客戶嗎?如何判斷什么是個(gè)子高?什么是富有?怎樣對(duì)資料庫(kù)中的男子進(jìn)行打分來找到最符合的對(duì)象?身高和收入之間不能簡(jiǎn)單加減,就像蘋果和橙子不能混為一談一樣。3.1.2模糊邏輯的發(fā)明模糊邏輯的發(fā)明就是為了解決這類問題。在常規(guī)邏輯中,上述規(guī)則的情況只有兩種,不是對(duì)就是錯(cuò),即不是1就是0。要么有光要么沒有光,要么高要么不高。而在模糊邏輯中,每一個(gè)情況的真值可以是0到1中間的任何值。假定身高超過2米的男子是絕對(duì)的高個(gè)子,身高低于1.7米的為不高,那么1.78米高的客戶可以算作0.55高,既不是特別高但是也不矮。要計(jì)算他不高的程度,用1減去高的程度即可。因此,該男子是0.55高,也就是0.45不高。3.1.2模糊邏輯的發(fā)明我們同樣可以對(duì)“矮”的范疇進(jìn)行界定。身高低于1.6米是絕對(duì)的矮個(gè)子,身高超過1.75米為不矮。由此可以發(fā)現(xiàn)“高”和“矮”的定義有一部分是重疊的,也就意味著處于中間值的人在某種程度上來說是高,而在另一種程度上來說是矮?!鞍焙汀安桓摺笔莾蓚€(gè)概念,“高”“矮”“不高”和“不矮”對(duì)應(yīng)的值都是不同的。類似地,我們也可以說他是0.2富有,也就是0.8不富有。女性客戶的要求是“高AND(和)不富有”,所以我們需要計(jì)算“0.55AND0.8”,結(jié)果是0.44。通過檢索所有各選項(xiàng),找到得分最高者就可以介紹給客戶了。3.1.2模糊邏輯的發(fā)明在模糊邏輯中進(jìn)行“AND”與“OR”運(yùn)算時(shí)計(jì)算方法不同,如何選擇應(yīng)當(dāng)根據(jù)數(shù)字所起的作用決定。本例中是將兩個(gè)數(shù)字相乘。另一種純數(shù)學(xué)方式就是選擇二者中的最小值。然而,如果采取這樣的方式,較大的值將不影響結(jié)果。同樣身高的男子,一個(gè)0.5不富有,另一個(gè)0.8不富有,其運(yùn)算結(jié)果都是一樣的。同樣,我們也可以為甲蟲機(jī)器人設(shè)置規(guī)則,如果饑餓并且光線不太亮,那么就朝食物進(jìn)發(fā)。這些例子展示了可以利用模糊邏輯解決的問題類型。3.1.2模糊邏輯的發(fā)明專家系統(tǒng)是利用人類專長(zhǎng)建立起來的,可以提供程序使用的明確規(guī)則。系統(tǒng)可能會(huì)說“如果溫度高于95度超過兩分鐘,或是高于97度超過一分鐘,那么可以斷定恒溫器損壞”。但是更多情況下它們會(huì)說“如果溫度過高的情況持續(xù)太久,那么恒溫器可能已經(jīng)損壞”。這時(shí)需要由程序員負(fù)責(zé)填進(jìn)具體數(shù)字。而利用模糊邏輯,則完全可以制定與專家所言一致的規(guī)則。3.1.3制定模糊邏輯的規(guī)則如果溫度過高并且溫度過高的時(shí)間過長(zhǎng),那么恒溫器已經(jīng)損壞。程序?qū)?duì)“恒溫器已經(jīng)損壞”這一命題進(jìn)行賦值,取值在0到1之間。如果溫度只是稍微偏高并且沒有持續(xù)太長(zhǎng)時(shí)間,那么命題真值可能約為0.1,即不太可能。而其他規(guī)則得出的值可能更高。比如,假設(shè)另一條規(guī)則判定輸入冷卻器損壞真值為0.95,那么程序?qū)?bào)告造成故障最有可能的原因就是輸入冷卻器,這些數(shù)據(jù)被稱作可能性。與概率不同,0.1并不意味著恒溫器有10%的概率已經(jīng)損壞。高個(gè)子真值0.55也只代表他個(gè)子高的可能性,這僅僅是我們衡量可能性的一種方式。類似地,如果是10%肯定恒溫器損壞,如果是95%肯定問題出在輸入冷卻器。3.1.3制定模糊邏輯的規(guī)則更加復(fù)雜的專家系統(tǒng)可能用于決定銀行是否應(yīng)該向客戶提供貸款,規(guī)則如下:如果薪水高并且工作穩(wěn)定性高,那么風(fēng)險(xiǎn)低。如果薪水低或者工作穩(wěn)定性低,那么風(fēng)險(xiǎn)中等。如果信用評(píng)分低,那么風(fēng)險(xiǎn)高。這一部分程序可能得出以下數(shù)據(jù):風(fēng)險(xiǎn)低=0.1風(fēng)險(xiǎn)中等=0.3風(fēng)險(xiǎn)高=0.73.1.3制定模糊邏輯的規(guī)則通過數(shù)學(xué)算法,這三組數(shù)據(jù)可以轉(zhuǎn)化為評(píng)估風(fēng)險(xiǎn)的單個(gè)數(shù)字,這一過程被稱為去模糊化。從上述數(shù)據(jù)我們還是可以看出借貸的風(fēng)險(xiǎn)程度可能為中等偏上。3.1.3制定模糊邏輯的規(guī)則模糊邏輯的另一用途就是控制機(jī)械裝置,例如控制供暖系統(tǒng)的部分規(guī)則如下:如果溫度高,那么停止供暖。如果溫度非常低,那么加強(qiáng)供暖。如果溫度低并且升溫慢,那么加強(qiáng)供暖。如果溫度低并且升溫快,那么中等供暖。如果溫度稍微偏低并且升溫慢,那么中等供暖。如果溫度稍微偏低并且升溫快,那么停止供暖。3.1.3制定模糊邏輯的規(guī)則運(yùn)行所有這些規(guī)則后,我們可以得到應(yīng)該停止供暖、中等供暖,以及加強(qiáng)供暖等的可能性。將這些可能性轉(zhuǎn)化為單個(gè)數(shù)據(jù)后就可以相應(yīng)地設(shè)置加熱器了。模糊控制系統(tǒng)管控設(shè)備狀態(tài),并生成控制信號(hào)不斷調(diào)整以維持理想狀態(tài)。在設(shè)備非線性的情況下,某種控制可能因設(shè)備狀態(tài)產(chǎn)生不同影響,而模糊控制系統(tǒng)的優(yōu)勢(shì)在此時(shí)就能得以展現(xiàn)。3.1.3制定模糊邏輯的規(guī)則所謂模糊邏輯,是建立在多值邏輯基礎(chǔ)上,運(yùn)用模糊集合的方法來研究模糊性思維、語(yǔ)言形式及其規(guī)律的科學(xué)。模糊邏輯模仿人腦的不確定性概念判斷、推理思維方式,對(duì)于模型未知或不能確定的描述系統(tǒng)等,應(yīng)用模糊集合和模糊規(guī)則進(jìn)行推理,表達(dá)過渡性界限或定性知識(shí)經(jīng)驗(yàn),實(shí)行模糊綜合判斷,推理解決常規(guī)方法難于對(duì)付的規(guī)則型模糊信息問題。模糊邏輯善于表達(dá)界限不清晰的定性知識(shí)與經(jīng)驗(yàn),它區(qū)分模糊集合,處理模糊關(guān)系,模擬人腦實(shí)施規(guī)則型推理,解決種種不確定問題。3.1.4模糊邏輯的定義模糊邏輯十分有趣的原因有兩點(diǎn)。首先,它運(yùn)作良好,是將人類專長(zhǎng)轉(zhuǎn)化為自動(dòng)化系統(tǒng)的有力途徑。利用模糊邏輯建立的專家系統(tǒng)和控制程序能夠解決利用數(shù)學(xué)計(jì)算和常規(guī)邏輯系統(tǒng)難以解決的問題。其次,模糊邏輯與人類思維運(yùn)作模式十分匹配。它能夠成功吸收人類專長(zhǎng),因?yàn)閷<覀兊谋磉_(dá)方式恰好與其向程序注入信息的模式相符。模糊邏輯以重疊的模糊類別表達(dá)世界,這也正是我們思考的方式。3.1.4模糊邏輯的定義可以看到,傳統(tǒng)的人工智能是基于一些“清晰”的規(guī)則,這個(gè)“清晰”給出的結(jié)果往往是很詳細(xì)的,比如一個(gè)具體的房?jī)r(jià)預(yù)測(cè)值。而模糊邏輯模擬人的思考方式,對(duì)預(yù)測(cè)的房?jī)r(jià)值給出一個(gè)類似是高了還是低了的結(jié)果。不少創(chuàng)建智能的途徑,都是依賴人類程序員以不同形式編寫的系列規(guī)則。程序員能夠參與不同領(lǐng)域程序的編寫,歸根結(jié)底還是依賴規(guī)則的執(zhí)行。這些規(guī)則的存在也正是試圖以我們理解的思考過程建立起一個(gè)思考程序(圖3-3)。3.1.4模糊邏輯的定義

圖3-3模糊邏輯系統(tǒng)3.1.4模糊邏輯的定義1965年,美國(guó)加利福尼亞大學(xué)自動(dòng)控制理論專家查德在關(guān)于“模糊控制”的一系列論著中首先提出了模糊集合的概念,標(biāo)志著模糊數(shù)學(xué)的誕生。建立在二值邏輯基礎(chǔ)上的原有的邏輯與數(shù)學(xué)難以描述和處理現(xiàn)實(shí)世界中許多模糊性的對(duì)象。模糊數(shù)學(xué)與模糊邏輯實(shí)質(zhì)上是要對(duì)模糊性對(duì)象進(jìn)行精確的描述和處理。3.1.5模糊理論的發(fā)展模糊集合的引入,可將人的判斷、思維過程用比較簡(jiǎn)單的數(shù)學(xué)形式直接表達(dá)出來,從而使對(duì)復(fù)雜系統(tǒng)做出合乎實(shí)際的、符合人類思維方式的處理成為可能,為經(jīng)典模糊控制器的形成奠定了基礎(chǔ)。隨后,在1974年,英國(guó)人馬丹尼使用模糊控制語(yǔ)言建成的控制器、控制鍋爐和蒸汽機(jī),取得了良好的效果。他的實(shí)驗(yàn)研究標(biāo)志著模糊控制的誕生。3.1.5模糊理論的發(fā)展查德為了建立模糊性對(duì)象的數(shù)學(xué)模型,把只取0和1二值的普通集合概念推廣為在[0,1]區(qū)間上取無窮多值的模糊集合概念,并用“隸屬度”這一概念來精確地刻畫元素與模糊集合之間的關(guān)系。正因?yàn)槟:鲜且赃B續(xù)的無窮多值為依據(jù)的,所以,模糊邏輯可看做是運(yùn)用無窮連續(xù)值的模糊集合去研究模糊性對(duì)象的科學(xué)。把模糊數(shù)學(xué)的一些基本概念和方法運(yùn)用到邏輯領(lǐng)域中,產(chǎn)生了模糊邏輯變量、模糊邏輯函數(shù)等基本概念。對(duì)于模糊聯(lián)結(jié)詞與模糊真值表也作了相應(yīng)的對(duì)比研究。查德還開展了模糊假言推理等似然推理研究,有些成果已直接應(yīng)用于模糊控制器的研制。3.1.5模糊理論的發(fā)展創(chuàng)立和研究模糊邏輯的主要意義有:(1)運(yùn)用模糊邏輯變量、模糊邏輯函數(shù)和似然推理等新思想、新理論,為尋找解決模糊性問題的突破口奠定了理論基礎(chǔ),從邏輯思想上為研究模糊性對(duì)象指明了方向。(2)模糊邏輯在原有的布爾代數(shù)、二值邏輯等數(shù)學(xué)和邏輯工具難以描述和處理的自動(dòng)控制過程、疑難病癥的診斷、大系統(tǒng)的研究等方面,都具有獨(dú)到之處。3.1.5模糊理論的發(fā)展(3)在方法論上,為人類從精確性到模糊性、從確定性到不確定性的研究提供了正確的研究方法。此外,在數(shù)學(xué)基礎(chǔ)研究方面,模糊邏輯有助于解決某些悖論。對(duì)辯證邏輯的研究也會(huì)產(chǎn)生深遠(yuǎn)的影響。當(dāng)然,模糊邏輯理論本身還有待進(jìn)一步系統(tǒng)化、完整化、規(guī)范化。3.1.5模糊理論的發(fā)展對(duì)于經(jīng)典模糊控制系統(tǒng)穩(wěn)態(tài)性能的改善,模糊集成控制、模糊自適應(yīng)控制、專家模糊控制與多變量模糊控制的研究,特別是針對(duì)復(fù)雜系統(tǒng)的自學(xué)習(xí)與參數(shù)(或規(guī)則)自調(diào)整模糊系統(tǒng)方面的研究,尤其受到各國(guó)學(xué)者的重視。將神經(jīng)網(wǎng)絡(luò)和模糊控制技術(shù)相互結(jié)合、取長(zhǎng)補(bǔ)短,形成了一種模糊神經(jīng)網(wǎng)絡(luò)技術(shù)。由此組成一個(gè)更接近于人腦的智能信息處理系統(tǒng),其發(fā)展前景十分誘人。3.1.5模糊理論的發(fā)展PART02模糊邏輯系統(tǒng)模糊邏輯系統(tǒng)是指利用模糊概念和模糊邏輯構(gòu)成的系統(tǒng),它可以用來充當(dāng)模糊邏輯控制器。由于選擇模糊概念和邏輯的隨意性,可以構(gòu)造出多種模糊邏輯系統(tǒng)。常見的有三類:純模糊邏輯系統(tǒng)、高木-關(guān)野模糊邏輯系統(tǒng)和具有模糊產(chǎn)生器以及模糊消除器的模糊邏輯系統(tǒng)。3.2模糊邏輯系統(tǒng)純模糊邏輯系統(tǒng)是其他類型的模糊邏輯系統(tǒng)的核心部分,它提供了一種量化語(yǔ)言信息和在模糊邏輯原則下利用這類語(yǔ)言信息的一般化模式。圖3-4純模糊邏輯系統(tǒng)結(jié)構(gòu)圖3.2.1純模糊邏輯系統(tǒng)純模糊邏輯系統(tǒng)也可以解釋為一個(gè)映射關(guān)系,其結(jié)構(gòu)圖中的中間部分具有類似于線性變換中變換矩陣的映射功能。純模糊邏輯系統(tǒng)的缺點(diǎn)在于它的輸入和輸出均為模糊集合,這不利于工程應(yīng)用。但是,它為其他具有應(yīng)用價(jià)值的模糊邏輯系統(tǒng)提供了一個(gè)基本的樣板,由此出發(fā)可以構(gòu)造出其他具有實(shí)用性質(zhì)的模糊邏輯系統(tǒng)。3.2.1純模糊邏輯系統(tǒng)高木-關(guān)野模糊邏輯系統(tǒng)(簡(jiǎn)稱T-S模糊邏輯系統(tǒng))是將純模糊邏輯系統(tǒng)中的每一條模糊規(guī)則的后件(即THEN以后的部分)加以定量化后形成的,也就是說,T-S模糊邏輯系統(tǒng)中的模糊規(guī)則,其前件是迷糊的,后件是確定的。這種模糊邏輯系統(tǒng)已經(jīng)在許多實(shí)際問題中得到成功的應(yīng)用,它的優(yōu)點(diǎn)是模糊邏輯系統(tǒng)的輸出為精確值,其中的參數(shù)也可以用參數(shù)估計(jì)、適應(yīng)機(jī)構(gòu)等方法加以確定。但是,由于模糊規(guī)則后件的確定性,T-S模糊邏輯系統(tǒng)不能方便地利用更多的語(yǔ)言信息和模糊原則,限制了其應(yīng)用的靈活性。3.2.2高木-關(guān)野模糊邏輯系統(tǒng)具有模糊產(chǎn)生器及模糊消除器的模糊邏輯系統(tǒng)的基本框圖如下圖所示。它是把純模糊邏輯系統(tǒng)的輸入端和輸出端分別接上模糊產(chǎn)生器和模糊消除器后構(gòu)成的。圖3-5具有模糊產(chǎn)生器和模糊消除器的模糊邏輯系統(tǒng)結(jié)構(gòu)圖3.2.3具有產(chǎn)生器及消除器的模糊邏輯系統(tǒng)具有模糊產(chǎn)生器及模糊消除器的模糊邏輯系統(tǒng)具有以下顯著優(yōu)點(diǎn):(1)這種模糊邏輯系統(tǒng)提供了一種描述領(lǐng)域?qū)<抑R(shí)的模糊規(guī)則的一般化方法;(2)使用者在設(shè)計(jì)其中的模糊產(chǎn)生器、模糊推理機(jī)和模糊消除器時(shí)具有很大的自由度,因此可以根據(jù)實(shí)際情況,找到一個(gè)最適合的模糊邏輯系統(tǒng);(3)其輸入、輸出均為精確值,因此適合在工程領(lǐng)域中應(yīng)用。3.2.3具有產(chǎn)生器及消除器的模糊邏輯系統(tǒng)這類模糊邏輯系統(tǒng)是由馬丹尼首先提出,已經(jīng)在許多工業(yè)過程和商業(yè)產(chǎn)品中得到成功應(yīng)用,如用在電冰箱、電飯鍋、洗衣機(jī)、空調(diào)等家用電器的自動(dòng)控制中,在洗衣機(jī)中感知裝載量和清潔劑濃度并據(jù)此調(diào)整它們的洗滌周期,同時(shí)還廣泛運(yùn)用在游戲的開發(fā)中。3.2.3具有產(chǎn)生器及消除器的模糊邏輯系統(tǒng)PART03數(shù)據(jù)思維與變革生產(chǎn)資料是人類文明的核心。農(nóng)業(yè)時(shí)代生產(chǎn)資料是土地,工業(yè)時(shí)代生產(chǎn)資料是機(jī)器,數(shù)字時(shí)代生產(chǎn)資料是數(shù)據(jù)。勞動(dòng)方式是人類文明的重要表征。漁獵農(nóng)耕時(shí)代形成的是以手工勞動(dòng)為主要方式的“手工文明”,工業(yè)時(shí)代發(fā)展為以機(jī)器勞動(dòng)為主要方式的“機(jī)器文明”,智能時(shí)代則基于數(shù)字勞動(dòng)而不斷推動(dòng)和豐富著“數(shù)字文明”。3.3數(shù)據(jù)思維與變革“數(shù)字文明”折射出以大數(shù)據(jù)、人工智能等為代表的數(shù)字技術(shù)對(duì)世界和人類的影響,在廣度和深度上有了質(zhì)的飛躍,到了塑造一種人類文明新形態(tài)的高度。數(shù)字技術(shù)正以新理念、新業(yè)態(tài)、新模式全面融入人類經(jīng)濟(jì)、政治、文化、社會(huì)、生態(tài)文明建設(shè)各領(lǐng)域和全過程,給人類生產(chǎn)生活帶來廣泛而深刻的影響。以數(shù)字技術(shù)為基座的互聯(lián)網(wǎng),促進(jìn)交流、提高效率,也在重塑制度、催生變革,更影響社會(huì)思潮和人類文明進(jìn)程。這是不可逆轉(zhuǎn)的時(shí)代趨勢(shì)。在人工智能時(shí)代,數(shù)據(jù)處理變得更加容易、更加快速,而“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系,其精髓是我們分析信息時(shí)的三個(gè)思維轉(zhuǎn)變,這三個(gè)轉(zhuǎn)變相互聯(lián)系和相互作用。3.3數(shù)據(jù)思維與變革很長(zhǎng)時(shí)間以來,因?yàn)橛涗?、?chǔ)存和分析數(shù)據(jù)的工具不夠好,為了讓分析變得簡(jiǎn)單,當(dāng)面臨大量數(shù)據(jù)時(shí),通常都依賴于采樣分析。但是采樣分析是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)代的產(chǎn)物。如今信息技術(shù)的條件已經(jīng)有了非常大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的,但是可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來會(huì)越來越多。大數(shù)據(jù)時(shí)代的第一個(gè)轉(zhuǎn)變,是要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。3.3.1思維轉(zhuǎn)變之一:樣本=總體采樣的目的是用最少的數(shù)據(jù)得到更多的信息,而當(dāng)我們可以處理海量數(shù)據(jù)的時(shí)候,采樣就沒有什么意義了。如今,計(jì)算和制表已經(jīng)不再困難,感應(yīng)器、手機(jī)導(dǎo)航、網(wǎng)站點(diǎn)擊和微信等被動(dòng)地收集了大量數(shù)據(jù),而計(jì)算機(jī)可以輕易地對(duì)這些數(shù)據(jù)進(jìn)行處理。但是,數(shù)據(jù)處理技術(shù)己經(jīng)發(fā)生了翻天覆地的改變,而我們的方法和思維卻沒有跟上這種改變。在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生。如果可能的話,我們會(huì)收集所有的數(shù)據(jù),即“樣本=總體”,這是指我們能對(duì)數(shù)據(jù)進(jìn)行深度探討。3.3.1思維轉(zhuǎn)變之一:樣本=總體谷歌流感趨勢(shì)預(yù)測(cè)不是依賴于隨機(jī)樣本,而是分析了全美國(guó)幾十億條互聯(lián)網(wǎng)檢索記錄。分析整個(gè)數(shù)據(jù)庫(kù),而不是對(duì)一個(gè)小樣本進(jìn)行分析,能夠提高微觀層面分析的準(zhǔn)確性,甚至能夠推測(cè)出某個(gè)特定城市的流感狀況。通過使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會(huì)在大量數(shù)據(jù)中淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識(shí)別的,只有掌握了所有的數(shù)據(jù)才能做到這一點(diǎn)。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進(jìn)行對(duì)比。而且,因?yàn)榻灰资羌磿r(shí)的,所以你的數(shù)據(jù)分析也應(yīng)該是即時(shí)的。3.3.1思維轉(zhuǎn)變之一:樣本=總體因?yàn)榇髷?shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面,我們都可以用大數(shù)據(jù)去論證新的假設(shè)。當(dāng)然,有些時(shí)候,我們還是可以使用樣本分析法,畢竟我們?nèi)匀换钤谝粋€(gè)資源有限的時(shí)代。但是更多時(shí)候,利用手中掌握的所有數(shù)據(jù)成為了最好也是可行的選擇。于是,慢慢地,我們會(huì)完全拋棄樣本分析。3.3.1思維轉(zhuǎn)變之一:樣本=總體當(dāng)我們測(cè)量事物的能力受限時(shí),關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的。直到今天,我們的數(shù)字技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。我們假設(shè)只要電子數(shù)據(jù)表格把數(shù)據(jù)排序,數(shù)據(jù)庫(kù)引擎就可以找出和我們檢索的內(nèi)容完全一致的檢索記錄。這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,所以我們必須盡可能精準(zhǔn)地量化我們的記錄。在某些方面,我們已經(jīng)意識(shí)到了差別。例如,一個(gè)小商店在晚上打烊的時(shí)候要把收銀臺(tái)里的每分錢都數(shù)清楚,但是我們不會(huì)、也不可能用“分”這個(gè)單位去精確度量國(guó)民生產(chǎn)總值。隨著規(guī)模的擴(kuò)大,對(duì)精確度的癡迷將減弱。3.3.2思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性針對(duì)小數(shù)據(jù)量和特定事情,追求精確性依然是可行的,比如一個(gè)人的銀行賬戶上是否有足夠的錢開具支票。但是,在大數(shù)據(jù)時(shí)代,很多時(shí)候,追求精確度已經(jīng)變得不可行,甚至不受歡迎了。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,分布在全球多個(gè)服務(wù)器上。擁有了大數(shù)據(jù),我們不再需要對(duì)一個(gè)現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可。當(dāng)然,我們也不是完全放棄了精確度,只是不再沉迷于此。適當(dāng)忽略微觀層面上的精確度會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力。3.3.2思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性大數(shù)據(jù)時(shí)代的第二個(gè)轉(zhuǎn)變,是我們樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再一味追求其精確性。在越來越多的情況下,使用所有可獲取的數(shù)據(jù)變得更為可能,但為此也要付出一定的代價(jià)。數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不準(zhǔn)確,與此同時(shí),一些錯(cuò)誤的數(shù)據(jù)也會(huì)混進(jìn)數(shù)據(jù)庫(kù)。然而,重點(diǎn)是我們能夠努力避免這些問題。3.3.2思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性大數(shù)據(jù)在多大程度上優(yōu)于算法,這個(gè)問題在自然語(yǔ)言處理上表現(xiàn)得很明顯。2000年,微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進(jìn)Word程序中語(yǔ)法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點(diǎn)更有效。所以,在實(shí)施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會(huì)有什么不同的變化。很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立在百萬字左右的語(yǔ)料庫(kù)基礎(chǔ)上。最后,他們決定往4種常見的算法中逐新添加數(shù)據(jù),先是一千萬字,再到一億字,最后到十億。3.3.2思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性結(jié)果有點(diǎn)令人吃驚。他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高了。當(dāng)數(shù)據(jù)只有500萬的時(shí)候,有一種簡(jiǎn)單的算法表現(xiàn)得很差,但當(dāng)數(shù)據(jù)達(dá)10億的時(shí)候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來的75%提高到了95%以上。與之相反地,在少量數(shù)據(jù)情況下運(yùn)行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時(shí),也會(huì)像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94%。后來,班科和布里爾在他們發(fā)表的研究論文中寫到,“如此一來,我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語(yǔ)料庫(kù)發(fā)展上?!?.3.2思維轉(zhuǎn)變之二:接受數(shù)據(jù)的混雜性這是因前兩個(gè)轉(zhuǎn)變而促成的。尋找因果關(guān)系是人類長(zhǎng)久以來的習(xí)慣,即使確定因果關(guān)系很困難而且用途不大,人類還是習(xí)慣性地尋找緣由。相反,在大數(shù)據(jù)時(shí)代,我們無須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系,這會(huì)給我們提供非常新穎且有價(jià)值的觀點(diǎn)。相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會(huì)發(fā)生,但是它會(huì)提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經(jīng)足夠大了。在很多時(shí)候,尋找數(shù)據(jù)間的關(guān)聯(lián)并利用這種關(guān)聯(lián)就足夠了。這些思想上的重大轉(zhuǎn)變導(dǎo)致了第三個(gè)變革。3.3.3思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系大數(shù)據(jù)時(shí)代的第三個(gè)轉(zhuǎn)變是人們嘗試著不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。例如,如果數(shù)百萬條電子醫(yī)療記錄都顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的藥理機(jī)制就沒有這種治療方法本身來得重要。同樣,只要我們知道什么時(shí)候是買機(jī)票的最佳時(shí)機(jī),就算不知道機(jī)票價(jià)格瘋狂變動(dòng)的原因也無所謂了。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時(shí)代,我們不必知道現(xiàn)象背后的原因,只要讓數(shù)據(jù)自己發(fā)聲。我們不再需要在還沒有收集數(shù)據(jù)之前,就把分析建立在早已設(shè)立的少量假設(shè)的基礎(chǔ)之上。讓數(shù)據(jù)發(fā)聲,我們會(huì)注意到很多以前從來沒有意識(shí)到的聯(lián)系的存在。3.3.3思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系與常識(shí)相反,經(jīng)常憑借直覺而來的因果關(guān)系并沒有幫助我們加深對(duì)這個(gè)世界的理解。很多時(shí)候,這種認(rèn)知捷徑只是給了我們一種自己已經(jīng)理解的錯(cuò)覺,但實(shí)際上,我們因此完全陷入了理解誤區(qū)之中。就像采樣是我們無法處理全部數(shù)據(jù)時(shí)的捷徑一樣,這種找因果關(guān)系的方法也是我們大腦用來避免辛苦思考的捷徑。不像因果關(guān)系,證明相關(guān)關(guān)系的實(shí)驗(yàn)耗資少,費(fèi)時(shí)也少。與之相比,分析相關(guān)關(guān)系,我們既有數(shù)學(xué)方法,也有統(tǒng)計(jì)學(xué)方法,同時(shí),數(shù)字工具也能幫我們準(zhǔn)確地找出相關(guān)關(guān)系。3.3.3思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系相關(guān)關(guān)系分析本身意義重大,同時(shí)它也為研究因果關(guān)系奠定了基礎(chǔ)。通過找出可能相關(guān)的事物,我們可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的因果關(guān)系分析.如果存在因果關(guān)系的話,我們?cè)龠M(jìn)一步找出原因。這種便捷的機(jī)制通過實(shí)驗(yàn)降低了因果分析的成本。我們也可以從相互聯(lián)系中找到一些重要的變量,這些變量可以用到驗(yàn)證因果關(guān)系的實(shí)驗(yàn)中去??墒牵覀儽仨毞浅UJ(rèn)真。相關(guān)關(guān)系很有用,不僅僅是因?yàn)樗転槲覀兲峁┬碌囊暯牵姨峁┑囊暯嵌己芮逦?。而我們一旦把因果關(guān)系考慮進(jìn)來,這些視角就有可能被蒙蔽掉。3.3.3思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系例如,Kaggle是一家為所有人提供數(shù)據(jù)挖掘競(jìng)賽平臺(tái)的公司,舉辦了關(guān)于二手車的質(zhì)量競(jìng)賽。經(jīng)銷商將二手車數(shù)據(jù)提供參加比賽二手車數(shù)據(jù),統(tǒng)計(jì)學(xué)家們用這些數(shù)據(jù)建立一個(gè)算法系統(tǒng)來預(yù)測(cè)經(jīng)銷商拍賣的哪些車有可能出現(xiàn)質(zhì)量問題。相關(guān)關(guān)系分析表明,橙色的車有質(zhì)量問題的可能性只有其他車的一半。3.3.3思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系當(dāng)我們讀到這里的時(shí)候,不禁也會(huì)思考其中的原因。難道是因?yàn)槌壬嚨能囍鞲鼝圮嚕攒嚤槐Wo(hù)得更好嗎?或是這種顏色的車子在制造方面更精良些嗎?還是因?yàn)槌壬能嚫@眼、出車禍的概率更小,所以轉(zhuǎn)手的時(shí)候.各方面的性能保持得更好?3.3.3思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系馬上,我們就陷入了各種各樣謎一樣的假設(shè)中。若要找出相關(guān)關(guān)系,我們可以用數(shù)學(xué)方法,但如果是因果關(guān)系的話,這卻是行不通的。所以,我們沒必要一定要找出相關(guān)關(guān)系背后的原因,當(dāng)我們知道了“是什么”的時(shí)候,“為什么”其實(shí)沒那么重要了,否則就會(huì)催生一些滑稽的想法。比方說上面提到的例子里,我們是不是應(yīng)該建議車主把車漆成橙色呢?畢竟,這樣就說明車子的質(zhì)量更過硬??!3.3.3思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系考慮到這些,如果把以確鑿數(shù)據(jù)為基礎(chǔ)的相關(guān)關(guān)系和通過快速思維構(gòu)想出的因果關(guān)系相比的話,前者就更具有說服力。但在越來越多的情況下,快速清晰的相關(guān)關(guān)系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中體現(xiàn)為通過嚴(yán)格控制的實(shí)驗(yàn)來驗(yàn)證的因果關(guān)系,而這必然是非常耗時(shí)耗力的。3.3.3思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系近年來,科學(xué)家一直在試圖減少這些實(shí)驗(yàn)的花費(fèi),比如說,通過巧妙地結(jié)合相似的調(diào)查,做成“類似實(shí)驗(yàn)”。這樣一來,因果關(guān)系的調(diào)查成本就降低,但還是很難與相關(guān)關(guān)系體現(xiàn)的優(yōu)越性相抗衡。還有,正如我們之前提到的,在專家進(jìn)行因果關(guān)系的調(diào)查時(shí),相關(guān)關(guān)系分析本來就會(huì)起到幫助的作用。在大多數(shù)情況下,一旦我們完成了對(duì)大數(shù)據(jù)的相關(guān)關(guān)系分析,而又不再滿足于僅僅知道“是什么”時(shí),我們就會(huì)繼續(xù)向更深層次研究因果關(guān)系,找出背后的“為什么”。3.3.3思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系因果關(guān)系還是有用的,但是它將不再被看成是意義來源的基礎(chǔ)。在大數(shù)據(jù)時(shí)代,即使很多情況下,我們依然指望用因果關(guān)系來說明我們所發(fā)現(xiàn)的相互聯(lián)系,但是,我們知道因果關(guān)系只是一種特殊的相關(guān)關(guān)系。相反,大數(shù)據(jù)推動(dòng)了相關(guān)關(guān)系分析。相關(guān)關(guān)系分析通常情況下能取代因果關(guān)系起作用,即使不可取代的情況下,它也能指導(dǎo)因果關(guān)系起作用。3.3.3思維轉(zhuǎn)變之三:數(shù)據(jù)的相關(guān)關(guān)系PART04大數(shù)據(jù)與人工智能人工智能和大數(shù)據(jù)是緊密相關(guān)的熱門技術(shù),二者既有聯(lián)系,又有區(qū)別。人工智能的發(fā)展要早于大數(shù)據(jù),在20世紀(jì)50年代就已經(jīng)開始,而大數(shù)據(jù)的概念直到2010年左右才形成。人工智能受到國(guó)人關(guān)注要遠(yuǎn)早于大數(shù)據(jù),受到廣泛關(guān)注,其影響力要大于大數(shù)據(jù)。3.4大數(shù)據(jù)與人工智能在大數(shù)據(jù)時(shí)代,面對(duì)海量數(shù)據(jù),傳統(tǒng)的人工智能算法所依賴的單機(jī)存儲(chǔ)和單機(jī)算法已經(jīng)無能為力,建立在集群技術(shù)之上的大數(shù)據(jù)技術(shù)(主要是分布式存儲(chǔ)和分布式計(jì)算),可以為人工智能提供強(qiáng)大的存儲(chǔ)能力和計(jì)算能力。人工智能,特別是機(jī)器學(xué)習(xí),需要數(shù)據(jù)來建立其智能。例如,機(jī)器學(xué)習(xí)圖像識(shí)別應(yīng)用程序可以查看數(shù)以萬計(jì)的飛機(jī)圖像,了解飛機(jī)的構(gòu)成,以便將來能夠識(shí)別出它們。人工智能應(yīng)用的數(shù)據(jù)越多,其獲得的結(jié)果就越準(zhǔn)確。如今,大數(shù)據(jù)為人工智能提供了海量數(shù)據(jù),使人工智能技術(shù)有了長(zhǎng)足發(fā)展,甚至可以說,沒有大數(shù)據(jù)就沒有人工智能。3.4.1人工智能與大數(shù)據(jù)的聯(lián)系人工智能技術(shù)立足于神經(jīng)網(wǎng)絡(luò),同時(shí)發(fā)展出多層神經(jīng)網(wǎng)絡(luò),從而可以進(jìn)行深度學(xué)習(xí),決定了它更為靈活、且可以根據(jù)不同的訓(xùn)練數(shù)據(jù)而擁有自優(yōu)化的能力?!皺C(jī)器學(xué)習(xí)”“深度學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”等技術(shù)的發(fā)展推動(dòng)著人工智能的進(jìn)步。以計(jì)算機(jī)視覺為例,作為一個(gè)數(shù)據(jù)復(fù)雜領(lǐng)域,傳統(tǒng)的淺層算法識(shí)別準(zhǔn)確率并不高。自深度學(xué)習(xí)出現(xiàn)以后,基于尋找合適特征來讓機(jī)器識(shí)別物體,計(jì)算機(jī)視覺的圖像識(shí)別精準(zhǔn)度從70%提升到95%。人工智能的快速演進(jìn),不僅需要理論研究,還需要大量的數(shù)據(jù)作為支撐。3.4.1人工智能與大數(shù)據(jù)的聯(lián)系人工智能與大數(shù)據(jù)存在著明顯的區(qū)別,人工智能是一種計(jì)算形式,它允許機(jī)器執(zhí)行認(rèn)知功能,例如對(duì)輸入起作用或做出反應(yīng),類似于人類的做法。而大數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論