第8章-大數(shù)據(jù)與人工智能_第1頁
第8章-大數(shù)據(jù)與人工智能_第2頁
第8章-大數(shù)據(jù)與人工智能_第3頁
第8章-大數(shù)據(jù)與人工智能_第4頁
第8章-大數(shù)據(jù)與人工智能_第5頁
已閱讀5頁,還剩36頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第8章大數(shù)據(jù)與人工智能BigDataandArtificialIntelligence.

人工智能時代的到來8.1什么限制著人工智能的發(fā)展8.2大數(shù)據(jù)與人工智能的關(guān)系8.3人工智能技術(shù)的發(fā)展趨勢8.48.1.1人工智能AI概念及分類

人工智能是研究人類智能活動的規(guī)律,構(gòu)造具有一定智能的人工系統(tǒng),研究如何讓計算機去完成以往需要人的智力才能勝任的工作,也就是研究如何應(yīng)用計算機的軟硬件來模擬人類某些智能行為的基本理論、方法和技術(shù)。人工智能是研究使計算機模擬人的某些思維過程和智能行為(如學(xué)習(xí)、推理、思考、規(guī)劃等)的學(xué)科,主要包括計算機實現(xiàn)智能的原理、制造類似于人腦智能的計算機、使計算機實現(xiàn)更高層次的應(yīng)用。人工智能涉及哲學(xué)、語言學(xué)、認(rèn)知科學(xué)、數(shù)學(xué)、神經(jīng)生理學(xué)、心理學(xué)、計算機科學(xué)、信息論、控制論、不定性論等學(xué)科,屬于自然科學(xué)和社會科學(xué)的交叉學(xué)科。8.1人工智能時代的到來8.1.1人工智能AI概念及分類

弱AI和強AI:從人工智能的發(fā)展階段來看,可以將AI分為兩類:一種是弱人工智能階段(ArtificialNarrowIntelligence,ANI),另一種是強人工智能階段(ArtificialGeneralIntelligence,AGI)。(1)弱AI又稱窄AI,指專門針對特定任務(wù)而設(shè)計和訓(xùn)練的AI,如蘋果的虛擬語音助手Siri。在“弱人工智能”階段,ANI只專注于完成某個特定的任務(wù),如語音識別、圖像識別和翻譯,是擅長單個方面的人工智能,類似高級仿生學(xué)。它們只是用于解決特定具體類的任務(wù)問題而存在,大多是統(tǒng)計數(shù)據(jù)從中歸納出模型。谷歌的AlphaGo是典型的“弱人工智能”,它可以被稱為一個優(yōu)秀的數(shù)據(jù)處理者,但是AlphaGo也僅會下棋,是一項擅長于單個游戲領(lǐng)域的人工智能。(2)強AI又稱通用AI,具備通用化的人類認(rèn)知能力,具備足夠的智能以解決不熟悉的問題。在“強人工智能”階段,AGI就能在各方面都與人類媲美,擁有AGI的機器不僅是一種工具,而且本身可擁有“思維”。有知覺和自我意識的AGI能夠進行思考、計劃、解決問題、抽象思維、理解復(fù)雜理念、快速學(xué)習(xí)等,人類能干的腦力活它基本都能勝任。事實上,人工智能國際主流學(xué)界所持的目標(biāo)是弱人工智能,目前很少有人致力于強人工智的研究,也沒有相應(yīng)的成果。8.1人工智能時代的到來8.1.1人工智能AI概念及分類

反應(yīng)式機器、有限記憶、意志理論、自我意識:密歇根州立大學(xué)的ArendHintze教授從現(xiàn)有的人工智能系統(tǒng)類型到尚不存在的有感知系統(tǒng)將人工智能分為四類。(1)反應(yīng)式機器這一類型的人工智能涉及計算機對世界的直接感知并作出相應(yīng)反應(yīng),而并不依賴于對世界的內(nèi)部概念。最基本的AI系統(tǒng)就是完全反應(yīng)式的,既不能形成記憶,也不能利用過去的經(jīng)驗來指導(dǎo)當(dāng)前決策。代表性范例:IBM的國際象棋超級計算機——DeepBlue“深藍”。DeepBlue能夠識別棋盤上的棋子,并且知道每個棋子如何移動。它可以預(yù)測下一步自己和對手如何移動,然后從中選擇最佳移動方案。DeepBlue不考慮之前發(fā)生的任何事,也沒有任何關(guān)于之前的記憶,只考慮當(dāng)前棋盤上棋子的位置,然后從所有可能的下一步動作中選擇一種。這種反應(yīng)式的方法確實讓AI系統(tǒng)在特定游戲中表現(xiàn)更出色。但這種計算機思維沒有更寬泛的世界的概念——這意味著它們無法執(zhí)行特定任務(wù)之外的其他任務(wù),無法交互性地參與真實世界。(2)有限記憶這一類型的人工智能可以觀察過去的情況以用于預(yù)測在不遠(yuǎn)的未來將發(fā)生的行為。代表性范例:自動駕駛汽車。自動駕駛的汽車會觀察其他車輛的速度和方向。觀察過去的情況無法短時間內(nèi)完成,而是需要識別特定對象并持續(xù)監(jiān)視。這些待觀察物體被添加到自動駕駛汽車預(yù)編程的“表示”中。這些“表示”包括車道標(biāo)記、交通指示燈等其他重要元素。當(dāng)無人駕駛汽車為避免阻攔其他司機或與其他汽車相撞而決策變道時,這些因素都會被考慮在內(nèi)。但是這些關(guān)于過去的簡單片段化信息是短暫的,與駕駛員積累多年駕駛經(jīng)驗的方法不同的是,這些簡單片段化的信息不會被保存為可從中學(xué)習(xí)的經(jīng)驗庫信息。8.1人工智能時代的到來8.1.1人工智能AI概念及分類

(3)意志理論這一類型的人工智能能夠理解影響自身決策的觀點、欲求和目的。目前這類AI尚不存在。心理理論這一點可以被視為目前AI機器與未來AI機器的重要分界點。在心理學(xué)中將人、生物和其他物體有影響自己行為的思想和情緒稱為“心理理論”。這對人類如何形成社會至關(guān)重要,因為它讓人類進行社會性互動。如果不理解對方的動機和意圖,或者沒有考慮到別人對自己或周圍環(huán)境的認(rèn)知,就會給工作帶來困難。(4)自我意識這一類型人工智能是具有自我意識的機器,能夠理解自身目前的狀態(tài),并能利用現(xiàn)有信息推測他人的思維。目前這類AI尚不存在。自我意識屬于AI發(fā)展的最后一步,即是構(gòu)建可以形成自我“表示”的AI系統(tǒng)。在某種意義上,這是第三類人工智能的“心理理論”的延伸。這時AI研究人員不僅需要了解意識,而且還要構(gòu)建擁有意識的機器。8.1人工智能時代的到來8.1.1人工智能AI概念及分類

認(rèn)知AI、機器學(xué)習(xí)AI和深度學(xué)習(xí):根據(jù)AI的主要研究方向,可以將AI分為以下三種類型。(1)認(rèn)知AI認(rèn)知AI(CognitiveAI)是最受歡迎的人工智能分支,負(fù)責(zé)所有類似于人類的交互。認(rèn)知AI能夠輕松處理復(fù)雜性和二義性,同時還持續(xù)不斷地在數(shù)據(jù)挖掘、NLP(Neuro-LinguisticProgramming,自然語言處理)和智能自動化的經(jīng)驗中學(xué)習(xí)。如今的認(rèn)知AI能夠綜合人工智能做出的最佳決策和人類工作者們的決定,以監(jiān)督更棘手或不確定的事件。這可以幫助擴大人工智能的適用范圍,并生成更快、更可靠的答案。(2)機器學(xué)習(xí)AI機器學(xué)習(xí)AI(MachineLearningAI)處于計算機科學(xué)前沿,如自動駕駛技術(shù),但將來有望對日常工作產(chǎn)生極大的影響。機器學(xué)習(xí)要在大數(shù)據(jù)中尋找一些“模式”,然后在沒有過多人為解釋的情況下,用這些模式來預(yù)測結(jié)果,而這些模式在普通的統(tǒng)計分析中是看不到的。機器學(xué)習(xí)需要以下三個關(guān)鍵因素才能有效。①數(shù)據(jù)。為了教給人工智能新技巧,需要將大量的數(shù)據(jù)輸入給模型,用以實現(xiàn)可靠的輸出評價。如特斯拉已經(jīng)向其汽車部署了自動轉(zhuǎn)向特征,同時把它所收集的所有數(shù)據(jù),例如駕駛員的干預(yù)措施、成功逃避、錯誤警報等都會發(fā)送到總部,從而在錯誤中學(xué)習(xí)并逐步銳化感官。8.1人工智能時代的到來8.1.1人工智能AI概念及分類

②部署。機器學(xué)習(xí)需要從計算機科學(xué)實驗室進入到軟件當(dāng)中。越來越多的像CRM(CustomerRelationshipManagement,客戶關(guān)系管理)、Marketing、ERP(EnterpriseResourcePlanning,企業(yè)資源計劃系統(tǒng))等供應(yīng)商正在提高嵌入式機器學(xué)習(xí)或與提供它的服務(wù)緊密結(jié)合的能力。(3)深度學(xué)習(xí)如果機器學(xué)習(xí)是前沿的,那么深度學(xué)習(xí)(DeepLearning)則是尖端的。它將大數(shù)據(jù)和無監(jiān)督算法的分析相結(jié)合。它的應(yīng)用通常圍繞著龐大的未標(biāo)記數(shù)據(jù)集,這些數(shù)據(jù)集需要結(jié)構(gòu)化成互聯(lián)的群集。深度學(xué)習(xí)的這種靈感來自于大腦中的神經(jīng)網(wǎng)絡(luò),因此也將其稱為人工神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)是許多現(xiàn)代語音和圖像識別方法的基礎(chǔ),并且與以往提供的非學(xué)習(xí)方法相比,具有更高的精確度。8.1人工智能時代的到來8.1.2人工智能發(fā)展史

1.人工智能的誕生(20世紀(jì)40~50年代)1943年,阿蘭·圖靈發(fā)明了“圖靈機”,為智能機器的判定設(shè)置了基準(zhǔn):“能夠成功騙過人類,讓后者以為自己是人類的機器,稱為智能機器”。1950年,科幻作家艾薩克·阿西莫夫發(fā)表短篇科幻小說集《我,機器人》,書中提出了影響深遠(yuǎn)的“機器人三原則”。第一條:機器人不得傷害人類,或看到人類受到傷害而袖手旁觀。第二條:機器人必須服從人類的命令,除非這條命令與第一條相矛盾。第三條:機器人必須保護自己,除非這種保護與以上兩條相矛盾。他提出的“機器人三原則”被稱為現(xiàn)代機器人學(xué)的基石,他也因此被稱為“機器人學(xué)之父”,如圖所示。1954年,第一臺可編程機器人誕生。美國人喬治·戴沃爾設(shè)計了世界上第一臺可編程機器人。1956年,美國達特茅斯學(xué)院舉行了歷史上第一次人工智能研討會,會上麥卡錫首次提出“人工智能”概念,當(dāng)時盛行“由上至下”的思路,即由預(yù)編程的計算機來管治人類的行為。8.1人工智能時代的到來8.1.2人工智能發(fā)展史

2.人工智能的黃金時期(20世紀(jì)60~70年代)1966年,美國麻省理工學(xué)院發(fā)布了世界上第一個聊天機器人ELIZA,其智能之處在于能通過腳本理解簡單的語言,從而產(chǎn)生類似人類的互動。1968年,首個通用式移動機器人誕生,能夠通過周圍環(huán)境來決定自己的行動。1969年,MIT人工實驗室創(chuàng)始人馬文·明斯基為導(dǎo)演斯坦利·庫布里克的電影《2001漫游太空》擔(dān)任顧問,塑造了片中超級智能計算機HAL9000的銀幕形象。8.1人工智能時代的到來8.1.2人工智能發(fā)展史

3.人工智能的低谷(20世紀(jì)70~80年代)1973年,AI“寒冬“論開始出現(xiàn)。在AI上的巨額投入幾乎未收到任何回報和成果,對AI行業(yè)的資助開始大幅滑坡。20世紀(jì)70年代,當(dāng)時的計算機內(nèi)存有限且處理速度慢,不足以解決任何實際的人工智能問題,人工智能發(fā)展遭遇了瓶頸。8.1人工智能時代的到來8.1.2人工智能發(fā)展史

4.人工智能的繁榮期(20世紀(jì)90年代至今)1990年,RodneyBrooks提出了“由下自上”的研究思路,開發(fā)能夠模擬人腦細(xì)胞運作方式的神經(jīng)網(wǎng)絡(luò),并學(xué)習(xí)新的行為。1997年,超級計算機“深藍”問世,并在國際象棋人機大戰(zhàn)中擊敗人類頂尖棋手、特級大師加里·卡斯帕羅夫。IBM“深藍”以3.5:2.5擊敗卡斯帕羅夫,成為首個在標(biāo)準(zhǔn)比賽時限內(nèi)擊敗國際象棋世界冠軍的電腦系統(tǒng)。如圖所示。8.1人工智能時代的到來8.1.2人工智能發(fā)展史

2002年,iRobot公司打造出全球首款家用自動化掃地機器人。2005年,美國軍方開始投資自動機器人,波士頓動力的“機器狗”是首批產(chǎn)品之一。2008年,谷歌在iPhone上發(fā)布了一款語音識別應(yīng)用,開啟了后來數(shù)字化語音助手(Siri、Alexa、Cortana)的浪潮。2010年,上海世博會上,來自NAO公司的20個跳舞機器人獻上了一段長達8分鐘的完美舞蹈。2011年,IBMWatson在Jeopardy答題競賽中戰(zhàn)勝了表現(xiàn)最優(yōu)秀的人類選手。2014年,在圖靈測試誕生64年后,一臺名為EugeneGoostman的聊天機器人通過了圖靈測試。谷歌向自動駕駛技術(shù)投入重金,Skype推出實時語音翻譯功能。2015年,Google開源了利用大量數(shù)據(jù)直接能訓(xùn)練計算機來完成任務(wù)的第二代機器學(xué)習(xí)平臺TensorFlow,劍橋大學(xué)建立了人工智能研究所。2016年,Google人工智能AlphaGo以4比1的總比分戰(zhàn)勝圍棋世界冠軍李世石,這一輪人機對弈讓人工智能正式被世人所熟知,整個人工智能領(lǐng)域迎來新一輪爆發(fā)?;仡櫲斯ぶ悄艿陌l(fā)展史,可以看到在這80年里,其發(fā)展并非一帆風(fēng)順,其間經(jīng)歷了20世紀(jì)50~60年代以及80年代的人工智能浪潮期,也經(jīng)歷過70~80年代的沉寂期,最終在21世紀(jì)初迎來了發(fā)展黃金時期。8.1人工智能時代的到來8.1.2人工智能發(fā)展史

第一次浪潮:五十年代的達特茅斯會議確立了人工智能AI這一術(shù)語,又陸續(xù)出現(xiàn)了感知神經(jīng)網(wǎng)絡(luò)軟件和聊天軟件,并用機器證明的辦法去證明和推理一些定理。人類驚呼“人工智能來了”。然而,當(dāng)時理論和模型只能解決一些非常簡單的問題,人工智能進入第一次寒冬。第二次浪潮:八十年代Hopfield神經(jīng)網(wǎng)絡(luò)和BT訓(xùn)練算法的提出,使得人工智能再次興起,出現(xiàn)了語音識別、語音翻譯計劃,以及日本提出的第五代計算機。但由于訓(xùn)練學(xué)習(xí)時數(shù)據(jù)量過大,很多結(jié)果到一定程度就不再往上升,且在一定程度上這些設(shè)想遲遲未能投入應(yīng)用,人工智能進入了第二次寒冬。第三次浪潮:隨著2006年出現(xiàn)的深度學(xué)習(xí)技術(shù),以及2012年ImageNet競賽在圖像識別領(lǐng)域帶來的突破,人工智能再次爆發(fā),核心是基于互聯(lián)網(wǎng)大數(shù)據(jù)的深度學(xué)習(xí),把一些技術(shù)、神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計的方法結(jié)合到一起,形成AI生態(tài)圈,并逐漸走向成熟。隨著近年來數(shù)據(jù)爆發(fā)式的增長、計算能力的大幅提升以及深度學(xué)習(xí)算法的發(fā)展和成熟,迎來了人工智能概念出現(xiàn)以來的第三個浪潮期。8.1人工智能時代的到來8.1.3人工智能產(chǎn)業(yè)分析據(jù)VentureCapital調(diào)查報告顯示,截至2016年底,全球范圍內(nèi)總計1485家與人工智能技術(shù)有關(guān)公司的融資總額達到了89億美元。將人工智能行業(yè)細(xì)分為了11個類別。1.計算機視覺/圖像識別該技術(shù)領(lǐng)域通過處理和分析圖像以從中獲取信息,示例包括用于開發(fā)人員的視覺搜索平臺和圖像標(biāo)記API。這一類別下的企業(yè)主要提供分析圖像采集和識別相關(guān)信息的底層支持技術(shù)解決方案并從屬于各行業(yè)的垂直細(xì)分行業(yè),利用圖像處理技術(shù)應(yīng)用到各種具體的實際應(yīng)用中,例如面部識別、圖片識別、圖像檢索等。2.深度學(xué)習(xí)/機器學(xué)習(xí)該技術(shù)領(lǐng)域基于現(xiàn)有數(shù)據(jù)進行學(xué)習(xí)操作,開發(fā)計算機算法,示例包括預(yù)測數(shù)據(jù)模型和分析行為數(shù)據(jù)。這一類型的企業(yè)主要通過利用特定的學(xué)習(xí)算法來對已有的信息進行學(xué)習(xí)和操作以供某一特定領(lǐng)域使用,或主要專注于算法的開發(fā)研究,旨在實現(xiàn)通過已有數(shù)據(jù)進行學(xué)習(xí),包括搭建用于預(yù)測的數(shù)據(jù)模型、分析行為數(shù)據(jù)等。3.自然語言處理該技術(shù)領(lǐng)域通過對人類語言的處理并將其轉(zhuǎn)換為可理解的描述,示例包括自動生成敘述文本,并挖掘應(yīng)用到數(shù)據(jù)中。這一類型的公司研發(fā)和搭建的算法主要用于處理人類語言輸入,并將其轉(zhuǎn)化為多種其他的表現(xiàn)形式,例如語音與文字的雙向轉(zhuǎn)換等。8.1人工智能時代的到來8.1.3人工智能產(chǎn)業(yè)分析

4.語音識別該技術(shù)領(lǐng)域能夠處理人類言語的聲音片段,精確識別詞語并從中推斷出含義,示例包括檢測語音命令并將其轉(zhuǎn)換為可操作數(shù)據(jù)的軟件。這一類型的公司研發(fā)能夠處理人類語音并準(zhǔn)確識別其含義的技術(shù)產(chǎn)品,例如通過接收語音指令實現(xiàn)要求的相關(guān)操作等。5.智能機器人該技術(shù)領(lǐng)域能夠研發(fā)可以從自身經(jīng)驗中學(xué)習(xí),并根據(jù)自己的環(huán)境條件自主行動的機器人,例如可以在互動中對人們的情緒做出反應(yīng)的家庭機器人,可以幫助客戶在商店中購買商品的零售機器人。6.虛擬個人助手該技術(shù)領(lǐng)域能夠基于反饋和命令為個人執(zhí)行日程任務(wù)和服務(wù)的軟件助理。這一類型的公司主要研發(fā)能夠基于用戶指令完成日常任務(wù)與服務(wù)的助理軟件,例如個人助理APP和網(wǎng)絡(luò)客服等,幫助企業(yè)管理產(chǎn)品售后服務(wù)或負(fù)責(zé)管理私人日程安排等。8.1人工智能時代的到來8.1.3人工智能產(chǎn)業(yè)分析

7.手勢控制該技術(shù)領(lǐng)域能夠通過手勢與計算機進行交互和通信,示例包括能夠通過身體動作來控制視頻游戲角色,或者通過單獨的手勢來操作計算機和電視的軟件。這一類型的公司主要研發(fā)可以讓用戶通過手勢與計算機交互的技術(shù)。8.推薦引擎和協(xié)助過濾算法這一類型的公司研發(fā)根據(jù)過去的選擇能夠預(yù)測用戶對電影、餐廳等偏好并依此做出個性化推薦的技術(shù)。例如音樂推薦應(yīng)用。9.情景感知計算這一類型的公司主要研發(fā)能夠自動感知周圍環(huán)境(位置、方向、光度、溫度等)并基于感知到的信息進行自身調(diào)整的軟件。例如當(dāng)檢測到環(huán)境處于黑暗時自動調(diào)高亮度的應(yīng)用程序。8.1人工智能時代的到來8.1.3人工智能產(chǎn)業(yè)分析

10.視頻內(nèi)容自動識別該技術(shù)領(lǐng)域能夠?qū)⒁曨l內(nèi)容抽樣與源內(nèi)容進行比較,通過其獨特特征來識別內(nèi)容的軟件。包括通過將其與受版權(quán)保護的內(nèi)容進行比較,在用戶上傳的視頻中檢測受版權(quán)保護內(nèi)容的軟件。這一類型的公司主要研發(fā)將視頻內(nèi)容樣本與源內(nèi)容文件進行比較識別的技術(shù),可以應(yīng)用于識別用戶上傳視頻與版權(quán)視頻文件比較,以檢測是否侵權(quán)。11.語音翻譯該技術(shù)領(lǐng)域可以自動識別人類的語言并實時翻譯成另一種語言。示例包括將視頻聊天或網(wǎng)絡(luò)討論內(nèi)容自動、實時地轉(zhuǎn)換為多語言的軟件。8.1人工智能時代的到來

1.可解釋性問題隨著深度學(xué)習(xí)的成功和采用,人工智能系統(tǒng)也在不斷發(fā)展,帶來了更多樣化、更先進的應(yīng)用,也帶來了更多的不透明性。更大及更復(fù)雜的模型使我們很難用人類的語言來解釋為什么會做出某種決定(而在實時做出某種決定時就更難了)。這是人工智能工具在一些對可解釋性有需求的應(yīng)用領(lǐng)域的使用率仍然很低的原因之一。此外,隨著人工智能應(yīng)用的擴展,監(jiān)管規(guī)定也可能推動對更多可解釋的人工智能模型的需求。2.數(shù)據(jù)標(biāo)簽?zāi)壳按蠖鄶?shù)人工智能模型都是通過“監(jiān)督學(xué)習(xí)”進行訓(xùn)練的。這意味著,人類必須對底層數(shù)據(jù)進行標(biāo)記和分類,這可能是一個相當(dāng)龐大且容易出錯的任務(wù)。例如,開發(fā)自動駕駛汽車技術(shù)的公司雇傭了數(shù)百人來手工標(biāo)注原型車的視頻輸入時數(shù)來幫助培訓(xùn)這些系統(tǒng)。不過目前的生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GANs)這種半監(jiān)督式方法能有效解決這一問題。3.獲取大量的訓(xùn)練數(shù)據(jù)集已經(jīng)證明,使用線性模型的簡單人工智能技術(shù)在某些情況下與醫(yī)學(xué)和其他領(lǐng)域?qū)<业哪芰ο嘟咏?。然而,?dāng)前機器學(xué)習(xí)浪潮需要訓(xùn)練數(shù)據(jù)集,這些數(shù)據(jù)集不僅要有標(biāo)記,而且要足夠龐大和全面。深度學(xué)習(xí)方法需要成千上萬的數(shù)據(jù)記錄,才能使模型在分類任務(wù)上變得相對優(yōu)秀,在某些情況下,還需要數(shù)以百萬計的數(shù)據(jù)記錄才能達到人類的水平。對于許多業(yè)務(wù)用例來說,大量的數(shù)據(jù)集可能很難獲得或創(chuàng)建(試想:利用有限的臨床試驗數(shù)據(jù)來更準(zhǔn)確地預(yù)測治療結(jié)果)。在分配的任務(wù)中,每一個微小的變化都需要另一個大數(shù)據(jù)集進行更多的訓(xùn)練。如教一輛自動駕駛汽車在天氣不斷變化的采礦地點進行導(dǎo)航,將需要一個包含車輛可能遇到的不同環(huán)境狀況的數(shù)據(jù)集。8.2什么限制著人工智能的發(fā)展

4.學(xué)習(xí)的普遍性與人類的學(xué)習(xí)方式不同,人工智能模型很難將它們的經(jīng)驗從一種環(huán)境轉(zhuǎn)移到另一種環(huán)境。實際上,模型為給定用例實現(xiàn)的任何東西都只適用于該用例。因此,即使用例非常相似,公司也必須反復(fù)提交資源來培訓(xùn)另一個模型。應(yīng)對這一挑戰(zhàn)的一個前景可期的答案是學(xué)習(xí)遷移。5.數(shù)據(jù)和算法中的偏差到目前為止,我們專注于通過在工作中已經(jīng)應(yīng)用的技術(shù)解決方案可以克服的一些限制。當(dāng)人類的偏好(有意識或無意識)在選擇使用哪些數(shù)據(jù)點和忽視哪些數(shù)據(jù)點時,會產(chǎn)生潛在的破壞性的社會影響。此外,當(dāng)數(shù)據(jù)收集本身的過程和頻率在不同的組別觀察到的行為不一致時,算法分析數(shù)據(jù)、學(xué)習(xí)和預(yù)測的方式很容易出現(xiàn)問題。負(fù)面影響包括錯誤的招聘決策、錯誤的科學(xué)或醫(yī)學(xué)預(yù)測、扭曲的金融模型和刑事司法決策等。在許多情況下,這些偏見在“高級數(shù)據(jù)科學(xué)”、“專有數(shù)據(jù)和算法”或“客觀分析”的面紗下被忽視或忽略。在新的領(lǐng)域部署機器學(xué)習(xí)和人工智能算法時,可能會有更多的實例將這些潛在偏差問題納入數(shù)據(jù)集和算法中。這種偏差一般根深蒂固,因為識別它們并采取措施解決它們需要深入掌握數(shù)據(jù)科學(xué)技術(shù),以及對現(xiàn)有社會力量(包括數(shù)據(jù)收集)的更深的元認(rèn)識??偠灾?,去偏差被證明是迄今為止最令人畏懼的障礙之一,也是最讓社會擔(dān)憂的問題之一。8.2什么限制著人工智能的發(fā)展隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,計算能力、數(shù)據(jù)處理能力和處理速度得到了大幅提升,人工智能的價值得以展現(xiàn)。大數(shù)據(jù)與人工智能二者相輔相成,隨著智能終端和傳感器的快速普及,海量數(shù)據(jù)快速累積,基于大數(shù)據(jù)的人工智能也因此獲得了持續(xù)快速發(fā)展的動力來源。大數(shù)據(jù)和人工智能的關(guān)注點并不相同,但卻有著密切的聯(lián)系:一方面人工智能需要大量的數(shù)據(jù)作為“思考”和“決策”的基礎(chǔ),另一方面大數(shù)據(jù)也需要人工智能技術(shù)進行數(shù)據(jù)價值化操作,如機器學(xué)習(xí)就是數(shù)據(jù)分析的常用方式。在大數(shù)據(jù)價值的兩個主要體現(xiàn)中,數(shù)據(jù)應(yīng)用的主要渠道之一就是智能體(人工智能產(chǎn)品),為智能體提供的數(shù)據(jù)量越大,智能體的運行效果就會越好,因為智能體通常需要大量的數(shù)據(jù)進行“訓(xùn)練”和“驗證”,從而保障運行的可靠性和穩(wěn)定性。8.3大數(shù)據(jù)與人工智能的關(guān)系大數(shù)據(jù)的積累為人工智能發(fā)展提供燃料:如果我們把人工智能看成一個擁有無限潛力的嬰兒,那么某一領(lǐng)域海量的數(shù)據(jù)就是奶粉。奶粉的數(shù)量決定了嬰兒是否能長大,而奶粉的質(zhì)量則決定了嬰兒后續(xù)的智力發(fā)育水平。《數(shù)據(jù)時代2025》白皮書顯示,到2025年全球數(shù)據(jù)總量將達到163ZB,其中屬于數(shù)據(jù)分析的數(shù)據(jù)總量將比2016年增加50倍,達到5.2ZB(十萬億億字節(jié))。爆炸性增長的數(shù)據(jù)推動著大數(shù)據(jù)技術(shù)的壯大,也為人工智能技術(shù)提供了豐厚的數(shù)據(jù)土壤。以人臉識別所用的訓(xùn)練圖像數(shù)量為例,百度訓(xùn)練人臉識別系統(tǒng)需要2億幅人臉畫像。又如百度的無人駕駛,需要采集大量路況信息(路口紅綠燈信息、路況人流量、道路車輛等)。當(dāng)無人駕駛汽車行駛到某個路口的紅綠燈時,需要根據(jù)記錄的數(shù)據(jù)分析是停車還是繼續(xù)駕駛;當(dāng)前路面濕滑時,需要根據(jù)數(shù)據(jù)分析汽車應(yīng)該減速到某個時速,這樣才比較安全;當(dāng)前方有行人過馬路時,汽車系統(tǒng)需要捕獲照片,“決策”暫停行駛等。所以無人駕駛系統(tǒng)底層架構(gòu)一定要是基于大數(shù)據(jù)的邏輯算法,也能存儲海量數(shù)據(jù)信息,根據(jù)底層大數(shù)據(jù)、用戶的需求進行分析,然后編碼成邏輯程序。8.3大數(shù)據(jù)與人工智能的關(guān)系數(shù)據(jù)處理技術(shù)推進運算能力提升:人工智能領(lǐng)域富集了海量數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理技術(shù)難以滿足高強度、高頻次的處理需求。AI芯片的出現(xiàn),大大提升了大規(guī)模處理大數(shù)據(jù)的效率。目前,出現(xiàn)了GPU(GraphicsProcessingUnit,圖形處理器)、NPU(NeuralNetworksProcessUnits,神經(jīng)網(wǎng)絡(luò)處理單元)、FPGA(Field-ProgrammableGateArray,現(xiàn)場可編程門陣列)和各種各樣的AI專用芯片,比傳統(tǒng)的雙核CPU提升約70倍的運算速度。8.3大數(shù)據(jù)與人工智能的關(guān)系人工智能推進大數(shù)據(jù)應(yīng)用深化:在計算力指數(shù)級增長及高價值數(shù)據(jù)的驅(qū)動下,以人工智能為核心的智能化正不斷延伸其技術(shù)應(yīng)用廣度、拓展技術(shù)突破深度,并不斷增強技術(shù)落地(商業(yè)變現(xiàn))的速度,例如,在新零售領(lǐng)域,大數(shù)據(jù)與人工智能技術(shù)的結(jié)合,可以提升人臉識別的準(zhǔn)確率,商家可以更好地預(yù)測每月的銷售情況;在交通領(lǐng)域,大數(shù)據(jù)和人工智能技術(shù)的結(jié)合,基于大量的交通數(shù)據(jù)開發(fā)的智能交通流量預(yù)測、智能交通疏導(dǎo)等人工智能應(yīng)用可以實現(xiàn)對整體交通網(wǎng)絡(luò)進行智能控制;在健康領(lǐng)域,大數(shù)據(jù)和人工智能技術(shù)的結(jié)合,能夠提供醫(yī)療影像分析、輔助診療、醫(yī)療機器人等更便捷、更智能的醫(yī)療服務(wù)。同時在技術(shù)層面,大數(shù)據(jù)技術(shù)已經(jīng)基本成熟,并且推動人工智能技術(shù)以驚人的速度進步;在產(chǎn)業(yè)層面,智能安防、自動駕駛、醫(yī)療影像等都在加速落地。8.3大數(shù)據(jù)與人工智能的關(guān)系按產(chǎn)業(yè)鏈結(jié)構(gòu)劃分,人工智能可以分為基礎(chǔ)技術(shù)層、AI技術(shù)層和AI應(yīng)用層?;A(chǔ)技術(shù)層主要聚焦于數(shù)據(jù)資源、計算能力和硬件平臺,數(shù)據(jù)資源主要是各類大數(shù)據(jù),硬件資源包括芯片研發(fā)、存儲設(shè)備開發(fā)等。AI技術(shù)層著重于算法、模型及可應(yīng)用技術(shù),如計算智能算法、感知智能算法、認(rèn)知智能算法。AI應(yīng)用層則主要關(guān)注將人工智能與下游各領(lǐng)域結(jié)合起來,如無人機、機器人、虛擬客服、語音輸入法等。8.3大數(shù)據(jù)與人工智能的關(guān)系隨著人工智能的快速應(yīng)用及普及,大數(shù)據(jù)不斷累積,深度學(xué)習(xí)及強化學(xué)習(xí)等算法不斷優(yōu)化,大數(shù)據(jù)技術(shù)將與人工智能技術(shù)更緊密地結(jié)合,具備對數(shù)據(jù)的理解、分析、發(fā)現(xiàn)和決策能力,從而能從數(shù)據(jù)中獲取更準(zhǔn)確、更深層次的知識,挖掘數(shù)據(jù)背后的價值,催生出新業(yè)態(tài)、新模式。作為引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),人工智能的產(chǎn)業(yè)化已經(jīng)取得了顯著的效果,在各領(lǐng)域的逐步應(yīng)用也顯示出帶動性很強的“頭雁”效應(yīng)。中國、美國、英國、德國、法國、日本等主要國家都紛紛將人工智能上升為國家級戰(zhàn)略,積極搶占人工智能競爭的制高點。我國還進一步強調(diào)要加強人工智能領(lǐng)域前沿技術(shù)布局,支持科學(xué)家勇闖人工智能科技前沿的“無人區(qū)”。在云計算、大數(shù)據(jù)和芯片等的支持下,人工智能已經(jīng)成功地從實驗室中走出來,開始進入到了商業(yè)應(yīng)用,并在機器視覺、自然語言處理、機器翻譯、路徑規(guī)劃等領(lǐng)域取得了令人矚目的成績。未來人工智能技術(shù)將分別沿著算法和算力兩條主線向前發(fā)展,并逐步帶領(lǐng)人類進入到人機協(xié)同的新時代。8.4人工智能技術(shù)的發(fā)展趨勢8.4.1深度學(xué)習(xí)

深度學(xué)習(xí)(DeepLearning,DL)是機器學(xué)習(xí)領(lǐng)域中一個新的研究方向,其動機在于建立模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中獲得的信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)是一類模式分析方法的統(tǒng)稱,就具體研究內(nèi)容而言,主要涉及三類方法。(1)基于卷積運算的神經(jīng)網(wǎng)絡(luò)系統(tǒng),即卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)。(2)基于多層神經(jīng)元的自編碼神經(jīng)網(wǎng)絡(luò),包括自編碼(Autoencoder)以及近年來受到廣泛關(guān)注的稀疏編碼(SparseCoding)兩類。(3)以多層自編碼神經(jīng)網(wǎng)絡(luò)的方式進行預(yù)訓(xùn)練,進而結(jié)合鑒別信息進一步優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值的深度置信網(wǎng)絡(luò)(DeepBeliefNetwork,DBN)。8.4人工智能技術(shù)的發(fā)展趨勢8.4.1深度學(xué)習(xí)

機器學(xué)習(xí)是人工智能的核心,是使計算機具有智能的根本途徑。機器學(xué)習(xí)作為一門多學(xué)科交叉專業(yè),涵蓋概率論、統(tǒng)計學(xué)、近似理論和復(fù)雜算法知識,使用計算機作為工具并致力于真實且實時地模擬人類學(xué)習(xí)方式,并將現(xiàn)有內(nèi)容進行知識結(jié)構(gòu)劃分來有效提高學(xué)習(xí)效率,支撐著人工智能的技術(shù)層面。而在機器學(xué)習(xí)的具體實踐任務(wù)中,選擇一組具有代表性的特征用于構(gòu)建模型是非常重要的問題。而人工選取特征依賴人力和專業(yè)知識,不利于推廣。于是我們需要通過特征學(xué)習(xí)來抽取和學(xué)習(xí)特征,使機器學(xué)習(xí)的工作更加快捷、有效。而特征學(xué)習(xí)又包括深度學(xué)習(xí)、成分分析、自編碼器、矩陣分解和各種形式的聚類算法。通過深度學(xué)習(xí)的多層處理,逐漸將初始的“低層”特征表示轉(zhuǎn)化為“高層”特征表示后,用“簡單模型”即可完成復(fù)雜的分類等學(xué)習(xí)任務(wù)。由此深度學(xué)習(xí)使得特征學(xué)習(xí)技術(shù)向前邁進一大步。如圖所示。8.4人工智能技術(shù)的發(fā)展趨勢8.4.1深度學(xué)習(xí)

(1)自下上升的非監(jiān)督學(xué)習(xí)自下上升的非監(jiān)督學(xué)習(xí)是從底層開始,一層一層地往頂層訓(xùn)練。采用無標(biāo)定數(shù)據(jù)(有標(biāo)定數(shù)據(jù)也可)分層訓(xùn)練各層參數(shù),這一步可以看作是一個無監(jiān)督訓(xùn)練過程,這也是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分,可以看作是特征學(xué)習(xí)過程。具體的,先用無標(biāo)定數(shù)據(jù)訓(xùn)練第一層,訓(xùn)練時先學(xué)習(xí)第一層的參數(shù),這層可以看作是得到一個使得輸出和輸入差別最小的三層神經(jīng)網(wǎng)絡(luò)的隱層,由于模型容量的限制以及稀疏性約束,使得得到的模型能夠?qū)W習(xí)到數(shù)據(jù)本身的結(jié)構(gòu),從而得到比輸入更具有表示能力的特征;在學(xué)習(xí)得到n-l層后,將n-l層的輸出作為第n層的輸入,訓(xùn)練第n層,由此分別得到各層的參數(shù)。(2)自上而下的監(jiān)督學(xué)習(xí)自上而下的監(jiān)督學(xué)習(xí)是通過帶標(biāo)簽的數(shù)據(jù)去訓(xùn)練,誤差自頂向下傳輸,對網(wǎng)絡(luò)進行微調(diào)。基于第一步得到的各層參數(shù)進一步優(yōu)調(diào)整個多層模型的參數(shù),這一步是一個有監(jiān)督訓(xùn)練過程。第一步類似神經(jīng)網(wǎng)絡(luò)的隨機初始化初值過程,由于第一步不是隨機初始化,而是通過學(xué)習(xí)輸入數(shù)據(jù)的結(jié)構(gòu)得到的,因而這個初值更接近全局最優(yōu),從而能夠取得更好的效果。8.4人工智能技術(shù)的發(fā)展趨勢8.4.2卷積神經(jīng)網(wǎng)絡(luò)(CNN)

卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetworks),是深度學(xué)習(xí)的代表算法之一。卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)(representationlearning)能力,能夠按其階層結(jié)構(gòu)對輸入信息進行平移不變分類(shift-invariantclassification),因此也被稱為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)(Shift-InvariantArtificialNeuralNetworks,SIANN)”。與傳統(tǒng)的全連接神經(jīng)網(wǎng)絡(luò)相比,CNN的層級結(jié)構(gòu)具有層內(nèi)的卷積核參數(shù)共享和層間連接的稀疏性兩個特點,使得其能夠以較小的計算量達到穩(wěn)定的學(xué)習(xí)效果且對數(shù)據(jù)沒有額外的特征工程要求,這樣大量地減少了需要訓(xùn)練參數(shù)的數(shù)量。8.4人工智能技術(shù)的發(fā)展趨勢8.4.2卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包含下面幾層:1.數(shù)據(jù)輸入層:卷積神經(jīng)網(wǎng)絡(luò)的輸入層可以處理多維數(shù)據(jù),常見地,一維卷積神經(jīng)網(wǎng)絡(luò)的輸入層接收一維或二維數(shù)組,其中一維數(shù)組通常為時間或頻譜采樣;二維數(shù)組可能包含多個通道;二維卷積神經(jīng)網(wǎng)絡(luò)的輸入層接收二維或三維數(shù)組;三維卷積神經(jīng)網(wǎng)絡(luò)的輸入層接收四維數(shù)組。與其他神經(jīng)網(wǎng)絡(luò)算法類似,由于使用梯度下降算法進行學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)的輸入特征需要進行標(biāo)準(zhǔn)化處理。具體地,在將學(xué)習(xí)數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)前,需在通道或時間/頻率維對輸入數(shù)據(jù)進行歸一化,若輸入數(shù)據(jù)為像素,也可將分布于[0,255]的原始像素值歸一化至區(qū)間[0,1]

。輸入特征的標(biāo)準(zhǔn)化有利于提升卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率和表現(xiàn)。8.4人工智能技術(shù)的發(fā)展趨勢8.4.2卷積神經(jīng)網(wǎng)絡(luò)(CNN)

2.卷積計算層:卷積層是CNN的核心,其主要過程是滑動窗口掃描圖像,也就是圖像像素對應(yīng)與卷積核進行加權(quán)求和,這個過程與濾波器濾波時的操作相似。卷積的目的是為了提取圖像特征,利用若干卷積核通過局部連接和權(quán)值共享訓(xùn)練提取圖像特征。如圖顯示的是輸入一張5*5大小的灰度圖像,卷積核的尺寸為3*3,步長為2,將卷積核在灰度圖像矩陣上做滑動和計算,將卷積核中每個參數(shù)和圖像矩陣中每個像素點的像素值相乘然后加上偏置參數(shù),最后取和得到右邊的結(jié)果。8.4人工智能技術(shù)的發(fā)展趨勢8.4.2卷積神經(jīng)網(wǎng)絡(luò)(CNN)3.激勵層:激勵層負(fù)責(zé)把卷積層輸出結(jié)果做非線性映射,CNN采用的激勵函數(shù)一般為ReLU函數(shù)(TheRectifiedLinearUnit,修正線性單元):f(x)=max(x,0)f(x)=max(x,0),它的特點是收斂快,求梯度簡單。8.4人工智能技術(shù)的發(fā)展趨勢8.4.2卷積神經(jīng)網(wǎng)絡(luò)(CNN)4.池化層池化層也是CNN中很重要的一層,通常與卷積層成對的出現(xiàn),其目的和作用是對卷積層輸出的特征圖進行深度不變的降維。池化層在提取了主要特征的同時對數(shù)據(jù)量進行了縮減,降低卷積神經(jīng)網(wǎng)絡(luò)計算的復(fù)雜度,過程如下:其中s代表所選池化模板,是模板的權(quán)值。按照的不同運算方式,可以把池化分成平均池化、最大池化與隨機池化等等。本文采用的是最大池化。如圖所示,選用2×2尺寸的池化濾波器模板,通過區(qū)域不重復(fù)的最大池化操作,也就是將模板內(nèi)的圖像特征矩陣中的像素值按照大小進行排序,選擇數(shù)值最大的像素值作為最后的結(jié)果,最終把一張尺寸為4×4的特征圖矩陣轉(zhuǎn)化為了2×2尺寸的矩陣,像素點個數(shù)由16個減少為4個,池化后的維數(shù)得到了降低,且出現(xiàn)過擬合的可能性大大降低,有利于減少計算量和增強CNN的魯棒性。8.4人工智能技術(shù)的發(fā)展趨勢8.4.2卷積神經(jīng)網(wǎng)絡(luò)(CNN)5.全連接層全連接層是指該層的每個節(jié)點都和上一層的節(jié)點進行了連接,把上一層輸出的特征全部進行綜合,因此該層的權(quán)值參數(shù)最多。全連接層將每個節(jié)點相互連接起來作內(nèi)積運算,一般分為兩層。第一層全連接層連接前一層的輸出,接著與第二層全連接層進行邏輯處理,最后將輸出值送出給分類器進行分類。圖中連線最密集的兩個地方就是全連接層,很明顯的可以看出全連接層的參數(shù)很多。其具體原理是將每個節(jié)點和上一層的特征做線性的加權(quán)求和,上一層輸出的每個節(jié)點與權(quán)重系數(shù)相乘,再加上偏置值。在圖8-7中,全連接第一層的輸入為60×2×2個神經(jīng)元,輸出為1000個節(jié)點,那么共需600×2×2×1000=2400000個權(quán)值參數(shù)和1000個偏置。8.4人工智能技術(shù)的發(fā)展趨勢8.4.3圖像數(shù)據(jù)處理圖像數(shù)據(jù)處理是利用圖像數(shù)據(jù)去噪、圖形分割、圖像數(shù)據(jù)增強等手段根據(jù)需求對圖像數(shù)據(jù)進行處理的技術(shù)。近年來,圖像處理技術(shù)日趨成熟,被航空航天、軍事、生物醫(yī)學(xué)及人工智能等廣泛應(yīng)用。圖像數(shù)據(jù)處理技術(shù)主要分成兩大類:模擬圖像處理(AnalogImageProcessing)和數(shù)字圖像處理(DigitalImageProcessing)。數(shù)字圖像處理是指將圖像信號轉(zhuǎn)換成數(shù)字信號并利用計算機進行處理的過程。其優(yōu)點是處理精度高,處理內(nèi)容豐富,可進行復(fù)雜的非線性處理,有靈活的變通能力,一般來說只要改變軟件就可以改變處理內(nèi)容。困難主要在處理速度上,特別是進行復(fù)雜的處理。數(shù)字圖像處理技術(shù)主要包括如下內(nèi)容:幾何處理(GeometricalProcessing)、算術(shù)處理(ArithmeticProcessing)、圖像增強(ImageEnhancement)、圖像復(fù)原(ImageRestoration)、圖像重建(ImageReconstruction)、圖像識別(ImageRecognition)。圖像處理技術(shù)的發(fā)展涉及信息科學(xué)、計算機科學(xué)、數(shù)學(xué)、物理學(xué)以及生物學(xué)等學(xué)科,其理論和技術(shù)的發(fā)展對圖像處理科學(xué)的發(fā)展有越來越

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論