版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
【計算機論文】分析:AI現(xiàn)狀、任務(wù)、構(gòu)架與統(tǒng)一
引言“人工智能”這個名詞在沉寂了近30年之后,最近兩年“咸魚翻身”,成為了科技公司公關(guān)的戰(zhàn)場、網(wǎng)絡(luò)媒體吸睛的風(fēng)口,隨后受到政府的重視和投資界的追捧。于是,新聞發(fā)布會、高峰論壇接踵而來,政府戰(zhàn)略規(guī)劃出臺,各種新聞應(yīng)接不暇,宣告一個“智能為王”時代的到來。到底什么是人工智能?現(xiàn)在的研究處于什么階段?今后如何發(fā)展?這是大家普遍關(guān)注的問題。由于人工智能涵蓋的學(xué)科和技術(shù)面非常廣,要在短時間內(nèi)全面認識、理解人工智能,別說非專業(yè)人士,就算對本行業(yè)研究人員,也是十分困難的任務(wù)。所以,現(xiàn)在很多宣傳與決策沖到認識之前了,由此不可避免地造成一些思想和輿論的混亂。自從去年用了微信以來,我就常常收到親朋好友轉(zhuǎn)來的驚世駭俗的新聞標題。我發(fā)現(xiàn)很多議論缺乏科學(xué)依據(jù),變成了“娛樂AI”。一個在1970年代研究黑洞的物理學(xué)博士,從來沒有研究過人工智能,卻時不時被抬出來預(yù)測人類末日的到來。某些公司的公關(guān)部門和媒體發(fā)揮想象力,動輒把一些無辜的研究人員封為“大師”、“泰斗”。最近,名詞不夠用了。九月初,就有報道把請來的一位美國教授稱作“人工智能祖師爺”。這位教授的確是機器學(xué)習(xí)領(lǐng)域的一個領(lǐng)軍人物,但人工智能是1956年開始的,這位教授也才剛剛出生。況且機器學(xué)習(xí)只是人工智能的一個領(lǐng)域而已,大部分其它重要領(lǐng)域,如視覺、語言、機器人,他都沒有涉足,所以這樣的封號很荒唐(申明一點:我對這位學(xué)者本人沒有意見,估計他自己不一定知道這個封號)。當時我想,后面是不是有人會搬出“達摩老祖、佛祖如來、孔雀王、太上老君、玉皇大帝”這樣的封號。十月初,赫然就聽說達摩院成立了,宣稱要碾壓美國,輿情轟動!別說一般老百姓擔心丟飯碗,就連一些業(yè)內(nèi)的研究人員都被說得心慌了,來問我有什么看法。我的看法很簡單:大多數(shù)寫報道和搞炒作宣傳的人,基本不懂人工智能。這就像年輕人玩的傳話游戲,扭曲的信息在多次傳導(dǎo)過程中,逐級放大,最后傳回來,自己嚇到自己了。下面這個例子就說明公眾的誤解到了什么程度。今年9月我在車上聽到一家電臺討論人工智能。兩位主持人談到硅谷臉書公司,有個程序員突然發(fā)現(xiàn),兩臺電腦在通訊過程中發(fā)明了一種全新的語言,快速交流,人看不懂。眼看一種“超級智能”在幾秒之內(nèi)迅速迭代升級(我加一句:這似乎就像宇宙大爆炸的前幾秒鐘),程序員驚恐萬狀。人類現(xiàn)在只剩最后一招才能拯救自己了:“別愣著,趕緊拔電源?。 苯K于把人類從鬼門關(guān)又拉回來了。回到本文的正題。全面認識人工智能之所以困難,是有客觀原因的。其一、人工智能是一個非常廣泛的領(lǐng)域。當前人工智能涵蓋很多大的學(xué)科,我把它們歸納為六個:(1)計算機視覺(暫且把模式識別,圖像處理等問題歸入其中)、(2)自然語言理解與交流(暫且把語音識別、合成歸入其中,包括對話)、(3)認知與推理(包含各種物理和社會常識)、(4)機器人學(xué)(機械、控制、設(shè)計、運動規(guī)劃、任務(wù)規(guī)劃等)、(5)博弈與倫理(多代理人agents的交互、對抗與合作,機器人與社會融合等議題)。(6)機器學(xué)習(xí)(各種統(tǒng)計的建模、分析工具和計算的方法),這些領(lǐng)域目前還比較散,目前它們正在交叉發(fā)展,走向統(tǒng)一的過程中。我把它們通俗稱作“戰(zhàn)國六雄”,中國歷史本來是“戰(zhàn)國七雄”,我這里為了省事,把兩個小一點的領(lǐng)域:博弈與倫理合并了,倫理本身就是博弈的種種平衡態(tài)。最終目標是希望形成一個完整的科學(xué)體系,從目前鬧哄哄的工程實踐變成一門真正的科學(xué)ScienceofIntelligence。由于學(xué)科比較分散,從事相關(guān)研究的大多數(shù)博士、教授等專業(yè)人員,往往也只是涉及以上某個學(xué)科,甚至長期專注于某個學(xué)科中的具體問題。比如,人臉識別是計算機視覺這個學(xué)科里面的一個很小的問題;深度學(xué)習(xí)屬于機器學(xué)習(xí)這個學(xué)科的一個當紅的流派。很多人現(xiàn)在把深度學(xué)習(xí)就等同于人工智能,就相當于把一個地級市說成全國,肯定不合適。讀到這里,搞深度學(xué)習(xí)的同學(xué)一定不服氣,或者很生氣。你先別急,等讀完后面的內(nèi)容,你就會發(fā)現(xiàn),不管CNN網(wǎng)絡(luò)有多少層,還是很淺,涉及的任務(wù)還是很小。各個領(lǐng)域的研究人員看人工智能,如果按照印度人的諺語可以叫做“盲人摸象”,但這顯然是言語冒犯了,還是中國的文豪蘇軾游廬山時說得有水準:“橫看成嶺側(cè)成峰,遠近高低各不同。不識廬山真面目,只緣身在此山中?!逼涠斯ぶ悄馨l(fā)展的斷代現(xiàn)象。由于歷史發(fā)展的原因,人工智能自1980年代以來,被分化出以上幾大學(xué)科,相互獨立發(fā)展,而且這些學(xué)科基本拋棄了之前30年以邏輯推理與啟發(fā)式搜索為主的研究方法,取而代之的是概率統(tǒng)計(建模、學(xué)習(xí))的方法。留在傳統(tǒng)人工智能領(lǐng)域(邏輯推理、搜索博弈、專家系統(tǒng)等)而沒有分流到以上分支學(xué)科的老一輩中,的確是有很多全局視野的,但多數(shù)已經(jīng)過世或退休了。他們之中只有極少數(shù)人在80-90年代,以敏銳的眼光,過渡或者引領(lǐng)了概率統(tǒng)計與學(xué)習(xí)的方法,成為了學(xué)術(shù)領(lǐng)軍人物。而新生代(80年代以后)留在傳統(tǒng)人工智能學(xué)科的研究人員很少,他們又不是很了解那些被分化出去的學(xué)科中的具體問題。這種領(lǐng)域的分化與歷史的斷代,客觀上造成了目前的學(xué)界和產(chǎn)業(yè)界思路和觀點相當“混亂”的局面,媒體上的混亂就更放大了。但是,以積極的態(tài)度來看,這個局面確實為現(xiàn)在的年輕一代研究人員、研究生提供了一個很好的建功立業(yè)的機會和廣闊的舞臺。鑒于這些現(xiàn)象,《視覺求索》編輯部同仁和同行多次催促我寫一篇人工智能的評論和介紹材料。我就免為其難,僅以自己30年來讀書和跨學(xué)科研究的經(jīng)歷、觀察和思辨,淺談什么是人工智能;它的研究現(xiàn)狀、任務(wù)與構(gòu)架;以及如何走向統(tǒng)一。我寫這篇文章的動機在于三點:(1)為在讀的研究生們、為有志進入人工智能研究領(lǐng)域的年輕學(xué)者開闊視野。(2)為那些對人工智能感興趣、喜歡思考的人們,做一個前沿的、綜述性的介紹。(3)為公眾與媒體從業(yè)人員,做一個人工智能科普,澄清一些事實。本文來歷:本文技術(shù)內(nèi)容選自我2014年來在多所大學(xué)和研究所做的講座報告。2017年7月,微軟的沈向洋博士要求我在一個朋友聚會上做一個人工智能的簡介,我增加了一些通俗的內(nèi)容。2017年9月,在譚鐵牛和王蘊紅老師的要求下,我參加了中科院自動化所舉辦的人工智能人機交互講習(xí)班,他們派速記員和一名博士生整理出本文初稿。如果沒有他們的熱情幫助,這篇文章是不可能寫成的。原講座兩個半小時,本文做了刪減和文字修飾。仍然有四萬字,加上大量插圖和示例。很抱歉,無法再壓縮了。本文摘要:文章前四節(jié)淺顯探討什么是人工智能和當前所處的歷史時期,后面六節(jié)分別探討六個學(xué)科的重點研究問題和難點,有什么樣的前沿的課題等待年輕人去探索,最后一節(jié)討論人工智能是否以及如何成為一門成熟的科學(xué)體系。誠如屈子所言:“路漫漫其修遠兮,吾將上下而求索”。第一節(jié)現(xiàn)狀評估:正視現(xiàn)實人工智能的研究,簡單來說,就是要通過智能的機器,延伸和增強(augment)人類在改造自然、治理社會的各項任務(wù)中的能力和效率,最終實現(xiàn)一個人與機器和諧共生共存的社會。這里說的智能機器,可以是一個虛擬的或者物理的機器人。與人類幾千年來創(chuàng)造出來的各種工具和機器不同的是,智能機器有自主的感知、認知、決策、學(xué)習(xí)、執(zhí)行和社會協(xié)作能力,符合人類情感、倫理與道德觀念。拋開科幻的空想,談幾個近期具體的應(yīng)用。無人駕駛大家聽了很多,先說說軍用。軍隊里的一個班或者行動組,現(xiàn)在比如要七個人,將來可以減到五個人,另外兩個用機器來替換。其次,機器人可以用在救災(zāi)和一些危險的場景,如核泄露現(xiàn)場,人不能進去,必須靠機器人。醫(yī)用的例子很多:智能的假肢或外骨架(exoskeleton)與人腦和身體信號對接,增強人的行動控制能力,幫助殘疾人更好生活。此外,還有就是家庭養(yǎng)老等服務(wù)機器人等。但是,這方面的進展很不盡人意。以前日本常常炫耀他們機器人能跳舞,中國有一次春節(jié)晚會也拿來表演了。那都是事先編寫的程序,結(jié)果一個福島核輻射事故一下子把所有問題都暴露了,發(fā)現(xiàn)他們的機器人一點招都沒有。美國也派了機器人過去,同樣出了很多問題。比如一個簡單的技術(shù)問題,機器人進到災(zāi)難現(xiàn)場,背后拖一根長長的電纜,要供電和傳數(shù)據(jù),結(jié)果電纜就被纏住了,動彈不得。有一次,一位同事在餐桌上半開玩笑說,以現(xiàn)在的技術(shù),要讓一個機器人長時間像人一樣處理問題,可能要自帶兩個微型的核電站,一個發(fā)電驅(qū)動機械和計算設(shè)備,另一個發(fā)電驅(qū)動冷卻系統(tǒng)。順便說一個,人腦的功耗大約是10-25瓦??吹竭@里,有人要問了,教授說得不對,我們明明在網(wǎng)上看到美國機器人讓人嘆為觀止的表現(xiàn)。比如,這一家波士頓動力學(xué)公司(BostonDynamics)的演示,它們的機器人,怎么踢都踢不倒呢,或者踢倒了可以自己爬起來,而且在野外叢林箭步如飛呢,還有幾個負重的電驢、大狗也很酷。這家公司本來是由美國國防部支持開發(fā)出機器人來的,被谷歌收購之后、就不再承接國防項目??墒?,谷歌發(fā)現(xiàn)除了燒錢,目前還找不到商業(yè)出路,最近一直待售之中。您會問,那谷歌不是很牛嗎?DeepMind下圍棋不是也一次次刺激中國人的神經(jīng)嗎?有一個逆天的機器人身體、一個逆天的機器人大腦,它們都在同一個公司內(nèi)部,那為什么沒有做出一個人工智能的產(chǎn)品呢?他們何嘗不在夜以繼日的奮戰(zhàn)之中啊。人工智能炒作了這么長時間,您看看周圍環(huán)境,您看到機器人走到大街上了?沒有。您看到人工智能進入家庭了嗎?其實還沒有。您可能唯一直接領(lǐng)教過的是基于大數(shù)據(jù)和深度學(xué)習(xí)訓(xùn)練出來的聊天機器人,你可能跟Ta聊過。用我老家湖北人的話,這就叫做“扯白”東扯西拉、說白話。如果你沒有被Ta氣得背過氣的話,要么您真的是閑得慌,要么是您真的有耐性。為了測試技術(shù)現(xiàn)狀,美國國防部高級研究署2015年在洛杉磯郊區(qū)Pomona做了一個DARPARobotChallenge(DRC),懸賞了兩百萬美金獎給競賽的第一名。有很多隊伍參加了這個競賽,上圖是韓國科技大學(xué)隊贏了第一名,右邊是他們的機器人在現(xiàn)場開門進去“救災(zāi)”。整個比賽場景設(shè)置的跟好萊塢片場一樣,復(fù)制了三個賽場,全是冒煙的救災(zāi)場面。機器人自己開著一個車子過來,自己下車,開門,去拿工具,關(guān)閥門,在墻上開洞,最后過一個磚頭做的障礙區(qū),上樓梯等一系列動作。我當時帶著學(xué)生在現(xiàn)場看,因為我們剛好有一個大的DARPA項目,項目主管是里面的裁判員。當時,我第一感覺還是很震撼的,感覺不錯。后來發(fā)現(xiàn)內(nèi)情,原來機器人所有的動作基本上是人在遙控的。每一步、每一個場景分別有一個界面,每個學(xué)生控制一個模塊。感知、認知、動作都是人在指揮。就是說這個機器人其實并沒有自己的感知、認知、思維推理、規(guī)劃的能力。造成的結(jié)果是,你就可以看到一些不可思議的事情。比如說這個機器人去抓門把手的時候,因為它靠后臺人的感知,誤差一厘米,就沒抓著;或者腳踩樓梯的時候差了一點點,它重心就失去了平衡,可是在后面控制的學(xué)生沒有重力感知信號,一看失去平衡,他來不及反應(yīng)了。你想想看,我們?nèi)瞬然艘幌伦幽鼙3制胶猓驗槟阏麄€人都在一起反應(yīng),可是那個學(xué)生只是遠遠地看著,他反應(yīng)不過來,所以機器人就東倒西歪。這還是一個簡單的場景。其一、整個場景都是事先設(shè)定的,各個團隊也都反復(fù)操練過的。如果是沒有遇見的場景,需要靈機決斷呢?其二、整個場景還沒有人出現(xiàn),如果有其他人出現(xiàn),需要社會活動(如語言交流、分工協(xié)作)的話,那復(fù)雜度就又要上兩個數(shù)量級了。其實,要是完全由人手動控制,現(xiàn)在的機器人都可以做手術(shù)了,而且手術(shù)機器人已經(jīng)在普及之中。上圖是我實驗室與一家公司合作的項目,機器人可以開拉鏈、檢查包裹、用鉗子撤除炸彈等,都是可以實現(xiàn)的?,F(xiàn)在的機器人,機械控制這一塊已經(jīng)很不錯了,但這也不是完全管用。比如上面提到的波士頓動力學(xué)公司的機器人電驢走山路很穩(wěn)定,但是它馬達噪音大,轟隆隆的噪音,到戰(zhàn)場上去把目標都給暴露了。特別是晚上執(zhí)勤、偵察,你搞那么大動靜,怎么行呢?2015年的這次DRC競賽,暫時就斷送了美國機器人研究的重大項目的立項。外行(包含國會議員)從表面看,以為這個問題已經(jīng)解決了,應(yīng)該留給公司去開發(fā);內(nèi)行看到里面的困難,覺得一時半會沒有大量經(jīng)費解決不了。這個認識上的落差在某種程度上就是“科研的冬天”到來的前題條件。小結(jié)一下,現(xiàn)在的人工智能和機器人,關(guān)鍵問題是缺乏物理的常識和社會的常識“Commonsense”。這是人工智能研究最大的障礙。那么什么是常識?常識就是我們在這個世界和社會生存的最基本的知識:(1)它使用頻率最高;(2)它可以舉一反三,推導(dǎo)出并且?guī)椭@取其它知識。這是解決人工智能研究的一個核心課題。我自2010年來,一直在帶領(lǐng)一個跨學(xué)科團隊,攻關(guān)視覺常識的獲取與推理問題。我在自動化所做了另外一個關(guān)于視覺常識報告,也被轉(zhuǎn)錄成中文了,不久會發(fā)表出來。那么是不是說,我們離真正的人工智能還很遙遠呢?其實也不然。關(guān)鍵是研究的思路要找對問題和方向。自然界已經(jīng)為我們提供了很好的案例。下面,我就來看一下,自然界給我們展示的解答。第二節(jié)未來目標:一只烏鴉給我們的啟示同屬自然界的鳥類,我們對比一下體型大小都差不多的烏鴉和鸚鵡。鸚鵡有很強的語言模仿能力,你說一個短句,多說幾遍,它能重復(fù),這就類似于當前的由數(shù)據(jù)驅(qū)動的聊天機器人。二者都可以說話,但鸚鵡和聊天機器人都不明白說話的語境和語義,也就是它們不能把說的話對應(yīng)到物理世界和社會的物體、場景、人物,不符合因果與邏輯??墒?,烏鴉就遠比鸚鵡聰明,它們能夠制造工具,懂得各種物理的常識和人的活動的社會常識。下面,我就介紹一只烏鴉,它生活在復(fù)雜的城市環(huán)境中,與人類交互和共存。YouTube網(wǎng)上有不少這方面的視頻,大家可以找來看看。我個人認為,人工智能研究該搞一個“烏鴉圖騰”,因為我們必須認真向它們學(xué)習(xí)。上圖a是一只烏鴉,被研究人員在日本發(fā)現(xiàn)和跟蹤拍攝的。烏鴉是野生的,也就是說,沒人管,沒人教。它必須靠自己的觀察、感知、認知、學(xué)習(xí)、推理、執(zhí)行,完全自主生活。假如把它看成機器人的話,它就在我們現(xiàn)實生活中活下來。如果這是一個自主的流浪漢進城了,他要在城里活下去,包括與城管周旋。首先,烏鴉面臨一個任務(wù),就是尋找食物。它找到了堅果(至于如何發(fā)現(xiàn)堅果里面有果肉,那是另外一個例子了),需要砸碎,可是這個任務(wù)超出它的物理動作的能力。其它動物,如大猩猩會使用工具,找?guī)讐K石頭,一塊大的墊在底下,一塊中等的拿在手上來砸。烏鴉怎么試都不行,它把堅果從天上往下拋,發(fā)現(xiàn)解決不了這個任務(wù)。在這個過程中,它就發(fā)現(xiàn)一個訣竅,把果子放到路上讓車軋過去(圖b),這就是“鳥機交互”了。后來進一步發(fā)現(xiàn),雖然堅果被軋碎了,但它到路中間去吃是一件很危險的事。因為在一個車水馬龍的路面上,隨時它就犧牲了。我這里要強調(diào)一點,這個過程是沒有大數(shù)據(jù)訓(xùn)練的,也沒有所謂監(jiān)督學(xué)習(xí),烏鴉的生命沒有第二次機會。這是與當前很多機器學(xué)習(xí),特別是深度學(xué)習(xí)完全不同的機制。然后,它又開始觀察了,見圖c。它發(fā)現(xiàn)在靠近紅綠路燈的路口,車子和人有時候停下了。這時,它必須進一步領(lǐng)悟出紅綠燈、斑馬線、行人指示燈、車子停、人流停這之間復(fù)雜的因果鏈。甚至,哪個燈在哪個方向管用、對什么對象管用。搞清楚之后,烏鴉就選擇了一根正好在斑馬線上方的一根電線,蹲下來了(圖d)。這里我要強調(diào)另一點,也許它觀察和學(xué)習(xí)的是別的地點,那個點沒有這些蹲點的條件。它必須相信,同樣的因果關(guān)系,可以搬到當前的地點來用。這一點,當前很多機器學(xué)習(xí)方法是做不到的。比如,一些增強學(xué)習(xí)方法,讓機器人抓取一些固定物體,如積木玩具,換一換位置都不行;打游戲的人工智能算法,換一換畫面,又得重新開始學(xué)習(xí)。它把堅果拋到斑馬線上,等車子軋過去,然后等到行人燈亮了(圖e)。這個時候,車子都停在斑馬線外面,它終于可以從容不迫地走過去,吃到了地上的果肉。你說這個烏鴉有多聰明,這是我期望的真正的智能。這個烏鴉給我們的啟示,至少有三點:其一、它是一個完全自主的智能。感知、認知、推理、學(xué)習(xí)、和執(zhí)行,它都有。我們前面說的,世界上一批頂級的科學(xué)家都解決不了的問題,烏鴉向我們證明了,這個解存在。其二、你說它有大數(shù)據(jù)學(xué)習(xí)嗎?這個烏鴉有幾百萬人工標注好的訓(xùn)練數(shù)據(jù)給它學(xué)習(xí)嗎?沒有,它自己把這個事通過少量數(shù)據(jù)想清楚了,沒人教它。其三、烏鴉頭有多大?不到人腦的1%大小。人腦功耗大約是10-25瓦,它就只有0.1-0.2瓦,就實現(xiàn)功能了,根本不需要前面談到的核動力發(fā)電。這給硬件芯片設(shè)計者也提出了挑戰(zhàn)和思路。十幾年前我到中科院計算所講座,就說要做視覺芯片VPU,應(yīng)該比后來的GPU更超前。我最近參與了一個計算機體系結(jié)構(gòu)的大項目,也有這個目標。在座的年輕人想想看,你們有很大的機會在這里面,這個解存在,但是我們不知道怎么用一個科學(xué)的手段去實現(xiàn)這個解。講通俗一點,我們要尋找“烏鴉”模式的智能,而不要“鸚鵡”模式的智能。當然,我們必須也要看到,“鸚鵡”模式的智能在商業(yè)上,針對某些垂直應(yīng)用或許有效。我這里不是說要把所有智能問題都解決了,才能做商業(yè)應(yīng)用。單項技術(shù)如果成熟落地,也可以有巨大商業(yè)價值。我這里談的是科學(xué)研究的目標。第三節(jié)歷史時期:從“春秋五霸”到“戰(zhàn)國六雄”要搞清楚人工智能的發(fā)展趨勢,首先得回顧歷史。讀不懂歷史,無法預(yù)測未來。這一節(jié),我就結(jié)合自己的經(jīng)歷談一下我的觀點,不見得準確和全面。為了讓非專業(yè)人士便于理解,我把人工智能的60年歷史與中國歷史的一個時期做一個類比,但絕對不要做更多的推廣和延伸。如下圖所示,這個的時期是以美國時間為準的,中國一般會滯后一兩年。首先,從表面一層來看。反映在一些產(chǎn)業(yè)新聞和社會新聞層面上,人工智能經(jīng)過了幾起幾落,英文叫做BoomandBust,意思是一哄而上、一哄而散,很形象。每次興盛期都有不同的技術(shù)在里面起作用。最早一次的興起是1956-1974,以命題邏輯、謂詞邏輯等知識表達、啟發(fā)式搜索算法為代表。當時就已經(jīng)開始研究下棋了。然后進入第一次冬天。這個時候,中國結(jié)束文革,開始學(xué)習(xí)西方科技。我上小學(xué)的時候,就聽到報紙報道計算機與人下國際象棋,十分好奇。1980年代初又興起了第二次熱潮,一批吹牛的教授、研究人員登場了。做專家系統(tǒng)、知識工程、醫(yī)療診斷等,中國當時也有人想做中醫(yī)等系統(tǒng)。雖然這次其中也有學(xué)者拿了圖靈獎,但這些研究沒有很好的理論根基。1986年我上了中國科大計算機系,我對計算機專業(yè)本身不是最感興趣,覺得那就是一個工具和技能,而人工智能方向水很深,值得長期探索,所以我很早就去選修了人工智能的研究生課程,是由自動化系一個到美國進修的老師回來開的課。上完課,我很失望,感覺撲空了。它基本還是以符號為主的推理,離現(xiàn)實世界很遠。當時人工智能里面的人員也很悲觀,沒士氣。所以,我就去閱讀關(guān)于人的智能的相關(guān)領(lǐng)域:神經(jīng)生理學(xué)、心理學(xué)、認知科學(xué)等,這就讓我摸到了計算機視覺這個新興的學(xué)科。在80年代末有個短暫的神經(jīng)網(wǎng)絡(luò)的研究熱潮,我們當時本科五年制,我的大學(xué)畢業(yè)論文就是做神經(jīng)網(wǎng)絡(luò)的。隨后,人工智能就跌入了近30年的寒冬。第三次熱潮就是最近兩年興起的深度學(xué)習(xí)推動的。有了以前的教訓(xùn),一開始學(xué)者們都很謹慎,出來警告說我們做的是特定任務(wù),不是通用人工智能,大家不要炒作。但是,攔不住了。公司要做宣傳,然后,大家開始加碼宣傳。這就像踩踏事件,處在前面的人是清醒的,他們叫停,可是后面大量聞信趕來的人不知情,拼命往里面擠。人工智能的確是太重要了,誰都不想誤了這趟車。也有人認為這次是真的,不會再有冬天了。冬天不冬天,那就要看我們現(xiàn)在怎么做了。所以說,從我讀大學(xué)開始,人工智能這個名詞從公眾視線就消失了近30年。我現(xiàn)在回頭看,其實它當時并沒有消失,而是分化了。研究人員分別聚集到五個大的領(lǐng)域或者叫做學(xué)科:計算機視覺、自然語言理解、認知科學(xué)、機器學(xué)習(xí)、機器人學(xué)。這些領(lǐng)域形成了自己的學(xué)術(shù)圈子、國際會議、國際期刊,各搞各的,獨立發(fā)展。人工智能里面還有一些做博弈下棋、常識推理,還留在里面繼續(xù)搞,但人數(shù)不多。我把這30年叫做一個“分治時期”,相當于中國歷史的“春秋時期”。春秋五霸就相當于這分出去的五個學(xué)科,大家各自發(fā)展壯大。其次、從深一層的理論基礎(chǔ)看。我把人工智能發(fā)展的60年分為兩個階段。第一階段:前30年以數(shù)理邏輯的表達與推理為主。這里面有一些杰出的代表人物,如JohnMcCarthy、MarvinMinsky、HerbertSimmon。他們懂很多認知科學(xué)的東西,有很強的全局觀念。這些都是我讀大學(xué)的時候仰慕的人物,他們拿過圖靈獎和其它一堆大獎。但是,他們的工具基本都是基于數(shù)理邏輯和推理。這一套邏輯的東西發(fā)展得很干凈、漂亮,很值得我們學(xué)習(xí)。大家有興趣,可以參考一本最新工具書:TheHandbookofKnowledgeRepresentation,2007年編寫的,1000多頁。但是,這些符號的知識表達不落地,全書談的沒有實際的圖片和系統(tǒng);所以,一本1000多頁的書,PDF文件只有10M,下載非???。而我現(xiàn)在給的這個講座,PPT差不多1G,因為有大量的圖片、視頻,是真實的例子。這個邏輯表達的“體制”,就相當于中國的周朝,周文王建立了一個相對松散的諸侯部落體制,后來指揮不靈,就瓦解了,進入一個春秋五霸時期。而人工智能正好也分出了五大領(lǐng)域。第二階段:后30年以概率統(tǒng)計的建模、學(xué)習(xí)和計算為主。在10余年的發(fā)展之后,“春秋五霸”在1990年中期都開始找到了概率統(tǒng)計這個新“體制”:統(tǒng)計建模、機器學(xué)習(xí)、隨機計算算法等。在這個體制的轉(zhuǎn)型過程中,起到核心作用的有這么幾個人。講得通俗一點,他們屬于先知先覺者,提前看到了人工智能的發(fā)展趨勢,押對了方向(就相當于80年代買了微軟、英特爾股票;90年代末,押對了中國房地產(chǎn)的那一批人)。他們沒有進入中國媒體的宣傳視野。我簡要介紹一下,從中我們也可以學(xué)習(xí)到一些治學(xué)之道。第一個人叫UlfGrenander。他從60年代就開始做隨機過程和概率模型,是最早的先驅(qū)。60年代屬于百家爭鳴的時期,當別的領(lǐng)軍人物都在談邏輯、神經(jīng)網(wǎng)絡(luò)的時候,他開始做概率模型和計算,建立了廣義模式理論,試圖給自然界各種模式建立一套統(tǒng)一的數(shù)理模型。我在以前談計算機視覺歷史的博文里寫過他,他剛剛?cè)ナ?。美國?shù)學(xué)學(xué)會AMS剛剛以他名字設(shè)立了一個獎項(GrenanderPrize)獎給對統(tǒng)計模型和計算領(lǐng)域有貢獻的學(xué)者。他絕對是學(xué)術(shù)思想的先驅(qū)人物。第二個人是JudeaPearl。他是我在UCLA的同事,原來是做啟發(fā)式搜索算法的。80年代提出貝葉斯網(wǎng)絡(luò)把概率知識表達于認知推理,并估計推理的不確定性。到90年代末,他進一步研究因果推理,這又一次領(lǐng)先于時代。2011年因為這些貢獻他拿了圖靈獎。他是一個知識淵博、思維活躍的人,不斷有原創(chuàng)思想。80多歲了,還在高產(chǎn)發(fā)表論文。順便吹牛一句,他是第一個在UCLA計算機系和統(tǒng)計系兼職的教授,我是多年之后第二個這樣兼職的。其實搞這種跨學(xué)科研究當時思想超前,找工作或者評議的時候,兩邊的同行都不待見,不認可。第三個人是LesleiValiant。他因離散數(shù)學(xué)、計算機算法、分布式體系結(jié)構(gòu)方面的大量貢獻,2010年拿了圖靈獎。1984年,他發(fā)表了一篇文章,開創(chuàng)了computationallearningtheory。他問了兩個很簡單、但是深刻的問題。第一個問題:你到底要多少例子、數(shù)據(jù)才能近似地、以某種置信度學(xué)到某個概念,就是PAClearning;第二個問題:如果兩個弱分類器綜合在一起,能否提高性能?如果能,那么不斷加弱分類器,就可以收斂到強分類器。這個就是Boosting和Adaboost的來源,后來被他的一個博士后設(shè)計了算法。順便講一句,這個機器學(xué)習(xí)的原理,其實中國人早就在生活中觀察到了,就是俗話說的“三個臭裨將、頂個諸葛亮”。這里的裨將就是副官,打仗的時候湊在一起商量對策,被民間以訛傳訛,說成“皮匠”。Valiant為人非常低調(diào)。我1992年去哈佛讀書的時候,第一學(xué)期就上他的課,當時聽不懂他說話,他上課基本是自言自語。他把自己科研的問題直接布置作業(yè)讓我們?nèi)プ?,到哪里都找不到參考答案,也沒有任何人可以問??喟?,100分的課我考了40多分。上課的人從四十多人,到了期中只有十來個人,我開始擔心是不是要掛科了。最后,還是堅持到期末。他把成績貼在他辦公室門上,當我懷著忐忑不安心情去看分的時候,發(fā)現(xiàn)他給每個人都是A。第四個人是DavidMumford。我把他放在這里,有點私心,因為他是我博士導(dǎo)師。他說他60年代初本來對人工智能感興趣。因為他數(shù)學(xué)能力特別強,上代數(shù)幾何課程的時候就發(fā)現(xiàn)能夠證明大定理了,結(jié)果一路不可收拾,拿了菲爾茨獎。但是,到了80年代中期,他不忘初心,還是決定轉(zhuǎn)回到人工智能方向來,從計算機視覺和計算神經(jīng)科學(xué)入手。我聽說他把原來代數(shù)幾何的書全部拿下書架放在走廊,讓人拿走,再也不看了。數(shù)學(xué)家來訪問,他也不接待了。計算機視覺80年代至90年代初,一個最大的流派就是做幾何和不變量,他是這方面的行家,但他根本不過問這個方向。他就從頭開始學(xué)概率,那個時候他搞不懂的問題就帶我去敲樓上統(tǒng)計系教授的門,比如去問哈佛一個有名的概率學(xué)家PersyDiaconis。他完全是一個學(xué)者,放下架子去學(xué)習(xí)新東西,直奔關(guān)鍵的體系,而不是拿著手上用慣了的錘子到處找釘子這是我最佩服的地方。然后,他皈依了廣義模式理論。他的貢獻,我就避嫌不說了。這個時期,還有一個重要的人物是做神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的多倫多大學(xué)教授Hinton。我上大學(xué)的時候,80年代后期那一次神經(jīng)網(wǎng)絡(luò)熱潮,他就出名了。他很有思想,也很堅持,是個學(xué)者型的人物。所不同的是,他下面的團隊有點像搖滾歌手,能憑著一首通俗歌曲(代碼),迅速紅遍大江南北。這里順便說一下,我跟Hinton只見過一面。他腰椎疾病使得他不能到處作報告,前幾年來UCLA做講座(那時候深度學(xué)習(xí)剛剛開始起來),我們安排了一個面談。一見面,他就說“我們總算見面了”,因為他讀過我早期做的統(tǒng)計紋理模型和隨機算法的一些論文,他們學(xué)派的一些模型和算法與我們做的工作在數(shù)理層面有很多本質(zhì)的聯(lián)系。我打印了一篇綜述文章給他帶在坐火車回去的路上看。這是一篇關(guān)于隱式(馬爾科夫場)與顯式(稀疏)模型的統(tǒng)一與過渡的信息尺度的論文,他回Toronto后就發(fā)來郵件,說很高興讀到這篇論文。很有意思的是,這篇論文的初稿,我和學(xué)生匿名投到CVPR會議,三個評分是“(5)強烈拒絕;(5)強烈拒絕;(4)拒絕”。評論都很短:“這篇文章不知所云,很怪異weird”。我們覺得文章死定了,就懶得反駁(rebuttal),結(jié)果出乎意外地被錄取了。當然,發(fā)表了也沒人讀懂。所以,我就寫成一篇長的綜述,算是暫時擱置了。我把這篇論文給他看,Hinton畢竟是行家,他一定也想過類似的問題。最近,我們又回去做這個問題,我在今年的ICIP大會特邀報告上還提到這個問題,后面也會作為一個《視覺求索》文章發(fā)布出來。這是一個十分關(guān)鍵的問題,就是兩大類概率統(tǒng)計模型如何統(tǒng)一起來(就像物理學(xué),希望統(tǒng)一某兩個力和場),這是繞不過去的。扯遠了,回到人工智能的歷史時期,我作了一個比較通俗的說法,讓大家好記住,相當于咱們中國早期的歷史。早期數(shù)理邏輯的體制相當于周朝,到80年代這個體制瓦解了,人工智能大概有二三十年不存在了,說起人工智能大家都覺得不著調(diào),污名化了。其實,它進入一個春秋五霸時期,計算機視覺、自然語言理解、認知科學(xué)、機器學(xué)習(xí)、機器人學(xué)五大學(xué)科獨立發(fā)展。在發(fā)展壯大的過程中,這些學(xué)科都發(fā)現(xiàn)了一個新的平臺或者模式,就是概率建模和隨機計算。春秋時期雖然有一些征戰(zhàn),但還是相對平靜的時期。那么現(xiàn)在開始進入一個什么狀態(tài)呢?這“春秋五霸”不斷擴充地盤和人馬,在一個共同平臺上開始交互了。比如說視覺跟機器學(xué)習(xí)很早就開始融合了?,F(xiàn)在視覺與自然語言、視覺跟認知、視覺跟機器人開始融合了。近年來,我和合作者就多次組織這樣的聯(lián)席研討會?,F(xiàn)在,學(xué)科之間則開始兼并了,就像是中國歷史上的“戰(zhàn)國七雄”時期。除了五霸,還有原來留在人工智能里面的兩個大方向:博弈決策和倫理道德。這兩者其實很接近,我后面把它們歸并到一起來講,一共六大領(lǐng)域,我把它歸納為“戰(zhàn)國六雄”。所以,我跟那些計算機視覺的研究生和年輕人說,你們不要單純在視覺這里做,你趕緊出去“搶地盤”,單獨做視覺,已經(jīng)沒有多少新東西可做的了,性能調(diào)不過公司的人是一方面;更麻煩的是,別的領(lǐng)域的人打進來,把你的地盤給占了。這是必然發(fā)生的事情,現(xiàn)在正在發(fā)生的事情。我的判斷是,我們剛剛進入一個“戰(zhàn)國時期”,以后就要把這些領(lǐng)域統(tǒng)一起來。首先我們必須深入理解計算機視覺、自然語言、機器人等領(lǐng)域,這里面有很豐富的內(nèi)容和語意。如果您不懂這些問題domain的內(nèi)涵,僅僅是做機器學(xué)習(xí)就稱作人工智能專家,恐怕說不過去。我們正在進入這么一個大集成的、大變革的時代,有很多機會讓我們?nèi)ヌ剿髑把?,不要辜負了這個時代。這是我演講的第一個部分:人工智能的歷史、現(xiàn)狀,發(fā)展的大趨勢。下面,進入我今天演講的第二個主題:用一個什么樣的構(gòu)架把這些領(lǐng)域和問題統(tǒng)一起來。我不敢說我有答案,只是給大家提出一些問題、例子和思路,供大家思考。不要指望我給你提供代碼,下載回去,調(diào)調(diào)參數(shù)就能發(fā)文章。第四節(jié)人工智能研究的認知構(gòu)架:小數(shù)據(jù)、大任務(wù)范式智能是一種現(xiàn)象,表現(xiàn)在個體和社會群體的行為過程中?;氐角懊鏋貘f的例子,我認為智能系統(tǒng)的根源可以追溯到兩個基本前提條件:一、物理環(huán)境客觀的現(xiàn)實與因果鏈條。這是外部物理環(huán)境給烏鴉提供的、生活的邊界條件。在不同的環(huán)境條件下,智能的形式會是不一樣的。任何智能的機器必須理解物理世界及其因果鏈條,適應(yīng)這個世界。二、智能物種與生俱來的任務(wù)與價值鏈條。這個任務(wù)是一個生物進化的“剛需”。如個體的生存,要解決吃飯和安全問題,而物種的傳承需要交配和社會活動。這些基本任務(wù)會衍生出大量的其它的“任務(wù)”。動物的行為都是被各種任務(wù)驅(qū)動的。任務(wù)代表了價值觀和決策函數(shù),這些價值函數(shù)很多在進化過程中就已經(jīng)形成了,包括人腦中發(fā)現(xiàn)的各種化學(xué)成分的獎懲調(diào)制,如多巴胺(快樂)、血清素(痛苦)、乙酰膽堿(焦慮、不確定性)、去甲腎上腺素(新奇、興奮)等。有了物理環(huán)境的因果鏈和智能物種的任務(wù)與價值鏈,那么一切都是可以推導(dǎo)出來的。要構(gòu)造一個智能系統(tǒng),如機器人或者游戲環(huán)境中的虛擬的人物,我們先給他們定義好身體的基本行動的功能,再定一個模型的空間(包括價值函數(shù))。其實,生物的基因也就給了每個智能的個體這兩點。然后,它就降臨在某個環(huán)境和社會群體之中,就應(yīng)該自主地生存,就像烏鴉那樣找到一條活路:認識世界、利用世界、改造世界。這里說的模型的空間是一個數(shù)學(xué)的概念,我們?nèi)四X時刻都在改變之中,也就是一個抽象的點,在這個空間中移動。模型的空間通過價值函數(shù)、決策函數(shù)、感知、認知、任務(wù)計劃等來表達。通俗來說,一個腦模型就是世界觀、人生觀、價值觀的一個數(shù)學(xué)的表達。這個空間的復(fù)雜度決定了個體的智商和成就。我后面會講到,這個模型的表達方式和包含哪些基本要素。有了這個先天的基本條件(設(shè)計)后,下一個重要問題:是什么驅(qū)動了模型在空間中的運動,也就是學(xué)習(xí)的過程?還是兩點:一、外來的數(shù)據(jù)。外部世界通過各種感知信號,傳遞到人腦,塑造我們的模型。數(shù)據(jù)來源于觀察(observation)和實踐(experimentation)。觀察的數(shù)據(jù)一般用于學(xué)習(xí)各種統(tǒng)計模型,這種模型就是某種時間和空間的聯(lián)合分布,也就是統(tǒng)計的關(guān)聯(lián)與相關(guān)性。實踐的數(shù)據(jù)用于學(xué)習(xí)各種因果模型,將行為與結(jié)果聯(lián)系在一起。因果與統(tǒng)計相關(guān)是不同的概念。二、內(nèi)在的任務(wù)。這就是由內(nèi)在的價值函數(shù)驅(qū)動的行為、以期達到某種目的。我們的價值函數(shù)是在生物進化過程中形成的。因為任務(wù)的不同,我們往往對環(huán)境中有些變量非常敏感,而對其它一些變量不關(guān)心。由此,形成不同的模型。機器人的腦、人腦都可以看成一個模型。任何一個模型由數(shù)據(jù)與任務(wù)來共同塑造。現(xiàn)在,我們就來到一個很關(guān)鍵的地方。同樣是在概率統(tǒng)計的框架下,當前的很多深度學(xué)習(xí)方法,屬于一個被我稱作“大數(shù)據(jù)、小任務(wù)范式(bigdataforsmalltask)”。針對某個特定的任務(wù),如人臉識別和物體識別,設(shè)計一個簡單的價值函數(shù)Lossfunction,用大量數(shù)據(jù)訓(xùn)練特定的模型。這種方法在某些問題上也很有效。但是,造成的結(jié)果是,這個模型不能泛化和解釋。所謂泛化就是把模型用到其它任務(wù),解釋其實也是一種復(fù)雜的任務(wù)。這是必然的結(jié)果:你種的是瓜,怎么希望得豆呢?我多年來一直在提倡的一個相反的思路:人工智能的發(fā)展,需要進入一個“小數(shù)據(jù)、大任務(wù)范式(smalldataforbigtasks)”,要用大量任務(wù)、而不是大量數(shù)據(jù)來塑造智能系統(tǒng)和模型。在哲學(xué)思想上,必須有一個思路上的大的轉(zhuǎn)變和顛覆。自然辨證法里面,恩格斯講過,“勞動創(chuàng)造了人”,這個有點爭議。我認為一個更合適的說法是“任務(wù)塑造了智能”。人的各種感知和行為,時時刻刻都是被任務(wù)驅(qū)動的。這是我過去很多年來一直堅持的觀點,也是為什么我總體上不認可深度學(xué)習(xí)這個學(xué)派的做法,雖然我自己是最早提倡統(tǒng)計建模與學(xué)習(xí)的一批人,但是后來我看到了更大的問題和局勢。當然,我們的假設(shè)前提是智能系統(tǒng)已經(jīng)有了前面講的基本的設(shè)置,這個系統(tǒng)設(shè)置是億萬年的進化得來的,是不是通過大量數(shù)據(jù)了打磨(淘汰)出來的呢。有道理!如果我們把整個發(fā)展的過程都考慮進來,智能系統(tǒng)的影響可以分成三個時間段:(1)億萬年的進化,被達爾文理論的一個客觀的適者生存的pheontypelandscape驅(qū)動;(2)千年的文化形成與傳承;(3)幾十年個體的學(xué)習(xí)與適應(yīng)。我們?nèi)斯ぶ悄苎芯客ǔ?紤]的是第三個階段。那么,如何定義大量的任務(wù)?人所感興趣的任務(wù)有多少,是個什么空間結(jié)構(gòu)?這個問題,心理和認知科學(xué)一直說不清楚,寫不下來。這是人工智能發(fā)展的一個巨大挑戰(zhàn)。理清了這些前提條件,帶著這樣的問題,下面我用六節(jié)分別介紹六大領(lǐng)域的問題和例子,看能不能找到共性的、統(tǒng)一的框架和表達模型。過去幾年來,我的研究中心一直把這六個領(lǐng)域的問題綜合在一起研究,目的就是尋找一個統(tǒng)一的構(gòu)架,找到“烏鴉”這個解。第五節(jié)計算機視覺:從“深”到“暗”Dark,BeyondDeep視覺是人腦最主要的信息來源,也是進入人工智能這個殿堂的大門。我自己的研究也正是從這里入手的。這一節(jié)以一個具體例子來介紹視覺里面的問題。當然,很多問題遠遠沒有被解決。這是我家廚房的一個視角。多年前的一個下午,我女兒放學(xué)回家,我正在寫一個大的項目申請書,就拍了這一張作為例子。圖像就是一個像素的二維矩陣,可是我們感知到非常豐富的三維場景、行為的信息;你看的時間越長,理解的也越多。下面我列舉幾個被主流(指大多數(shù)研究人員)忽視的、但是很關(guān)鍵的研究問題。一、幾何常識推理與三維場景構(gòu)建。以前計算機視覺的研究,需要通過多張圖像(多視角)之間特征點的對應(yīng)關(guān)系,去計算這些點在三維世界坐標系的位置(SfM、SLAM)。其實人只需要一張圖像就可以把三維幾何估算出來。最早我在2002與一個學(xué)生韓峰發(fā)表了一篇文章,受到當時幾何學(xué)派的嘲笑:一張圖像怎么能計算三維呢,數(shù)學(xué)上說不通呀。其實,在我們的人造環(huán)境中,有很多幾何常識和規(guī)律:比如,你坐的椅子高度就是你小腿的長度約16英寸,桌子約30英寸,案臺約35英寸,門高約80英寸都是按照人的身體尺寸和動作來設(shè)計的。另外,人造環(huán)境中有很多重復(fù)的東西,比如幾個窗戶一樣大小一致,建筑設(shè)計和城市規(guī)劃都有規(guī)則。這些就是geometriccommonsense,你根據(jù)這些幾何的約束就可以定位很多點的三維位置,同時估計相機位置和光軸。見下圖所示,在這個三維場景中,我們的理解就可以表達成為一個層次分解(compositional)的時空因果的解譯圖(Spatial,TemporalandCausalParseGraph),簡稱STC-PG。STC-PG是一個極其重要的概念,我下面會逐步介紹。幾何重建的一個很重要的背景是,我們往往不需要追求十分精確的深度位置。比如,人對三維的感知其實都是非常不準的,它的精確度取決于你當前要執(zhí)行的任務(wù)。在執(zhí)行的過程中,你不斷地根據(jù)需要來提高精度。比如,你要去拿幾米以外的一個杯子,一開始你對杯子的方位只是一個大致的估計,在你走近、伸手的過程中逐步調(diào)整精度。這就回到上一節(jié)談的問題,不同任務(wù)對幾何與識別的精度要求不一樣。這是人腦計算非常高效的一個重要原因。最近,我以前一個博士后劉曉白(現(xiàn)在是助理教授)和我其他學(xué)生在這方面取得了很好進展,具體可以查看他們相關(guān)文章。二、場景識別的本質(zhì)是功能推理?,F(xiàn)在很多學(xué)者做場景的分類和分割都是用一些圖像特征,用大量的圖片例子和手工標注的結(jié)果去訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型這是典型的“鸚鵡”模式。而一個場景的定義本質(zhì)上就是功能。當你看到一個三維空間之后,人腦很快就可以想象我可以干什么:這個地方倒水,這里可以拿杯子,這里可以坐著看電視等?,F(xiàn)代的設(shè)計往往是復(fù)合的空間,就是一個房間可以多種功能,所以簡單去分類已經(jīng)不合適了。比如,美式廚房可以做飯、洗菜、用餐、聊天、吃飯。臥室可以睡覺、梳妝、放衣服、看書。場景的定義是按照你在里面能夠干什么,這個場景就是個什么,按照功能劃分,這些動作都是你想象出來的,實際圖像中并沒有。人腦感知的識別區(qū)與運動規(guī)劃區(qū)是直接互通的,相互影響。我的博士學(xué)生趙一彪就是做這個的,他畢業(yè)去了MIT做認知科學(xué)博后,現(xiàn)在創(chuàng)立了一家自動駕駛的AI公司。為了想象這些功能,人腦有十分豐富的動作模型,這些動作根據(jù)尺度分為兩類(見下圖)。第一類(左圖)是與整個身體相關(guān)的動作,如坐、站、睡覺、工作等等;第二類(右圖)是與手的動作相關(guān)的,如砸、剁、鋸、撬等等。這些四維基本模型(三維空間加一維時間)可以通過日常活動記錄下來,表達了人的動作和家具之間,以及手和工具之間的關(guān)系。正因為這一點,心理學(xué)研究發(fā)現(xiàn)我們將物體分成兩大類,分別存放在腦皮層不同區(qū)域:一類是跟手的大小有關(guān),跟手的動作相關(guān)的,如你桌上的東西;另一類是跟身體有關(guān),例如家具之類。有了這個理解,我們就知道:下面兩張圖,雖然圖像特征完全不同,但是他們是同一類場景,功能上是等價的。人的活動和行為,不管你是哪個國家、哪個歷史時期,基本是不變的。這是智能泛化的基礎(chǔ),也就是把你放到一個新的地區(qū),你不需要大數(shù)據(jù)訓(xùn)練,馬上就能理解、適應(yīng)。這是我們能夠舉一反三的一個基礎(chǔ)。回到前面的那個STC-PG解譯圖,每個場景底下其實就分解成為一些動作和功能(見STC-PG圖中的綠色方片節(jié)點)。由計算機想象、推理的各種功能決定對場景的分類。想象功能就是把人的各種姿態(tài)放到三維場景中去擬合(見廚房解譯圖中人體線畫)。這是完全不同于當前的深度學(xué)習(xí)方法用的分類方法。三、物理穩(wěn)定性與關(guān)系的推理。我們的生活空間除了滿足人類的各種需求(功能、任務(wù))之外,另一個基本約束就是物理。我們對圖像的解釋和理解被表達成為一個解譯圖,這個解譯圖必須滿足物理規(guī)律,否則就是錯誤的。比如穩(wěn)定性是人可以快速感知的,如果你發(fā)現(xiàn)周圍東西不穩(wěn),要倒了,你反應(yīng)非???,趕緊閃開。最近我們項目組的耶魯大學(xué)教授BrianScholl的認知實驗發(fā)現(xiàn),人對物理穩(wěn)定性的反應(yīng)是毫秒級,第一反應(yīng)時間大約100ms。我們對圖像的理解包含了物體之間的物理關(guān)系,每個物體的支撐點在那里。比如,下面這個圖,吊燈和墻上掛的東西,如果沒有支撐點,就會掉下來(右圖)。這個研究方向,MIT認知科學(xué)系的JoshTenenbuam教授與我都做了多年。我提出了一個新的場景理解的minimax標準:minimizeinstabilityandmaximizefunctionality最小化不穩(wěn)定性且最大化功能性。這比以前我們做圖像理解的用的MDL(最小描述長度)標準要更靠譜。這是解決計算機視覺的基本原理,功能和物理是設(shè)計場景的基本原則。幾何尺寸是附屬于功能推出來的,比如椅子的高度就是因為你要坐得舒服,所以就是你小腿的長度。回到我家廚房的例子,你就會問,那里面的水是如何被檢測到的呢?水是看不見的,花瓶和水壺里的水由各種方式推出來的。另外,你可能注意到,桌上的番茄醬瓶子是倒立著,為什么呢?你可能很清楚,你家的洗頭膏快用完的時候,瓶子是不是也是的倒著放的呢?這就是對粘稠液體的物理和功能理解之后的結(jié)果。由此,你可以看到我們對一個場景的理解是何等“深刻”,遠遠超過了用深度學(xué)習(xí)來做的物體分類和檢測。四、意向、注意和預(yù)測。廚房那張圖有一個人和一只狗,我們可以進一步識別其動作、眼睛注視的地方,由此推導(dǎo)其動機和意向。這樣我們可以計算她在干什么、想干什么,比如說她現(xiàn)在是渴了,還是累了。通過時間累積之后,進而知道她知道哪些,也就是她看到了或者沒有看到什么。在時間上做預(yù)測,她下面想干什么。只有把這些都計算出來了,機器才能更好地與人進行交互。所以,雖然我們只看到一張圖片,那張STC-PG中,我們增加了時間維度,對人和動物的之前和之后的動作,做一個層次的分析和預(yù)測。當機器人能夠預(yù)判別人的意圖和下面的動作,那么它才能和人進行互動和合作。后面,我們講的語言對話可以幫助人機互動和合作;但是,我們?nèi)粘:芏嘟换f(xié)助,靠的是默契,不需要言語也能做不少事。下面的這一張圖,是多攝像機的一個綜合場景的解譯實例。這是我的實驗室做出來的一個視覺系統(tǒng)。這個視頻的理解就輸出為一個大的綜合的STC-PG。在此基礎(chǔ)上,就可以輸出文字的描述(I2T)和回答提問QA。我們把它叫做視覺圖靈測試,網(wǎng)址:。與第一節(jié)講的機器人競賽類似,這也是一個DARPA項目。測試就是用大量視頻,我們算出場景和人的三維的模型、動作、屬性、關(guān)系等等,然后就來回答各種各樣的1000多個問題?,F(xiàn)在一幫計算機視覺的人研究VQA(視覺問答),就是拿大量的圖像和文本一起訓(xùn)練,這是典型的“鸚鵡”系統(tǒng),基本都是“扯白”?;卮鸬奈淖譀]有真正理解圖像的內(nèi)容,常常邏輯不通。我們這個工作是在VQA之前,認真做了多年。我們系統(tǒng)在項目DARPA測試中領(lǐng)先,當時其它團隊根本無法完成這項任務(wù)。可是,現(xiàn)在科研的一個現(xiàn)實是走向“娛樂化”:膚淺的歌曲流行,大家都能唱,復(fù)雜高深的東西大家躲著走。既然說到這里,我就順便說說一些競賽的事情。大約從2008年開始,CVPR會議的風(fēng)氣就被人“帶到溝里”了,組織各種數(shù)據(jù)集競賽,不談理解了,就是數(shù)字掛帥。中國很多學(xué)生和團隊就開始參與,俗稱“刷榜”。我那個時候跟那些組織數(shù)據(jù)集的人說(其實我自己2005年是最早在湖北蓮花山做大型數(shù)據(jù)標注的,但我一早就看到這個問題,不鼓勵刷榜),你們這些比賽前幾名肯定是中國學(xué)生或者公司?,F(xiàn)在果然應(yīng)驗了,大部分榜上前幾名都是中國人名字或單位了。咱們刷榜比打乒乓球還厲害,刷榜變成咱們AI研究的“國球”。所謂刷榜,一般是下載了人家的代碼,改進、調(diào)整、搭建更大模塊,這樣速度快。我曾經(jīng)訪問一家技術(shù)很牛的中國公司(不是搞視覺的),那個公司的研發(fā)主管非常驕傲,說他們刷榜總是贏,美國一流大學(xué)都不在話下。我聽得不耐煩了,我說人家就是兩個學(xué)生在那里弄,你們這么大個團隊在這里刷,你代碼里面基本沒有算法是你自己的。如果人家之前不公布代碼,你們根本沒法玩。很多公司就拿這種刷榜的結(jié)果宣傳自己超過了世界一流水平。五、任務(wù)驅(qū)動的因果推理與學(xué)習(xí)。前面我談了場景的理解的例子,下面我談一下物體的識別和理解,以及為什么我們不需要大數(shù)據(jù)的學(xué)習(xí)模式,而是靠舉一反三的能力。我們?nèi)耸欠浅9纳鐣游?,就是說做什么事情都是被任務(wù)所驅(qū)動的。這一點,2000年前的司馬遷就已經(jīng)遠在西方功利哲學(xué)之前看到了(《史記》“貨殖列傳”):“天下熙熙,皆為利來;天下攘攘,皆為利往?!蹦敲?,人也就帶著功利的目的來看待這個世界,這叫做“teleologicalstance”。這個物體是用來干什么的?它對我有什么用?怎么用?當然,有沒有用是相對于我們手頭的任務(wù)來決定的。很多東西,當你用不上的時候,往往視而不見;一旦要急用,你就會當個寶。俗話叫做“勢利眼”,沒辦法,這是人性!你今天干什么、明天干什么,每時每刻都有任務(wù)。俗話又叫做“屁股決定腦袋”,一個官員坐在不同位置,他就有不同的任務(wù)與思路,位置一調(diào),馬上就“物是人非”了。我們的知識是根據(jù)我們的任務(wù)來組織的。那么什么叫做任務(wù)呢?如何表達成數(shù)學(xué)描述呢?每個任務(wù)其實是在改變場景中的某些物體的狀態(tài)。牛頓發(fā)明了一個詞,在這里被借用了:叫做fluent。這個詞還沒被翻譯到中文,就是一種可以改變的狀態(tài),我暫且翻譯為“流態(tài)”吧。比如,把水燒開,水溫就是一個流態(tài);番茄醬與瓶子的空間位置關(guān)系是一個流態(tài),可以被擠出來;還有一些流態(tài)是人的生物狀態(tài),比如餓、累、喜悅、悲痛;或者社會關(guān)系:從一般人,到朋友、再到密友等。人類和動物忙忙碌碌,都是在改變各種流態(tài),以提高我們的價值函數(shù)(利益)。懂得這一點,我們再來談理解圖像中的三維場景和人的動作。其實,這就是因果關(guān)系的推理。所謂因果就是:人的動作導(dǎo)致了某種流態(tài)的改變。理解圖像其實與偵探(福爾摩斯)破案一樣,他需要的數(shù)據(jù)往往就是很小的蛛絲馬跡,但是,他能看到這些蛛絲馬跡,而普通沒有受偵探訓(xùn)練的人就看不見。那么,如何才能看到這些蛛絲馬跡呢?其一、你需要大量的知識,這個知識來源于圖像之外,是你想象的過程中用到的,比如一個頭發(fā)怎么掉在這里的?還有就是行為的動機目的,犯案人員到底想改變什么“流態(tài)”?我把這些圖像之外的東西統(tǒng)稱為“暗物質(zhì)”DarkMatter。物理學(xué)家認為我們可觀察的物質(zhì)和能量只是占宇宙總體的5%,剩下的95%是觀察不到的暗物質(zhì)和暗能量。視覺與此十分相似:感知的圖像往往只占5%,提供一些蛛絲馬跡;而后面的95%,包括功能、物理、因果、動機等等是要靠人的想象和推理過程來完成的。有了這個認識,我們來看一個例子(見下圖左)。這個例子來自我們CVPR2015年發(fā)的paper,主要作者是朱毅鑫,這也是我很喜歡的一個工作。一個人要完成的任務(wù)是砸核桃,改變桌子上那個核桃的流態(tài)。把這個任務(wù)交給UCLA一個學(xué)生,他從桌面上的工具里面選擇了一個錘子,整個過程沒有任何過人之處,因為你也會這么做。不過你細想一下,這個問題還相當復(fù)雜。這個動作就包含了很多信息:他為什么選這個錘子而不選別的東西,他為什么拿著錘這個柄靠后的位置?他揮動的力度用多少,這都是經(jīng)過計算的。這還有幾千幾萬的可能其他各種選擇、解法,他沒有選擇,說明他這個選法比其它的選擇肯定會好,好在哪呢?看似簡單的問題,往往很關(guān)鍵,一般人往往忽略了。你通過這一琢磨、一對比就領(lǐng)悟到這個任務(wù)是什么,有什么竅門。以前學(xué)徒就是跟著師傅學(xué),師傅經(jīng)常在做任務(wù),徒弟就看著,師傅也不教,徒弟就靠自己領(lǐng)悟。有時候師傅還要留一手,不然你早早出師了,搶他的飯碗。有時候師傅擋著不讓你看;莫言的小說就有這樣的情節(jié)。人就是在觀察的時候,把這個任務(wù)學(xué)會了?,F(xiàn)在到一個新的場景(圖右),原來學(xué)習(xí)的那些工具都不存在了,完全是新的場景和物體,任務(wù)保持不變。你再來砸這個核桃試試看,怎么辦?人當然沒有問題,選這個木頭做的桌子腿,然后砸的動作也不一樣。這才是舉一反三,這才是智能,這沒有什么其他數(shù)據(jù),沒有大量數(shù)據(jù)訓(xùn)練,這不是深度學(xué)習(xí)方法。那這個算法怎么做的呢?我們把對這個物理空間、動作、因果的理解還是表達成為一個Spatial,TemporalandCausalParseGraph(STC-PG)。這個STC-PG包含了你對空間的理解(物體、三維形狀、材質(zhì)等)、時間上動作的規(guī)劃、因果的推理。最好是這樣子砸,它物理因果能夠?qū)崿F(xiàn),可能會被砸開,再連在一塊來求解,求時間、空間和因果的這么一個解析圖,就是一個解。也就是,最后你達到目的,改變了某種物理的流態(tài)。我再強調(diào)幾點:一、這個STC-PG的表達是你想象出來的。這個理解的過程是在你動手之前就想好了的,它里面的節(jié)點和邊大多數(shù)在圖像中是沒有的,也就是我稱作的“暗物質(zhì)”。二、這個計算的過程中,大量的運算屬于“top-down”自頂向下的計算過程。也就是用你腦皮層里面學(xué)習(xí)到的大量的知識來解釋你看到的“蛛絲馬跡”,形成一個合理的解。而這種Top-down的計算過程在目前的深度多層神經(jīng)網(wǎng)絡(luò)中是沒有的。神經(jīng)網(wǎng)絡(luò)只有feedforward向上逐層傳播信息。你可能要說了,那不是有Back-propagation嗎?那不是top-down。一年前,LeCun來UCLA做講座,他看到我在座,就說DNN目前缺乏朱教授一直提倡的Top-Down計算進程。三、學(xué)習(xí)這個任務(wù)只需要極少的幾個例子。如果一個人要太多的例子,說明Ta腦袋“不開竅”,智商不夠。順便說一句,我在UCLA講課,期末學(xué)生會給老師評估教學(xué)質(zhì)量。一個常見的學(xué)生意見就是朱教授給的例子太少了。對不起,我沒時間給你上課講那么多例子,靠做題、題海訓(xùn)練,那不是真本事,也不是學(xué)習(xí)的本質(zhì)。子曰:“學(xué)而不思則罔,思而不學(xué)則殆”。這里的“思”應(yīng)該是推理,對于自然界或者社會的現(xiàn)象、行為和任務(wù),形成一個符合規(guī)律的自洽的解釋,在我看來就是一個STC-PG。那么STC-PG是如何推導(dǎo)出來的呢?它的母板是一個STC-AOG,AOG就是And-OrGraph與或圖。這個與或圖是一個復(fù)雜的概率語法圖模型,它可以導(dǎo)出巨量的合乎規(guī)則的概率事件,每一個事件就是STC-PG。這個表達與語言、認知、機器人等領(lǐng)域是一致的。在我看來,這個STC-AOG是一個統(tǒng)一表達,它與邏輯以及DNN可以打通關(guān)節(jié)。這里就不多講了。接著砸核桃的例子講,還是朱毅鑫那篇文章的實驗,這個實驗很難做。比如現(xiàn)在的一個任務(wù)是“鏟土”,我給你一個例子什么叫鏟土,然后開始測試這個智能算法(機器人)的泛化能力。見下圖。第一組實驗(圖左)。我給你一些工具,讓你鏟土,機器人第一選擇挑了這個鏟子,這個不是模式識別,它同時輸出用這個鏟子的動作、速度;輸出鏟子柄的綠色地方表示它要手握的地方,這個紅的表示它用來鏟土的位置。第二選擇是一把刷子。第二組實驗(圖中)。假如我要把這些工具拿走,你現(xiàn)在用一些家里常見的物體,任務(wù)還是鏟土。它的第一選擇是鍋,第二選擇是杯子。二者的確都是最佳選擇。這是計算機視覺做出來的,自動的。第三組實驗(圖右)。假如我們回到石器時代,一堆石頭能干什么事情?所以我經(jīng)常說,咱們石器時代的祖先,比現(xiàn)在的小孩聰明。因為他們能夠理解這個世界的本質(zhì),現(xiàn)在,工具和物體越來越特定了,一個工具做一個任務(wù),人都變成越來越傻了。視覺認知就退化成模式識別的問題了:從原來工具的理解變成一個模式識別。也就是由烏鴉變鸚鵡了。計算機視覺小結(jié):我簡短總結(jié)一下視覺的歷史。見下圖。視覺研究前面25年的主流是做幾何,以形狀和物體為中心的研究:Geometry-BasedandObject-Centered。最近25年是從圖像視角通過提取豐富的圖像特征描述物體的外觀來做識別、分類:Appearance-BasedandView-Centered。幾何當然決定表觀。那么幾何后面深處原因是什么呢?幾何形狀的設(shè)計是因為有任務(wù),最頂層是有任務(wù),然后考慮到功能、物理、因果,設(shè)計了這些物體再來產(chǎn)生圖像,這是核心問題所在。我把在當前圖像是看不見的“東西”叫darkmatter。物理里面darkmatterenergy占95%,確確實實在我們智能里面darkmatter也占了大部分。而你看到的東西就是現(xiàn)在深度學(xué)習(xí)能夠解決的,比如說人臉識別、語音識別,就是很小的一部分看得見的東西;看不見的在后面,才是我們真正的智能,像那個烏鴉能做到的。所以,我的一個理念是:計算機視覺要繼續(xù)發(fā)展,必須發(fā)掘這些“darkmatter”。把圖像中想象的95%的暗物質(zhì)與圖像中可見的5%的蛛絲馬跡,結(jié)合起來思考,才能到達真正的理解?,F(xiàn)在大家都喜歡在自己工作前面加一個Deep,以為這樣就算深刻了、深沉了,但其實還是非常膚淺的。不管你多深,不管你卷積神經(jīng)網(wǎng)絡(luò)多少層,它只是處理可見的圖像表觀特征、語音特征,沒有跳出那5%,對吧?那些認為深度學(xué)習(xí)解決了計算機視覺的同學(xué),我說服你了么?如果沒有,后面還有更多的內(nèi)容。視覺研究的未來,我用一句話來說:GoDark,BeyondDeep發(fā)掘暗,超越深。這樣一來,視覺就跟認知和語言接軌了。第六節(jié)認知推理:走進內(nèi)心世界上一節(jié)講到的智能的暗物質(zhì),已經(jīng)屬于感知與認知的結(jié)合了。再往里面走一步,就進入人與動物的內(nèi)心世界Mind,內(nèi)心世界反映外部世界,同時受到動機任務(wù)的影響和扭曲。研究內(nèi)涵包括:自從人工智能一開始,研究者就提出這些問題,代表人物是Minsky:societyofminds,心理學(xué)研究叫做Theoryofminds。到2006年的時候,MIT認知科學(xué)系的Saxe與Kanwisher(她是我一個項目合作者)發(fā)現(xiàn)人的大腦皮層有一個專門的區(qū),用于感受、推理到別人的想法:我知道你在想什么、干什么。這是人工智能的重要部分。說個通俗的例子,你可能聽到過這樣的社會新聞:某男能夠同時與幾個女朋友維持關(guān)系,而且不被對方發(fā)現(xiàn),就是他那幾個女朋友互相不知情。這其實很難做到,因為你一不小心就要暴露了。他需要記住跟誰說過什么謊話、做過或者答應(yīng)過什么事。這種人的這個腦皮層區(qū)一定是特別發(fā)達,而他的那些女朋友的這個區(qū)可能不那么發(fā)達。電影中的間諜需要特別訓(xùn)練這方面的“反偵察”能力,就是你盡量不讓對方發(fā)現(xiàn)你的內(nèi)心。這是極端狀況?,F(xiàn)實生活中,一般非隱私性的活動中,我們是不設(shè)防的,也就是“君子坦蕩蕩”。不光是人有這個偵察與反偵察的能力,動物也有(見上圖)。比如說這個鳥(圖左),它藏果子的時候,會查看周圍是否有其它鳥或者動物在那里看到它;如果有,它就不藏,它非要找到?jīng)]人看它的時候和地方藏。這就是它在觀察你,知道你知道什么。圖中是一個狐貍和水獺對峙的視頻。水獺抓到魚了以后,發(fā)現(xiàn)這個狐貍在岸上盯著它呢,它知道這個狐貍想搶它嘴里叼著的魚。水獺就想辦法把魚藏起來,它把這個魚藏到水底下,然后這個狐貍?cè)フ?。這說明了動物之間互相知道對方在想什么。小孩從一歲多的時候開始就有了這個意識。一個關(guān)鍵反應(yīng)證據(jù)是:他會指東西給你看,你看到了、還是沒看到的,他會知道。FelixWarneken現(xiàn)在在哈佛大學(xué)當心理學(xué)系的助理教授。他當博士生的時候做過一系列心理實驗。一般一歲多的小孩能知道給你開門,小孩很樂意、主動去幫忙。小孩很早就知道跟人進行配合,這就是人機交互。你把這個小孩看成一個機器人的話,你要設(shè)計一個機器人,就是希望它知道看你想干什么,這是人工智能的一個核心表現(xiàn)。盡管人工智能和認知科學(xué),以及最近機器人領(lǐng)域的人都對這個問題感興趣,但是,大家以前還都是嘴上、紙上談兵,用的是一些toyexamples作為例子來分析。要做真實世界的研究,就需要從計算機視覺入手。計算機視覺里面的人呢,又大部分都在忙著刷榜,一時半會還沒意思到這是個問題。我的實驗室就捷足先登,做了一些初步的探索,目前還在積極推進之中。我們首先做一個簡單的試驗,如上圖。這個人在廚房里,當前正在用微波爐。有一個攝像頭在看著他,就跟監(jiān)控一樣,也可以是機器人的眼睛(圖左)。首先能夠看到他目前在看什么(圖中),然后,轉(zhuǎn)換視角,推算他目前看到了什么(圖右)。上面這個圖是實驗的視頻的截圖。假設(shè)機器人事先已經(jīng)熟悉某個三維房間(圖e),它在觀察一個人在房間里面做事(圖a)。為了方便理解,咱們就想象這是一個養(yǎng)老院或者醫(yī)院病房,機器人需要知道這個人現(xiàn)在在干什么,看什么(圖c)。它的輸入僅僅是一個二維的視頻(圖a)。它開始跟蹤這個人的運動軌跡和眼睛注視的地方,顯示在圖e的那些軌跡和圖f的行為分類。然后,圖d(右上角)是它估算出來的,這個人應(yīng)該在看什么的圖片。也就是,它把它附體到這個人身上,來感知。這個結(jié)果與圖b對比,非常吻合。圖b是這個人帶一個眼鏡,眼鏡有一個小攝像頭記錄下來的,他確實在看的東西。這個實驗結(jié)果是魏平博士提供的,他是西交大前校長鄭南寧老師那里的一個青年教師,博士期間在我實驗室訪問,后來又回來進修。這里面需要推測動作與物體的時空交互,動作隨時間的轉(zhuǎn)換,手眼協(xié)調(diào)。然后,進一步猜他下面干什么,意圖等等。這個細節(jié)我不多講了。對這個人內(nèi)心的狀態(tài),也可以用一個STC-AOG和STC-PG來表達的,見下圖,大致包含四部分。一、時空因果的概率“與或圖”,STC-AOG。它是這個人的一個總的知識,包含了所有的可能性,我待會兒會進一步闡述這個問題。剩下的是他對當前時空的一個表達,是一個STC-PG解譯圖。此解譯圖包含三部分,圖中表達為三個三角形,每個三角形也是一個STC-PG解譯圖。二、當前的情景situation,由上圖的藍色三角形表示。當前的情況是什么,這也是一個解,表示視覺在0-t時間段之間對這個場景的理解的一個解譯圖。三、意向與動作規(guī)劃圖,由上圖的綠色三角形表示。這也是一個層次化的解譯圖,預(yù)判他下面還會做什么事情,四、當前的注意力,由上圖的紅色三角形表示。描述他正在關(guān)注什么。把這整個解譯圖放在一塊,基本上代表著我們腦袋的過去、現(xiàn)在、未來的短暫時間內(nèi)的狀態(tài)。用一個統(tǒng)一的STC-PG和STC-AOG來解釋。這是一個層次的分解。因為是Composition,它需要的樣本就很少。有人要說了,我的深度神經(jīng)網(wǎng)絡(luò)也有層次,還一百多層呢。我要說的是,你那一百多層其實就只有一層,對不對?因為你從特征做這個識別,中間的東西是什么你不知道,他不能去解釋中間那些過程,只有最后一層輸出物體類別。上面說的這個表達,是機器人對某個人內(nèi)心狀態(tài)的一個估計,這個估計有一個后驗概率,這個估計不是唯一的,存在不確定性。而且,它肯定不是真相。不同的人觀察某個人,可能估計都不一樣。那么在一個機器與人共生共存的環(huán)境中,假設(shè)這個場景里有N個機器人或者人,這里面有很多N個“自我”minds。然后,每個人有對別人有一個估計,這就有Nx(N-1)個minds表達。我知道你在想什么,你知道我在想什么,這至少是平方級的。你有一百個朋友的話,哪個朋友他腦袋里想什么你心里都有數(shù)。關(guān)系越近,理解也就越深,越準確。當然,我們這里只是做一階推理,在復(fù)雜、對抗的環(huán)境中,人們不得不用多階的表達。當年司馬懿和諸葛亮在祁山對峙時,諸葛亮比司馬懿總是要多算一階。所謂兵不厭詐,就是有時候我故意把一個錯誤信息傳給你,《三國演義》中很多此類的精彩故事,比如周瑜打黃蓋、蔣干盜書。我用下面這個圖來大致總結(jié)一下。兩個人A與B或者一個人一個機器人,他們腦袋里面的表達模式。圖中是一個嵌套的遞歸結(jié)構(gòu),每一個橢圓代表一個大腦的內(nèi)心mind。每個mind除了上面談到的知識STC-AOG和狀態(tài)STC-PG,還包含了價值函數(shù),就是價值觀,和決策函數(shù)。價值觀驅(qū)動動作,然后根據(jù)感知、行動去改變世界,這樣因果就出來了。我后面再細談這個問題。最底下中間的那個橢圓代表真實世界(“上帝”的mind,真相只有TA知道,我們都不知道),上面中間的那個橢圓是共識。多個人的話就是社會共識。在感知基礎(chǔ)上,大家形成一個統(tǒng)一的東西,共同理解,我們達成共識。比如,大家一起吃飯,菜上來了,大家都看到這個菜是什么菜,如果沒有共識那沒法弄。比如,“指鹿為馬”或者“皇帝的新裝”,就是在這些minds之間出現(xiàn)了不一致的東西。這是所謂“認識論”里面的問題。以前,在大學(xué)學(xué)習(xí)認識論,老師講得比較空泛,很難理解;現(xiàn)在你把表達寫出來,一切都清楚了。這也是人工智能必須解決的問題。我們要達成共識,共同的知識,然后在一個小的團體、大致社會達成共同的價值觀。當有了共同價值觀的時候,就有社會道德和倫理規(guī)范,這都可以推導(dǎo)出來了。俗話說,入鄉(xiāng)隨俗。當你加入一個新的團體或者社交群體,你可能先觀察看看大家都是怎么做事說話的。機器人要與人共生共存必須理解人的團體的社會道德和倫理規(guī)范。所以說,這個認識論是機器人發(fā)展的必經(jīng)之道。烏鴉知道人類在干什么,它才能夠利用這個在社會里生存。那么如何達成共識呢?語言就是必要的形成共識的工具了。第七節(jié)語言通訊:溝通的認知基礎(chǔ)我要介紹的人工智能的第三個領(lǐng)域是語言、對話。最近我兩次在視覺與語言結(jié)合的研討會上做了報告,從我自己觀察的角度來談,視覺與語言是密不可分的。人類的語言中樞是獨特的,有趣的是它在運動規(guī)劃區(qū)的附近。我們?yōu)槭裁匆獙υ捘??語言的起源就是要把一個人腦袋(mind)的一個信息表達傳給你一個人,這就包括上一節(jié)講的知識、注意、意向計劃,歸納為圖中那三個三角形的表達。希望通過對話形成共識,形成共同的任務(wù)規(guī)劃,就是我們一致行動。所以,語言產(chǎn)生的基礎(chǔ)是人要尋求合作。動物之間就已經(jīng)有豐富的交流的方式,很多借助于肢體語言。人的對話不一定用語言,手語、啞?。╬antomine)同樣可以傳遞很多信息。所以,在語言產(chǎn)生之前,人類就已經(jīng)有了十分豐富的認知基礎(chǔ),也就是上一節(jié)談的那些表達。沒有這樣的認知基礎(chǔ),語言是空洞的符號,對話也不可能發(fā)生。發(fā)育心理學(xué)實驗表明,12個月的小孩就可以知道去指東西,更小年齡就不會,但是很多動物永遠達不到這個水平。舉個例子,有人做了個實驗。一群大猩猩坐在動物園里,一個猩猩媽媽帶一個小猩猩,玩著玩著小猩猩跑不見了,然后這個媽媽去找。周圍一大堆閑著的猩猩坐在那里曬太陽,它們明明知道那個小猩猩去哪了。如果是人的話,我們就會熱心地指那個小孩的方向,人天生是合作的,去幫助別人的,助人為樂,所以這是為什么我們?nèi)诉M化出來了。猩猩不會,猩猩不指,它們沒有這個動機,它們腦袋與人相比一定是缺了一塊。人和動物相比,我們之所以能夠比他們更高級,因為腦袋里有很多通信的認知構(gòu)架(就像多層網(wǎng)絡(luò)通訊協(xié)議)在大腦皮層里面,沒有這些認知構(gòu)架就沒法通信。研究語言的人不去研究底下的認知構(gòu)架,那是不會有很大出息的。下面這個圖來源于人類學(xué)的研究的一個領(lǐng)軍人物MichaelTomasello。除了需要這個認知基礎(chǔ),語言的研究不能脫離了視覺對外部世界的感知、機器人運動的因果推理,否則語言就是無源之水、無本之木。這也就是為什么當前一些聊天機器人都在“扯白”。我們先來看一個最基本的的過程:信息的一次發(fā)送。當某甲(sender)要發(fā)送一條消息給某乙(receiver),這是一個簡單的通訊communication。這個通訊的數(shù)學(xué)模型是當年貝爾實驗室香農(nóng)Shannon1948年提出來的信息論。首先把它編碼,因為這樣送起來比較短,比較快;針對噪聲通道,加些冗余碼防錯;然后解碼,某乙就拿到了這個信息。見下圖。在這個通訊過程之中他有兩個基本的假設(shè)。第一、這兩邊共享一個碼本,否則你沒法解碼,這是一個基本假設(shè)。第二、就是我們有個共享的外部世界的知識在里面,我們都知道世界上正在發(fā)生什么什么事件,比如哪個股票明天要漲了,哪個地方要發(fā)生什么戰(zhàn)爭了等等。我給你傳過去的這個信息其實是一個解譯圖的片段(PG:parsegraph)。這個解譯圖的片段對于我們物理世界的一個狀態(tài)或者可能發(fā)生的狀態(tài)的描述。這個狀態(tài)也有可能就是我腦袋Mind里面的一個想法、感覺、流態(tài)(fluents)。比如,很多女人拿起電話,叫做“煲粥”,就在交流內(nèi)心的一些經(jīng)歷和感受。如果沒有這個共同的外部世界,那我根本就不知道你在說什么。比如外國人聚在一起講一個笑話,我們可能聽不懂。我們中國人說“林黛玉”,那是非常豐富的一個文化符號,我們都明白誰是林黛玉,她的身世、情感、性格和價值觀,就輪到外國人聽不懂了。Shannon的通訊理論只關(guān)心碼本的建立(比如視頻編解碼)和通訊帶寬(3G,4G,5G)。1948年提出信息論后,盡管有很多聰明人、數(shù)學(xué)根底很強的人進到這個領(lǐng)域,這個領(lǐng)域一直沒有什么大的突破。為什么?因為他們忽視了幾個更重大的認識論的問題,避而不談:這是在認知層面的,遞歸循環(huán)的認知,在編碼之外。所以,通訊理論就只管發(fā)送,就像以前電報大樓的發(fā)報員,收錢發(fā)報,他們不管你發(fā)報的動機、內(nèi)容和后果??v觀人類語言,中國的象形文字實在了不起。所謂象形文字就完全是“明碼通訊”。每個字就是外部世界的一個圖片、你一看就明白了,不需要編解碼。我覺得研究自然語言的人和研究視覺統(tǒng)計建模的人,都要好好看看中國的甲骨文,然后,所有的事情都清楚了。每個甲骨文字就是一張圖,圖是什么?代表的就是一個解譯圖的片段(fragmentofparsegraph)。上面這個圖是一個漢字的演變和關(guān)系圖,從一本書叫做《漢字樹》得來的。幾年前,我到臺灣訪問,發(fā)現(xiàn)這本叢書,很有意思。這個圖是從眼睛開始的一系列文字。首先從具象的東西開始,這中間是一個眼睛,“目”字,把手搭在眼睛上面,孫悟空經(jīng)常有這個動作,就是“看”(look)。然后是會意,比如“省”,就是細看,明察秋毫,畫一個很小的葉子在眼睛上面,指示說你看葉子里面的東西,表示你要細看。然后開始表達抽象的概念,屬性attribute、時空怎么表達,就是我們甲骨文里面,表示出發(fā)、終止,表示人的關(guān)系,人的腦袋狀態(tài),甚至表現(xiàn)倫理道德。就這樣,一直推演開。所以,搞視覺認知的,要理解物體功能就要追溯到石器時代去,搞語言的要追溯到語言起源。下圖是另一個例子:日、月、山、水、木;鳥、雞、魚、象、羊。下面彩色的圖是我們實驗室現(xiàn)在用計算機視覺技術(shù)從圖像中得到的一些物體的表達圖模型,其實就重新發(fā)明一些更具像的甲骨文。這項技術(shù)是由YiHong,司長長等博士做的無監(jiān)督學(xué)習(xí)。他們的算法發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度環(huán)保材料印刷委托協(xié)議范本3篇
- 2025版牙齒矯正教育培訓(xùn)機構(gòu)合作合同3篇
- 二零二五年度個人掛靠公司教育培訓(xùn)合作協(xié)議3篇
- 二零二五版私人學(xué)校物業(yè)設(shè)施租賃及管理合同3篇
- 機械設(shè)備行業(yè)員工需求
- 服裝行業(yè)生產(chǎn)工藝安全
- 藥學(xué)科護士協(xié)助藥劑配制
- 二零二五年度個人股權(quán)轉(zhuǎn)讓代持協(xié)議書(股權(quán)代持與退出機制)16篇
- 二零二五年度行政合同訂立流程與模板指南3篇
- 二零二五年度婚禮視頻拍攝制作合同2篇
- 春季開學(xué)安全第一課
- 課題申報書:數(shù)智賦能高職院校思想政治理論課“金課”實踐路徑研究
- H3CNE認證考試題庫官網(wǎng)2022版
- 感統(tǒng)訓(xùn)練培訓(xùn)手冊(適合3-13歲兒童)
- ??停?024年智能制造校園招聘白皮書
- 海員的營養(yǎng)-1315醫(yī)學(xué)營養(yǎng)霍建穎等講解
- 2023年廣東省招聘事業(yè)單位人員考試真題及答案
- 幼兒平衡車訓(xùn)練課程設(shè)計
- 梁山伯與祝英臺小提琴譜樂譜
- 我國全科醫(yī)生培訓(xùn)模式
- DBJ51-T 188-2022 預(yù)拌流態(tài)固化土工程應(yīng)用技術(shù)標準
評論
0/150
提交評論