人工智能通識導(dǎo)論 課件匯 黃河燕 01-人工智能與智能社會 -04 搜索技術(shù)_第1頁
人工智能通識導(dǎo)論 課件匯 黃河燕 01-人工智能與智能社會 -04 搜索技術(shù)_第2頁
人工智能通識導(dǎo)論 課件匯 黃河燕 01-人工智能與智能社會 -04 搜索技術(shù)_第3頁
人工智能通識導(dǎo)論 課件匯 黃河燕 01-人工智能與智能社會 -04 搜索技術(shù)_第4頁
人工智能通識導(dǎo)論 課件匯 黃河燕 01-人工智能與智能社會 -04 搜索技術(shù)_第5頁
已閱讀5頁,還剩266頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1234自然智能生物智能561956年:

達(dá)特茅斯會議,麥卡錫首次提出“人工智能”術(shù)語,標(biāo)志人工智能學(xué)科誕生。7891011Alpha

Go無人超市智能機(jī)器人自動駕駛“人工智能是制造智能機(jī)器的科學(xué)與工程。”——

約翰·麥卡錫,“人工智能”概念的提出者“人工智能就是研究如何使計算機(jī)做過去只有人才能做的智能工作?!薄?/p>

麻省理工學(xué)院

帕特里克·溫斯頓目前沒有統(tǒng)一的定義,但學(xué)科的基礎(chǔ)任務(wù)是明確的,即讓機(jī)器擁有人的智慧。12人工智能是一門研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。其主要利用智能計算機(jī)程序賦予機(jī)器學(xué)習(xí)、理解人類的能力。AI背景下,何謂“智能”?智能的水平對于不同人或不同生物來說不盡相同13認(rèn)知智能是人工智能的高級階段是人工智能進(jìn)一步突破、應(yīng)用的關(guān)鍵瓶頸計算智能能存會算完勝人類感知智能能聽會說,能看會認(rèn)與人類媲美認(rèn)知智能能理解會思考與人類有一定差距智能是有層次的,不同層次間是遞進(jìn)關(guān)系。14運算智能:即快速計算和記憶存儲能力。人工智能所涉及的各項技術(shù)的發(fā)展是不均衡的。現(xiàn)階段計算機(jī)比較具有優(yōu)勢的是運算能力和存儲能力。典型代表1996年IBM的深藍(lán)計算機(jī)戰(zhàn)勝了當(dāng)時的國際象棋冠軍卡斯帕羅夫,2017年阿爾法狗圍棋戰(zhàn)勝人類頂尖棋手李世石和柯潔。從此,人類在這樣的強(qiáng)運算型的比賽方面就不能戰(zhàn)勝機(jī)器了。感知智能:即視覺、聽覺、觸覺等感知能力。人和動物都具備,能夠通過各種智能感知能力與自然界進(jìn)行交互。自動駕駛汽車,就是通過激光雷達(dá)等感知設(shè)備和人工智能算法,實現(xiàn)這樣的感知智能的。機(jī)器在感知世界方面,比人類還有優(yōu)勢。人類都是被動感知的,但是機(jī)器可以主動感知,如:激光雷達(dá)、微波雷達(dá)和紅外雷達(dá)。不管是Big

Dog這樣的感知機(jī)器人,還是自動駕駛汽車,因為充分利用了DNN和大數(shù)據(jù)的成果,機(jī)器在感知智能方面已越來越接近于人類。認(rèn)知智能:通俗講是“能理解會思考”。人類有語言,才有概念,才有推理,所以概念、意識、觀念等都是人類認(rèn)知智能的表現(xiàn)。智能機(jī)器還沒有自己的語言,工程技術(shù)角度上正在探索實踐“類腦計算”。15162.第一次寒冬1974-19801.第一次繁榮期1956-19703.第二次繁榮期:1982-19874.第二次寒冬:1987-19935.復(fù)蘇期:6.第三次繁榮:2011-至今1997-2010171956年,達(dá)特茅斯會議標(biāo)志著AI誕生1957年,感知機(jī)(Perceptron)被羅森布拉特發(fā)明1970年,受限于硬件性能,進(jìn)入第一個寒冬XCON專家系統(tǒng)出現(xiàn)1990-1991,人工智能計算機(jī)DARPA開發(fā)失敗,政府縮減預(yù)算,AI進(jìn)入第二次低谷1997年,IBM的Deep

Blue戰(zhàn)勝國際象棋冠軍2006年,Hinton提出“深度學(xué)習(xí)”2011年蘋果Siri問世2012年Google的無人駕駛汽車上路2013年深度學(xué)習(xí)算法在語音和視覺領(lǐng)域取得重大突破2016年DeepMind提出AlphaGo用深度學(xué)習(xí)勝世界冠軍李世石18新時代下的人工智能,主要體現(xiàn)在以大數(shù)據(jù)驅(qū)動下的深度學(xué)習(xí)技術(shù)。其典型應(yīng)用包括兩部分:海量數(shù)據(jù)和業(yè)務(wù)模型。海量數(shù)據(jù)業(yè)務(wù)模型作為訓(xùn)練數(shù)據(jù)指導(dǎo)模型迭代分析、提取、自動化Human-in-the-loop修正19202122Facebook

Surround

720度手機(jī)全景拍攝

180度雙相機(jī)

720度23紋線端點24短紋(孤立點)2526社交網(wǎng)絡(luò)數(shù)據(jù)社交網(wǎng)絡(luò)用戶畫像用戶關(guān)系分析群體觀點立場分析社交網(wǎng)絡(luò)情感分析27符號主義學(xué)派:從模擬人的心智入手。認(rèn)為 ,強(qiáng)調(diào)知識的表示和自動推理,是人工智能發(fā)展初期的主要學(xué)派,也稱為邏輯主義。開創(chuàng)性工作是自動定理證明,主要代表成果包括專家系統(tǒng)和知識圖譜等。連接主義學(xué)派:從模擬人腦的結(jié)構(gòu)入手。 ,也稱為結(jié)構(gòu)主義、仿生主義或生理學(xué)派,認(rèn)為人的思維基元是神經(jīng)元,從神經(jīng)元開始,進(jìn)而研究神經(jīng)網(wǎng)絡(luò)模型和腦模型。通過DNN開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的新浪潮,也讓這一學(xué)派再次站到AI最前沿。如:計算機(jī)視覺領(lǐng)域使用最廣泛的卷積神經(jīng)網(wǎng)絡(luò)。行為主義學(xué)派:從模擬人的行為入手。

早期工作重點在模擬人在控制過程中的智能行為和作用,并進(jìn)行控制論動物的研制,代表成果六足行走機(jī)器人。目前最著名的是強(qiáng)化學(xué)習(xí)(智能體以試錯的方式進(jìn)行學(xué)習(xí),通過與環(huán)境進(jìn)行交互獲得的獎勵指導(dǎo)行為,目標(biāo)是使智能體獲得最大的獎勵)典型應(yīng)用AlphaGo。282930聲紋識別人臉識別31機(jī)器翻譯無人駕駛汽車32個性化推薦智能服務(wù)機(jī)器人3334美國科羅拉多州博覽會藝術(shù)比賽的數(shù)字類別,由游戲設(shè)計師JasonAllen通過AI繪圖工具M(jìn)idjourney創(chuàng)作,此后又經(jīng)Photoshop潤色的畫作《太空歌劇院》獲得頭獎。Google的Magenta項目,該項目致力于機(jī)器藝術(shù),其中機(jī)器譜曲是主要研究方向之一。35AlphaGo3:0

戰(zhàn)勝圍棋等級分世界第一的柯潔May

23-27,2017Venue:烏鎮(zhèn)36、2024年5月,AlphaFold3

發(fā)布,可預(yù)測生物分子的相互作用結(jié)果。或?qū)㈤_啟更多變革性的科學(xué):開發(fā)生物可再生材料更具彈性的作物為理解生命過程、研制新藥打開了新的大門,加速藥物設(shè)計和基因組學(xué)研究。37完全基于注意力機(jī)制的Transformer架構(gòu)奠定了GPT系列的技術(shù)基礎(chǔ)從GPT-1到ChatGPT,模型規(guī)模越來越大,預(yù)訓(xùn)練數(shù)據(jù)量越來越多,系統(tǒng)智能化程度能越來越高人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement

Learning

From

HumanFeedback,RLHF)、代碼預(yù)訓(xùn)練(Codex)、指令微調(diào)(Instruction

Tuning)等技術(shù)賦予了ChatGPT更強(qiáng)的能力。38圖像多模態(tài)與語言協(xié)同的智能DALL·E

3文本到圖像的轉(zhuǎn)換dVAE技術(shù)Transformer結(jié)構(gòu)CLIP模型評估創(chuàng)造性表達(dá)多樣化應(yīng)用39圖片源于OpenAI官網(wǎng):能根據(jù)文本描述生成長達(dá)

60

秒的連貫流暢視頻,這些視頻包含細(xì)膩復(fù)雜的場景、生動的角色表情以及復(fù)雜的鏡頭運動。它由

OpenAI

開發(fā),受到了廣泛的關(guān)注和認(rèn)可。視頻質(zhì)量高技術(shù)原理新生成能力強(qiáng)涌現(xiàn)能力:Sora

展示了引人注目的涌現(xiàn)能力,能夠在一定程度上模擬真實世界中的人、動物和環(huán)境,不依賴于特定預(yù)設(shè)。世界模型:代表了

AI

向能夠模擬物理和數(shù)字世界及其內(nèi)部的物體、動物和人類的模擬器發(fā)展的一步。它基于大規(guī)模訓(xùn)練,能夠預(yù)測未來可能發(fā)生的事件,這是朝著實現(xiàn)更高層次模擬和預(yù)測能力的重要里程碑。40Sora視頻源于OpenAI官網(wǎng)Prompt:一位時尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上。

她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。

她戴著太陽鏡,涂著紅色口紅。

她走路自信又隨意。

街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。41視頻源于OpenAI官網(wǎng)Prompt:幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走近,它們長長的毛茸茸的皮毛在風(fēng)中輕輕飄動,遠(yuǎn)處覆蓋著白雪的樹木和雄偉的雪山,午后的陽光下有縷縷云彩,太陽高高地掛在空中

距離產(chǎn)生溫暖的光芒,低相機(jī)視野令人驚嘆地捕捉到大型毛茸茸的哺乳動物,具有美麗的攝影和景深。Sora42SoraPrompt:電影預(yù)告片講述了30歲太空人戴著紅色羊毛針織摩托車頭盔的冒險經(jīng)歷,藍(lán)天、鹽漠,電影風(fēng)格,35毫米膠片拍攝,色彩鮮艷。視頻源于OpenAI官網(wǎng)43GPT-4o(GenerativePre-trainedTransformer4Omni)由OpenAI訓(xùn)練的多語言(支持超過50種語言,覆蓋超過97%的口語語言)、多模態(tài)GPT大語言模型。2024年5月13日發(fā)布。

該模型比前身GPT-4快兩倍,而價格僅為其50%。視頻源于網(wǎng)絡(luò)4444454622概念的定義:概念(Concept)是人類思維的重要組成部分,反映事物特有屬性的。概念的特性3概念的實例解析

-

以“計算機(jī)”為例45邏輯關(guān)系:如同一關(guān)系、屬種關(guān)系,概念之間的層級與交叉。知識本體關(guān)系:如因果關(guān)系、工具關(guān)系,基于領(lǐng)域知識的關(guān)系。:通過邏輯關(guān)系或知識本體關(guān)系組織起來的概念集合,反映了知識結(jié)構(gòu)。:縱向聯(lián)系:層級結(jié)構(gòu),如“生物”與“動物”。橫向聯(lián)系:平行結(jié)構(gòu),如“教授”與“作家”之間的交叉關(guān)系。概念系統(tǒng)的比喻:概念是“磚”,關(guān)系是“灰漿”,共同構(gòu)建知識的建筑。否定關(guān)系:一個概念的否定屬性構(gòu)成另一個概念的屬性,如“加壓”和“減壓”。全異關(guān)系:外延完全不同,如“小麥”和“玉米”。交叉關(guān)系:部分外延相同,部分不同,如“作家”和“教授”(邏輯上有交叉)。屬種關(guān)系:一個概念的外延包含另一個概念的外延,如“交通工具”和“汽車”。05040302同一關(guān)系:兩個概念外延相同,如“機(jī)器翻譯”和“自動翻譯”(二者都表示利用計算機(jī)進(jìn)行語言翻譯)。016可以明確地、形式化地、可共享地描述某一領(lǐng)域中各客體所代表的概念體系的集合, ,可以看做是這一領(lǐng)域的知識本體。對所使用的概念的類型及概念用法的約束都是明確地加以定義該知識本體是機(jī)器可讀的知識本體中所描述的知識不是個人專有而是集體共有:哲學(xué)思辨角度、知識分類角度、機(jī)器推理角度等7建模描述源于哲學(xué),哲學(xué)中定于義“對世界上客觀事物的系統(tǒng)描述”,即存在論。特點計算機(jī)中指“形式化的,對于共享概念體系的明確而又詳細(xì)的說明”。分類8描述分類建模特點是一種共享詞表,也就是特定領(lǐng)域之中那些存在著的對象類型或概念及其屬性和相互關(guān)系。就是一種特殊類型的術(shù)語集合,具有結(jié)構(gòu)化的特點。人們對自己興趣領(lǐng)域的知識為素材,運用信息科學(xué)的本體論原理編寫自己的作品。9描述特點建模分類領(lǐng)域文本體:描述特定領(lǐng)域內(nèi)的概念和關(guān)系通用或常識本體:

涵蓋廣泛領(lǐng)域的基礎(chǔ)知識知識本體:用于結(jié)構(gòu)化處理某一特定領(lǐng)域的知識語言學(xué)本體:主要關(guān)注語言和語義結(jié)構(gòu)任務(wù)本體:專門針對特定任務(wù)的知識和操作建模頂層本體提供對最基本、最廣泛概念的描述領(lǐng)域本體專注于某個學(xué)科或領(lǐng)域內(nèi)的知識任務(wù)本體針對特定任務(wù)過程中的知識要求應(yīng)用本體用于特定應(yīng)用程序或系統(tǒng)中知識表示10分類描述特點建模類:描述領(lǐng)域內(nèi)的實際概念,既可以是實際存在的事物,也可以是抽象的概念。關(guān)系:用于描述事物之間的關(guān)系。函數(shù):一種特殊的關(guān)系。前n-1個元素能唯一確定的第n個元素。公理:本體內(nèi)存在的事實,可以對本體或關(guān)系進(jìn)行約束。實例:某個類的實際存在。111213如何從原始的、海量的文本數(shù)據(jù)中自動識別出語義信息,并自動挖掘規(guī)律是實現(xiàn)機(jī)器智能的重大挑戰(zhàn)如何學(xué)習(xí)高質(zhì)量的語義表示成為NLP領(lǐng)域的重要任務(wù)14把所有符號當(dāng)做一個空間,出現(xiàn)這個符號就把空間位置標(biāo)記為1,沒出現(xiàn)就標(biāo)記為0示例:有一個詞表僅有8個有序字:我的寵物是一條狗優(yōu)點:簡單易懂,魯棒性好缺點:高維向量空間爆炸15word

embedding(詞嵌入)是將詞轉(zhuǎn)化為一種分布式表示的方法,

是將詞表示成一個定長的連續(xù)的稠密向量。優(yōu)點:詞語之間存在相似關(guān)系(不正交)以及每一維度都有其特定含義。語義表示學(xué)習(xí)領(lǐng)域,詞匯語義表示是主要研究內(nèi)容,也是其他粒度文本(如句子、段落、文檔等)表示的基礎(chǔ)。主要采用分布表示學(xué)習(xí)從大規(guī)模的無標(biāo)注語料中學(xué)習(xí)詞表中每個詞匯的向量化表示。16word

embedding能夠發(fā)現(xiàn)詞間的隱含關(guān)系word

embedding能夠發(fā)現(xiàn)詞匯語義層級跨語言詞向量之間可以進(jìn)行聯(lián)合表示可以計算句子級向量17分布表示學(xué)習(xí)的

,即具有相似上下文的詞匯具有相似的語義。(Wordswithsimilartypicalcontexthavesimilarmeaning.

)18輸入形式:主要是大規(guī)模文本數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)輸出形式:主要是將每個詞匯表示成低維度的實數(shù)向量模型方面:主流的是深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)1920分布表示方法-基于矩陣分解的方法21詞-文檔共現(xiàn)矩陣是將詞所在的文檔作為上下文統(tǒng)計詞與文檔之間相關(guān)性的信息,矩陣中每行對應(yīng)一個詞,每列對應(yīng)一個文檔,矩陣中的每個元素是統(tǒng)計的語料中詞和文檔的共現(xiàn)信息。這種分布表示方法基于詞袋假說(即文檔中詞出現(xiàn)的頻率反映文檔與詞之間的相關(guān)程度),利用矩陣分解的方法將詞和文檔映射到同一個低維語義空間,獲得詞的向量化表示。代表性的方法是潛在語義分析(Latent

Semantic

Analysis,LSA),有助于捕捉文本中的潛在語義結(jié)構(gòu)。分布表示方法-基于矩陣分解的方法文檔中詞出現(xiàn)的頻率反映文檔與詞之間的相關(guān)程度,利用矩陣分解的方法將詞和文檔映射到同一個低維語義空間,獲得詞的向量化表示。22分布表示方法-基于矩陣分解的方法目標(biāo)詞的上下文中的詞匯用于構(gòu)建詞-詞共現(xiàn)矩陣,統(tǒng)計它們的相關(guān)性。矩陣的行代表目標(biāo)詞,列代表上下文詞,矩陣元素反映了目標(biāo)詞與上下文詞間的關(guān)聯(lián)程度。關(guān)聯(lián)度高則語義相關(guān),反之則語義無關(guān)。?

代表性工作為GloVe,捕捉詞匯間的語義關(guān)系并進(jìn)行表示。23分布表示方法-基于矩陣分解的方法24詞-詞共現(xiàn)矩陣示例以詞i和詞j為例,如果想要知道這兩個單詞的關(guān)系,就需要找到跟這兩個詞相近的其他詞k,根據(jù)共現(xiàn)矩陣可以得到詞k在單詞i上下文出現(xiàn)的概率Pik,同樣的,我們可以得到Pjk。如果該單詞k與單詞i意思接近,那么Pik就會比較大,而Pjk就比較小,所以Pik/Pjk就會很大,反過來,如果該單詞k與單詞j意思接近,Pik/Pjk就會很小。因此這個比例可以反映這三個詞之間的關(guān)系。分布表示方法-基于預(yù)測任務(wù)的方法基于預(yù)測任務(wù)的方法通常利用滑動窗口對語料進(jìn)行建模,以訓(xùn)練語言模型為學(xué)習(xí)目標(biāo)在優(yōu)化模型的過程中學(xué)習(xí)詞匯的語義表示。這類方法具有兩個特點:(1)利用上下文窗口信息,是一種 的語義特征學(xué)習(xí)方法;(2)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對模型的發(fā)展具有決定性作用,詞向量通常是作為神經(jīng)網(wǎng)絡(luò)的副產(chǎn)品被訓(xùn)練獲得。25分布表示方法-基于預(yù)測任務(wù)的方法26早期,Bengio等人提出神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)。NNLM方法在語料建模過程中將語料中固定長度為n的詞序構(gòu)建為一個窗口,使用前n?1個詞預(yù)測第n個詞。Mikolov提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型(Recurrent

NeuralNetwork

Language

Model,RNNLM)。SENN方法是一種利用局部信息學(xué)習(xí)詞向量的構(gòu)造方法,該模型的預(yù)測任務(wù)是判斷一個詞序是否為正確的詞序,即模型目標(biāo)函數(shù)是對句子打分,最大化正確句子的分?jǐn)?shù)。在建模過程中,語料中的詞序作為正確詞序,使用隨機(jī)詞對的方法生成噪音詞序。分布表示方法-基于預(yù)測任務(wù)的方法2013年Mikolov等人提出的

Word2Vec方法,該方法包含CBOW模型和Skip-gram模型,兩個模型在語料建模過程中選取固定長度n的詞序作為窗口,窗口中心詞設(shè)定為目標(biāo)詞,其余詞為目標(biāo)詞的上下文。這兩種方法通過預(yù)測任務(wù),構(gòu)建詞語的分布式表示,有效地捕捉了詞語的語義關(guān)系。27分布表示方法-基于預(yù)測任務(wù)的方法CBOW模型中,窗口的中心詞是目標(biāo)詞,其余詞作為上下文,模型通過上下文詞預(yù)測中心詞Skip-gram模型則反過來,利用中心詞預(yù)測上下文詞。28預(yù)訓(xùn)練語言模型預(yù)訓(xùn)練語言模型的代表性方法:GPT、BERT、Llama訓(xùn)練低維稠密語義向量:基于大規(guī)模語料。上下文無關(guān):不能動態(tài)調(diào)整語義表示。無法捕獲復(fù)雜特征和關(guān)系:如語法結(jié)構(gòu)、語義角色、指代關(guān)系。增強(qiáng)模型泛化能力:通過更深層的語言設(shè)計和大數(shù)據(jù)集訓(xùn)練。Fine-Tuning

精調(diào):根據(jù)下游任務(wù)需求調(diào)整模型參數(shù)。高效利用大規(guī)模文本信息的潛在特征適應(yīng)新任務(wù)的快速精調(diào)預(yù)訓(xùn)練成本高,但提供高質(zhì)量語義初始化29預(yù)訓(xùn)練語言模型(簡單回顧)30BERT:(bidirectionalencoderrepresentationsfromtransformers,

BERT)2018年谷歌發(fā)布的預(yù)訓(xùn)練語言模型:基于變換器的雙向編碼器(表示技術(shù))GPT:GenerativePre-Trained

Transformer生成式預(yù)訓(xùn)練Transformer

模型,通常稱為

GPT,是一系列使用

Transformer

架構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,是機(jī)器學(xué)習(xí)廣泛采用的轉(zhuǎn)折點。LLaMA:Large

Language

Model

Meta

AI是Meta

AI公司于2023年2月發(fā)布的開源大語言模型,旨在挑戰(zhàn)大型科技競爭對手的限制性做法,模型的參數(shù)從70億到650億不等。預(yù)訓(xùn)練語言模型GPT模型背后的基本原理是通過語言建模將世界知識壓縮到僅包含解碼器(decoder-only)Transformer模型中,從而使其能夠恢復(fù)(或記憶)世界知識的語義并作為通用任務(wù)求解器。31預(yù)訓(xùn)練語言模型32大語言模型的預(yù)訓(xùn)練技術(shù)即開始分割為兩個主要類別,分別是以BERT為代表的面向語言理解的遮蔽語言模型(mask

languagemodel,

MLM)和以GPT為代表的面向語言生成的自回歸語言模型(autoregressive

language

model,

ALM),直接影響了大語言模型第二和第三階段的技術(shù)演進(jìn)路線。33產(chǎn)生式系統(tǒng)(Production

System)1943年美國數(shù)學(xué)家Post提出的一種計算形式體系里所使用的術(shù)語,主要是使用 ,對 進(jìn)行 。20世紀(jì)60年代,產(chǎn)生式系統(tǒng)成為

研究人類心理活動中信息加工過程的基礎(chǔ),并用它來建立人類認(rèn)知模型。目前,產(chǎn)生式系統(tǒng)已發(fā)展成為人工智能系統(tǒng)中最典型、最普遍的一種結(jié)構(gòu),大多數(shù)的專家系統(tǒng)都采用產(chǎn)生式系統(tǒng)的結(jié)構(gòu)來建造。34產(chǎn)生式規(guī)則:人工智能中使用最廣泛的知識表示方法之一產(chǎn)生式系統(tǒng)的三要素:動態(tài)數(shù)據(jù)庫、產(chǎn)生式規(guī)則庫和推理機(jī)。是一個數(shù)據(jù)的集合,用于存放在推理過程中的已知條件、推導(dǎo)出的中間結(jié)果和最終結(jié)論等。是一組產(chǎn)生式規(guī)則(規(guī)則集)相當(dāng)于系統(tǒng)的知識庫。是控制執(zhí)行程序模塊,是規(guī)則的解釋程序。35產(chǎn)生式規(guī)則-動態(tài)數(shù)據(jù)庫:36動態(tài)數(shù)據(jù)庫是一個綜合數(shù)據(jù)集合,用于存放推理過程中所需的信息,包括已知條件、推導(dǎo)出的中間結(jié)果和最終結(jié)論。示例:在推理過程中,已知“某動物會飛并且會下蛋”的條件被存儲在綜合數(shù)據(jù)庫中。中間結(jié)果可能包括“該動物有翅膀”等信息,最終結(jié)論是“該動物是鳥”。產(chǎn)生式規(guī)則-產(chǎn)生式規(guī)則集:37產(chǎn)生式規(guī)則集是一組規(guī)則的集合,這些規(guī)則構(gòu)成系統(tǒng)的知識庫。每條規(guī)則的形式為

<前件>

<后件>,其中前件是條件,后件是由條件觸發(fā)的結(jié)論或動作。示例:規(guī)則1:

如果“動物會飛并且會下蛋”,那么“它是鳥”。規(guī)則2:

如果“動物吃肉”,那么“它是食肉動物”。這里的規(guī)則1是由條件“會飛并且會下蛋”作為前件,得出“是鳥”的結(jié)論。規(guī)則2是由“吃肉”這個前提得出“食肉動物”的結(jié)論。產(chǎn)生式規(guī)則-推理機(jī)(控制系統(tǒng)):38控制系統(tǒng)負(fù)責(zé)在推理過程中測試前件條件是否滿足,并選擇和執(zhí)行相應(yīng)的規(guī)則,生成后件結(jié)論或觸發(fā)動作。示例:在推理過程中,控制系統(tǒng)會檢測“動物會飛并且會下蛋”這一條件是否存在于綜合數(shù)據(jù)庫中,如果存在,則觸發(fā)對應(yīng)規(guī)則,生成“它是鳥”的結(jié)論。同樣,如果檢測到“動物吃肉”的條件存在,控制系統(tǒng)會生成“它是食肉動物”的結(jié)論。產(chǎn)生式系統(tǒng)-系統(tǒng)結(jié)構(gòu)組成部分:39產(chǎn)生式系統(tǒng)-運行過程40定義與構(gòu)成要素:產(chǎn)生式系統(tǒng)是一種基于規(guī)則的推理系統(tǒng)。規(guī)則庫:

包含一系列“如果…那么…”的規(guī)則。初始事實(數(shù)據(jù)):

推理過程的起點信息。目標(biāo)條件:

系統(tǒng)推理結(jié)束的目標(biāo)。系統(tǒng)運行流程:系統(tǒng)啟動后,推理機(jī)開始運行。推理過程由系統(tǒng)根據(jù)目標(biāo)條件進(jìn)行問題求解。產(chǎn)生式系統(tǒng)-運行過程產(chǎn)生式系統(tǒng)的推理過程:推理機(jī)運用規(guī)則庫中規(guī)則,作用于動態(tài)數(shù)據(jù)庫系統(tǒng)不斷進(jìn)行推理,檢測目標(biāo)條件是否滿足。推理成功:

達(dá)成目標(biāo)條件,系統(tǒng)正常結(jié)束。推理失?。?/p>

無法達(dá)成目標(biāo)條件,系統(tǒng)仍然結(jié)束。。41產(chǎn)生式表示法的42產(chǎn)生式表示法的43產(chǎn)生式表示法的適用領(lǐng)域444546框架的構(gòu)成框架用于描述性知識的表示,具有明顯的層次結(jié)構(gòu)。每個框架都有一個名稱(框架名),由若干槽構(gòu)成,每個槽可以包含多個側(cè)面和值??蚣苤g的聯(lián)系通過在槽中填入相應(yīng)的框架名來實現(xiàn)??蚣苤g的具體關(guān)系由槽名來決定。框架系統(tǒng)的核心在于通過槽的命名和填充,實現(xiàn)對知識的表達(dá)與推理??蚣艿臉?gòu)成常用的系統(tǒng)預(yù)定義槽名:ISA槽:

指出具體事物與其抽象概念之間的類屬關(guān)系。AKO槽:

指出事物間抽象概念的類屬關(guān)系。subclass槽:

指出子類與其上位類之間的類屬關(guān)系。instance槽:

建立AKO關(guān)系的逆關(guān)系??蚣芙Y(jié)構(gòu):槽描述了事物的各個方面,側(cè)面和值可根據(jù)具體需求設(shè)置。提供了一種結(jié)構(gòu)化的方式來組織和關(guān)聯(lián)研究對象及其序列。47框架的構(gòu)成刑事案件可以用犯罪意圖、犯罪結(jié)果、被殺者和知情人等7個方面進(jìn)行描述,因而可以用這些名詞組成框架的槽,當(dāng)描述一個具體的案件時,再用這些名詞的具體指代填入到相應(yīng)的槽中??蚣苊淌掳讣缸镆鈭D:Intent犯罪結(jié)果:result被殺者:y知情人:

??

?

?

}罪犯:T條件一:有某個??指控t條件二:T

招認(rèn)48框架網(wǎng)絡(luò)框架是知識的基本單位,把一組有關(guān)的框架連接起來便可形成一個框架網(wǎng)絡(luò)(框架系統(tǒng))。構(gòu)成網(wǎng)絡(luò)的邊分為兩種,分別是橫向聯(lián)系和縱向聯(lián)系,如圖所示。住址框架和工資框架表示當(dāng)前框架之外的框架,它們之間的聯(lián)系是橫向聯(lián)系。大學(xué)老師和教師間是縱向聯(lián)系。49框架的應(yīng)用案例50某品牌電腦的基本信息,品牌:XXX,CPU:英特爾

酷睿i7-1165G7,光驅(qū)類型:無光驅(qū),厚度:10.0mm(含)?15.0mm(不含),顏色分類:黑色,重量:1.09kg,內(nèi)存容量:8GB16GB

32GB,硬盤容量:512GB固態(tài)硬盤1TB固態(tài)硬盤2TB固態(tài)硬盤,顯存容量:共享系統(tǒng)內(nèi)存,固態(tài)硬:512GB。品牌XXXCPU英特爾

酷睿

i7-1165G7光驅(qū)類型無光驅(qū)厚度10.0mm(含)-15.0mm(不含)顏色分類黑色重量1.09KG內(nèi)存容量8GB16GB

32GB硬盤容量512GB

固態(tài)硬盤

1TB

固態(tài)硬盤

2TB

固態(tài)硬盤顯存容量共享系統(tǒng)內(nèi)存固態(tài)硬盤512G51語義網(wǎng)絡(luò)的發(fā)展歷史5219世紀(jì)中期:

高等數(shù)學(xué)中的抽象圖結(jié)構(gòu),英格蘭數(shù)學(xué)家采用樹形結(jié)構(gòu)建立代數(shù)關(guān)系網(wǎng)。1886年:

Kempe在《數(shù)學(xué)形式理論回憶錄》中描述了圖表系統(tǒng),節(jié)點表示概念單元,連線區(qū)分“混淆的概念單元”。1882年起:

Peirce記錄圖形邏輯的表達(dá)式,開發(fā)了“存在圖”(Existential

Graph),包括一階謂詞的二維圖形并具有擴(kuò)展邏輯。1956年:

Richens創(chuàng)建了計算機(jī)領(lǐng)域的第一個語義網(wǎng)絡(luò)系統(tǒng)NUDE,用于自然語言機(jī)器翻譯。語義網(wǎng)絡(luò)的發(fā)展歷史531968年:

Quillian描述了人類長期記憶模型,提出了語義網(wǎng)絡(luò)的概念。1970年代:

Simmons的研究語義網(wǎng)絡(luò)與一階謂詞邏輯的關(guān)系,提出語義網(wǎng)絡(luò)是一種以網(wǎng)格格式表達(dá)人類知識的方法。1980-1990年代:

KL-ONE系統(tǒng):

Brachman等人開發(fā)的知識表示系統(tǒng),結(jié)合語義網(wǎng)絡(luò)和框架系統(tǒng),解決語義模糊問題。CLASSIC語言:Brachman等人將語義網(wǎng)絡(luò)從純邏輯轉(zhuǎn)向?qū)嵱霉ぞ摺?990年代至今:

OWL

DL推理服務(wù):

Horrocks實現(xiàn)的FaCT推理機(jī),為本體語言O(shè)WL

DL的推理服務(wù)提供支持。語義網(wǎng)絡(luò)定義研究者們設(shè)計并實現(xiàn)了若干版本的語義網(wǎng)絡(luò),盡管不同版本之間的定義名稱和符號差異很大,但具有以下 :網(wǎng)絡(luò)中的節(jié)點表示實體、屬性、事件和狀態(tài),連線表示節(jié)點之間的關(guān)系,涵蓋實施者、工具、空間關(guān)系、時間關(guān)系等。概念節(jié)點按照層次組織,形成類型或分類層次結(jié)構(gòu)。UMLS語義網(wǎng)絡(luò)是典型例子,用于醫(yī)學(xué)領(lǐng)域的本體構(gòu)建和臨床決策支持。概念屬性通過層次結(jié)構(gòu)繼承,語義網(wǎng)絡(luò)利用繼承特性實現(xiàn)推理,常見算法包括激活擴(kuò)散和向量空間模型。54語義網(wǎng)絡(luò)分類語義網(wǎng)絡(luò)理論結(jié)合邏輯論、集合論和模型論對語義表示進(jìn)行了嚴(yán)格的形式化,Branchman提出了五種不同層次的節(jié)點和鏈接,這些節(jié)點和鏈接包含從低級的數(shù)據(jù)位置和指針到高級的語言詞匯和描述。55構(gòu)建方法主要包括半自動和自動方法,通常分為兩步:概念抽取和關(guān)系抽取。概念抽取:統(tǒng)計數(shù)據(jù)分析:

假設(shè)兩個概念在文檔中頻繁共同出現(xiàn),密切相關(guān),常見算法包括TF-IDF、LSA、BM25等。字距、命名實體識別:

概念間距離越近,關(guān)系越強(qiáng),通過預(yù)先定義的實體類型詞表提取已知語義類型。56構(gòu)建方法關(guān)系抽取:模式匹配:

自定義語義模式,用于發(fā)現(xiàn)特定語義關(guān)系(例如包含、目標(biāo)、效果等)。無監(jiān)督模式聚類:

自動搜索相關(guān)名詞集并發(fā)現(xiàn)語義關(guān)系(如IS-A、meronymic關(guān)系)。自動構(gòu)建語義網(wǎng)絡(luò)工具:CATPAC:

通過設(shè)置參數(shù)識別文本中最常見的單詞,構(gòu)建語義網(wǎng)絡(luò)。其他工具:

Naetica、Concept

Space等,用于自動生成語義網(wǎng)絡(luò)。57語義網(wǎng)絡(luò)的優(yōu)勢58語義網(wǎng)絡(luò)應(yīng)用面臨的挑戰(zhàn)和困難5960知識圖譜的發(fā)展知識圖譜旨在描述真實世界中存在的各種實體或概念及其關(guān)系,并利用可視化的圖譜形象地展示出來;知識圖譜可看成一張巨大的圖,;知識圖譜作為一種技術(shù)體系,是大數(shù)據(jù)時代知識工程的代表性進(jìn)展。61知識圖譜的發(fā)展62知識圖譜的發(fā)展:

23.9萬個實體,

1.5萬個關(guān)系屬性,

209.3萬個事實三元組:155,

327個單詞,同義詞集117,597個,同義詞集之間由22種關(guān)系連接:400多萬實體,48,293種屬性關(guān)系,10億個事實三元組:4000多萬實體,上萬個屬性關(guān)系,24多億個事實三元組:980萬實體,超過100個屬性關(guān)系,

1億多個事實三元組63知識圖譜的表示搜索引擎核心訴求:讓搜索通向答案無法理解關(guān)鍵詞無法精準(zhǔn)回答根本問題語言理解需要背景知識傳統(tǒng)知識表示難以滿足需求解決方法知識圖譜能幫助機(jī)器認(rèn)知64知識圖譜的表示基于距離的知識表示方法代表工作是Structured

Embedding,通過與關(guān)系相關(guān)的不同映射矩陣將頭實體和尾實體投影到同一個向量空間并要求它們距離相近。頭實體和尾實體的語義相關(guān)性越強(qiáng),則它們之間的距離越小,越有可能具有關(guān)系。ASTRUCTUREDSELF-ATTENTIVESENTENCEEMBEDDING,

ICLR,20176566知識圖譜的表示基于翻譯的知識表示方法基于翻譯的方法將事實三元組中的關(guān)系看作是頭實體和尾實體在向量空間中的翻譯操作。該類方法的提出是受到詞嵌入方法word2vec的啟發(fā),在使用word2vec時,Mikolov等人發(fā)現(xiàn)詞向量在向量空間中的平移不變現(xiàn)象vman

vwoman

vking

vqueenvm

a

n

vkin

gvq

u

een

v

w

o

m

a

n單詞king和queen詞向量之間的語義關(guān)系可以作為一個平移操作,將單詞woman變成man,這個平移操作可以看成woman詞向量到man詞向量的翻譯。知識圖譜的表示基于翻譯的知識表示方法TransE

將實體和關(guān)系表示成向量,給定一個事實(h,r,t)

分別為兩個實體和關(guān)系表示,通過關(guān)系向量

r

翻譯后的頭實體向量

h+r

應(yīng)該與尾實體

t

相近,但是它無法支持一對多,多對一或者多對多類型的關(guān)系,

“張藝謀”既是電影“紅高粱”的導(dǎo)演又是“活著”的導(dǎo)演。TransH

將頭實體和尾實體投影到不同的超平面上應(yīng)對不同的關(guān)系。TransR

引入關(guān)系的向量空間,它將實體和關(guān)系定義在不同的向量空間中,通過空間變換操作把頭尾實體映射到關(guān)系的向量空間中再進(jìn)行翻譯操作

。67知識圖譜的表示基于翻譯的知識表示方法TransE、TransH和TransR方法的示意圖68知識圖譜的表示基于雙線性的知識表示方法雙線性方法將實體表示為向量,關(guān)系表示為矩陣,對于一個事實三元組,頭或者尾實體向量通過關(guān)系進(jìn)行線性變換以后在向量空間與尾或者頭實體向量重合。69知識圖譜的表示基于雙線性的知識表示方法RESCAL

方法是第一個雙線性方法,它將實體表示為向量,關(guān)系表示為矩陣。對于一個事實三元組,通過關(guān)系矩陣對頭實體向量進(jìn)行線性變換,使變換后的頭實體向量在向量空間中與尾實體向量重合。DistMult

方法為簡化

RESCAL

的時空復(fù)雜度,使用對角矩陣代替一般矩陣,即每個關(guān)系由一個向量表示,使用該向量構(gòu)建對角化矩陣來進(jìn)行線性變換。該方法僅支持對稱關(guān)系。HoIE

方法使用循環(huán)互相關(guān)操作解決

DistMult

僅支持對稱關(guān)系的問題。它將頭尾實體組合成一個新的向量,再衡量該向量與關(guān)系向量的相似度來得分。70知識圖譜的表示基于神經(jīng)網(wǎng)絡(luò)的知識表示方法基于神經(jīng)網(wǎng)絡(luò)的方法將實體和關(guān)系表示為向量,并利用多層神經(jīng)網(wǎng)絡(luò)強(qiáng)大的自適應(yīng)學(xué)習(xí)能力和支持非線性映射等優(yōu)點,建模知識圖譜中實體和關(guān)系之間存在的語義關(guān)聯(lián)。SME:用線性神經(jīng)網(wǎng)絡(luò)匹配實體和關(guān)系,定義了線性和雙線性評分函數(shù)。NTN:通過非線性神經(jīng)網(wǎng)絡(luò)和張量結(jié)合實體和關(guān)系,計算得分。MLP:將實體和關(guān)系向量拼接后,使用簡單的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行評分。NAM:采用深度神經(jīng)網(wǎng)絡(luò),多層隱藏層后結(jié)合尾實體向量進(jìn)行評分。ConvE:使用卷積神經(jīng)網(wǎng)絡(luò),將實體和關(guān)系進(jìn)行二維重塑,經(jīng)過卷積和全連接層后評分。7172知識圖譜構(gòu)建利用信息抽取相關(guān)的技術(shù),實現(xiàn)從非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行信息抽取,轉(zhuǎn)換成知識圖譜里的知識實體挖掘關(guān)系抽取事件抽取從各個數(shù)據(jù)源下獲取的知識按所需要的統(tǒng)一的術(shù)語融合成一個龐大的知識庫實體鏈接消歧Schema構(gòu)建解決不一致性根據(jù)圖譜提供的信息得到更多隱含的知識,提供更智能的檢索方式,通過自然語言進(jìn)行搜索知識推理實體重要性排序相關(guān)實體挖掘知識圖譜構(gòu)建靜態(tài)知識圖譜表示為一個有向圖結(jié)構(gòu),三元組

(h,

r,

t),其中

h表示頭實體,r

表示關(guān)系,t

表示尾實體,關(guān)于足球運動員的大衛(wèi)·貝克漢姆的

KG

示例。2.

時序知識圖譜是靜態(tài)知識圖譜在時間維度上的擴(kuò)展,四元組(h,

r,

t,

τ),其中

τ

表示關(guān)系有效的時間范圍,大衛(wèi)·貝克漢姆在1996-2003年間效力于曼聯(lián)的TKG。73知識圖譜與時序知識概念的圖例解釋知識圖譜構(gòu)建任務(wù):填補(bǔ)三元組(h,

r,

t)

中的缺失部分。目標(biāo):增強(qiáng)KG的圖結(jié)構(gòu)稠密度。任務(wù):添加缺失的四元組(h,

r,

t,

τ)。目標(biāo):在給定的時間間隔內(nèi),預(yù)測頭實體、尾實體或關(guān)系。語義豐富度不足:尤其是長尾實體的關(guān)聯(lián)關(guān)系較少。數(shù)據(jù)源與信息抽取技術(shù)的限制:無法保證數(shù)據(jù)和技術(shù)的完美匹配。74典型知識圖譜-WordNet(人工構(gòu)建知識圖譜)一部在線詞典數(shù)據(jù)庫系統(tǒng),采用了與傳統(tǒng)詞典不同的方式,即按照詞義而不是詞形來組織詞語被聚類成詞義簇(synset),詞義之間通過語義關(guān)系連接成大的概念網(wǎng)絡(luò)由普林斯頓大學(xué)認(rèn)知科學(xué)實驗室在1985年建立7576典型知識圖譜-WordNet(人工構(gòu)建知識圖譜)同義反義關(guān)系上下位關(guān)系部分整體關(guān)系簡單的動詞基本句式信息描述的對象對象之間的語義關(guān)系部分句法信息搭配詞復(fù)合詞短語動詞成語單詞典型知識圖譜-WordNet(人工構(gòu)建知識圖譜)Synset:

WordNet

將英語的名詞、動詞、形容詞、和副詞組織為Synsets,每一個Synset表示一個基本的詞匯概念概念關(guān)系同義關(guān)系反義關(guān)系上位關(guān)系下位關(guān)系整體關(guān)系(名詞)部分關(guān)系(名詞)蘊含關(guān)系(動詞)因果關(guān)系(動詞)近似關(guān)系(形容詞)77典型知識圖譜-WordNet(人工構(gòu)建知識圖譜)近似關(guān)系反義關(guān)系基于反義、近義組織的詞集78典型知識圖譜-WordNet(人工構(gòu)建知識圖譜)79典型知識圖譜-WordNet80典型知識圖譜

-

Yago

Wikipedia+WordNet2001年開始Crowdsource的方式構(gòu)建目標(biāo):構(gòu)建全世界最大的百科全書主要特點高質(zhì)量數(shù)據(jù)源500萬概念多語言富含豐富語義結(jié)構(gòu)的文檔:Infobox,table,list,category…8182典型知識圖譜

-

Yago

Wikipedia+WordNet

?分類:前259年出生,

前210年逝世

秦朝皇帝每個頁面有多個類別,類別組成Taxonomy姓名:嬴政別名:趙政、呂政、祖龍民族:華夏族出生地:邯鄲所處時代:秦朝標(biāo)題=概念秦始皇秦始皇嬴政(前259年-前210年),中國古代杰出的政治家、戰(zhàn)略家、改革家,首次完成中國大一統(tǒng)的政治人物,也是中國第一個稱皇帝的君主。嬴政出生于趙國都城邯鄲,后回到秦國。前247年繼承王位,時年十三歲。概念文本描述Infobox:以(屬性,值)對形式呈現(xiàn)的信息表格典型知識圖譜

-

Yago

:

Wikipedia+WordNet嬴政、趙高、秦朝、封建制...皇帝(嬴政),宦官(趙高),

朝代(秦朝),

制度(封建制)SubClassOf(皇帝,人),

SubClassOf(宦官,人)姓名:嬴政別名:趙政、呂政、祖龍民族:華夏族83BirthDate(嬴政,前259年),

Has(皇帝,權(quán)利)出生地:邯鄲所處時代:秦朝典型知識圖譜

-Yago

:Wikipedia+WordNetYago

Taxonomy構(gòu)建使用WordNet的Taxonomy作為基礎(chǔ)將Wikipedia中的類別加入到WordNet中84典型知識圖譜

-Yago

:Wikipedia+WordNet85人工定義了100多種語義關(guān)系wasBornOnDate,locatedIn,

hasPopulation抽取方法:主要采用手寫的規(guī)則抽取Infobox

Harvesting:信息框Word-Level

Techniques:重定向頁Category

Harvesting:類別信息抽取Type

Extraction:

維基類別,WordNet類別典型知識圖譜

-Yago

:Wikipedia+Wo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論