




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
釋放數(shù)據(jù)決策力人工智能自動問答系統(tǒng)解決方案人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第1頁。目錄第一部分人工智能大數(shù)據(jù)概覽第二部分
知識圖譜技術(shù)概覽第三部分
自動問答解決方案人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第2頁。我國的大數(shù)據(jù)+人工智能戰(zhàn)略國外2016年初,AlphaGo在圍棋領(lǐng)域?qū)崿F(xiàn)了重大突破2016年10月,美國政府發(fā)布《國家人工智能研究與發(fā)展策略規(guī)劃》國內(nèi)2016年5月,發(fā)改委等印發(fā)《"互聯(lián)網(wǎng)+"人工智能三年行動實施方案》2017年3月,“人工智能”首次進入我國政府工作報告浙江省發(fā)改委制定《浙江省“互聯(lián)網(wǎng)+”人工智能三年行動實施方案》,建示范區(qū)國外2005年Hadoop項目研究分布式系統(tǒng)基礎(chǔ)架構(gòu)2008年末,部分計算機研究人員認可“大數(shù)據(jù)”2012年3月,美國政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》國內(nèi)2014年2月,貴州印發(fā)《關(guān)于加快大數(shù)據(jù)產(chǎn)業(yè)發(fā)展應(yīng)用若干政策的意見》,開始布局大數(shù)據(jù)2015年11月中共中央在“十三五”規(guī)劃的建議中提出實施國家大數(shù)據(jù)戰(zhàn)略2016年3月,“國家大數(shù)據(jù)戰(zhàn)略”寫進了“十三五”規(guī)劃綱要(草案)人工智能戰(zhàn)略發(fā)展歷程相輔相成人工智能新成就國外AlphaGo擊敗世界圍棋冠軍特斯拉Autopilot將血栓病人送到醫(yī)院Swarm人工智能預(yù)測肯塔基賽馬結(jié)果微軟人工智能的語言理解能力超過人類人工智能預(yù)測美國大選人工智能診斷癌癥國內(nèi)百度大腦已孵化出無人駕駛、智能搜索等創(chuàng)新技術(shù)科大訊飛即時語音翻譯智慧氣象預(yù)報\山東智慧旅游國外美國愛荷華和印度增加農(nóng)業(yè)產(chǎn)量阿聯(lián)酋設(shè)計節(jié)能建筑巴塞羅那打造智慧城市通用公司改善航空業(yè)瑞典斯德哥爾摩出租車縮短通勤時間美國挽救更多“早產(chǎn)兒”美國預(yù)測災(zāi)害天氣國內(nèi)智慧氣象預(yù)報智慧城市阿里信用貸款和淘寶數(shù)據(jù)魔方騰訊大數(shù)據(jù)視頻大數(shù)據(jù)既有成就大數(shù)據(jù)戰(zhàn)略發(fā)展歷程人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第3頁。人工智能什么是人工智能人工智能有多種表述方式,多種處理技術(shù)必須能夠感知、推斷和行動,然后根據(jù)經(jīng)驗進行調(diào)整1,從大量數(shù)據(jù)中確定和識別人工智能2,根據(jù)背景環(huán)境制定實現(xiàn)的目標3,推薦或直接啟動最佳行動方案感知推斷行動調(diào)整4,根據(jù)經(jīng)驗調(diào)整更智能的算法人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第4頁。人工智能的實現(xiàn)兩種方式讓機器執(zhí)行人工智能:機器學(xué)習(xí)和深度學(xué)習(xí)機器學(xué)習(xí)就是學(xué)習(xí)算法從數(shù)據(jù)構(gòu)建模型,并隨著數(shù)據(jù)量的增加不斷改進。增強學(xué)習(xí)是如何在環(huán)境中采取一系列行為,從而獲得最大的累積回報(某種強化信號)Q學(xué)習(xí)是最常用的增強學(xué)習(xí)方法,其中Q代表某種動作的長期回報價值。Q學(xué)習(xí)是通過觀察來學(xué)習(xí)Q值的深度學(xué)習(xí)是多層神經(jīng)網(wǎng)絡(luò)從大量數(shù)據(jù)中進行學(xué)習(xí),如卷積神經(jīng)網(wǎng)絡(luò)深度增強學(xué)習(xí)是將深度學(xué)習(xí)與增強學(xué)習(xí)結(jié)合起來從而實現(xiàn)從感知到動作的端對端學(xué)習(xí)的一種全新的算法類腦學(xué)習(xí)是一種低功耗、將生物機制與數(shù)學(xué)原理融合的新型網(wǎng)絡(luò)模型和學(xué)習(xí)方法,是人工智能的發(fā)展方向人工智能機器學(xué)習(xí)深度學(xué)習(xí)增強學(xué)習(xí)深度增強學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)類腦學(xué)習(xí)Q學(xué)習(xí)人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第5頁。人工智能-機器學(xué)習(xí)-深度學(xué)習(xí)傳感器數(shù)據(jù)
預(yù)處理
特征提取
特征選擇
推理、預(yù)測、識別機器學(xué)習(xí)中間三部分是特征表達。良好的特征表達,對最終算法的準確性起了非常關(guān)鍵的作用,而且系統(tǒng)主要的計算和測試工作都耗在這一大部分。而實際中一般都是人工完成的,靠人工提取特征費時費力、準確性查。不要人工參與的特征自動選取模擬人腦信息處理分層模式需要多層來獲得更抽象的特征表達人的視覺系統(tǒng)的信息處理是分級的,高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現(xiàn)語義或者意圖深度學(xué)習(xí)人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第6頁。人工智能-深度學(xué)習(xí)深度學(xué)習(xí)照片識別知識圖譜語音搜索精準營銷自動駕駛機器翻譯醫(yī)學(xué)圖像識別語音識別工業(yè)保養(yǎng)運動效果包含多隱層的多層感知器,通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。在計算機視覺、語音識別、自然語言理解等領(lǐng)域取得了突破思想就是堆疊多個層,一層的輸出作為下一層的輸入,輸入信息分級表達一堆輸入I(如一堆圖像或者文本)一個系統(tǒng)S(有n層),通過調(diào)整系統(tǒng)中參數(shù),使得它的輸出仍然是輸入I自動地獲取得到輸入I的一系列層次特征,即S1,…,Sn。輸出嚴格地等于輸入或者輸入與輸出的差別盡可能地小訓(xùn)練耗時,模型正確性驗證復(fù)雜且麻煩某些深度網(wǎng)絡(luò)不僅訓(xùn)練而且線上部署也需要GPU支持,計算資源要求高人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第7頁。目錄第一部分人工智能大數(shù)據(jù)概覽第二部分
知識圖譜技術(shù)概覽第三部分
自動問答解決方案人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第8頁。人工智能-深度學(xué)習(xí)-知識圖譜知識圖譜起因網(wǎng)絡(luò)上全面發(fā)布關(guān)聯(lián)開放數(shù)據(jù)集,RDF鏈接不同來源數(shù)據(jù)集的數(shù)據(jù),語義Web數(shù)據(jù)源的數(shù)量激增互聯(lián)網(wǎng)正從僅包含網(wǎng)頁和網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)轉(zhuǎn)變成包含大量描述各種實體和實體之間豐富關(guān)系的數(shù)據(jù)萬維網(wǎng)知識圖譜率先由Google提出,以提高其搜索的質(zhì)量,拉開了語義搜索的序幕知識圖譜知識圖譜旨在描述真實世界中存在的各種實體或概念每個實體或概念用一個全局唯一確定的ID來標識每個屬性-值對AVP用來刻畫實體的內(nèi)在特性關(guān)系用來連接兩個實體,刻畫它們之間的關(guān)聯(lián)知識圖譜亦可被看作是一張巨大的圖圖中的節(jié)點表示實體或概念圖中的邊則由屬性或關(guān)系構(gòu)成圖模型可用W3C提出的資源(網(wǎng)頁的標題、作者、修改日期、內(nèi)容以及版權(quán)信息等)描述框架RDF或?qū)傩詧D來表示人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第9頁。人工智能-知識圖譜中的核心技術(shù)實體鏈指(EntityLinking)自動識別用戶輸入查詢詞中的實體并鏈接到知識圖譜的相應(yīng)節(jié)點上。實體鏈指的主要任務(wù)有兩個,實體識別與實體消歧,都是自然語言處理領(lǐng)域的經(jīng)典問題實體鏈指還可以包括圖像、社交媒體等數(shù)據(jù)與實體之間的關(guān)聯(lián)實體鏈指是知識圖譜構(gòu)建與應(yīng)用的基礎(chǔ)核心技術(shù)。關(guān)系抽?。≧elationExtraction)關(guān)系抽取是一種典型的信息抽取任務(wù)。通過識別表達語義關(guān)系的短語來抽取實體間關(guān)系關(guān)系抽取是知識圖譜構(gòu)建的核心技術(shù),它決定了知識圖譜中知識的規(guī)模和質(zhì)量知識推理(KnowledgeReasoning)根據(jù)規(guī)則從已有知識中發(fā)現(xiàn)隱含知識依賴關(guān)系之間的同現(xiàn)情況,利用關(guān)聯(lián)挖掘技術(shù)來自動發(fā)現(xiàn)推理規(guī)則通過在知識圖譜中統(tǒng)計大量的關(guān)系路徑構(gòu)建關(guān)系分類的特征向量,建立關(guān)系分類器進行關(guān)系抽取采用謂詞邏輯(PredicateLogic)等形式化方法和馬爾科夫邏輯網(wǎng)絡(luò)(MarkovLogicNetwork)等建模工具進行知識推理知識表示(KnowledgeRepresentation)將知識圖譜中的實體和關(guān)系的語義信息用低維向量表示TransE基于實體和關(guān)系的分布式向量表示人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第10頁。人工智能-知識圖譜的構(gòu)建知識圖譜的規(guī)模Google知識圖譜包含了5億個實體和35億條事實Google知識圖譜是面向全球的,實體多語言描述百度和搜狗知識圖譜,知識庫中的知識主要以中文來描述,規(guī)模略小于Google知識圖譜的數(shù)據(jù)來源大量高質(zhì)量的知識,及時發(fā)現(xiàn)并添加新的知識,數(shù)據(jù)挖掘得到更大的知識,通過投票或聚合算法評估置信度,通過人工審核加入到知識圖譜中從抽取圖譜到知識圖譜各種類型的數(shù)據(jù)源抽取候選實體(概念)及其屬性關(guān)聯(lián),孤立的抽取圖譜。信息孤島集成真正的知識圖譜知識圖譜上的挖掘,增加圖譜的知識覆蓋率知識圖譜的更新和維護百科類數(shù)據(jù)知識圖譜的數(shù)據(jù)來源結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)挖掘搜索日志實體屬性挖掘?qū)嶓w對齊,ID拉通歸一知識圖譜模式構(gòu)建數(shù)據(jù)非一致性處理抽取圖譜到知識圖譜靈活處理Type和Collection關(guān)系知識圖譜的更新頻率知識圖譜的更新和維護結(jié)構(gòu)化站點包裝器維護眾包反饋機制推理發(fā)現(xiàn)隱含知識實體重要性排序共現(xiàn)和相關(guān)實體挖掘知識圖譜的挖掘人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第11頁。人工智能-知識圖譜技術(shù)現(xiàn)狀目前知識圖譜技術(shù)還處于初期階段,需要進一步發(fā)展人工干預(yù)很重要,尤其是數(shù)據(jù)挖掘出的知識需要人工審核結(jié)構(gòu)化數(shù)據(jù)在知識圖譜的構(gòu)建中起到?jīng)Q定性作用,非結(jié)構(gòu)化數(shù)據(jù)還需進一步利用各大搜索引擎公司為了保證知識圖譜的質(zhì)量多半采用成熟的算法知識卡片的給出相對比較謹慎更復(fù)雜的自然語言查詢將嶄露頭角(如Google的蜂鳥算法)知識圖譜的構(gòu)建是多學(xué)科的結(jié)合,需要知識庫、自然語言理解,機器學(xué)習(xí)和數(shù)據(jù)挖掘等多方面知識的融合有很多開放性問題需要學(xué)術(shù)界和業(yè)界一起解決。學(xué)術(shù)界在上述方面的突破將會極大地促進知識圖譜的發(fā)展。人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第12頁。人工智能大數(shù)據(jù)政務(wù)應(yīng)用開發(fā)科技管理機構(gòu)每年都有科研經(jīng)費用于扶持一些企事業(yè)單位或個人進行科技項目創(chuàng)新等活動。如何讓創(chuàng)業(yè)創(chuàng)新如何成為全民行動,如何從全局把握各行業(yè)科技創(chuàng)新發(fā)展情況,找到創(chuàng)新活躍者和其關(guān)聯(lián)關(guān)系發(fā)現(xiàn)不同領(lǐng)域的高價值創(chuàng)新者和他們?nèi)绾螖U散創(chuàng)新成果幫助創(chuàng)新者便利提交申請或給與政策、技術(shù)、資源上的鼓勵幫助擴大高價值創(chuàng)新者的影響或促進其成果推廣分析科研企業(yè)成長軌跡結(jié)合科研經(jīng)費的使用數(shù)據(jù),發(fā)現(xiàn)科研經(jīng)費配置是否合理,活躍用戶得到的經(jīng)費數(shù)額是否合適;是否大額經(jīng)費投給了低價值創(chuàng)新者;科研經(jīng)費在不同領(lǐng)域投入與產(chǎn)出情況分析在國美金控項目中,根據(jù)網(wǎng)絡(luò)需求關(guān)系表生成客戶關(guān)聯(lián)關(guān)系;再根據(jù)客戶關(guān)聯(lián)關(guān)系,生成2度好友網(wǎng)絡(luò);最后,計算該好友網(wǎng)絡(luò)的風(fēng)險指標,構(gòu)成好友關(guān)系網(wǎng)絡(luò)指標定義。通過審核反欺詐、社交網(wǎng)絡(luò)風(fēng)險指標提示,有效的防范欺詐案件的發(fā)生以及確認客戶申請資料的真實性Google利用知識圖譜提高創(chuàng)新效果科研機構(gòu)分析員工在創(chuàng)新和研究方面的合作伙伴關(guān)系回歸分析深度增強算法知識圖譜社交網(wǎng)絡(luò)分析聚類分析創(chuàng)新引導(dǎo)和扶持相關(guān)算法人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第13頁。目錄第一部分人工智能大數(shù)據(jù)概覽第二部分
知識圖譜技術(shù)概覽第三部分
自動問答系統(tǒng)解決方案人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第14頁。需求:人工智能自動問答
1.
需求概述:通過給普通2C投資用戶通過微信群可以獲取系統(tǒng)后臺自動的資訊應(yīng)答。
2.
功能需求說明
1.
應(yīng)答場景:普通用戶加入招商微信群,該群添加某“機器人”,該機器人與“自動問答系統(tǒng)”后臺對接,當用戶在群里提出問題并@“機器人”時,通過后臺對接,進行應(yīng)答的一些列處理。(微信群的“機器人”功能不需本公司完成,提供接口進行整合);
2.
用戶問題的意圖識別:用戶通過輸入對話,通過文本等處理,分詞和意圖識別等處理,然后向知識庫提取數(shù)據(jù)。
3.
知識庫建設(shè)需求:
1.
文章評分數(shù)據(jù)庫:對招商二期的輿情模型項目采集回來的資訊,按照一定的打分原則,進行資訊權(quán)重評分,基本的原則是,最優(yōu)投資價值的權(quán)重高。(評分體系需要討論設(shè)計);
1.
文章評分數(shù)據(jù)庫的另外一個應(yīng)用場景,將高權(quán)重評分文章按照招商的規(guī)則自動推送到高階會員客戶的手機終端。
2.
專題數(shù)據(jù)庫(先做一帶一路主題):為某些股票概念或板塊整理包含:產(chǎn)業(yè)、個股、地域資訊等多維度的知識圖譜和資訊數(shù)據(jù)庫,具體需求如下說明。
4.
用戶獲得“機器人”回復(fù):通過意圖識別、知識調(diào)取和組織后,返回用戶一段文字回復(fù);(回復(fù)可以是一段文字或多篇文字、文章鏈接等);人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第15頁。圖靈的設(shè)想人工智能之父圖靈設(shè)想:隔墻對話,你將不知道與你談話的,是人還是電腦。回答者A回答者B提問者人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第16頁。早期的問答系統(tǒng)以文本作為數(shù)據(jù)問題分析文檔集預(yù)處理候選文檔選擇候選文檔分析答案抽取回答生成新的問答系統(tǒng)使用知識庫作為數(shù)據(jù)源,新的結(jié)構(gòu)取消了文檔相關(guān)系統(tǒng),而代之的是知識庫相關(guān)的結(jié)構(gòu)如領(lǐng)域知識庫表示和查詢?nèi)斯ぶ悄茏詣訂柎鹣到y(tǒng)方案設(shè)計全文共33頁,當前為第17頁。人工智能自動問答自動問答是指用戶以自然語言提問的形式提出信息查詢需求,系統(tǒng)依據(jù)對問題的分析,從各種數(shù)據(jù)資源中自動找出準確的答案。問答系統(tǒng)接受自然語言問題而非成關(guān)鍵詞能夠與語音輸入融合起來給出精確而簡短的回答自動問答分類開放域自動問答是指不限定問題領(lǐng)域,用戶隨意提問,系統(tǒng)從海量數(shù)據(jù)中尋找答案;限定域自動問答是指系統(tǒng)事先聲明,只能回答某一個領(lǐng)域的問題,其他領(lǐng)域問題無法回答人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第18頁。人工智能問答系統(tǒng)基本流程模式識別層(適用于自然交互的模式識別技術(shù))語音識別/聲紋識別/圖像處理/體感手勢交互人機交互層(各種智能設(shè)備和應(yīng)用場景)信息采集和展示/編解碼/傳輸/本地功能調(diào)用語義分析層(核心職能引擎)自然語言處理/本體/語義網(wǎng)絡(luò)/語義匹配和搜索/上下文對話管理層(職能引擎)場景/對話鏈/個性化/知識推理/特定邏輯知識數(shù)據(jù)層(知識體系、動態(tài)信息)知識庫/對話庫/垂直搜索/領(lǐng)域知識/內(nèi)容整合/智能大數(shù)據(jù)人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第19頁。自動問答系統(tǒng)結(jié)構(gòu)圖自然語言問題自然語言回答業(yè)務(wù)邏輯用戶問題語義分析對話管理問題邏輯表達式知識庫答案邏輯表達式限制條件人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第20頁。問答系統(tǒng)語義分析語義分析(SemanticParsing)旨在將用戶提出的自然語言問題通過帶有語義信息的文法映射到語義等價的邏輯表達式上。邏輯表達式能夠表達問題中出現(xiàn)的各個成分以及成分之間的結(jié)構(gòu)關(guān)系。通常,邏輯表達式需要滿足知識庫的結(jié)構(gòu),而且可以通過一定規(guī)則轉(zhuǎn)化為知識庫查詢。詞法層次:語義分析將問題中的自然語言詞匯和短語映射到知識庫中的實體和關(guān)系上,方法包括使用已有的語言模板庫以及從標注文檔集中學(xué)習(xí)。針對知識庫中同一關(guān)系的不同說法,需要使用其他信息對語義詞典進行擴展,使用社區(qū)問答中的等價問題對問題中的不同語言形式進行對齊或者在語料集中歸納帶有通配符的表達式。結(jié)構(gòu)層次:提取出問題中的概念后,需要根據(jù)問題的結(jié)構(gòu)將他們組合成為與原問題等價的邏輯表達式。首先是基于文法的方法,系統(tǒng)語言學(xué)家總結(jié)的樹庫中獲得詞語的語義結(jié)構(gòu)信息,根據(jù)語義結(jié)構(gòu)對原問題中的語義單元進行組合,最終生成一個符合問題語義的邏輯表達式。另外一些工作通過標注數(shù)據(jù)對模型進行訓(xùn)練,通過參數(shù)化的方法得到正確的解析。這些工作利用的標注數(shù)據(jù)主要有專家生成的邏輯表達式,問題標準答案,對話下文信息,問題描述等等。這些方法都需要大量的人工標注或者高質(zhì)量的NLP工具和語料(語法分析器、問題答案對和平行語料等)。但是在中文領(lǐng)域,這些資源都比較缺乏。很需要克服很多困難,才能建一個接近實用的問答系統(tǒng)。人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第21頁。問答系統(tǒng)語義分析上下文無關(guān)文法用于描述自然語言中句子和詞的結(jié)構(gòu)對用戶提出的自然語言問題進行解析,產(chǎn)生一棵解析樹使用部分匹配的方法,通過去掉句中的一部分詞語得到句子的所有非空子句,來解析每個子句需要對生成的文法進行進一步擴展,收集用戶日常提問中使用的常見說法,從而提升語義分析器的覆蓋率對生成的文法解析樹進行一個自底而上的遍歷,逐步生成一個問題的與原問題語義等價的邏輯表達式將用戶提出的自然語言問題轉(zhuǎn)化成一個可以通過知識庫工具進行查詢的標準查詢語句,進而可以通過知識庫給出回答語義分析上下文無關(guān)文法領(lǐng)域文法生成問題解析詞典擴展問題表達式產(chǎn)生查詢語句生成人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第22頁。問答系統(tǒng)語義分析-上下文無關(guān)文法上下文無關(guān)文法:上下文無關(guān)文法是一種形式文法,其中的每一條產(chǎn)生式規(guī)則都滿足V→w的形式。其中V是一個非終結(jié)符而w是由終結(jié)符和非終結(jié)符構(gòu)成的串。由于每個非終結(jié)符的替換方式都與它的上下文無關(guān),因此稱為上下文無關(guān)文法。上下文無關(guān)文法用于描述自然語言中句子和詞的結(jié)構(gòu)。上下文無關(guān)文法提供了一種簡單而精確的機制來描述自然語言的區(qū)塊構(gòu)成,同時能夠自然地捕捉句子中的區(qū)塊結(jié)構(gòu)。上下文無關(guān)文法對于基本的句子結(jié)構(gòu),比如句子的遞歸構(gòu)成,句之間的包含關(guān)系,詞和動詞及對應(yīng)的形容詞和副詞形成的詞組等,能夠進行精確的刻畫。在問答系統(tǒng)中,用戶提出的問題通常不包含非常復(fù)雜的語法現(xiàn)象,此通過上下文無關(guān)文法就能夠很好地刻畫問題的結(jié)構(gòu)。上下文無關(guān)文法可以通過一個四元組(V,Σ,R,S)來定義V是非終結(jié)符的集合Σ是終結(jié)符的集合R是產(chǎn)生式規(guī)則的有限集合即R={r|r:V→(V∪Σ)?}S是起始符號。人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第23頁。問答系統(tǒng)語義分析-領(lǐng)域文法生成領(lǐng)域文法生成:可以對用戶提出的自然語言問題進行解析,產(chǎn)生一棵解析樹。值得注意的是,這種生成方法是領(lǐng)域無關(guān)的,因此可以在無需人工的情況下使用其他知識庫進行領(lǐng)域遷移類型和實體規(guī)則首先針對實體和關(guān)系生成有關(guān)的產(chǎn)生式規(guī)則。對于一個實體e∈EK,將Ue作為一個非終結(jié)符,且生成它到它所有名稱的產(chǎn)生式規(guī)則,{Ue→l|?l∈label(e)}。而對于一個類型c∈CK,將Uc作為一個非終結(jié)符,且生成它到屬于該類型的所有實例對應(yīng)的非終結(jié)符的產(chǎn)生式規(guī)則,{Uc→Ue|?e:type(e)=c}。關(guān)系規(guī)則對于一個關(guān)系r∈RK,它出現(xiàn)在句子中時會將句子中鄰近的兩個成分通過該關(guān)系聯(lián)系起來,而形成一個新的更高層次的成分。具體來說,可以通過句子中關(guān)系的名稱或其他說法以及關(guān)系的兩個參數(shù)來判定一個關(guān)系及其對應(yīng)的子句結(jié)構(gòu)的存在,而對其進行歸約。自定義模板規(guī)則知識庫自動生成的文法規(guī)則雖然能覆蓋到大部分問題的語法,但是語言中還有一些提問中特有的語言現(xiàn)象如省略、倒裝等等為了提高覆蓋率也需要設(shè)計一套問題模板機制,允許對話系統(tǒng)通過少量人工配置的模板來覆蓋這類問題。此外還有一些諸如集合函數(shù)一類的特殊動作,知識庫中沒有包含,可以通過模板的方式進行覆蓋。人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第24頁。問答系統(tǒng)語義分析-問題解析問題解析:從領(lǐng)域知識庫自動生成的文法只能夠覆蓋問題語句中符合知識庫概念的主干部分。而在實際的自然語言問題中,人們往往會使用一些疑問詞和修飾詞。這些修飾詞不屬于知識庫中的概念,因此無法被上一節(jié)中生成的文法解析。我們必須去掉不屬于問題主干的詞,僅保留可以分析的部分。較為基本的方式是直接去除問題中的所有不在文法終結(jié)符集合中的詞。通過這種方法,人們可以在不使用模板的情況下杜絕大部分停用詞對問題分析的影響。但是,由于語言的豐富性,一個問題中的主干成分和有可能是另一句型中的非主干成分。因此,簡單地根據(jù)出現(xiàn)在文法非終結(jié)符集合中就判斷應(yīng)該將一個詞保留在句子中的做法在這時候并不有效。針對這個問題,使用一種部分匹配的方法,通過去掉句中的一部分詞語得到句子的所有非空子句,來解析每個子句。我們就能夠處理那些雖然出現(xiàn)在文法的非終結(jié)符集合中,對當前句子來說是冗余的詞匯了。人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第25頁。問答系統(tǒng)語義分析-詞典擴展詞典擴展影響文法解析能力的另一個重大問題是詞典容量,因為在自然語言中,每個概念都存在不同的說法。因此對于文法中的每個概念,要盡可能多地收集它們在自然語言中的不同說法。這樣才能盡可能地覆蓋更多的語言現(xiàn)象,增強對問題的解析能力。在之前的文法生成過程中,只收集了概念在知識庫中的正規(guī)名稱作為文法的詞典。這種做法的好處是準確性高,不容易造成歧義,但問題是說法少、覆蓋率偏低。因此,需要對生成的文法進行進一步擴展,收集用戶日常提問中使用的常見說法,從而提升語義分析器的覆蓋率。與文法生成部分類似,我們將從實體和關(guān)系兩個部分對文法進行擴展。類型和實體詞典的擴展關(guān)系詞典的擴展人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第26頁。問答系統(tǒng)語義分析-問題表達式產(chǎn)生問題表達式產(chǎn)生對生成的文法解析樹進行一個自底而上的遍歷,逐步生成一個問題的邏輯表達式首先,文法解析樹的葉子節(jié)點生成邏輯表達式。對于一個實體對應(yīng)的產(chǎn)生式規(guī)則URIe→label(e),為其生成一個空白節(jié)點(BlankNode)1?和一個名字標簽。之所以使用這種方式而不是直接根據(jù)URIe生成一個已知概念節(jié)點是為了處理知識庫中概念有相同名字的情況,使得生成的查詢更加靈活。定義一個邏輯表達式的中心節(jié)點。中心節(jié)點是一個邏輯表達式的語義核心,對應(yīng)句子中一個區(qū)塊的中心詞。一個由關(guān)系生成的產(chǎn)生式規(guī)則在文法解析樹中會將兩個子樹連接起來形成一棵新的樹。在問題表達式生成過程中,一個關(guān)系的產(chǎn)生式規(guī)則被應(yīng)用在歸約中時,們就將它的兩個子樹對應(yīng)的邏輯表達式通過該關(guān)系連接起來,接點是兩個子表達式的中心節(jié)點。新生成的邏輯表達式的中心節(jié)點由應(yīng)用的產(chǎn)生式規(guī)則的左值決定,被連接的兩個中心節(jié)點中類型符合規(guī)則左值的那一個將成為合并后邏輯表達式的中心節(jié)點,這樣新的表達式就可以滿足進一步合并的條件。由關(guān)系生成的Slot規(guī)則只能歸約一個子邏輯表達式,這時我們會在缺失參數(shù)的那一端生成一個空白節(jié)點并且給它增加一個Slot標識,這個標識在對話管理模塊中會作為一個提示符提示對話管理邏輯此處需要使用其他信息進行補全。如此,這個自底向上的過程進行到文法解析樹的根節(jié)點的時候,就得到了一個與原問題語義等價的邏輯表達式。人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第27頁。問答系統(tǒng)語義分析-查詢語句生成查詢語句生成問題邏輯表達式和SPARQL查詢語句有著相似的結(jié)構(gòu):邏輯表達式是一個由節(jié)點(包括未知節(jié)點)和邊構(gòu)成的概念圖譜,而SPARQL查詢語句是一組帶有變量的三元組限制條件。問題邏輯表達式中的空白節(jié)點可以對應(yīng)查詢語句中的未知變量,而由URI描述的已知概念節(jié)點可以直接轉(zhuǎn)化為查詢語句中的URI變量。同時,輯表達式中(節(jié)點,,點)和(節(jié)點,,)的結(jié)構(gòu)可以直接轉(zhuǎn)化成查詢語句中的WHERE子句中的限制條件需要注意的是,這一步驟實際是在對話管理模塊進行問題條件補全之后發(fā)生的,因此Slot節(jié)點這時候應(yīng)該已經(jīng)被相應(yīng)的概念節(jié)點所替換。因為之后的流程中要求答案也采用邏輯表達式的方式呈現(xiàn),因此我們在此使用了SPARQL查詢的CONSTRUCT語句,請求識庫查詢前端返回一個和原問題邏輯表達式具有相同結(jié)構(gòu)的答案表達式。至此,我們已經(jīng)可以將用戶提出的自然語言問題轉(zhuǎn)化成一個可以通過知識庫工具進行查詢的標準查詢語句,進而可以通過知識庫給出回答。人工智能自動問答系統(tǒng)方案設(shè)計全文共33頁,當前為第28頁。問答系統(tǒng)對話管理對話管理的作用是將用戶和系統(tǒng)的對話過程管理起來,對對話狀態(tài)以及用戶的目標和意圖進行追蹤,讓對話過程更加智能。通過參數(shù)化的方法自動地學(xué)習(xí)對話模型使用馬爾可夫決策過程(MDP)對對話過程建模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年麗水道路貨運從業(yè)資格證模擬考試官方題下載
- 2025年石家莊貨運資格證題庫在線練習(xí)
- 終止協(xié)議書范本范文6篇
- 《寶島臺灣》說課稿
- 營養(yǎng)強化劑競爭策略分析報告
- 受托審計合同范本
- 原料冷庫租賃合同范例
- 衛(wèi)生間維修合同范本
- 臺球廳租賃合同范本
- 個人辭職申請書簡短
- 聯(lián)盟山東省菏澤一中2025屆高考全國統(tǒng)考預(yù)測密卷歷史試卷含解析
- 新學(xué)期開學(xué)第一課主題班會
- 2023八年級道德與法治下冊 第七課 尊重自由平等第1框 自由平等的真諦教案 新人教版
- 2024版離職技術(shù)人員保密協(xié)議
- 混凝土裂縫修補方案
- 潛水打撈合同范本
- 鋼樓梯計算書
- 中藥貼敷療法
- 2024年江蘇農(nóng)牧科技職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫各版本
- DZ∕T 0054-2014 定向鉆探技術(shù)規(guī)程(正式版)
- 頭療加盟方案
評論
0/150
提交評論