浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院-醫(yī)療行業(yè)醫(yī)學(xué)知識圖譜:醫(yī)學(xué)人工智能的基石_第1頁
浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院-醫(yī)療行業(yè)醫(yī)學(xué)知識圖譜:醫(yī)學(xué)人工智能的基石_第2頁
浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院-醫(yī)療行業(yè)醫(yī)學(xué)知識圖譜:醫(yī)學(xué)人工智能的基石_第3頁
浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院-醫(yī)療行業(yè)醫(yī)學(xué)知識圖譜:醫(yī)學(xué)人工智能的基石_第4頁
浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院-醫(yī)療行業(yè)醫(yī)學(xué)知識圖譜:醫(yī)學(xué)人工智能的基石_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

edgeGraphCornerstoneofMedicalAI知識是人類智能的象征,知識對人工智能而言有著同樣重要的意義。知識表示、獲取和應(yīng)用一直是人工智能的重要研究方向,知識圖譜則是隨著人工智能的歷史逐漸發(fā)展和演變出的一個概念。醫(yī)學(xué)被認(rèn)為是人工智能可以大顯身手的領(lǐng)域之一,醫(yī)學(xué)知識圖譜也是近年來醫(yī)學(xué)人工智能臨床決策支持等場景。如何根據(jù)醫(yī)學(xué)知識的特點,設(shè)計和構(gòu)建符合醫(yī)學(xué)專業(yè)邏輯的知識圖譜,imit數(shù)字醫(yī)學(xué)知識中心胡冉趙童肖雪1(一)知識圖譜概述知識圖譜是一種用圖模型來描述知識和建模世界萬物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法,由節(jié)點和邊組成,三元組是知識圖譜的基本表示形式。在邏輯上可將知識圖譜分為模式層和數(shù)據(jù)層。按領(lǐng)域可將知識圖譜分為通用知識圖譜和領(lǐng)域知識圖譜,醫(yī)學(xué)知識圖譜是一種(二)知識圖譜發(fā)展歷史史可以發(fā)現(xiàn),語義網(wǎng)絡(luò)、本體、萬維網(wǎng)、語義網(wǎng)和鏈接數(shù)據(jù)等概念都與其有千絲萬縷的聯(lián)系。在人工智能領(lǐng)域,知識圖譜是語義網(wǎng)絡(luò)和本體等概念的延在通用知識圖譜領(lǐng)域,國內(nèi)外發(fā)展早、積累多,國內(nèi)起步晚,但在近些年也有大量的項目積累。在醫(yī)學(xué)知識圖譜領(lǐng)域,國內(nèi)在數(shù)據(jù)規(guī)模、維護(hù)模式和知識整合層面相較于國外點知識有術(shù)語多樣化、知識分散、知識復(fù)雜和質(zhì)量參差不齊等特點,這些特點也使醫(yī)學(xué)知識圖譜在知識表示、知識獲取和知識應(yīng)。的構(gòu)建和通用知識圖譜類似。在構(gòu)建流程上,可以分為知識建模、知識抽取、知識融合、知識存儲和知識推理;在構(gòu)建方式上,可分為機器構(gòu)建和人工構(gòu)建。在醫(yī)學(xué)知識圖譜的構(gòu)建中,如何平衡人工與機關(guān)鍵。用現(xiàn)階段,醫(yī)學(xué)知識圖譜的主要應(yīng)用方向為語義搜索、知識問答和臨床決策支持,同時在一些新領(lǐng)域,如輔助藥物研發(fā)和公共衛(wèi)生事。隨著行業(yè)應(yīng)用的深入,醫(yī)學(xué)知識圖譜未來在數(shù)據(jù)數(shù)量、數(shù)據(jù)質(zhì)量、標(biāo)準(zhǔn)化程度和知識分級等方面應(yīng)有更高的要求。醫(yī)學(xué)知識圖譜是醫(yī)學(xué)人工智能的基石,如何準(zhǔn)確定位,選取出適合的知識,設(shè)計恰當(dāng)?shù)臉?gòu)建路線,采用合適的構(gòu)建技術(shù),營造良好的行業(yè)共享互動2(一)研究背景知識圖譜概念自提出以來,引起了人工智能(一)研究背景知識圖譜概念自提出以來,引起了人工智能行業(yè)內(nèi)的廣泛關(guān)注,越來越多的通用和領(lǐng)域知識圖譜項目也逐漸落地。醫(yī)學(xué)領(lǐng)域的知識和知識應(yīng)用場景相較于其他領(lǐng)域有其特殊總結(jié)出一套符合醫(yī)學(xué)邏輯的知識圖譜構(gòu)建流程和應(yīng)用方式,是知識圖譜在醫(yī)學(xué)領(lǐng)域的應(yīng)(二)研究目標(biāo)通過對醫(yī)學(xué)領(lǐng)域的深入研究,歸納出醫(yī)學(xué)知識圖譜的特點,梳理醫(yī)學(xué)知識圖譜的主要構(gòu)建流程和方式,總結(jié)醫(yī)學(xué)知識圖譜的主要應(yīng)用方向,并對醫(yī)學(xué)知識未來的發(fā)展提出相關(guān)展望。希望通過本期白皮書,能夠為國內(nèi)醫(yī)(三)研究方法本研究通過對國內(nèi)外相關(guān)文獻(xiàn)和資料進(jìn)行檢索和整理歸納分析,同時對國內(nèi)有代表性的開展醫(yī)學(xué)人工智能和醫(yī)學(xué)知識圖譜相關(guān)企業(yè)進(jìn)行調(diào)研,深入了解醫(yī)學(xué)知識圖本研究通過對國內(nèi)外相關(guān)文獻(xiàn)和資料進(jìn)行檢索和整理歸納分析,同時對國內(nèi)有代表性的開展醫(yī)學(xué)人工智能和醫(yī)學(xué)知識圖譜相關(guān)企業(yè)進(jìn)行調(diào)研,深入了解醫(yī)學(xué)知識圖譜行業(yè)的發(fā)浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院(簡稱“數(shù)浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院(簡稱“數(shù)研院”,imitTM)是中國首家致力于數(shù)字與信息化技術(shù)在醫(yī)療衛(wèi)生健康服務(wù)領(lǐng)域研發(fā)與應(yīng)用的專業(yè)性非營利研究機構(gòu)(NPO/NGO),院長為楊勝利院士,理事長為李石者、全球著名的醫(yī)療保健設(shè)備廠商、國內(nèi)外領(lǐng)先的行業(yè)軟件企業(yè)來共同從事該領(lǐng)域的研究開發(fā)、顧問咨詢、認(rèn)證評估、國際合作、轉(zhuǎn)化等工作,并引領(lǐng)政、產(chǎn)、學(xué)、研、用、資六位一體的公益事業(yè)公共服務(wù)支撐平臺,進(jìn)而營造出可生存可持續(xù)發(fā)展的數(shù)字醫(yī)(五)版權(quán)說明本白皮書版權(quán)屬于浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院,并受法律保護(hù)。轉(zhuǎn)載、摘編或其它使浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院”,若違反上。白皮書中所有帶星號(*)的示例數(shù)據(jù)均來源于OMAHA知識庫(包括“七巧板”醫(yī)學(xué)術(shù)語集和“匯知”醫(yī)學(xué)知識圖譜),OMAHA知識庫版權(quán)歸浙江數(shù)字醫(yī)療衛(wèi)生技3述人工智能的早期發(fā)展中可分為兩個主要流派,連接主義(Connectionism)和符號主義(Symbolism)。連接主義主張用計算機模擬人腦神經(jīng)網(wǎng)絡(luò)連接的形式來實現(xiàn)智能,這一流派的代表為深度神經(jīng)網(wǎng)絡(luò);符號主義則主張用計算機符號表示人腦中的知識,這一流派的代表為知識工程和專家系統(tǒng)。近年來,深度學(xué)習(xí)等技術(shù)的發(fā)展讓連接主義在視覺、聽覺等由數(shù)據(jù)驅(qū)動的感知智能領(lǐng)域獲得了成功,但在模擬人思考過程、處理常識知識和推理,以及理解人的語言方面仍然舉步維艱。符號主義關(guān)注的核心是知識的表示和owledgeRepresentationandReasoning),它屬于知識驅(qū)動的認(rèn)知智能領(lǐng)域,可以很好地彌補連接主義的不足。作為人工智能研究中的基礎(chǔ),符號主義關(guān)注的知識表示和推理發(fā)展出了很多成果,其中知識圖譜是人工智能發(fā)展到新階段的符號主義代表,它的本質(zhì)是一種基于圖模型的結(jié)構(gòu)化知識表示形式,它能夠表達(dá)豐富的語義知識,同時也更易于被機器理解和處理。知識圖譜是當(dāng)前人工智能發(fā)展的基石。對于醫(yī)學(xué)人工智能而言,醫(yī)學(xué)知識圖譜同樣也是2]。(一)知識圖譜定義2012年5月,Google首次提出了“知識圖譜”的概念。雖然至今行業(yè)尚未形成統(tǒng)一、標(biāo)準(zhǔn)的定義,但Google知識圖譜的宣傳語“thingsnotstrings”揭示了知識圖譜的核心。知識圖譜指的是一種用圖模型來描述知識和建模世界萬物之間的關(guān)聯(lián)關(guān)系的技術(shù)方法[3]。知識圖譜由節(jié)點和邊組成,節(jié)點表示實體(entity)、概念(concept)或?qū)傩灾? (value);邊表示實體的屬性(property)或?qū)嶓w間的關(guān)系(relation)?!駥嶓w:又稱為對象(object)或?qū)嵗?(instance),指客觀世界中具有可區(qū)別性且獨立存在的某種事物,如2型糖尿病、二甲雙胍。實體是知識圖譜最基本的元素,每個實體可以用一個唯一的●概念:又稱為類別(type)、類(category或class),指反映一組實體的種類或。●關(guān)系:指連接不同實體的“邊”,用以描述實體之間的關(guān)聯(lián)[4],如二甲雙胍和2型糖尿病之間有適應(yīng)證關(guān)系*?!駥傩裕褐改硞€實體可能具有的特征以及參數(shù)[4],如二甲雙胍有醫(yī)保支付類別屬●屬性值:指實體特定屬性的值[5],如二識圖譜在邏輯上分為模式層和數(shù)據(jù)層[6]。模式層一般指Schema,是知識圖譜的概念模型和邏輯基礎(chǔ),是數(shù)據(jù)層的規(guī)范約束。數(shù)據(jù)層主要由一系列的事實組成,主要基于模式層定義的模型構(gòu)建數(shù)據(jù),以三元組形式存tail)是知識圖譜數(shù)據(jù)層的一種通用表示形式,其中head是三元組的頭節(jié)點,tail是三元組的尾節(jié)點,relation/property={r1,知識圖譜關(guān)系和屬性的集合,共包含M條關(guān)系和N條屬性。三元組的基本形式主要包括(實體1,關(guān)系,實體2)和(實體,屬性,屬性值)。以二甲雙胍為例*,其部分知識圖譜示例如4石(二)知識圖譜分類當(dāng)前常見的知識圖譜分類維度有如下幾●按照知識圖譜中的知識類型進(jìn)行分類,●按照語言可劃分為單語言知識圖譜和多●按照構(gòu)建方式,則可以分為全自動知識圖譜、半自動知識圖譜和以人工為主構(gòu)●按照知識圖譜所涉及的領(lǐng)域分為通用知按照知識圖譜領(lǐng)域劃分是行業(yè)較為常見的一種圖譜分類方法。其中通用知識圖譜主要以互聯(lián)網(wǎng)開放數(shù)據(jù)作為主要來源,強調(diào)融合更多實體,可以形象地將其看成一個“結(jié)構(gòu)化的百科知識庫”。通用知識圖譜包含大量的常識性知識,覆蓋面廣,但準(zhǔn)確度一般不高,并以搜索和問答為主要應(yīng)用形式[8]。領(lǐng)域知識圖譜又稱為行業(yè)知識圖譜或垂直知識圖譜,通常面向某一特定領(lǐng)域,主要基于行數(shù)據(jù)構(gòu)建,對特定行業(yè)有重要的意義。由于領(lǐng)域知識圖譜需要考慮不同的業(yè)務(wù)場景和使用人員,所以實體的關(guān)系和數(shù)據(jù)模式比較豐富,對該領(lǐng)域知識的深度和準(zhǔn)確性也有著識圖譜是應(yīng)用最廣的領(lǐng)域知識圖譜之一,也是國內(nèi)外人工智能領(lǐng)域研究的熱點[5]。它在語義搜索、知識問答和臨床決策景。5石知識圖譜的發(fā)展歷史可以從語義網(wǎng)絡(luò) (SemanticNetwork)開始溯源,期間本體論(Ontology)、萬維網(wǎng)(WorldWideWeb)、語義網(wǎng)(SemanticWeb)、鏈接數(shù)據(jù)(LinkedData)等概念的提出都對知識圖譜的產(chǎn)生和發(fā)展有著重要的影響[2]。語義網(wǎng)絡(luò)概念的提出為知識圖譜提供了構(gòu)建思路,本體論為知識圖譜提供概念模型,TimBerners-Lee提出的萬維網(wǎng)則實現(xiàn)了鏈?zhǔn)骄W(wǎng)絡(luò)文檔,基于萬維網(wǎng)提出的語義網(wǎng)技術(shù)為知識圖譜研究奠定了基礎(chǔ),鏈接數(shù)據(jù)則是最接近知識圖譜的概念,之后谷歌提出的以信息檢索方式呈現(xiàn)“知識圖譜”正式開啟了行業(yè)對知識圖譜的研究。知識圖譜發(fā)展歷史時間簡表如圖2。(一)語義網(wǎng)絡(luò)語義網(wǎng)絡(luò)是用實體及其語義關(guān)系來表達(dá)知識的一種知識表示方式,在數(shù)學(xué)上是一個有向圖,與邏輯表示法對應(yīng)。語義網(wǎng)絡(luò)最早由Quillian于上世紀(jì)60年代以人類聯(lián)想記憶的一個心理學(xué)模型提出,之后被應(yīng)用于自然語言理解[9]。語義網(wǎng)絡(luò)一般由最基本的語義概念、事件、屬性、狀態(tài)等,弧表示它們之間的關(guān)系,即語義關(guān)系。多個語義基元用相同的語義聯(lián)系連接起來就形成了語義網(wǎng)絡(luò)。語義網(wǎng)絡(luò)重點在于構(gòu)建詞與詞之間的關(guān)聯(lián),但不能明確區(qū)分概念和實例。從語義網(wǎng)絡(luò)中(二)本體即對世界上客觀事物的系統(tǒng)描述。20世紀(jì)90年代初,本體概念被廣泛地應(yīng)用于計算機領(lǐng)域中,是概念化和結(jié)構(gòu)化的知識表示方等人進(jìn)一步深化了本體的定義,于1998年式化說明”[11]。一個本體通常由概念類、關(guān)系、函數(shù)、公理和實例組成。本體注重概念層的構(gòu)建,它從實例中抽象出事物的本質(zhì),統(tǒng)一概念,建立概念間的關(guān)聯(lián)關(guān)系。本體的樹狀結(jié)構(gòu)常被用來定義知識圖譜Schema,在此基礎(chǔ)上添加擴(kuò)充實例和數(shù)據(jù)后形成知識(三)萬維網(wǎng)&語義網(wǎng)代提出,利用超文本技術(shù)實現(xiàn)網(wǎng)頁及網(wǎng)頁之間的連接,但機器無法讀取網(wǎng)頁中的具體信息[12]。而語義網(wǎng)作為萬維網(wǎng)的衍生物,旨在達(dá)到互聯(lián)網(wǎng)信息互通無障礙。語義網(wǎng)[M].電子工業(yè)出版社,2019史6(五(五)知識圖譜知識圖譜最先由谷歌于2012年提出,主要石技術(shù)棧中本體構(gòu)建方式實現(xiàn)了知識表示和推理,資源描述框架(ResourceDescriptionFramework,RDF)則是用來陳述三元組結(jié)構(gòu)的數(shù)據(jù)模型[13][14]。計算機讀懂每個詞和概念之間的邏輯關(guān)系后,讓搜索變得簡單易行。知識圖譜的最初理想就是將文本連接的。(四)鏈接數(shù)據(jù)2006年TimBerners-Lee在語義網(wǎng)基礎(chǔ)上提出了鏈接數(shù)據(jù)。鏈接數(shù)據(jù)起初是用于定義如何利用語義網(wǎng)技術(shù)在網(wǎng)上發(fā)布數(shù)據(jù),其強調(diào)在不同的數(shù)據(jù)集間創(chuàng)建鏈接,是語義網(wǎng)技術(shù)更簡潔的描述[15]。知識圖譜是對鏈接數(shù)據(jù)這個概念的進(jìn)一步包裝,或者說鏈接數(shù)據(jù)是通過以結(jié)構(gòu)化而非純文本的方式描述事物的屬性以及事物之間的關(guān)聯(lián),解決“返回結(jié)果精準(zhǔn)度”及“提高用戶查詢滿意度”等問題。谷歌希望以知識圖譜為基礎(chǔ)打造出更加智能化的搜索引擎[16]。這一概念的提出引起了行業(yè)的廣泛關(guān)注,隨后越來越多的知識圖譜項目涌現(xiàn),知識圖譜逐漸發(fā)展成為一個示例。用戶在谷歌搜索引擎中輸入某個主題的關(guān)鍵詞后,它會將該關(guān)鍵詞所指代的實體的相關(guān)知識結(jié)構(gòu)化地顯示在右側(cè),從而實現(xiàn)了從簡單的字[17]。(六)小結(jié)從知識圖譜的發(fā)展歷史可以看出知識圖譜結(jié)合了多種不同的技術(shù)方法,導(dǎo)致知識圖譜與其它概念的定義容易混淆,尤其是與本體和傳統(tǒng)語義網(wǎng)絡(luò)的定義。通過分析它們之間的7本體一般定義領(lǐng)域內(nèi)實體抽象出的概念框而知識圖譜則重點關(guān)注實體間的關(guān)系和這些來指導(dǎo)知識圖譜的構(gòu)建。義網(wǎng)絡(luò)1)傳統(tǒng)的語義網(wǎng)絡(luò)依靠專家總結(jié)和手動構(gòu)建,規(guī)模有限。然而知識圖譜依靠自動化石使得知識圖譜的規(guī)模相較于傳統(tǒng)的語義網(wǎng)絡(luò)2)傳統(tǒng)語義網(wǎng)絡(luò)中側(cè)重表現(xiàn)實體之間的關(guān)聯(lián)關(guān)系,而知識圖譜則不僅包含了實體間的關(guān)聯(lián)關(guān)系,還包含了數(shù)據(jù)層和模式層之間3)傳統(tǒng)的語義網(wǎng)絡(luò)缺乏Schema,而知用。8介紹(一)通用知識圖譜國內(nèi)外較為知名的通用知識圖譜有很多,行有Cyc、WordNet、ConceptNet、Dbpedia、Wikipedia、Wikidata、Freebase、BabelNet、NELL (Never-EndingLanguageLearner)、1)Cyc[18]其最初的目的是將已整理的百萬條常識內(nèi)容通過編碼轉(zhuǎn)換成機器可理解的形式進(jìn)行處Cyc知識庫早期由人工進(jìn)行構(gòu)建,近年來也開始使用一些自動構(gòu)建的方法來進(jìn)行知識抽取,如使用語義知識源一體化(SemanticKnowledgeSourceIntegration,SKSI)系其所需的數(shù)據(jù)。截止到目2)WordNet[19]WordNet在1985年由普林斯頓大學(xué)認(rèn)知科學(xué)實驗室啟動建設(shè),是一個大型英語詞匯數(shù)詞歸類為同義詞集(synsets),每個同義詞集都用于表達(dá)一個不同含義的概念。同義詞集之間由多種語義關(guān)系進(jìn)行連接,其中最主要的是上下級關(guān)系,還包括有整體-部分關(guān)系,同義關(guān)系和反義關(guān)系等。目前已收錄20萬語義石3)ConceptNet[20]院媒體實驗室推出的眾包項目OpenMindCommonSense(OMCS),它是一個開放的、多語種的常識知識庫,目的是幫助計算機理解人們?nèi)粘5臏贤ê徒涣鳌F錁?gòu)建的他眾包項目、專家創(chuàng)建和目的性游戲的方法產(chǎn)生。目前ConceptNet5。4)Dbpedia[21]Dbpedia在2007年由德國萊比錫大學(xué)、德國曼海姆大學(xué)和美國OpenLinkSoftware共同參與創(chuàng)建。它的數(shù)據(jù)主要來源于維基百科 (Wikipedia),支持語言多達(dá)140種。其核心的Dbpedia本體截止到目前已涵蓋768個類,主要涉及人、地點、工作、物種、組織等,還包含用于描述的3000多屬性和約482萬實例。5)Wikidata[22]Wikidata由維基百科于2012年啟動創(chuàng)建,是一個免費開放的多語言知識庫,支持人和機器以三元組為基礎(chǔ)的知識條目的多種語言的編輯。2010年谷歌將Freebase進(jìn)行收購后在2016年將其關(guān)閉,并將所有的數(shù)據(jù)和API服務(wù)都遷移至Wikidata上。截止到6)BabelNet[23]BabelNet由羅馬薩皮恩扎大學(xué)創(chuàng)建,是一個大規(guī)模且多語種的詞典知識庫和語義網(wǎng)絡(luò)。它的數(shù)據(jù)主要來源于WordNet、WikiPediaWikidata將WordNet和WikiPedia的數(shù)據(jù)建立關(guān)聯(lián),利用WikiPedia的多語言鏈接和機器翻譯實現(xiàn)對9WordNet多語言的支持。目前,BabelNet已發(fā)布5.0版本,覆蓋500種語言、2000。7)NELL[24]NELL是2009年由卡內(nèi)基梅隆大學(xué)創(chuàng)建的一套永不停歇的機器學(xué)習(xí)系統(tǒng),具有從非結(jié)構(gòu)化的網(wǎng)頁中提取結(jié)構(gòu)化信息的能力,并對自動抽取的三元組知識進(jìn)行不斷地學(xué)習(xí)。它自2010年1月以來一直在持續(xù)運行,已累積了1186個不同類別和關(guān)系,以及它們所8)Yago[25]創(chuàng)建的一個大型語義知識庫,數(shù)據(jù)來源于ourceDescription頂層類和屬性都來源于S[27],并采用了結(jié)構(gòu)性約束語言(ShapesConstraintLanguageSHACL約束。此版本9)MicrosoftConceptGraph[28]MicrosoftConceptGraph是由微軟亞洲研究院在2016年基于Probase的研究項目進(jìn)行創(chuàng)建,目的是為了讓機器能夠更好的理解人類的交流語言。其數(shù)據(jù)主要來源于數(shù)十億的網(wǎng)頁和多年的搜索日志。它的模型構(gòu)建是將真實世界的單個實例、帶上下文的單個實例和短文本進(jìn)行概念化,并建立概念間的ISA關(guān)系。目前最新發(fā)布的核心版本主要是將單1250萬單個實例和8510萬ISA關(guān)系。圖譜1)OpenKG[29]OpenKG中文領(lǐng)域開放知識圖譜社區(qū)項目,目的是通過建設(shè)開放的社區(qū)聯(lián)盟來促進(jìn)知識圖譜數(shù)據(jù)的開放與互聯(lián)。其中OpenKG.CN(開放圖譜資源庫)目前已收錄了多個領(lǐng)域的186個數(shù)據(jù)集,它對這些數(shù)據(jù)進(jìn)行了鏈接計算和融合工作,并對完成鏈接的數(shù)據(jù)集開源,提供免APIDump時,它還將一些開源的知識圖譜構(gòu)建工具進(jìn)行了收集,目前已整理了60個工具集,如Protégé、2)知網(wǎng)(HowNet)[30]知網(wǎng)是在20世紀(jì)90年代由董振東和董強主持設(shè)計和構(gòu)建的一個語言知識庫。它是一個基于義原進(jìn)行構(gòu)建的語義描述體系,所有詞語代表的概念含義都由最基本的、不宜再分割的最小語義單位即義原所構(gòu)成,描述了概念和概念之間的關(guān)系以及概念所具有的屬性關(guān)系。經(jīng)過多年積累,知網(wǎng)已收錄約23并為十幾萬漢語和英語詞匯所代表的概念標(biāo)3)CN-DBPeidia[31]CN-DBPeidia是由復(fù)旦大學(xué)知識工場實驗室創(chuàng)建并維護(hù)的通用結(jié)構(gòu)化百科知識圖譜。其數(shù)據(jù)主要是通過抽取中文百科類網(wǎng)站(如百度百科、互動百科、中文維基百科)頁面的純文本內(nèi)容結(jié)構(gòu)化而產(chǎn)生,同時還對提取的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合、補充和糾正,極大地提高了知識圖譜的質(zhì)量。截止到目前為止,它已收錄1696萬實體和2.2億關(guān)系,4)zhishi.me[32]zhishi.me是一個中文常識知識圖譜。它的數(shù)據(jù)主要來源于百度百科、互動百科和中文維基百科,主要從這些百科的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的抽取,并采用固定的規(guī)則將它們之5)PKU-PIE[33]PKU-PIE是由北京大學(xué)構(gòu)建的中文百科知識圖譜。它對維基百科、DBpedia和百度百科等多個來源的知識進(jìn)行自動抽取,同時建立了自己的類別體系和謂詞體系,并和DBpedia等常見的數(shù)據(jù)庫進(jìn)行了關(guān)聯(lián)。PKU-PIE目前已收錄90萬實體、5000多6)XLORE[34]XLORE是由清華大學(xué)創(chuàng)建的大規(guī)模中英文雙語百科知識圖譜,其數(shù)據(jù)來源于中英文維基百科和百度百科,將百科知識進(jìn)行結(jié)構(gòu)化后用以描述客觀世界的概念、實例、屬性和它們之間的語義關(guān)系,并同時建立跨語言的等價鏈接。目前它已收錄2600萬實例、醫(yī)學(xué)是知識圖譜應(yīng)用最廣的垂直領(lǐng)域之一,當(dāng)前國內(nèi)外也涌現(xiàn)出了很多優(yōu)秀的醫(yī)學(xué)知識圖譜。國外知名的醫(yī)學(xué)知識圖譜有一體化醫(yī)學(xué)語言系統(tǒng)(Uni?edMedicalLanguage床術(shù)語(SystematizedNomenclatureofMedicineClinicalTerms,SNOMEDCT)、解剖學(xué)基礎(chǔ)模型本體(FoundationalModel型本體(HumanPhenotypeOntology,HPO)、基因本體(Geneontology,GO)、關(guān)聯(lián)生命數(shù)據(jù)集(LinkedLifeData,LLD)等;國內(nèi)則有中文一體化醫(yī)石學(xué)語言系統(tǒng)(ChineseUni?edMedicalLanguageSystem,CUMLS)、中醫(yī)藥學(xué)語言系統(tǒng)(TraditionalChineseMedicineLanguageSystem,TCMLS)、醫(yī)藥衛(wèi)生MedicalKnowledgeGraph,CMeKG)和OMAHA知識庫(OMAHAKnowledge1)UMLS[35]UMLS是美國國立醫(yī)學(xué)圖書館(TheNationalLibraryofMedicine,NLM)自1986年起研究和開發(fā)的一體化醫(yī)學(xué)語言系統(tǒng),旨在使信息系統(tǒng)能夠理解生物醫(yī)學(xué)領(lǐng)域同一概念的不同表達(dá)形式,實現(xiàn)計算機系統(tǒng)間的互操作。UMLS知識庫包括超級敘詞表(Metathesaurus)、語義網(wǎng)絡(luò) (SemanticNetwork)、專業(yè)詞典和詞匯處理工具(SPECIALISTLexiconandLexicalTools)三個部分,三者可以單獨或一起使用。超級敘詞表是一個大型的生物醫(yī)學(xué)詞匯庫,分類表、疾病編碼集、專家系統(tǒng)、詞匯表中的術(shù)語及相關(guān)信息,如MeSH,RxNorm,1AA版本包含有25種語言、444萬概念和1610萬概念名稱。超級敘詞表以概念為核心進(jìn)行組織,所有來源詞表具有同樣涵義的詞和短語組成概念或同義詞類,每個概念與其它概念之間以語義鄰居方語義網(wǎng)絡(luò)由語義類型和語義關(guān)系構(gòu)成。語義類型為超級敘詞表的概念提供統(tǒng)一的分類,被分配一個語義類型。語義關(guān)系是一組存在于語義類型之間的關(guān)系,目前共有54種,包括等級關(guān)系鏈ISA關(guān)系和非等級關(guān)系鏈的相關(guān)關(guān)系。其中相關(guān)關(guān)系分為物理上相關(guān)、空間上相關(guān)、時間上相關(guān)、概念上相關(guān)和功能上相關(guān)五大類。專業(yè)詞典和詞匯處理工具主要作用是為超級敘詞表構(gòu)建和維護(hù)提供幫助。專業(yè)詞典是在NLM自然語言專家處理系統(tǒng)(NLP)項目基礎(chǔ)上研發(fā)的,覆蓋范圍包括常見的英語單詞和生物醫(yī)學(xué)詞匯,是一個通用的生物醫(yī)學(xué)詞匯庫。每條詞匯記錄都詳細(xì)描述了該詞的句法、詞法和字法信息。它目前包含約45萬條生物醫(yī)學(xué)和常用英語詞匯條目以及80詞匯處理工具是超級敘詞表建立和維護(hù)所需的一組工具集,如原形字符串生成器 (NormalzedStringGenerator,Norm)、詞索引生成器(WordIndexGenerator,WordInd)和詞形變化生成器(LexicalVariantGenerator,LVG)。2)SNOMEDCT[36]2002年1月SNOMEDCT首次發(fā)布,它由兩大醫(yī)學(xué)術(shù)語SNOMEDRT(SystematizedNomenclatureofMedicine,ReferenceTerminology)與CTV3(ClinicalTermsVersion3)合并而來。SNOMEDCT基于本體進(jìn)行構(gòu)建,因其強大的概念體系成為世界最完整的臨床術(shù)語集,目前已被各國或地區(qū)廣泛使用。SNOMEDCT的三大核心分別是概念 (Concept)、描述(Description)和關(guān)系 (Relationship)。目前發(fā)布的最新版本包含35萬概念、125萬描述和116萬關(guān)系。19個頂層類概念,包括有“Clinic描述(即術(shù)語)為概念提供了人類可讀石的形式,一個概念可以有多個術(shù)語進(jìn)行Myocardialinfarction”(心塞)這個概念包括有“Myocardialartattackyocardialinfarction關(guān)系用于表達(dá)概念之間的語義關(guān)聯(lián),包括有系,表示概念是其上位概念的一種類型,一個概念可能有多個上位概念,如“AbscessISAMassofmediastinumISA“Structuraldisorderofheart”,ofcardiovascularstructureoftrunk”。屬性關(guān)系是對概念的內(nèi)涵進(jìn)行揭示,如structure”,Morphologicalabnormality種屬性關(guān)系用于表達(dá)不同類下概念之間的語3)LinkedLifeData[37]LinkedLifeData是一個面向生物醫(yī)學(xué)領(lǐng)域的語義數(shù)據(jù)集成平臺,它集成了25種生物醫(yī)學(xué)數(shù)據(jù)資源,如結(jié)構(gòu)化數(shù)據(jù)庫(NCBIGene、Uniprot、DrugBank、BioPAX等)、術(shù)語庫(UMLS、OBO)和半結(jié)構(gòu)化文檔 (Pubmed、ClinicalT),共包含40多億三元組,其知識內(nèi)容涵蓋基因、蛋白質(zhì)、疾病、藥物、分子相互作用、通路、靶點和臨床試驗相關(guān)信息。LinkedLifeData開發(fā)的一個重要目標(biāo)就是在集成的數(shù)據(jù)集上進(jìn)行推理,同時避免數(shù)據(jù)冗余,并能夠推薦新的鏈接關(guān)系或在已知數(shù)據(jù)集上推導(dǎo)出潛在知識。其構(gòu)建標(biāo)準(zhǔn)為:使用統(tǒng)一資源標(biāo)識符(UniformResourceIdentiier,URI)標(biāo)識所有資源,確保所有標(biāo)識符都可以被人和計算機進(jìn)行解析,支持W3C(TheWorldWideWebConsortium)的RDF和SPARQL(SPARQLProtocolandRDFQueryLanguage)查詢語言,發(fā)布的數(shù)據(jù)需包含與使用URI標(biāo)識的其他相關(guān)內(nèi)容的鏈接。集成的數(shù)據(jù)均需采用RDF數(shù)據(jù)模型,因此先保留來源數(shù)據(jù)的原始RDF結(jié)構(gòu),對沒有RDF來源的數(shù)據(jù)源使用可解析的URI以規(guī)定的形式進(jìn)行構(gòu)建。在所有數(shù)據(jù)都被表示成RDF格式后,必須在資源之間建立額外的鏈接,最終形成“l(fā)inked”據(jù)。圖譜1)中文一體化醫(yī)學(xué)語言系統(tǒng)(CUMLS)[38]CUMLS是中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所基于UMLS開發(fā)的中文一體化醫(yī)學(xué)語言系統(tǒng),其包含醫(yī)學(xué)詞表、語義網(wǎng)、構(gòu)建工具與醫(yī)學(xué)詞表收錄了醫(yī)學(xué)、藥學(xué)和牙科學(xué)等10余個生物醫(yī)學(xué)領(lǐng)域內(nèi)的主題詞表、分類表、術(shù)語表和醫(yī)學(xué)語料庫,包括有《醫(yī)學(xué)主題詞表(MedicalSubjectHeadings,MeSH)》中文版、《中國中醫(yī)藥學(xué)主題詞表》和來自醫(yī)學(xué)文本術(shù)語的《醫(yī)學(xué)語料庫》等。醫(yī)學(xué)詞表共收錄了醫(yī)學(xué)主題詞3萬多條、入口詞3萬多條、醫(yī)學(xué)術(shù)語10萬多條和醫(yī)學(xué)詞匯素材30萬多條。CUMLS語義網(wǎng)絡(luò)基于美國UMLS的語義網(wǎng)構(gòu)成。語義類型按實體和事件分類并進(jìn)行相應(yīng)層級關(guān)系排列。語義關(guān)系則包括有等級關(guān)系(即ISA關(guān)系)和相關(guān)關(guān)系兩部分。相關(guān)關(guān)系又分為5大類,分別是物理上相關(guān)、空間上相關(guān)、概念上相關(guān)、位置上相關(guān)和功能上相關(guān)。通過語義關(guān)系建立語義類型間的關(guān)聯(lián)性,實現(xiàn)對概念之間的語義關(guān)系的多角度描述。石構(gòu)建工具與平臺是為醫(yī)學(xué)詞表的構(gòu)建、維護(hù)和發(fā)布提供保障。構(gòu)建工具包括同義詞識別工具、語義相似度計算工具和主題分類一體化檢索維護(hù)平臺等。詞表發(fā)布平臺則是CUMLS系統(tǒng)最終面向用戶的可查詢檢索平臺,為醫(yī)學(xué)信息專業(yè)人員和普通用戶提供服2)中醫(yī)藥學(xué)語言系統(tǒng)(TCMLS)[39]TCMLS是由中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所主持研究和創(chuàng)建的基于本體的中醫(yī)藥學(xué)術(shù)語系統(tǒng)。它在借鑒UMLS的框架基礎(chǔ)上根據(jù)中醫(yī)藥學(xué)特有的語言特點和學(xué)科體系特色進(jìn)行構(gòu)建,目前已收錄了約12萬概念、包括有語義網(wǎng)絡(luò)和基礎(chǔ)詞庫兩部分。語義網(wǎng)絡(luò)通過其定義的語義類型和語義關(guān)系構(gòu)成了TCMLS的頂層架構(gòu)。語義類型是中醫(yī)藥學(xué)領(lǐng)域的概念分類體系,包括有中醫(yī)特色的概和“藥用物質(zhì)”等;語義關(guān)系則用于表示概念間的關(guān)聯(lián)關(guān)系,共58種,分為“ISA(上下位關(guān)系)”和“Associatedwith(相關(guān)關(guān)系)”,其中相關(guān)關(guān)系分為“物理上相關(guān)”、竅于”?;A(chǔ)詞庫是將收集的各個標(biāo)準(zhǔn)來源的中醫(yī)藥術(shù)語以概念為核心進(jìn)行系統(tǒng)的梳理和準(zhǔn)確描述,并建立了概念間的語義關(guān)系。3)醫(yī)藥衛(wèi)生知識服務(wù)系統(tǒng)[40]醫(yī)藥衛(wèi)生知識服務(wù)系統(tǒng)由中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所承建,旨在建立具有公益性、開放性的醫(yī)藥衛(wèi)生知識服務(wù)平臺。其主要資源來源于世界衛(wèi)生組織(WorldHealth究院(NationalInstitutesofHealth,NIH)等醫(yī)藥衛(wèi)生領(lǐng)域權(quán)威網(wǎng)站、醫(yī)藥衛(wèi)生領(lǐng)域的OA英文期刊、中國知網(wǎng)(ChinaNationalKnowledgeInfrastructure,CNKI)的中文文獻(xiàn)數(shù)據(jù)、國家人口與健康科學(xué)數(shù)據(jù)共享平臺的科學(xué)研究成果和國外開放科學(xué)數(shù)據(jù)資形成了約1500萬條相關(guān)資源。系統(tǒng)圍繞“重大慢性病”為主題,通過對資源的深度挖掘和關(guān)聯(lián)分析,建設(shè)了醫(yī)藥衛(wèi)生領(lǐng)域智能檢索、醫(yī)藥衛(wèi)生科學(xué)數(shù)據(jù)服務(wù)、重大慢性病數(shù)據(jù)智能分析和特色知識服務(wù)和應(yīng)用,如醫(yī)藥衛(wèi)生領(lǐng)域智能檢索的服務(wù)是通過對檢索詞的語義擴(kuò)展和中英文翻譯實現(xiàn)對收平臺目前已發(fā)布疾病和藥品領(lǐng)域知識圖譜,其中疾病涵蓋心腦血管疾病、呼吸系統(tǒng)疾病、免疫系統(tǒng)疾病、消化系統(tǒng)疾病、腫瘤等。4)CMeKG[41]CMeKG是由北京大學(xué)、鄭州大學(xué)以及鵬城實驗室聯(lián)合研發(fā)的中文醫(yī)學(xué)知識圖譜。它的構(gòu)建參考了國際疾病分類(InternationalClassi?cationofDiseases,ICD)、藥物的解剖學(xué)、治療學(xué)及化學(xué)分類法(AnatomicalTherapeuticChemical,ATC)、SNOMEDCT、MeSH等國際標(biāo)準(zhǔn)的構(gòu)建方法,同時對醫(yī)療領(lǐng)域相關(guān)的臨床指南、行業(yè)標(biāo)準(zhǔn)、診療規(guī)范、醫(yī)學(xué)百科等文本信息進(jìn)行了收集和整理,利用自然語言處理與文本挖掘技術(shù),基于大規(guī)模醫(yī)學(xué)文本數(shù)據(jù),以人機結(jié)合的方式進(jìn)行研發(fā)。目前已發(fā)布2.0版本,包含1萬多疾病、近2萬中藥物、1萬多癥狀和3000種診療技術(shù),描述醫(yī)學(xué)知識的概念關(guān)系和屬性三元組達(dá)156萬。CMeKG的醫(yī)學(xué)概念體系分為15大類,包括疾病、藥物、診療技術(shù)及設(shè)備、有機體、解剖學(xué)等?;谝陨厢t(yī)學(xué)概念分類體系,定義了各類概念的關(guān)系描述框架。關(guān)系描述框架包括有概念間的關(guān)系(概念關(guān)系)和概念與屬性之間的關(guān)系(屬性關(guān)系),一共有67種概念關(guān)系,如“藥物類-癥狀類-適應(yīng)石成分等。另外,2.0版本還增加了基于就診科室的疾病分類體系和基于ICD編碼的疾病分類體系,并建立了與UMLS的映射與5)OMAHA知識庫[42][43]OMAHA知識庫是由浙江數(shù)字醫(yī)療衛(wèi)生技術(shù)研究院進(jìn)行研發(fā)和構(gòu)建的醫(yī)學(xué)領(lǐng)域知識庫,主要聚焦于臨床醫(yī)學(xué)的內(nèi)容開發(fā)。OMAHA知識庫基于OMAHASchema構(gòu)a內(nèi)外已有知識圖譜(如UMLS語義網(wǎng)絡(luò)、Schema的基礎(chǔ)上,充分考慮中文醫(yī)學(xué)知識的特點,形成的一套符合中文臨床環(huán)境的醫(yī)學(xué)知識圖譜Schema,目前包含醫(yī)學(xué)相關(guān)的稱“七巧板”術(shù)語集)和“匯知”醫(yī)學(xué)知識圖譜(簡稱“匯知”圖譜)兩部分組成?!捌咔砂濉毙g(shù)語集僅包含了Schema中用于定義相關(guān)醫(yī)學(xué)概念的層級關(guān)系、屬性關(guān)系和語義類型,而“匯知”圖譜則包含了Schema中剩下的部分,即通過“七巧板”術(shù)語集可以將醫(yī)學(xué)概念定義清晰,通過“匯知”圖譜用于定義“肺癌”,此類關(guān)系存儲于“七巧癌,相關(guān)檢查,胸部電子計算機斷層掃描)*是非定義類關(guān)系,此類關(guān)系存儲于“匯知”“七巧板”術(shù)語集目前已積累發(fā)布了98萬個核心構(gòu)件,分別是概念、術(shù)語和關(guān)系,且都通過唯一標(biāo)識符進(jìn)行表示。概念表示一個臨床觀念(clinicalidea/clinicalthought),一個概念可以有多個父代概念;術(shù)語是對概念的語言指稱,一個概念下可以有多個術(shù)語同時存在;關(guān)系用于建立概念之間的聯(lián)系,包括有子類關(guān)系和屬性關(guān)系,其中屬性關(guān)系態(tài)學(xué)改變”、“臨床過程”等。“七巧板”術(shù)語集包含17個頂層概念,涉及領(lǐng)域包括診斷、癥狀體征、手術(shù)操作、檢驗檢查、基因、藥品等;包含45種語義類型,如臨床所見、疾病、操作、觀測操作、生物等;病理過程、使用的器械等。同時,為了擴(kuò)展“七巧板”術(shù)語集的使用場景還制定了擴(kuò)展集,目前共有三種擴(kuò)展集類型:與主流醫(yī)學(xué)術(shù)語集如ICD-10、ICD-9-CM-3和藥品醫(yī)保目錄等建立映射的映射擴(kuò)展集;與以術(shù)語集概念體系為基礎(chǔ)搭建的口語化疾病、癥狀擴(kuò)展集和藥品英文擴(kuò)展集。擴(kuò)展集還可以基于已發(fā)布的編輯指南由用戶自定義創(chuàng)建,從而滿足更多元化的需求?!皡R知”圖譜的知識源主要為臨床指南、臨床路徑、藥品說明書、醫(yī)學(xué)書籍和醫(yī)學(xué)文獻(xiàn)等高質(zhì)量醫(yī)學(xué)資源?!皡R知”圖譜采用機器自動處理和人工審核相結(jié)合的方式進(jìn)行構(gòu)建,以“七巧板”術(shù)語集為基礎(chǔ),最大化地對實體進(jìn)行了標(biāo)準(zhǔn)化和概念化。截止到目前,已發(fā)布多個以疾病為核心的圖譜數(shù)據(jù),包括15.4萬實體、97.8萬三元組,其中8.5萬實體與“七巧板”術(shù)語集建立了映射。狀分析1)數(shù)據(jù)規(guī)模從醫(yī)學(xué)知識圖譜規(guī)模上來說,國外醫(yī)學(xué)知識圖譜由于開始創(chuàng)建和研究時間早,因此產(chǎn)生的成果也更豐富,具有數(shù)量多和領(lǐng)域?qū)挼奶攸c。而國內(nèi)醫(yī)學(xué)知識圖譜創(chuàng)建開始時間較晚,構(gòu)建領(lǐng)域也多以疾病、藥品為中心,數(shù)量較少,領(lǐng)域范圍也較窄。石2)維護(hù)模式從維護(hù)模式方面來說,國外的醫(yī)學(xué)知識圖譜通常有相關(guān)的組織機構(gòu)進(jìn)行構(gòu)建并有固定的維護(hù)流程、更新頻率和機制,同時也會與其他知識圖譜建立鏈接。而國內(nèi)的醫(yī)學(xué)知識圖譜構(gòu)建大多是由一些科研項目孵化,或者是由一些大數(shù)據(jù)應(yīng)用相關(guān)的企業(yè)獨自進(jìn)行嘗制,3)知識整合從知識整合方面來說,國外已經(jīng)有組織對行業(yè)發(fā)布的生物醫(yī)學(xué)各個細(xì)分領(lǐng)域的來源詞表進(jìn)行整合并建立關(guān)聯(lián),從而快速構(gòu)建了一個大且全的知識圖譜,可以適用于多種應(yīng)用場景需求。如UMLS就將收錄的多個來源詞表進(jìn)行整合,且設(shè)計了能夠充分兼容各來源詞表的超級敘詞表的架構(gòu)及元數(shù)據(jù)框架,廣而國內(nèi)目前發(fā)布的行業(yè)標(biāo)準(zhǔn)數(shù)量較少、結(jié)構(gòu)較單一、各自分散,整個行業(yè)尚缺乏對資源的有效整合的意識,未實現(xiàn)對已有資源的最內(nèi)容是醫(yī)學(xué)知識,因此它的特點也是由醫(yī)學(xué)知識決定的。醫(yī)學(xué)知識主要醫(yī)學(xué)術(shù)語是醫(yī)學(xué)專業(yè)領(lǐng)域中一般概念的詞語指稱,廣泛分布在醫(yī)療記錄、醫(yī)學(xué)文獻(xiàn)和醫(yī)學(xué)教科書等信息資源中。目前我國還未建立規(guī)范、統(tǒng)一的醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn),這也就使得相關(guān)從業(yè)者在不同場景下使用醫(yī)學(xué)術(shù)語較為隨意,最終導(dǎo)致同一個醫(yī)學(xué)概念存在多種術(shù)語表達(dá)方式的現(xiàn)象普遍存在。此外,外文翻譯導(dǎo)致的錯別字等問題,也是導(dǎo)致術(shù)語多樣性以下2個例子可以很好地幫助了解當(dāng)前的行業(yè)現(xiàn)狀。藥品概念“阿司匹林”在維基百科的別稱為“乙酰水楊酸”,在A+氧基)苯甲酸”;醫(yī)生在電子病歷中一般用“艾滋”和“艾滋病”作為醫(yī)學(xué)術(shù)語使用,在醫(yī)學(xué)文獻(xiàn)中則更多的使用“獲得性免疫缺陷綜合征”和“AIDS”,以上四個術(shù)語均要在醫(yī)學(xué)信息或數(shù)據(jù)的使用、處理、加工等過程中達(dá)到比較好的效果,計算機就必須解決術(shù)語多樣化的問題。計算機首先需要理解每一個醫(yī)學(xué)術(shù)語的含義,并能識別相同含義的不同醫(yī)學(xué)術(shù)語,才能解決當(dāng)前普遍存在的語義異構(gòu)問題,從而提升系統(tǒng)的語義以疾病為例,目前為止沒有任何一個知識源可以涵蓋針對某一疾病的所有知識。產(chǎn)生這一現(xiàn)象的主要原因有兩個:一個是醫(yī)學(xué)知識石更新迭代迅速,新知識無法快速地在原知識是不同的機構(gòu)由于發(fā)布目的不同,導(dǎo)致所發(fā)布的知識源通常僅包含某小細(xì)胞肺癌診療指南》介紹了最新最全面的非小細(xì)胞肺癌病理診斷依據(jù)、影像診斷依據(jù)和治療方案,但不涵蓋流行病學(xué)、病因和臨]。為了讓醫(yī)學(xué)知識更好地滿足臨床實踐要求,作中,只有建立全面的醫(yī)學(xué)知識體系,才能為診療是經(jīng)驗性總結(jié)的科學(xué),主要分為基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)以及預(yù)防醫(yī)學(xué)三大類學(xué)科?;A(chǔ)醫(yī)學(xué)是研究人的生命和疾病本質(zhì)及規(guī)律的然科學(xué);臨床醫(yī)學(xué)是研究人體疾病發(fā)生、發(fā)展規(guī)律及其臨床表現(xiàn)、診斷、治療和預(yù)后的科學(xué);預(yù)防醫(yī)學(xué)則主要探索疾病在人群中發(fā)生、發(fā)展和流行規(guī)律及其預(yù)防措施[46]。三大類學(xué)科各自分工研究復(fù)雜的人體問題,相應(yīng)的知識也是復(fù)雜多變。單從醫(yī)學(xué)概念上就能看出醫(yī)學(xué)知識的復(fù)雜性,一個醫(yī)學(xué)概念往往存在多個上位概念和下位概念。以肺炎為例,肺炎不僅有肺組織炎癥和肺實變兩個上位概念,還有新生兒肺炎、間質(zhì)性肺炎和在《原發(fā)性支氣管肺癌臨床路徑(2019年方案:吉西他濱+順種用藥方案在《新型冠狀病毒肺炎診療方案(試行第八版修訂版)》[48]中,醫(yī)學(xué)觀察期間不同的.新型冠狀病毒肺炎診療方案(試行第八版石來源:中華人民共和國國家衛(wèi)生健康委員會.原發(fā)性支氣管肺癌臨床路徑(2019年版)圖5:原發(fā)性支氣管肺癌臨床路徑(2019年版)J021,14(02):81–88圖6:新型冠狀病毒肺炎診療方案(試行第八版修訂版)石可以使計算機在輔助人類開展醫(yī)療活動過程中顯得更加智能,讓用戶獲得更加全面的醫(yī)眾多的醫(yī)學(xué)知識來源勢必會導(dǎo)致知識質(zhì)量參差不齊。臨床路徑、臨床指南和醫(yī)學(xué)教科書等資源的權(quán)威性較高,且臨床指南會標(biāo)識證一些互聯(lián)網(wǎng)開放平臺上的知識由于維護(hù)者身份和審核等原因,其權(quán)威性通常有爭議。醫(yī)學(xué)是關(guān)乎生命健康的科學(xué),醫(yī)學(xué)知識的專業(yè)性高,應(yīng)用場景的容錯率低,所以計算機必須擁有高質(zhì)量和高可信度的醫(yī)學(xué)知識庫支撐才能讓使用者信賴。同時,醫(yī)學(xué)知識的證據(jù)等級是臨床診療流程中十分關(guān)鍵的信息,也一些與通用領(lǐng)域不同的特征才能具有更強的適用性。醫(yī)學(xué)知識圖譜的特殊需求主要體現(xiàn)上文中提到,知識圖譜通常由模式層和數(shù)據(jù)層組成,模式層定義知識圖譜的模型,數(shù)據(jù)層基于模式層的模型構(gòu)建數(shù)據(jù)。通用知識圖譜模式層的關(guān)系類型一般比較簡單,層級關(guān)系淺,但數(shù)據(jù)層的數(shù)據(jù)覆蓋范圍廣,而醫(yī)學(xué)為了解決醫(yī)學(xué)術(shù)語多樣化和醫(yī)學(xué)知識分散的問題,醫(yī)學(xué)知識圖譜的模式層建議引入本體來規(guī)范醫(yī)學(xué)概念的內(nèi)涵,定義豐富的關(guān)系類可通過構(gòu)建復(fù)合值類型(CompoundValueTypes,CTV)1進(jìn)行知識的完整表達(dá)。例中的“梅克爾憩室在用憩室切除+小腸吻可以通過“梅克爾憩室臨床路徑”作為復(fù)合),(梅克爾療方式,憩室切除+小腸爾憩室臨床路徑,治療前檢查,血常規(guī))*來完成對該條知識的完整來源:中華人民共和國國家衛(wèi)生健康委員會來源:中華人民共和國國家衛(wèi)生健康委員會.梅克爾憩室臨床路徑(2019年版),OMAHA知識庫,白皮書團(tuán)隊整理分析圖7:《梅克爾憩室臨床路徑(2019年版)》中的多元關(guān)系示例CVTFreebase于表示復(fù)雜數(shù)據(jù)。例如,城市人口會隨時間變化,所以城市、人CVT而可以表示清楚相同城市不同時間的不同人口[49]通用知識圖譜的規(guī)模巨大,不可能人工手動構(gòu)建,一般由機器高度自動化構(gòu)建,但往往最終的知識圖譜質(zhì)量不會很高。醫(yī)學(xué)領(lǐng)域的應(yīng)用場景極為嚴(yán)肅,對知識質(zhì)量要求嚴(yán)苛,醫(yī)學(xué)知識圖譜不可能完全依靠機器自動化構(gòu)建。醫(yī)學(xué)知識圖譜的構(gòu)建一般采用人工+機器的方式,構(gòu)建全過程需要醫(yī)學(xué)專家積極參與,以保證數(shù)據(jù)的準(zhǔn)確性。此外,醫(yī)學(xué)知識圖譜構(gòu)建過程中需要充分收錄行業(yè)現(xiàn)行標(biāo)準(zhǔn)、教科書、指南等權(quán)威知識源,并同時補充互聯(lián)網(wǎng)和臨床病歷中的醫(yī)學(xué)知識,從而保證醫(yī)學(xué)知識的完整性。石不同醫(yī)學(xué)場景需要使用不同來源或不同證據(jù)等級的醫(yī)學(xué)知識。例如在面向患者的智能問答應(yīng)用場景中,基于常規(guī)教科書、指南、百科和互聯(lián)網(wǎng)開放平臺上構(gòu)建的醫(yī)學(xué)知識圖譜就足以支撐計算機的使用。在決策支持應(yīng)用場景中,當(dāng)存在多個不同的決策建議時,證據(jù)等級的標(biāo)識有助于醫(yī)生選擇最準(zhǔn)確與最合適的方案,且需要滿足醫(yī)學(xué)知識更新的時效性。因此,醫(yī)學(xué)知識圖譜中的每條三元組都要記錄醫(yī)學(xué)知識的來源和相應(yīng)的證據(jù)等級,以此提高醫(yī)學(xué)知識圖譜在不同場景的適用的構(gòu)建醫(yī)學(xué)知識圖譜在構(gòu)建路線和構(gòu)建方式上與通用知識圖譜的基本架構(gòu)相似,但在一些細(xì)節(jié)的處理上,考慮到醫(yī)學(xué)知識的特殊性會有不(一)構(gòu)建流程建模、知識存儲、知識抽取、知識融合和知識推理知識圖譜的構(gòu)建一般可以分為自下而上 (Bottom-Up)和自上而下(Top-Down)兩種方式。前者是先從真實數(shù)據(jù)中抽取實體和關(guān)系,而后歸納總結(jié)出知識圖譜的Schema;后者則是先歸納總結(jié)出知識圖譜Schema然后再依據(jù)Schema進(jìn)行實體和關(guān)系的抽取。通用知識圖譜涉及的知識范圍廣、量級大,一般采用自下而上的方式進(jìn)行構(gòu)建;而垂直領(lǐng)域的知識圖譜涉及的知識專業(yè)性強、難度高,一般采用自上而下的方進(jìn)行構(gòu)建。醫(yī)學(xué)領(lǐng)域的知識專業(yè)性極強,且知識類型特殊,所以醫(yī)學(xué)領(lǐng)域的知識圖譜一般采用自上而下的方式進(jìn)行構(gòu)建。醫(yī)學(xué)知識圖譜Schema在構(gòu)建過程中,有如下幾點需要注1)應(yīng)參考成熟的Schema國外的醫(yī)學(xué)知識圖譜起步較早,已有較多沉淀,例如UMLS的語義網(wǎng)絡(luò)、SNOMEDCT的語義模型等都已比較成熟??梢栽谘形尼t(yī)學(xué)知識的特點構(gòu)建Schema。2)應(yīng)有醫(yī)學(xué)專家充分參與醫(yī)學(xué)知識專業(yè)性強,醫(yī)學(xué)知識圖譜Schema構(gòu)建必須要有醫(yī)學(xué)專家的充分參與才能保證其正確性和適用性。在整個構(gòu)建過程中,讓醫(yī)學(xué)專家充分理解知識圖譜的相關(guān)概念是一3)應(yīng)充分考慮應(yīng)用需求如前文所述,部分復(fù)雜的醫(yī)學(xué)知識需要較復(fù)雜的Schema才可以表示清晰,例如通過復(fù)合值類型來完善知識的表示。但是復(fù)雜的Schema會給知識抽取帶來更大的困難,所自身應(yīng)用的需求,選取能符合自身需求的最4)應(yīng)不斷維護(hù)更新但不同細(xì)分領(lǐng)域的知識有時會有細(xì)微的差域為例,腫瘤的分期知識復(fù)雜,且分期對治療方案有要能夠表示出腫瘤的分期、治療方案、治療藥物和用法用量等多元的關(guān)系,而其他領(lǐng)域的疾病的Schema一般無需定義得如此細(xì)5)應(yīng)有標(biāo)準(zhǔn)化的理念醫(yī)學(xué)知識圖譜構(gòu)建是一個龐大的工程,依靠單一機構(gòu)不可能完成,因此各組織在構(gòu)建Schema時應(yīng)有標(biāo)準(zhǔn)化的理念,即應(yīng)在一套性化的設(shè)計?;跇?biāo)準(zhǔn)化的Schema構(gòu)建出的醫(yī)學(xué)知識圖譜才具有更好的互通性,而互通性高的知識圖譜不僅使構(gòu)建組織自身受石知識抽取是知識圖譜構(gòu)建的核心內(nèi)容,根據(jù)任務(wù)類型一般可以分為實體識別、關(guān)系抽取和事件抽取。其中實體識別和關(guān)系抽取應(yīng)用成熟,而事件抽取目前在醫(yī)學(xué)領(lǐng)域內(nèi)應(yīng)用還較少,僅在傳染病學(xué)和流行病學(xué)領(lǐng)域稍有涉及,本文暫只介紹前1)實體識別實體識別又稱命名實體識別(NamedEntityRecognition,NER),是指識別文本中的命名性實體,并將其劃分到指定類別的任務(wù)[50]。在醫(yī)學(xué)領(lǐng)域中,主要的實體類型可解剖結(jié)構(gòu)等,如何準(zhǔn)確并快速的識別出這些實體是醫(yī)學(xué)實體識別任務(wù)的關(guān)鍵。常見的醫(yī)學(xué)實體識別技術(shù)方法可以分為兩種,基于規(guī)別。a)基于規(guī)則的實體識別[51]基于規(guī)則的實體識別一般采用特征詞典、分如果已有醫(yī)學(xué)領(lǐng)域內(nèi)的詞典積累,可以根據(jù)完成一個簡單的基于規(guī)則逆向最大匹配法、雙向匹配法和最佳匹配法詞方法實現(xiàn)的實體識別對于詞典內(nèi)的實體識別準(zhǔn)確率一般較高,但無法識別出詞典中未包含的實體(即未登錄詞)對于未登錄詞的識別可以采用詞典+分詞+疾病實體識別為例,可以構(gòu)建疾病的特征詞癥”等,對來源語料進(jìn)行分詞和詞性標(biāo)注,即為疾病實體,利用正則表達(dá)式提取出符合規(guī)則的實體,然后對提取結(jié)果進(jìn)行驗證,保證規(guī)則的正確性和發(fā)現(xiàn)新規(guī)則?;谝烟崛〉募膊嶓w,還可以歸納出疾病的修飾詞的特征詞典,如“急性”、“亞急性”、“慢性”、“良性”、“惡性”等,利用“修飾一步抽取更多的疾病實體。基于規(guī)則的實體識別簡單流基于規(guī)則的實體識別實現(xiàn)的技術(shù)手段相對簡單,在一些特定的場景和語料中的效果較好,準(zhǔn)確率較高,但由于規(guī)則適用性窄,所以一般召回率稍差。同時由于規(guī)則需要根據(jù)經(jīng)驗總結(jié),實踐中常會出現(xiàn)規(guī)則盲點,造成一些結(jié)果的錯誤,所以需要人工不斷完善。另外規(guī)則的泛化性差,不同類型實體的識別規(guī)則往往差別很大,例如前文所提識別疾病的規(guī)則就完全無法應(yīng)用于藥品。所以對于基于規(guī)則的醫(yī)學(xué)實體識別而言,如何維護(hù)和更新大量的不同類別實體的識別規(guī)則是重點和白皮書團(tuán)隊整理分析隨著機器學(xué)習(xí)技術(shù)特別是深度學(xué)習(xí)技術(shù)的發(fā)展,基于機器學(xué)習(xí)的實體識別是當(dāng)下的主流方法。其主要思路是將實體識別問題轉(zhuǎn)換為序列標(biāo)注問題,需要預(yù)先對語料進(jìn)行標(biāo)注形成訓(xùn)練數(shù)據(jù)集,然后用訓(xùn)練數(shù)據(jù)集訓(xùn)練生成基于機器學(xué)習(xí)的實體識別一般可以分為基于統(tǒng)計模型的實體識別和基于深度學(xué)習(xí)的實體識別兩種類型?;诮y(tǒng)計模型的實體識別主要通過人工定義特征和標(biāo)注語料來訓(xùn)練模型,通過統(tǒng)計學(xué)習(xí)模型來預(yù)測標(biāo)簽,從而完成實體識別。統(tǒng)計模型中標(biāo)簽的預(yù)測不只是單純的與輸入的特簽相關(guān),標(biāo)簽之間互相影響。基于統(tǒng)計模型的方法一般包括最大熵模型(MaximumEntropyModel,MEM)、隱馬爾可夫模型(HiddenMarkovModelHMM、條件馬爾可夫模型(ConditionalMarkovModel,CMM)、條件隨機場模型(ConditionalRandomFieldsCRF、支持向量機(SupportVectorMachine,SVM)等?;谏疃葘W(xué)習(xí)的實體識別是近些年實體識別關(guān)注和討論的熱點。深度學(xué)習(xí)技術(shù)應(yīng)用于實體識別領(lǐng)域主要有卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)和引入注意力機制 (AttentionMechanism)的神經(jīng)網(wǎng)絡(luò)。RNN中的長短期記憶網(wǎng)絡(luò)(LongShortTermMemory,LSTM)目前在實體識別中應(yīng)用最為廣泛,常見的模型有雙向長短期記憶網(wǎng)絡(luò)(Bi-directionalLongShort-TermMemory,BiLSTM)+條件隨機場。相比于統(tǒng)計模型中通過人工定義特征作為輸入層,基于深度學(xué)習(xí)的實體識別直接通過文本石中的詞或字的向量作為輸入,減少了人工定義特征中對專業(yè)知識的依賴。語料中詞和字的向量一般通過預(yù)訓(xùn)練獲得,常見的詞向量(WordEmbedding)預(yù)訓(xùn)練工具包括Word2Vec、BERT(BidirectionalEncoderRepresentationfromTransformers)和一些新的技術(shù)和方法也逐漸在實體識別領(lǐng)域落地和發(fā)展,如多任務(wù)學(xué)習(xí) (Multi-taskLearning)、遷移學(xué)習(xí) (TransferLearning)、主動學(xué)習(xí)(ActiveLearning)、強化學(xué)習(xí)(ReinforcementLearning)和生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN)等[52]。相較于基于規(guī)則的實體識別而言,基于機器學(xué)習(xí)的實體識別的召回率高且泛化性好。但是基于機器學(xué)習(xí)的實體識別目前大部分都是監(jiān)督學(xué)習(xí)(SupervisedLearning),需要依賴大量的標(biāo)注語料來進(jìn)行模型的訓(xùn)練。醫(yī)學(xué)專業(yè)程度高,標(biāo)注語料的門檻和成本都遠(yuǎn)遠(yuǎn)高于一般領(lǐng)域,所以如何獲得大量高質(zhì)量的標(biāo)注語料是目前主要的瓶頸。因此,如何依靠少量的標(biāo)注語料訓(xùn)練出一個高質(zhì)量的模型2)關(guān)系抽取關(guān)系抽取是指從文本中抽取出兩個或多個實體之間的語義關(guān)系,自動化的關(guān)系抽取一般可以分為基于模板的關(guān)系抽取和基于機器學(xué)基于模板的關(guān)系抽取主要是通過領(lǐng)域?qū)<遥偨Y(jié)出相應(yīng)的關(guān)系規(guī)則和模板,采用模板匹配的方式進(jìn)行實體關(guān)系的抽取。例如基于下面的模板即可以提取藥品“X”與疾病“Y”“X”可用于治療“Y”“X”的適應(yīng)證有“Y”“X”可以治療“Y”……基于模板的關(guān)系抽取在一些特殊的場景可以取得不錯的準(zhǔn)確率,如藥品說明書中的知識抽取。但是此方法也存在很多問題,例如召回率低,規(guī)則的總結(jié)依賴于大量的人力,模與實體識別類似,基于機器學(xué)習(xí)的關(guān)系抽取也是近些年關(guān)注的重點。按實現(xiàn)方法,基于機器學(xué)習(xí)的關(guān)系抽取可以分為兩種:Pipeline法和Joint法。Pipeline法可分為兩步,即先進(jìn)行實體識別然后再進(jìn)行關(guān)系抽取,兩步之間獨立,關(guān)系抽取的結(jié)果依賴于實體識別的效果;Joint法則將實體識別和直接完成實體+關(guān)系常見的基于機器學(xué)習(xí)的關(guān)系抽取技術(shù)和實LSTM和BiLSTM等。由于關(guān)系識別的技術(shù)更加復(fù)雜,而且標(biāo)注數(shù)據(jù)相較于實體識別而言更加難獲取,一些只需要利用少量標(biāo)注的半監(jiān)督學(xué)習(xí)(Semi-SupervisedLearning,SSL)的方法也逐漸引起越來越多學(xué)者的關(guān)注,例如遠(yuǎn)程監(jiān)督(DistantSupervision)和Bootstrapping等。3)醫(yī)學(xué)知識抽取難點由于醫(yī)學(xué)知識的特殊性,醫(yī)學(xué)領(lǐng)域的知識抽取存在特定的難點。石●嵌套實體醫(yī)學(xué)文本中存在大量的嵌套實體,例如“肌這類嵌套實體給醫(yī)學(xué)實體識別帶來了很大的●不連續(xù)實體醫(yī)學(xué)文本中存在許多不連續(xù)實體,例如“肝●一詞多義醫(yī)學(xué)文本中存在一詞多義的實體,例如“甲胎蛋白可以檢查人體血清中甲胎蛋白的含量”,此處的兩個“甲胎蛋白”前者表示一項檢驗檢查項目,后者表示一種蛋白,兩者干擾?!駥嶓w間隔遠(yuǎn)有時會出現(xiàn)有關(guān)系的兩個實體間的間隔過遠(yuǎn)的現(xiàn)象,療指南(2019年)》中,慢性腹瀉”與其相關(guān)的檢查“血常規(guī)”、●關(guān)系復(fù)雜多元如醫(yī)學(xué)知識圖譜特點中所述,一些復(fù)雜的醫(yī)學(xué)知識需要借助于復(fù)合值類型來表示,但此類知識在關(guān)系標(biāo)注中難以標(biāo)注清晰。同時,由于知識特異性高,語料中可以標(biāo)注出的該類關(guān)系的量一般較少,所以訓(xùn)練模型對此類診療指南(2019年)J:973–982圖9:《慢性腹瀉基層診療指南(2019年)》示例2)實體對齊[1]知識融合在醫(yī)學(xué)知識圖譜的構(gòu)建中是解決數(shù)據(jù)異構(gòu)和冗余的關(guān)鍵步驟,知識融合一般可1)Schema融合Schema融合主要發(fā)生在不同的醫(yī)學(xué)知識圖Schema的融合主要采用人工的方式進(jìn)行以保證融合的質(zhì)量。Schema融合的關(guān)鍵在于其中等價的語義類型和屬性關(guān)系并建立等價關(guān)系。無法建立等價關(guān)系的部分,可以尋求和“操作”,語義關(guān)系“癥狀”和“臨床表現(xiàn)”之間都可以建立ISA關(guān)系。若等價關(guān)系和層級關(guān)系都無法建立,則可以視具體的實體對齊是知識融合中最關(guān)鍵的步驟,其主要任務(wù)就是判斷出的實體間的等價關(guān)系。在數(shù)據(jù)預(yù)處理的主要目的是完成數(shù)據(jù)的正規(guī)化,一般包括對實體名稱上空格和標(biāo)點符號的處理,大小寫的統(tǒng)一,繁體和異體字的轉(zhuǎn)換,錯別字的修正等。數(shù)據(jù)分塊是指根據(jù)語義類型將實體劃分為不同的類別,用于保證只有相同或等價的語義類型中的實體才會進(jìn)行融合。根據(jù)分塊后不同類別實體的名稱特點選擇合適的實體對齊方法,給出合適的推薦結(jié)果,然后進(jìn)行實體對齊。常見的實體間相似度計算方法包括Jaccard系數(shù)、Dice系數(shù)、編輯距離、機器學(xué)習(xí)以及近年來關(guān)注較多的知識表示學(xué)習(xí)(RepresentationLearning)的方法2。2知識圖譜表示學(xué)習(xí)也稱為知識圖譜嵌入(KnowledgeGraphEmbedding)或知識圖譜的向量表示,是指將知識圖譜中包含的實體和關(guān)系都映射到連續(xù)向量空間的方法。此類方法不依賴任何文本信息,獲取數(shù)據(jù)的深度特征,可以直接用數(shù)3)醫(yī)學(xué)知識融合難點在Schema融合工作中,醫(yī)學(xué)知識由于其專業(yè)性較高,實體間的關(guān)系類型較為復(fù)雜,所以需要大量的醫(yī)學(xué)專家參與到Schema的融合過程中,如何讓醫(yī)學(xué)專家順利的理解Schema和知識圖譜是其中的難點。在實體對齊時,醫(yī)學(xué)類實體間的一詞多義的現(xiàn)戰(zhàn)。例如,“肺癌”在一些場景中可以用來指代“肺部惡性腫瘤”,但實際在嚴(yán)謹(jǐn)?shù)哪[瘤形態(tài)學(xué)定義“肺部惡性腫瘤”的子類概念。一詞多義問題在碰到英文縮寫時會更加嚴(yán)重,相同的縮寫可能分別指代兩個無任何關(guān)聯(lián)的實體,例如檢驗項目“甘油三酯(triacylglycerol)”和“甲狀腺球蛋白 (thyroglobulin)”的英文縮寫都可以寫作“TG”。知識圖譜的本質(zhì)是三元組關(guān)系的集合,對于三元組數(shù)據(jù)而言,一般可采用關(guān)系型數(shù)據(jù)庫1)關(guān)系型數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫出現(xiàn)較早,發(fā)展比較成熟。知識圖譜中的三元組數(shù)據(jù)很容易利用關(guān)系型數(shù)據(jù)庫來存儲,常見的利用關(guān)系型數(shù)據(jù)庫存儲知識圖譜三元組的方法有:三元組存儲、水平存儲、屬性表存儲、垂直劃分存儲、全索引存儲和DB2RDF等。下面選取幾種典型的關(guān)系型數(shù)據(jù)庫存儲知識圖譜的方法做簡單介紹[8][54][55]:只通過一張表來維護(hù)知識圖譜數(shù)據(jù),表包含所有的三元組數(shù)據(jù)都存儲在一張表中。這種存儲方法通用性較好,但由于所有數(shù)據(jù)都存儲于一張表中,查詢時會有大量的自連接操石水平存儲依然是將所有三元組都存儲于一張表中,三元組中的主語實體存儲為數(shù)據(jù)庫中1所示。該存儲方式設(shè)計簡單,查詢單個實體時可快速展示出其所有屬性值。但缺關(guān)系復(fù)雜時可能會超出數(shù)據(jù)庫的上限。同時由于所有屬性水平鋪開,單個實體不可能在所有屬性上都有值,所以必定會存在大量空值,空值不僅增加了存儲的壓力,同時也影響查詢的效率。最關(guān)鍵的是,一旦一個實體的一種屬性擁有多個屬性值,該存儲方式將大大受限,如示例中糖尿病的臨床表現(xiàn)實際上有多個,如多食、多飲、多尿和消瘦等,存儲并不適合該類多值數(shù)據(jù)存儲[56]屬性表可以簡單的理解為將水平存儲中的一張表按照實體的類型分成多張表,保證同類性大致相同,表1中的示例數(shù)據(jù)就可以依據(jù)實體類型拆分成疾病、藥品和檢驗項目三張屬性表,如表2所示。屬性表的存儲方式可以解決水平存儲中列數(shù)過多的問題,但空值問題可以一定程度上減輕但仍無法完全避免,單屬性的多值問題也仍然無法解決。由于分為多個表進(jìn)行存儲,所以在一些查詢時需要對多個表進(jìn)行關(guān)聯(lián),比較影響垂直劃分的存儲方法是依據(jù)屬性將水平存儲的表劃分成不同的表,即保證每張表中三元組的屬性都相同,每張表只包含兩列,分別對應(yīng)三元組的主語和賓語。垂直劃分的存儲方法有效解決了水平存儲和屬性表存儲中的空值和單屬性的多值問題,但由于表數(shù)量的增加大大增加了查詢時表間連接的數(shù)量,影石譜數(shù)據(jù)示例*物型應(yīng)糖尿病發(fā)熱血常規(guī)尿常規(guī)染圖譜數(shù)據(jù)示例*物應(yīng)型染響查詢性能。同時對于一些特殊查詢場景,如已知三元組的主語和賓語查詢謂語時,垂存儲方式無法有效支持[57]2)面向RDF三元組數(shù)據(jù)庫RDF是萬維網(wǎng)聯(lián)盟(WorldWideWebConsortium,W3C)提出的一組標(biāo)記語言的技術(shù)標(biāo)準(zhǔn),以便更好地描述和表達(dá)網(wǎng)絡(luò)資源的語義關(guān)系。它是語義萬維網(wǎng)實現(xiàn)的關(guān)鍵技術(shù)之一,也是語義信息描述的有效手段,基RDF是知識圖譜開放和發(fā)布的最主要的格式之一,面向RDF的三元組數(shù)據(jù)庫在存儲知識圖譜三元組時有格式上的優(yōu)勢,其可以支持RDF的標(biāo)準(zhǔn)查詢語言SPARQL。常見的RDF三元組數(shù)據(jù)庫包括:開源系統(tǒng)e3)原生圖數(shù)據(jù)庫圖數(shù)據(jù)庫是數(shù)據(jù)庫領(lǐng)域為更好的存儲和管理圖模型數(shù)據(jù)而開發(fā)的數(shù)據(jù)庫管理系統(tǒng),其對圖數(shù)據(jù)的存儲和查詢的效率優(yōu)于關(guān)系型數(shù)據(jù)庫。從數(shù)據(jù)模型角度來看,知識圖譜本身是一種圖數(shù)據(jù),所以知識圖譜在本質(zhì)上更適合使用圖數(shù)據(jù)庫進(jìn)行存儲。常見的原生圖數(shù)總體而言,關(guān)系型數(shù)據(jù)庫的優(yōu)勢在于技術(shù)成熟,面向RDF的三元組數(shù)據(jù)庫優(yōu)勢在于格式標(biāo)準(zhǔn),原生圖數(shù)據(jù)庫優(yōu)勢在于存取效率。醫(yī)學(xué)知識圖譜的存儲可以選用多種數(shù)據(jù)庫同時存儲的方式,分別適用于不同的管理和應(yīng)用場景,但是應(yīng)注意不同數(shù)據(jù)格式之間的同知識推理是知識圖譜構(gòu)建的重要組成部分,知識推理是指在已有的知識圖譜的基礎(chǔ)上,通過進(jìn)一步挖掘出實體間隱含的知識或識別出錯誤關(guān)系的過程[59][60]。知識推理在知識圖譜構(gòu)建過程中主要應(yīng)用于知識圖譜補全(KnowledgeGraphCompletion)和知識圖譜去噪(KnowledgeGraphCleaning)[61]。知識圖譜補全是基于已知的知識圖譜中的關(guān)系推理出未知的關(guān)系;知識圖譜去噪則是對三元組正確性的判斷和對整個知識圖譜邏輯上一致性的校驗。邏輯學(xué)上將推理分為演繹推理(DeductiveReasoning)[62]和歸納推理(InductiveReasoning)[63]兩種方式。前者是自上而下的形式化推理,是在指定前提的情況下,推斷出必然成立的結(jié)論;而后者則是自下而上的非形式化推理,是基于已有的部分觀察得出一般結(jié)論的過程。例如,基于前提“肺部疾病的發(fā)病部位為肺部”和“肺炎是一種肺部疾病”,可推理出“肺炎的發(fā)病部位為肺部”,這一推理過程為演繹推理;而“大部分參與臨床試驗的二型糖尿病患者服用二甲雙胍后顯示有效”,所以推理出“二甲雙胍對大部分的二型糖尿病患者有效”,這一推理過程為歸納推理?;谕评淼姆诸惙椒?,知識圖譜的推理主要技術(shù)手段也可以分為基于演繹的知識推理和基于歸納的知識推理。常見的基于演繹的知識推理的技術(shù)有描述邏輯(DescriptionLogic,DL)、Datalog和產(chǎn)生式規(guī)則等;常見的基于歸納的知識推理的技術(shù)有基于圖結(jié)構(gòu)的推理、基于規(guī)則學(xué)習(xí)的推理、基于知識圖譜表示學(xué)習(xí)的推理和基于強化學(xué)習(xí)的推理等[1]。醫(yī)學(xué)知識圖譜所采用的知識推理方法應(yīng)以演繹推理為主。因為醫(yī)學(xué)知識中包含大量的層級關(guān)系,而基于層級關(guān)系可以設(shè)計和完成大量的演繹推理。在前文所述的演繹推理例子中,可以推理出“肺部疾病”所有的子類疾病的發(fā)病部位都應(yīng)該是“肺部”或“肺部”的子類。利用這一特點,可以快速地完成大石(二)構(gòu)建方式當(dāng)前知識圖譜的構(gòu)建方法主要分為機器構(gòu)建和人工構(gòu)建兩種。機器構(gòu)建的方法可快速產(chǎn)人工構(gòu)建速度慢,但結(jié)果的質(zhì)量會更高。通用知識圖譜的構(gòu)建由于資源多,數(shù)據(jù)量大,所以機器構(gòu)建的方式是主流;但醫(yī)學(xué)領(lǐng)域一般對知識的質(zhì)量都有較高要求,所以醫(yī)學(xué)知識圖譜構(gòu)建過程中人工的參與應(yīng)更多也更加必要。在醫(yī)學(xué)知識圖譜的構(gòu)建過程中,機器應(yīng)主要用于提高效率,輔助快速產(chǎn)生知識,而人工則應(yīng)主要用于質(zhì)量的控制,所以如何在醫(yī)學(xué)知識圖譜的構(gòu)建中,機器構(gòu)建主要用于解決人工效率低的問題,所以機器構(gòu)建的技術(shù)方法選擇應(yīng)以最大化減少人力為主要判1)技術(shù)成熟度優(yōu)先知識圖譜構(gòu)建技術(shù)的研究和發(fā)展速度很快,大量的新理論和新技術(shù)在科研中被應(yīng)用。但是構(gòu)建臨床實際應(yīng)用級別的醫(yī)學(xué)知識圖譜不應(yīng)執(zhí)著于高新技術(shù),技術(shù)的成熟性和穩(wěn)定性2)技術(shù)按需選取醫(yī)學(xué)知識圖譜的構(gòu)建不能寄希望于依靠單技術(shù)或少量幾種技術(shù)解決所有問題,而應(yīng)該更加細(xì)致地拆分任務(wù),針對不同的細(xì)分任務(wù)選的效果。3)技術(shù)準(zhǔn)確率優(yōu)先量要求高,機器自動處理的結(jié)果中錯誤率過高不但會降低整體數(shù)據(jù)質(zhì)量,而且人工糾錯會帶來更多的工作量。因抽取,人工構(gòu)建醫(yī)學(xué)知識圖譜可以一定程度上解決機器構(gòu)建的數(shù)據(jù)質(zhì)量的問題,同時人工產(chǎn)生的標(biāo)注數(shù)據(jù)也可以用于機器學(xué)習(xí)的模型訓(xùn)練,但人工構(gòu)建的主要問題是效率相對比較低下。近些年,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,知識型眾包正逐漸發(fā)展起來。眾包 (Crowdsourcing)是一種通過將工作先分配給很多非特定的參與者再合成為最終結(jié)果的模式[64]。眾包相較于傳統(tǒng)的人工方式,在效率和靈活性上更有優(yōu)勢,所以眾包適合用于知識圖譜的構(gòu)建。采用眾包的方式進(jìn)行醫(yī)學(xué)知識圖譜構(gòu)建有以下幾點原則:1)較高的準(zhǔn)入資質(zhì)醫(yī)學(xué)專業(yè)性很強,要確保眾包構(gòu)建出的醫(yī)學(xué)知識圖譜不出現(xiàn)質(zhì)量問題,就一定要保證參與人員的資質(zhì)。需要針對不同的領(lǐng)域,選取不同的醫(yī)學(xué)從業(yè)者,如臨床醫(yī)生、護(hù)士、醫(yī)學(xué)生和醫(yī)技專業(yè)人員等,同時也要做好資質(zhì)2)全面的知識培訓(xùn)醫(yī)學(xué)知識圖譜構(gòu)建是一個跨學(xué)科的任務(wù),需要醫(yī)學(xué)專業(yè)人員有一定的知識圖譜的基礎(chǔ)知識。因此,在正式開始任務(wù)前,需要對任務(wù)執(zhí)行者進(jìn)行知識圖譜基礎(chǔ)知識的培訓(xùn)和講解,然后可以安排測試,通過測試后方可正3)精細(xì)的任務(wù)劃分在醫(yī)學(xué)知識圖譜的構(gòu)建流程中,不同工作所需要的人工參與度不同。如何選取出其中最重要且最需要人工的部分來進(jìn)行眾包構(gòu)建是關(guān)鍵。例如,構(gòu)建Schema一定需要領(lǐng)域?qū)<掖罅繀⑴c,知識抽取和知識融合則需要人工對機器的結(jié)果做審核和質(zhì)量控制,而知識推理則一般只需要人工定義規(guī)則。石其次,盡量選取易達(dá)成共識性的知識源,從而避免在任務(wù)過程中相關(guān)專業(yè)人員因個人的臨床指南、臨床路徑和藥品說明書等權(quán)威性4)易用的協(xié)作平臺醫(yī)學(xué)知識圖譜構(gòu)建任務(wù)比較繁瑣,所以搭建一個易用的協(xié)作平臺很有必要。通過協(xié)作平臺,任務(wù)管理者可以更簡單的設(shè)置任務(wù)和分發(fā)任務(wù),任務(wù)執(zhí)行者可以更方便和簡單的完成任務(wù)。例如,通過協(xié)作平臺將大任務(wù)拆分成小任務(wù),分多次的分發(fā)以保證參與度與完將選擇型任務(wù)轉(zhuǎn)換為判斷型任務(wù)等方式來簡5)健全的質(zhì)控機制多,采用人工眾包的方式構(gòu)建醫(yī)學(xué)知識圖譜同樣也會存在質(zhì)量隱患,所以建立一個良好的質(zhì)量控制體系也尤為關(guān)鍵。常見的方法有:相同任務(wù)安排雙人獨立完成后,對一致性進(jìn)行檢測;任務(wù)結(jié)果的人工抽樣檢測;與成熟的醫(yī)學(xué)知識圖譜對比評綜上所述,醫(yī)學(xué)知識圖譜離不開機器與人工的配合。找到二者的平衡點,并最大化地發(fā)揮機器的能力以及減少人的工作量,同時保障數(shù)據(jù)的質(zhì)量,才是快速且高質(zhì)量構(gòu)建醫(yī)學(xué)((一)語義搜索石應(yīng)用領(lǐng)域的隨著研究的深入以及行業(yè)的發(fā)展,醫(yī)學(xué)知識圖譜也開始應(yīng)用于藥物研發(fā)、公共衛(wèi)生事件傳統(tǒng)的搜索主要為關(guān)鍵詞搜索,當(dāng)用戶向搜索引擎提交關(guān)鍵詞查詢請求時,搜索引擎通過關(guān)鍵詞匹配的方式,在數(shù)據(jù)庫中檢索滿足用戶查詢請求的內(nèi)容,然后將結(jié)果反饋給用戶。這種搜索引擎對查詢的處理局限于詞的表面形式,缺乏知識處理能力和理解能力。語義搜索則不拘泥于用戶所輸入請求語句的字面本身,而是透過現(xiàn)象看本質(zhì),準(zhǔn)確地捕捉到用戶所輸入語句后面的真正搜索意圖,從而更準(zhǔn)確地返回最符合用戶需求的搜索結(jié)果[65]。將知識圖譜應(yīng)用于搜索是當(dāng)前實現(xiàn)語義搜索的有效解決方案。知識圖譜描述了事物的分類、屬性和關(guān)系,具有豐富的語義基于醫(yī)學(xué)知識圖譜的語義搜索目前被用于醫(yī)醫(yī)療保健信息等內(nèi)容的推薦。部分使用了語義搜索技術(shù)的醫(yī)學(xué)信息搜索平臺舉例如表3索技術(shù)的醫(yī)學(xué)信息搜索平臺簡介的內(nèi)容calSearch6]WebMD[67]WebMd康服務(wù)網(wǎng)站,擁有全球最豐富的健康醫(yī)療立了一個網(wǎng)上了解和交流醫(yī)療信息的通道,其所提供的醫(yī)療資皆是業(yè)界的領(lǐng)導(dǎo)者,除了匯集全美醫(yī)師的臨床報告,還有最新[68]賴的醫(yī)學(xué)知識。引進(jìn)海外優(yōu)質(zhì)醫(yī)病病因診斷治療預(yù)防等醫(yī)療百科。skBobb70]識愛好者的專業(yè)醫(yī)學(xué)信息網(wǎng)站。]急救、中醫(yī)等幾乎所有醫(yī)學(xué)相關(guān)領(lǐng)域。擁有原創(chuàng)醫(yī)療類科普學(xué)科普視頻數(shù)萬集。白皮書團(tuán)隊整理分析石基于知識圖譜的語義搜索主要包括四個步●第一步,搜索意圖理解。即從用戶提交的搜索內(nèi)容中識別出用戶希望查找的目標(biāo)實體,并為執(zhí)行下一步工作生成目標(biāo)SPARQL)或某種計算方法在知識圖譜●第三步,結(jié)果呈現(xiàn)。對搜索結(jié)果進(jìn)行排●第四步,實體探索。拓展目標(biāo)實體之外的相關(guān)內(nèi)容并呈現(xiàn)給用戶,增加搜索結(jié)以AskBob醫(yī)生站(以下簡稱AskBob)為例來直觀的了解基于知識圖譜的語義搜索過第一步,通過自然語言處理,系統(tǒng)可以準(zhǔn)確地識別用戶想搜的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論