基于RDF重寫的航空安全事件因果關(guān)系查詢方法研究_第1頁
基于RDF重寫的航空安全事件因果關(guān)系查詢方法研究_第2頁
基于RDF重寫的航空安全事件因果關(guān)系查詢方法研究_第3頁
基于RDF重寫的航空安全事件因果關(guān)系查詢方法研究_第4頁
基于RDF重寫的航空安全事件因果關(guān)系查詢方法研究_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、 基于RDF重寫的航空安全事件因果關(guān)系查詢方法研究 王紅 楊蓉 郭靜摘 要: 針對航空安全事件RDF圖數(shù)據(jù)因果關(guān)系查詢中低匹配和無匹配的問題,提出一種基于語義相似度和RDFS規(guī)則的重寫方法。該方法首先采用基于詞向量的語義相似度計算方法將用戶RDF三元組轉(zhuǎn)換為領(lǐng)域本體RDF三元組,然后依據(jù)RDFS規(guī)則對領(lǐng)域本體RDF三元組進行關(guān)系擴展重寫,最后將該方法應(yīng)用于航空安全事件因果關(guān)系的查詢。實驗結(jié)果表明,該方法在查全率和查準(zhǔn)率方面取得明顯效果,能夠改善因果關(guān)系查詢中低匹配和無匹配的問題,為解決航空安全事件因果關(guān)系的查詢問題提供了方法支持。Key: 因果關(guān)系查詢; 關(guān)系重寫; 航空安全事件; 語義相似度

2、計算; 查詢效果分析; 查詢語句擴展: TN919?34; TP391.1 : A : 1004?373X(2019)16?0149?050 引 言近年來非正常條件下的航空安全事件呈多元化趨勢,包括大面積航班延誤、航空器危險接近、航空器墜毀等,獲取航空安全事件的因果關(guān)系,分析事件的前因后果,對于航空安全事件的有效預(yù)防和應(yīng)急處理能力的提升具有重要的意義。在航空安全領(lǐng)域中,肖志偉等人提出了一種領(lǐng)域本體相關(guān)概念的語義相似度計算檢索方法,實現(xiàn)了領(lǐng)域本體的語義檢索;李林等人利用語義模式表達(dá)匹配算法找到用戶查詢的相關(guān)語義概念,實現(xiàn)了民航突發(fā)事件應(yīng)急案例的語義檢索;蔡偉偉等人提出了基于領(lǐng)域本體的分布式推理與

3、查詢方法,實現(xiàn)了相似案例查詢;王雪君等人利用標(biāo)簽傳播算法將語義結(jié)構(gòu)密切的數(shù)據(jù)進行多級劃分,實現(xiàn)了相似案例的查詢1。然而上述方法都是基于領(lǐng)域本體的查詢方法,用戶查詢Key和領(lǐng)域本體無法準(zhǔn)確映射,導(dǎo)致查詢過程中查準(zhǔn)率和查全率較低,出現(xiàn)低匹配和無匹配的問題。因查詢擴展方法能夠有效提高查詢的查準(zhǔn)率和查全率,所以文中提出一種基于RDF重寫的查詢擴展方法。重寫是數(shù)據(jù)庫查詢的一種優(yōu)化技術(shù),將查詢Key進行擴展并映射到本體的一種技術(shù)。重寫技術(shù)被廣泛應(yīng)用于數(shù)據(jù)庫查詢優(yōu)化中,如數(shù)據(jù)集成環(huán)境中的聚集查詢2,挪威國家石油公司的數(shù)據(jù)查詢3?5。目前重寫技術(shù)的研究主要分為基于相似度的重寫和基于RDFS規(guī)則的重寫。其中,相

4、似度計算方法包括向量空間模型(VSM)6、編輯距離方法7、基于詞向量與句法結(jié)構(gòu)的方法8和基于深度神經(jīng)網(wǎng)絡(luò)的計算方法9等。RDFS推理規(guī)則10?11是RDF數(shù)據(jù)推理中的核心部分,是推理研究中首選的規(guī)則集,基于RDFS規(guī)則的重寫是依據(jù)規(guī)則進行領(lǐng)域本體RDF三元組的重寫。本文將重寫技術(shù)應(yīng)用于航空安全事件RDF圖數(shù)據(jù)的因果關(guān)系查詢,旨在解決低匹配和無匹配的問題,為航空安全事件的因果關(guān)系分析提供有價值的信息。1 研究思路基于重寫的航空安全事件因果關(guān)系查詢的研究思路如圖1所示。1) 基于語義相似度計算的RDF概念和關(guān)系重寫。采用詞向量的方法,將用戶RDF三元組的主語、賓語和領(lǐng)域本體中的概念,謂語和本體中的

5、關(guān)系進行余弦相似度計算,選擇相似度高于閾值的概念和關(guān)系,將用戶RDF三元組的主語、賓語、謂語轉(zhuǎn)換為領(lǐng)域本體的概念、關(guān)系。2) 基于RDFS規(guī)則的關(guān)系擴展重寫。采用RDFS規(guī)則,通過對航空安全領(lǐng)域本體的模式數(shù)據(jù)進行預(yù)處理,組織成四類數(shù)據(jù)集,獲得新的模式三元組數(shù)據(jù)。步驟1)中的領(lǐng)域本體RDF三元組,利用RDFS規(guī)則,實現(xiàn)本體概念、關(guān)系以及關(guān)系約束的重寫,獲得新的RDF三元組。3) 航空安全事件因果關(guān)系的查詢。將上述方法應(yīng)用于航空安全事件RDF圖數(shù)據(jù)的因果關(guān)系查詢中,進行實驗對比,以查全率和查準(zhǔn)率作為評判標(biāo)準(zhǔn),驗證重寫查詢的有效性。2 基于語義相似度和RDFS規(guī)則的重寫基于語義相似度重寫和基于RDF

6、S規(guī)則的重寫,可以將用戶原本單一的查詢語句擴展成多個查詢語句。2.1 航空安全領(lǐng)域本體因果關(guān)系RDF圖數(shù)據(jù)的構(gòu)成航空安全領(lǐng)域本體因果關(guān)系數(shù)據(jù)集來源于民航安全事故調(diào)查報告。根據(jù)中國民用航空局民用航空器事故和飛行事故征候調(diào)查規(guī)定(CCAR395?R1)中的規(guī)定,航空器事故是航空器飛行事故和航空器地面事故的總稱。在航空安全領(lǐng)域本體中,將航空安全事故的原因劃分為航空器故障致災(zāi)、環(huán)境原因致災(zāi)、人為因素致災(zāi)三大類,航空安全事故的最終結(jié)果劃分為航空器損壞、人員傷亡和地面設(shè)施損壞三大類。圖2給出了領(lǐng)域本體中的因果關(guān)系主要概念的構(gòu)成。其中,類別的下標(biāo)格式為“X,XX,XXX,”,即第1位表示一級類別,23位表示

7、二級類別,46位表示三級類別。本文采用基于圖數(shù)據(jù)庫Neo4j的領(lǐng)域本體分布式存儲方法12?13,可以最大限度地保持RDF數(shù)據(jù)的語義信息,也有利于對語義信息的查詢。其中一個存儲節(jié)點主要負(fù)責(zé)模式數(shù)據(jù)的存儲。由于Key?value型的數(shù)據(jù)庫Redis查詢性能高并且支持持久化存儲,因此,文中采用Redis數(shù)據(jù)庫來存儲模式數(shù)據(jù)。圖3給出了航空安全領(lǐng)域本體部分RDF圖數(shù)據(jù),其中航空安全事件是由事件發(fā)生的時間和航班號組成。2.3.2 基于RDFS規(guī)則的重寫基于RDFS規(guī)則的重寫是依據(jù)RDFS規(guī)則將領(lǐng)域本體RDF三元組重寫為新的RDF三元組。首先對模式數(shù)據(jù)進行預(yù)處理,然后進行RDFS規(guī)則匹配,實現(xiàn)領(lǐng)域本體RD

8、F的重寫。實現(xiàn)過程如下:1) 從Redis數(shù)據(jù)庫中讀取模式數(shù)據(jù),謂詞為domain,range,SubPropertyOf,SubClasssOf的三元組分別存放在domainData,rangeData,SubPropertyData,SubClassOfData數(shù)據(jù)集中。2) 如果SubPropertyData數(shù)據(jù)集中,存在p rdfs: SubPropertyOf q & q rdfs: SubPropertyOf r,依據(jù)規(guī)則1,將p rdfs: SubPropertyOf r存放在SubPropertyData數(shù)據(jù)集中。3) 如果SubClassOfData數(shù)據(jù)集中存在x rdfs:

9、 subClassOf y & y rdfs: subClassOf z,依據(jù)規(guī)則2,將x rdfs:subClassOf z存放在SubClassOfData數(shù)據(jù)集中。4) 如果RDF三元組t=s,p,o,謂語pSubPropertyOfData & p rdfs: SubPropertyOf q依據(jù)規(guī)則3,輸出ti=s,q,o。5) 如果RDF三元組t=s,p,o和ti=s,q,o,謂語pdomainData & p rdfs:domain x或者謂語qdomainData & q rdfs:domain x,依據(jù)規(guī)則4,輸出tj=(s,type,x);6) 如果RDF三元組t=s,p,o

10、和ti=s,q,o,謂語prangeData & p rdfs:range x或者謂語qrangeData & q rdfs:range x,依據(jù)規(guī)則5,輸出tm=(o,type,x);7) 如果RDF三元組t=s,p,o,tj=(s,type,x),tm=(o,type,x)的謂語是type時,oSubClasssOfData & o rdfs:subClassOf y,xSubClasssOfData & o rdfs:subClassOf y,依據(jù)規(guī)則6,輸出tn=(s,rdf:type,y),to=(o,rdf:type,y)。到此重寫完成。其中,步驟1)3)為模式數(shù)據(jù)的預(yù)處理,步驟4

11、)7)依據(jù)RDFS規(guī)則對領(lǐng)域本體RDF三元組進行重寫。3 航空安全事件因果關(guān)系查詢與效果分析3.1 航空安全事件因果關(guān)系查詢?nèi)粲脩鬜DF三元組t1=(ei,type,si),t2=(ei,cause,ri),ei表示突發(fā)事件,si表示事件原因,ri表示事件結(jié)果。首先將用戶RDF三元組重寫為航空安全領(lǐng)域本體RDF三元組,采用基于詞向量的語義相似度重寫方法,將si和ri分別和航空安全領(lǐng)域本體的概念進行相似度計算,選擇相似度超過閾值的概念進行RDF三元組重寫,重寫后的三元組為t1=(ei,type,soi);t2=(ei,cause,roi)。其中,soi為領(lǐng)域本體中的事件原因、roi為領(lǐng)域本體中的

12、事件結(jié)果。然后進行基于RDFS規(guī)則的領(lǐng)域本體RDF三元組重寫,其中,t2=(ei,cause,roi)依據(jù)規(guī)則4和規(guī)則5可以重寫為t3=(ei,type,sp),t4=(roi,type,rp)。其中sp,rp分別為謂詞“cause”的domain約束、range約束。t1=(ei,type,soi),t3=(ei,type,sp),t4=(roi,type,rp),依據(jù)規(guī)則6可以改寫為t5=(ei,type,ssoi),t6=(ei,type,ssp),t7=(roi,type,rsp)。其中ssoi,ssp,rsp分別是soi,sp,rp的子概念。圖4是基于RDF重寫的航空安全事件的因果關(guān)

13、系查詢。圖4 基于RDF重寫的航空安全事件因果關(guān)系查詢Fig. 4 Causality query of aviation security eventsbased on RDF rewriting依據(jù)重寫后的一組RDF三元組從航空安全事件RDF圖數(shù)據(jù)集中搜索匹配的結(jié)果。以“航空器機頭故障”為例,查詢結(jié)果如表1所示。3.2 查詢效果與分析查詢效果與詞向量存在重要的聯(lián)系。在詞向量訓(xùn)練過程中,對特征向量的維度size、相似度值進行對比試驗。其中,P為查準(zhǔn)率;R為查全率;F1值的計算公式為2PRP+R。實驗結(jié)果如表2所示。表2所示的實驗結(jié)果表明,當(dāng)size=300,=0.90時,F(xiàn)1值最高,此時的查

14、詢效果最好。因此在航空安全事件RDF圖數(shù)據(jù)查詢實驗中,設(shè)置參數(shù)size為300,為0.90。為驗證重寫技術(shù)的有效性,依據(jù)事件原因和結(jié)果分別進行查詢,與基于單純本體擴展查詢方法進行對比試驗,結(jié)果如表3所示?;谥貙懙牟樵兘Y(jié)果優(yōu)于基于單純本體擴展查詢的方法。重寫查詢可以將用戶原本單一的查詢語句擴展成多個查詢語句,提高了查詢的查全率和查準(zhǔn)率。4 結(jié) 論針對航空安全事件RDF圖數(shù)據(jù)因果關(guān)系查詢中低匹配和無匹配的問題,提出一種基于語義相似度和RDFS規(guī)則的重寫技術(shù),對航空安全事件因果關(guān)系查詢進行優(yōu)化。將該方法應(yīng)用到航空安全事件RDF圖數(shù)據(jù)因果關(guān)系查詢中,通過實驗證明了該方法在查詢中的優(yōu)勢,平均查準(zhǔn)率提高

15、10%,平均查全率提高16%,可以改善因果關(guān)系查詢中低匹配和無匹配的問題,從而為航空安全事件的預(yù)防和應(yīng)急處理提供有價值的信息。下一步可以考慮加入用戶的反饋信息和Key的權(quán)重,進一步改善查詢的效果。表3 查詢性能對比Table 3 Comparison of query performances事件查詢 因果關(guān)系 重寫查詢 本體擴展查詢 P R P R 事件結(jié)果查詢 航空器故障 0.89 0.91 0.78 0.69 人為原因 0.80 0.88 0.72 0.77 環(huán)境原因 0.88 0.85 0.76 0.73 事件原因查詢 航空器損壞 0.84 0.95 0.75 0.69 人員傷亡 0.

16、83 0.93 0.73 0.73 地面設(shè)施損壞 0.87 0.85 0.82 0.77 其他 0.85 0.80 0.69 0.65 Reference1 王紅,王雪君,楊蓉.基于圖劃分的領(lǐng)域本體RDF存儲方法J.現(xiàn)代電子技術(shù),2018,41(24):141?145WANG Hong, WANG Xuejun, YANG Rong. A domain ontology RDF storage method based on graph partitioning J. Modern electronics technique, 2018, 41(24): 141?145.2 張曉剛,楊路明,潘

17、久輝.數(shù)據(jù)集成環(huán)境下一種高效一致性聚集查詢J.計算機學(xué)報,2014(9):1936?1946.ZHANG Xiaogang, YANG Luming, PAN Jiuhui. An efficient consistent aggregate query in data integration environment J. Chinese journal of computers, 2014(9): 1936?1946.3 BOTOEVA E, CALVANESE D, SANTARELLI V, et al. Beyond OWL 2 QL in OBDA: rewritings and a

18、pproximations C/ Proceedings of 30th AAAI Conference on Artificial Intelligence. Phoenix: AAAI Press, 2016: 921?928.4 KHARLAMOV E, HOVLAND D, JIMENEZRUIZ E, et al. Ontology based access to exploration data at Statoil C/ Proceedings of 14th International Semantic Web Conference. Bethlehem: s.n., 2015

19、: 93?112.5 BAGOSI T, CALVANESE D, HARDI J, et al. The ontop framework for ontology based data access J. Communications in computer & information science, 2014, 480(1): 67?77.6 馮高磊,高嵩峰.基于向量空間模型結(jié)合語義的文本相似度算法J.現(xiàn)代電子技術(shù),2018,41(11):157?161.FENG Gaolei, GAO Songfen. Text similarity algorithm combining seman

20、tics based on vector space model J. Modern electronics technique, 2018, 41(11): 157?161.7 何鋒,谷鎖林,陳彥輝.基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用J.飛行器測控學(xué)報,2015,34(4):389?394.HE Feng, GU Suolin, CHEN Yanhui. Text proofreading technology based on levenshtein distance similarity J. Journal of spacecraft TT & C technology, 20

21、15, 34(4): 389?394.8 李曉,解輝,李立杰.基于Word2vec的句子語義相似度計算研究J.計算機科學(xué),2017,44(9):256?260.LI Xiao, XIE Hui, LI Lijie. Research on sentence semantic similarity calculation based on word2vec J. Computer science, 2017, 44(9): 256?260.9 陳曉陽.基于深度學(xué)習(xí)的短文本語義相似度計算D.北京:北京理工大學(xué),2015.CHEN Xiaoyang. Short text semantic similarity calculation based on deep learning D. Beijing: Beijing Institute of Technology, 2015.10 呂小玲,王鑫,馮志勇,等.MPPIE:基于消息傳遞的RDFS并行推理框架J.計算機科學(xué)與探索,2016,10(4):451?465.L? Xiaoling, WANG Xin, FENG Zhiyong, et al. MPPIE: RDFS parallel inference framework based on message p

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論