文本大數(shù)據(jù)分析技術(shù)在鐵路行車安全領(lǐng)域的應(yīng)用研究獲獎(jiǎng)科研報(bào)告_第1頁(yè)
文本大數(shù)據(jù)分析技術(shù)在鐵路行車安全領(lǐng)域的應(yīng)用研究獲獎(jiǎng)科研報(bào)告_第2頁(yè)
文本大數(shù)據(jù)分析技術(shù)在鐵路行車安全領(lǐng)域的應(yīng)用研究獲獎(jiǎng)科研報(bào)告_第3頁(yè)
文本大數(shù)據(jù)分析技術(shù)在鐵路行車安全領(lǐng)域的應(yīng)用研究獲獎(jiǎng)科研報(bào)告_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

文本大數(shù)據(jù)分析技術(shù)在鐵路行車安全領(lǐng)域的應(yīng)用研究獲獎(jiǎng)科研報(bào)告摘要:現(xiàn)如今,我國(guó)的鐵路建設(shè)越來(lái)越多,同時(shí)鐵路的安全被十分重視,保障鐵路行車安全是鐵路工作的重點(diǎn),通過(guò)鐵路事故調(diào)查報(bào)告等文本數(shù)據(jù)對(duì)事故原因進(jìn)行分析,是提高鐵路行車安全的重要手段之一。但由于鐵路系統(tǒng)存在海量的非結(jié)構(gòu)化事故故障文本數(shù)據(jù),難以進(jìn)行有效檢索和分析,因此提出鐵路行車安全領(lǐng)域文本大數(shù)據(jù)分析總體框架,包括文本數(shù)據(jù)從集成、存儲(chǔ)到處理、計(jì)算,再到檢索、分析及應(yīng)用的全部流程,并對(duì)基于鐵路領(lǐng)域文本數(shù)據(jù)的全文檢索、特征提取等文本大數(shù)據(jù)分析關(guān)鍵技術(shù)進(jìn)行研究。最后以某鐵路局集團(tuán)公司的事故故障追蹤報(bào)告為樣本,進(jìn)行事故故障報(bào)告的全文檢索、故障詞云展示及關(guān)聯(lián)性分析,取得了良好效果。

關(guān)鍵詞:大數(shù)據(jù);非結(jié)構(gòu)化;行車安全;事故故障;全文檢索;文本挖掘

引言

隨著鐵路信息化的不斷發(fā)展,已相繼建成車、機(jī)、工、電、輛等各專業(yè)安全監(jiān)測(cè)/監(jiān)控系統(tǒng)近60余個(gè),產(chǎn)生和存儲(chǔ)了PB級(jí)的文本、圖紙、視頻、圖像、聲音等多種類型的監(jiān)控/監(jiān)測(cè)數(shù)據(jù)。鐵路安全領(lǐng)域迎來(lái)了大數(shù)據(jù)時(shí)代,由于傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法對(duì)這些海量的數(shù)據(jù)資源進(jìn)行有效的利用,從而使這些數(shù)據(jù)占據(jù)了大量的存儲(chǔ)空間而不能被挖掘使用,造成了數(shù)據(jù)資源的浪費(fèi)。伴隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,針對(duì)海量數(shù)據(jù)的存儲(chǔ)、分析和可視化展示等問題,出現(xiàn)了新的技術(shù)來(lái)支撐,例如:分布式文件存儲(chǔ)、并行處理等。鐵路運(yùn)輸安全是一個(gè)復(fù)雜的安全系統(tǒng)工程,其故障(事故)之間存在著相關(guān)關(guān)聯(lián)、相互影響的耦合關(guān)系。通過(guò)運(yùn)用大數(shù)據(jù)分析技術(shù)不僅可以對(duì)海量的歷史數(shù)據(jù)進(jìn)行學(xué)習(xí)和挖掘,從而預(yù)測(cè)安全風(fēng)險(xiǎn)發(fā)現(xiàn)事故規(guī)律和事故間的相關(guān)關(guān)系,對(duì)高實(shí)時(shí)性要求的監(jiān)控?cái)?shù)據(jù)進(jìn)行實(shí)時(shí)在線分析,提高預(yù)警水平。

1文本大數(shù)據(jù)分析總體框架

1.1鐵路事故故障知識(shí)圖譜技術(shù)

鐵路事故故障知識(shí)圖譜主要是構(gòu)建有關(guān)事故故障實(shí)體、概念和關(guān)系的鐵路行業(yè)知識(shí)庫(kù),以便于進(jìn)行事故故障的查詢、分析和推理等。知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系,其構(gòu)成一張巨大的語(yǔ)義網(wǎng)絡(luò)圖,節(jié)點(diǎn)表示實(shí)體或概念,邊則由屬性或關(guān)系構(gòu)成。KG是人工智能技術(shù)的組成部分,其強(qiáng)大的語(yǔ)義處理和互聯(lián)組織能力,為智能化信息應(yīng)用提供了基礎(chǔ)。為了提高搜索引擎的能力和搜索體驗(yàn),Google于2012年5月正式提出。隨著人工智能的長(zhǎng)足發(fā)展和普及,作為人工智能關(guān)鍵技術(shù)的知識(shí)圖譜的應(yīng)用越來(lái)越廣泛,例如在基于知識(shí)圖譜的智能搜索、基于知識(shí)圖譜的智能語(yǔ)音問答、基于知識(shí)圖譜的語(yǔ)義分析和基于知識(shí)譜圖的個(gè)性化推薦等。

1.2文本數(shù)據(jù)處理

文本數(shù)據(jù)處理包括本體庫(kù)構(gòu)建、命名實(shí)體識(shí)別、文本向量表示和中文分詞等技術(shù),是文本分析挖掘的重要步驟。本體庫(kù)構(gòu)建是指對(duì)所研究的領(lǐng)域建立統(tǒng)一的對(duì)象模型框架,之后所有的分析都基于這個(gè)框架進(jìn)行;命名實(shí)體識(shí)別是指對(duì)文本中具有特定意義的實(shí)體進(jìn)行識(shí)別,包括人名、地名、機(jī)構(gòu)名等;文本向量表示是指通過(guò)某些方法把文本數(shù)據(jù)向量化,轉(zhuǎn)化為向量形式的標(biāo)識(shí),從而便于之后各類分析方法的計(jì)算;中文分詞是指根據(jù)相應(yīng)領(lǐng)域的字典并利用分詞工具將連續(xù)的文本內(nèi)容切分為單獨(dú)的中文詞匯的過(guò)程。

2文本大數(shù)據(jù)分析關(guān)鍵技術(shù)

2.1基于ElasticSearch的事故故障文本全文檢索技術(shù)

為實(shí)現(xiàn)鐵路非結(jié)構(gòu)化文本大數(shù)據(jù)的分析挖掘,首先要實(shí)現(xiàn)非結(jié)構(gòu)化文本的分布式存儲(chǔ)和全文檢索。分布式存儲(chǔ)是應(yīng)用分布式文件系統(tǒng),實(shí)現(xiàn)非結(jié)構(gòu)化文本動(dòng)態(tài)可擴(kuò)展的存儲(chǔ)。EelasticSearch(ES)通過(guò)集群提供分布式全文檢索,1個(gè)ES集群可以由多個(gè)節(jié)點(diǎn)組成,可動(dòng)態(tài)增加。ES各節(jié)點(diǎn)之間通過(guò)唯一的集群名字進(jìn)行識(shí)別,默認(rèn)的集群名字為“EelasticSearch”,集群名字可通過(guò)elasticsearch.yml文件進(jìn)行配置。ES采用去中心化節(jié)點(diǎn)架構(gòu),即各節(jié)點(diǎn)平等,可任意選1個(gè)節(jié)點(diǎn)為主節(jié)點(diǎn)。ES各節(jié)點(diǎn)之間通過(guò)TCP協(xié)議進(jìn)行集群交互,并通過(guò)RestfulAPI接口為其他應(yīng)用提供服務(wù)。ES需建立索引(Indices),實(shí)現(xiàn)文檔(Document)集合的統(tǒng)一存儲(chǔ)和查詢。1個(gè)索引內(nèi)可以定義1種或多種類型(Type),1種類型下可以設(shè)置多個(gè)字段(Field)以便于檢索。同時(shí)ES為了提高性能和吞吐量,對(duì)索引進(jìn)行分片(Shard),默認(rèn)1個(gè)索引分為5個(gè)分片(R0—R4),分布在不同的節(jié)點(diǎn)上,同時(shí)通過(guò)復(fù)制(Replica)分片實(shí)現(xiàn)高可用性,以防止節(jié)點(diǎn)/分片出現(xiàn)故障?;贓S的中文文本全文檢索主要包括文本提取、中文分詞、索引建立與檢索等過(guò)程。其中中文分詞技術(shù)是實(shí)現(xiàn)中文文本全文檢索的基礎(chǔ);索引建立是實(shí)現(xiàn)中文分詞后數(shù)據(jù)轉(zhuǎn)化為索引文件的過(guò)程,主要利用的技術(shù)為倒排索引;檢索過(guò)程是對(duì)要檢索內(nèi)容進(jìn)行中文分詞后,根據(jù)索引文件找到所檢索文檔的過(guò)程。

2.2融合鐵路領(lǐng)域詞典的中文分詞

鐵路事故故障文本分布式全文檢索的首要和基礎(chǔ)工作是實(shí)現(xiàn)事故故障文本的分詞。中文分詞不同于英文分詞,中文詞語(yǔ)之間沒有空格標(biāo)記進(jìn)行分割。不同的上下文環(huán)境、不同的詞語(yǔ)組合和不完備的語(yǔ)料庫(kù)造成了中文分詞的歧義。尤其針對(duì)鐵路領(lǐng)域的中文分詞,由于缺乏行業(yè)領(lǐng)域的語(yǔ)料庫(kù),鐵路專業(yè)術(shù)語(yǔ)無(wú)法實(shí)現(xiàn)有效的識(shí)別。同時(shí)鐵路行業(yè)的事故故障描述不一,為鐵路事故故障文本分詞帶來(lái)更大的挑戰(zhàn)。例如“軌道電路紅光帶”、“軌道區(qū)段紅光帶”、“紅光帶”等描述的是一種故障,但是在文本文檔中不同人員的描述不一致,造成了同一種故障但是由多種詞語(yǔ)進(jìn)行描述,如果嚴(yán)格按照中文分詞就出現(xiàn)了3種不同的故障,為文本檢索和分析造成了困難。同時(shí)鐵路行業(yè)缺乏語(yǔ)料庫(kù),對(duì)于事故故障命名實(shí)體沒有統(tǒng)一的規(guī)范,造成事故故障文本中事故故障名稱無(wú)法識(shí)別。

2.3融合文本結(jié)構(gòu)及正則表達(dá)式的特征提取

鐵路事故故障報(bào)告全文檢索實(shí)現(xiàn)了對(duì)文本信息的有效存儲(chǔ)和搜索。結(jié)合文本挖掘的分類、預(yù)測(cè)和相關(guān)性分析等,可以挖掘鐵路事故故障發(fā)生規(guī)律,指導(dǎo)現(xiàn)場(chǎng)人員對(duì)重點(diǎn)事故故障進(jìn)行防范,保障鐵路安全運(yùn)行。鐵路事故故障報(bào)告的基本格式有標(biāo)題、概述、調(diào)查過(guò)程、原因分析、定性定責(zé)和措施及要求等六大部分。本文采用基于段落格式及正則表達(dá)式的文本特征提取。即通過(guò)正則表達(dá)式找到相應(yīng)的段落,然后對(duì)重點(diǎn)段落的內(nèi)容進(jìn)行中文分詞和特征提取,提取時(shí)需要和事故故障詞庫(kù)、事故地點(diǎn)詞庫(kù)等專業(yè)詞庫(kù)進(jìn)行匹配,若專業(yè)詞庫(kù)中存在則直接提取,若專業(yè)詞庫(kù)中不存在,需要根據(jù)正則表達(dá)式依據(jù)語(yǔ)法結(jié)構(gòu)進(jìn)行截取。

2.4鐵路設(shè)備安全風(fēng)險(xiǎn)評(píng)估

基于大數(shù)據(jù)技術(shù)進(jìn)行鐵路設(shè)備安全風(fēng)險(xiǎn)評(píng)估應(yīng)構(gòu)建2個(gè)層面:(1)基于設(shè)備故障特征和故障模式的設(shè)備安全風(fēng)險(xiǎn)評(píng)估方法,根據(jù)設(shè)備故障診斷結(jié)果,對(duì)故障特征和故障模式進(jìn)行數(shù)字化表達(dá),建立設(shè)備的特征、模式與故障特征、故障模式的距離函數(shù)來(lái)度量設(shè)備狀態(tài)與標(biāo)準(zhǔn)故障狀態(tài)的相似程度,距離函數(shù)的值越小,則設(shè)備安全風(fēng)險(xiǎn)越高。(2)基于設(shè)備健康狀態(tài)的設(shè)備安全風(fēng)險(xiǎn)評(píng)估,根據(jù)設(shè)備當(dāng)前的狀態(tài)數(shù)據(jù),劃分不同的安全風(fēng)險(xiǎn)等級(jí),設(shè)備狀態(tài)越差,其安全風(fēng)險(xiǎn)等級(jí)則越高。

結(jié)語(yǔ)

基于鐵路大數(shù)據(jù)技術(shù),研究提出鐵路行車安全領(lǐng)域文本

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論