版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、完美格式整理版編號:山東省統(tǒng)計(jì)科研重點(diǎn)課題申報(bào)書課題 名稱:基于非結(jié)構(gòu)化數(shù)據(jù)的專家綜合評價技術(shù)研究與應(yīng)用課題負(fù)責(zé)人:聯(lián) 系 電 話:負(fù)責(zé)人所在單位:山東省統(tǒng)計(jì)局制表2016年4月17日填課題名稱基于非結(jié)構(gòu)化數(shù)據(jù)的專家綜合評價技術(shù)研究與應(yīng)用課題負(fù)責(zé)人負(fù)責(zé)人所在單位山東職業(yè)學(xué)院課題組成員研究起止日期2016 年6月至2017年6月一、申請理由(研究目的、意義及研究成果擬達(dá)到的目標(biāo))1 .研究目的隨著人類社會由信息社會邁向知識社會 ,專家資源己成為是各類組織中最 有價值的核心資源,無論是在政府部門還是企業(yè)工廠等社會生產(chǎn)部門中都需要 那些擁有豐富專業(yè)知識和技能的領(lǐng)域?qū)<医M織團(tuán)隊(duì)來指導(dǎo)研發(fā)、攻關(guān)技術(shù)難關(guān)
2、,以此提高工作或生產(chǎn)效率。例如在政府的科技部門中,為了使科技項(xiàng)目評估、科 技成果評獎等工作順利展開,政府部門一般都建立有一定數(shù)量的專家信息庫 ,在 課題評審、成果鑒定時,就從專家信息庫中挑選與項(xiàng)目研究方向相關(guān)的專家組成 評審小組。但要在海量的網(wǎng)絡(luò)信息里找到合適的專家并不是一件容易的事,而人 工蹄選獲取方式是非常耗力耗時的。由此在組織內(nèi)部通過輸入關(guān)鍵詞如何能夠 方便簡單地查找該查詢領(lǐng)域合適的權(quán)威專家信息成為一個重要的研究課題。2 .研究意義在傳統(tǒng)的WebS索引擎中,例如百度、Google、Yahoo等較有代表性的搜索 引擎,已經(jīng)成為人們查找獲取網(wǎng)絡(luò)信息的主要途徑,依靠索引和關(guān)鍵字匹配技術(shù) 找到各
3、方面的相關(guān)網(wǎng)頁并按相關(guān)性排序返回結(jié)果,極大提高信息查找效率,很大 程度上改變了人們的生活工作方式。但如果需要通過傳統(tǒng)搜索引擎獲取相關(guān)專 家,還必須借助人工方式逐個查看召回的文檔信息 ,從中判斷與查詢相關(guān)的專家 信息。另一方面專家的研究、內(nèi)容和領(lǐng)域也是不斷變化的,主要特點(diǎn)是以非結(jié)構(gòu) 化信息為主,表現(xiàn)形式為科研論文、項(xiàng)目文檔、成果鑒定文件等。這些因素使得 專家檢索不能通過簡單的關(guān)鍵字匹配就滿足要求,而是要對專家的研究論文等 非結(jié)構(gòu)化數(shù)據(jù)的挖掘與分析,勾畫出其涉及的研究領(lǐng)域,并通過智能綜合評價系 統(tǒng),定量評定專家相關(guān)領(lǐng)域的研究水平,準(zhǔn)確描述專家,為企業(yè)、政府機(jī)構(gòu)等組織 提供準(zhǔn)確查找專家服務(wù)。研究專家
4、檢索方法和技術(shù)對專家進(jìn)行評價,針對特定機(jī) 構(gòu)構(gòu)建專家檢索系統(tǒng)對政府機(jī)構(gòu)、企業(yè)等組織有重要意義,專家檢索可以根據(jù)用 戶需求找到具有特定經(jīng)驗(yàn)和技能的人,是企業(yè)非常有價值的輔助管理工具;并且 促進(jìn)組織和組織之間的信息和知識得以共享,對實(shí)現(xiàn)各組織隱性知識的轉(zhuǎn)移和 共享、增加組織內(nèi)部人員交流、加強(qiáng)組織內(nèi)外部人員協(xié)作、為項(xiàng)目或團(tuán)隊(duì)挑選 合適人選等具有積極的作用??偠灾?,專家檢索有效地管理企業(yè)員工的知識和 技能,對提升生產(chǎn)效率、創(chuàng)新能力和增強(qiáng)競爭力具有重要的支撐意義。3 .研究現(xiàn)狀近年來,為了動態(tài)挖掘組織內(nèi)部相關(guān)資源評價專家專長 ,國內(nèi)外展開了一系 列相關(guān)研究,TREC企業(yè)檢索任務(wù)中的專家檢索子任務(wù)在一定
5、程度上代表了當(dāng)前 專家檢索研究進(jìn)展。作為WebTrack的后繼項(xiàng)目,TREC于2005年起增加了企業(yè)檢索(Enterprise Search)任務(wù),并設(shè)立企業(yè)專家檢索子任務(wù),從2005年到2008年共舉行了三屆, 該任務(wù)利用企業(yè)內(nèi)部的網(wǎng)站網(wǎng)頁、共享文檔、電子郵件、數(shù)據(jù)文件以及日志等 作為企業(yè)數(shù)據(jù)集,對于給定的查詢條件,參與者構(gòu)建專家識別和專家排序檢索模 型,并將得到的相關(guān)專家列表等結(jié)果返回給TREC&辦者進(jìn)行測評。它主要是提供一個公共評測平臺,為研究員根據(jù)組織檢索人物,對專家檢索方法和技術(shù)進(jìn)行 經(jīng)驗(yàn)性評價,極大地推動了專家檢索技術(shù)的發(fā)展。目前針對專家檢索主要有以下 幾種方法:基于文檔的
6、專家檢索方法、基于候選專家的專家檢索方法、 基于話題 模型的專家檢索方法和基于鏈接分析的專家檢索方法。Balog等人提出了兩種基于語言模型的專家檢索策略:一種是基于專家的建 模策略;另一種是基于文檔的建模策略。(1)文檔語言模型首先對每個候選專家, 在企業(yè)知識庫中找出與其相關(guān)的所有文檔,然后在候選專家和與其相關(guān)文檔之 間建立一定聯(lián)系,用來表示候選專家與文檔之間關(guān)系的相關(guān)性程度。給定查詢條 件,使用文本信息檢索模型對文檔進(jìn)行評估,結(jié)果得到每個文檔都有一個得分,用來表示文檔與查詢之間的相關(guān)性程度。最后對于每個候選專家,使用某種形式將各個相關(guān)文檔的得分結(jié)合起來,從而得到每個候選專家的最終得分。(2)
7、專家 語言模型首先從企業(yè)知識庫中識別每位候選專家并提取出相關(guān)信息,然后利用這些信息構(gòu)建一個描述候選專家所擁有的知識和技能的知識說明文檔,而這個文檔就相當(dāng)于候選專家的“簡歷”。當(dāng)系統(tǒng)為所有候選專家都構(gòu)建簡歷完成之后, 候選專家與用戶所提交的查詢的相關(guān)程度就取決于這個“簡歷”和該查詢的相 關(guān)程度。最終,系統(tǒng)按相關(guān)程度高低將專家列表返回給用戶。為了從更深層次的隱含語義上抽取專家的研究領(lǐng)域,也有學(xué)者使用話題模型對專家進(jìn)行建模。王美姣在文獻(xiàn)中針對基于文檔的方法忽略了用戶輸入查詢 與專家在隱含語義上的聯(lián)系,提出了話題模型和文檔相結(jié)合的方法,該方法對查 詢和文檔建模單詞-主題-文檔關(guān)系,而不是使用語言模型建
8、立單詞-文檔關(guān)系。 李春英等人在文獻(xiàn)中使用概率主題模型從作者發(fā)表的論文中提取主題向量作為 學(xué)者的研究方向。劉健等人在文獻(xiàn)中使用話題模型解決依賴候選專家與查詢詞 之間的獨(dú)立性假設(shè)問題,且其可操作性比經(jīng)典模型更強(qiáng)。隨著社交網(wǎng)絡(luò)的發(fā)展,學(xué)者開始研究了專家的合著、問答等社會網(wǎng)絡(luò)關(guān)系,并利用這些關(guān)系信息進(jìn)一步分析和識別出專家,例如Zhang等人對Java在線社 區(qū)進(jìn)行了分析,構(gòu)建提交/回復(fù)關(guān)系網(wǎng)絡(luò)圖,并利用PageRank算法計(jì)算專家專長 得分。Karimzadehgan等人利用組織內(nèi)部管理者、上下級、同級等層次關(guān)系 ,基 于相鄰專家(節(jié)點(diǎn))擁有某些共同知識的特點(diǎn),提出一種基于組織層次結(jié)構(gòu)的專 家檢索方
9、法。另外Deng等人將社區(qū)概念引入到專家檢索中,把“社區(qū)”作為專 家與查詢詞之間關(guān)聯(lián)的橋梁進(jìn)行建模。這類方法都是基于隨機(jī)游走模型,但存在 一個重要問題就是單純利用鏈接的信息對專家進(jìn)行建模,忽略了主題的信息,可能導(dǎo)致查找出來的專家并不符合用戶所要求的專業(yè)領(lǐng)域。在專家檢索系統(tǒng)方面,目前國外己經(jīng)有一些比較典型的學(xué)術(shù)領(lǐng)域?qū)<覚z索 系統(tǒng),ArnetMiner主要是針對計(jì)算機(jī)科學(xué)領(lǐng)域的知識服務(wù)平臺,根據(jù)輸入的關(guān)鍵 字可查找到相關(guān)的專家、論文和機(jī)構(gòu),并提供社會網(wǎng)絡(luò)分析功能;INDURE是拍杜 大學(xué)和印第安納經(jīng)濟(jì)公司合作的項(xiàng)目,是可以搜索研究者及其成果的搜索引擎;Microsoft AcademicSearc
10、h 不但可以提供專家、論文等方面的檢索,還可以 對合作者、引證等關(guān)系進(jìn)行可視化。而國內(nèi)武漢大學(xué)的陸偉等采集武漢大學(xué)內(nèi) 部網(wǎng)頁信息和萬方數(shù)據(jù)庫中專家的論文信息作為數(shù)據(jù)源,借鑒傳統(tǒng)信息檢索方法,設(shè)計(jì)并實(shí)現(xiàn)了以武漢大學(xué)為例的組織內(nèi)專家檢索系統(tǒng)一些學(xué)術(shù)數(shù)據(jù)庫例如 維普數(shù)據(jù)庫、萬方數(shù)據(jù)庫等利用自身的數(shù)據(jù)庫資源,構(gòu)建了學(xué)者檢索引擎,為用戶提供通過姓名,作者學(xué)科等專家檢索功能。綜述所述,目前通過挖掘?qū)<蚁嚓P(guān)非結(jié)構(gòu)化文檔對專家進(jìn)行建模,體現(xiàn)了專家的專業(yè)知識與技能,但并沒考慮專家的權(quán)威性,存在專家信息孤立缺乏關(guān) 聯(lián)問題,例如某一專家雖然發(fā)表了許多論文,這就只說明了該專家的自身有一 定的專業(yè)水平,但并不能說明該專
11、家的學(xué)術(shù)成果對別人的影響程度。而利用社 會網(wǎng)絡(luò)關(guān)系來評估候選專家的權(quán)威性,可以據(jù)此來排序候選專家,此類方法缺 乏對領(lǐng)域主題支持,搜索出來的轉(zhuǎn)存在話題漂移問題。二、主要研究內(nèi)容及研究成果的框架體系1 .研究內(nèi)容本課題研究內(nèi)容主要包括兩部分:一是研究融合專家文檔內(nèi)容和專家引用 關(guān)系的專家綜合評價技術(shù);二是研究構(gòu)建專家檢索系統(tǒng)。融合文檔內(nèi)容和專家引用關(guān)系對專家進(jìn)行評價,并進(jìn)行檢索。在獲取到專家 的非結(jié)構(gòu)化數(shù)據(jù)后,使用基于統(tǒng)計(jì)的中文分詞技術(shù)對文檔進(jìn)行分詞,統(tǒng)計(jì)分析每 個詞項(xiàng)在文檔中出現(xiàn)的頻率,在此基礎(chǔ)上基于專家語言模型計(jì)算詞項(xiàng)與專家的 相關(guān)度,對詞項(xiàng)建立特征構(gòu)建內(nèi)容特征庫。同時分析抽取文獻(xiàn)引用信息,計(jì)
12、算關(guān)系權(quán)重構(gòu)建專家引用關(guān)系網(wǎng)絡(luò)。然后基于專家引用關(guān)系網(wǎng)絡(luò)使用相關(guān)性傳播模 型對內(nèi)容特征更新提升,達(dá)到平穩(wěn)狀態(tài)或經(jīng)過有限次迭代后,融合專家文檔內(nèi)容 和引用關(guān)系對專家研究領(lǐng)域建立特征構(gòu)建專家特征庫。用戶檢索,用戶輸入查詢后,使用中文分詞技術(shù)切分查詢成多個查詢詞,對于每個查詢詞從專家特征庫中 搜索匹配特征,讀取特征值作為專家關(guān)于該查詢詞的評價得分。假設(shè)每個查詢詞相互獨(dú)立,根據(jù)乘法原理合并所有查詢詞得分,從而得到對專家在整個查詢中的 綜合評價,然后按序返回專家列表?;谌诤蠈<椅臋n內(nèi)容和專家引用關(guān)系的專家評價方法,將其應(yīng)用在中文專家檢索系統(tǒng)。詳細(xì)介紹了專家檢索系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn),首先分析了相關(guān)需求,對 專
13、家檢索系統(tǒng)的整體框架、專家檢索流程、核心功能模塊的功能做了詳細(xì)設(shè)計(jì), 最后開發(fā)一套專家檢索原型系統(tǒng)并應(yīng)用在某大型醫(yī)藥企業(yè)中。2 .研究成果的框架體系第一章緒論。主要介紹了本課題的研究背景及意義,專家檢索方法及專家檢 索系統(tǒng)的國內(nèi)外研究現(xiàn)狀,闡述本課題的主要研究內(nèi)容,并對本課題的組織結(jié)構(gòu) 進(jìn)行了說明。第二章相關(guān)技術(shù)研究。本章主要介紹專家檢索的相關(guān)技術(shù)和鏈接分析技術(shù) , 首先對目前的一些專家檢索方法(包括查詢擴(kuò)展方法、基于文檔的專家檢索方 法、基于候選專家的專家檢索方法、基于投票模型的專家檢索)的原理做了系統(tǒng) 的介紹,接著闡述引文網(wǎng)絡(luò)的相關(guān)理論基礎(chǔ) ,然后介紹鏈接分析的相關(guān)技術(shù)原 理,對PageR
14、ank算法存在的問題以及解決該問題的方法作了說明 ,并對相關(guān)性 傳播的一般框架作了介紹。第三章系統(tǒng)設(shè)計(jì)。根據(jù)專家檢索系統(tǒng)的相關(guān)需求,給出了系統(tǒng)的整體框架設(shè) 計(jì),對系統(tǒng)的各個模塊的功能、工作流程、技術(shù)原理作了詳細(xì)的說明。第四章專家綜合評價方法。針對目前專家檢索方法存在的問題,融合專家相 關(guān)文檔內(nèi)容和專家引用關(guān)系對專家進(jìn)行評價,然后按序返回專家列表結(jié)果。其中 詳細(xì)討論融合專家文檔內(nèi)容和專家引用關(guān)系對專家進(jìn)行綜合評價步驟和用戶檢 索專家的過程,并給出了公式的推斷過程。另外闡述專家引用關(guān)系的抽取、權(quán)重 計(jì)算等過程。第五章應(yīng)用與分析。實(shí)現(xiàn)了一個專家檢索系統(tǒng),首先介紹了系統(tǒng)各個組成部 分,然后對各個功能進(jìn)
15、行了詳細(xì)的介紹和運(yùn)行展示。實(shí)際應(yīng)用表明專家檢索系統(tǒng) 能夠準(zhǔn)確地對專家專長進(jìn)行評估,并能找到了業(yè)內(nèi)具有權(quán)威性的領(lǐng)域?qū)<?,能?找到符合用戶需求的專家。最后,總結(jié)與展望,對本次研究所做的工作以及存在的問題進(jìn)行了總結(jié),探討未來進(jìn)一步研究及發(fā)展方向。學(xué)習(xí)好幫手三、課題研究的技術(shù)路線和主要研究方法本課題在分析相應(yīng)需求和技術(shù)的基礎(chǔ)上,建立三層體系結(jié)構(gòu),分別是信息采 集、特征構(gòu)建和專家檢索三大部分,并重點(diǎn)研究了特征構(gòu)建和專家檢索兩部分。 最后實(shí)現(xiàn)了一個專家信息檢索系統(tǒng),并應(yīng)用在某大型醫(yī)藥企業(yè)中,該系統(tǒng)能夠?yàn)?企業(yè)尋找出相關(guān)領(lǐng)域的專家,幫助企業(yè)解決難題,提高了企業(yè)的工作效率,具有較 強(qiáng)的應(yīng)用價值。使用到的主要研究方法包括:基于候選專家的專家檢索方法、基于文檔的專家 檢索方法、基于投票模型的專家檢索方法、查詢擴(kuò)展方法、鏈接分析方法、 PageRank算法、相關(guān)性傳播模型四、課題負(fù)責(zé)人和課題組成員的研究能力及完成課題的保證條件課題負(fù)責(zé)人有豐富的學(xué)術(shù)經(jīng)歷和背景,參與省部級課題2項(xiàng)、主持廳級課題 6項(xiàng)、校級課題多項(xiàng),參編著作 3本,發(fā)表論文10余篇,其中核心期刊2篇, 外文論文2篇,并被EI收錄
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年統(tǒng)編版九年級生物下冊月考試卷
- 2025年滬教版選修化學(xué)下冊月考試卷
- 2025年度無人機(jī)駕駛員派遣及培訓(xùn)合同4篇
- 二零二五年度城市綜合體幕墻設(shè)計(jì)施工合同4篇
- 二零二五年度排水溝施工環(huán)保評估與執(zhí)行合同4篇
- 2025年綠色環(huán)保材料出口貿(mào)易合同模板2篇
- 2025版北京住宅二次抵押貸款合同操作指南4篇
- 2025年度城市商業(yè)圈門面房租賃及商業(yè)運(yùn)營合同4篇
- 2025年度離婚后子女贍養(yǎng)費(fèi)調(diào)整起訴合同
- 二零二五年度充電樁充電站安全教育與培訓(xùn)合同2篇
- 2024-2025學(xué)年山東省濰坊市高一上冊1月期末考試數(shù)學(xué)檢測試題(附解析)
- 江蘇省揚(yáng)州市蔣王小學(xué)2023~2024年五年級上學(xué)期英語期末試卷(含答案無聽力原文無音頻)
- 數(shù)學(xué)-湖南省新高考教學(xué)教研聯(lián)盟(長郡二十校聯(lián)盟)2024-2025學(xué)年2025屆高三上學(xué)期第一次預(yù)熱演練試題和答案
- 決勝中層:中層管理者的九項(xiàng)修煉-記錄
- 幼兒園人民幣啟蒙教育方案
- 軍事理論(2024年版)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 記錄片21世紀(jì)禁愛指南
- 腰椎間盤的診斷證明書
- 移動商務(wù)內(nèi)容運(yùn)營(吳洪貴)任務(wù)七 裂變傳播
- 單級倒立擺系統(tǒng)建模與控制器設(shè)計(jì)
- 齲病的治療 深齲的治療
評論
0/150
提交評論