




已閱讀5頁(yè),還剩46頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法研究,劉桃,報(bào)告內(nèi)容,緒論 課題研究的目的、意義及研究現(xiàn)狀 論文主體 領(lǐng)域文本自動(dòng)判別方法 領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法 在文本分類(lèi)和問(wèn)答式信息檢索中的應(yīng)用 結(jié)論,報(bào)告內(nèi)容,緒論 課題研究的目的、意義及研究現(xiàn)狀 論文主體 領(lǐng)域文本自動(dòng)判別方法 領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法 在文本分類(lèi)和問(wèn)答式信息檢索中的應(yīng)用 結(jié)論,緒論,研究目的 為面向領(lǐng)域的應(yīng)用提供可定制的領(lǐng)域文本自動(dòng)判別方法和領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法 研究意義 對(duì)所有面向領(lǐng)域的應(yīng)用都有重要意義 垂直搜索 文本自動(dòng)分類(lèi) 語(yǔ)言建模 詞義消歧,緒論:領(lǐng)域文本自動(dòng)判別研究現(xiàn)狀,領(lǐng)域文本自動(dòng)判別 有監(jiān)督文本分類(lèi)方法 文本表示:概率模型、向量空間模型 特征選擇:TF-IDF、互信息、期望交叉熵、信息增益等 分類(lèi)算法:Rocchio法、貝頁(yè)斯分類(lèi)法、K最近鄰分類(lèi)法、支持向量機(jī)、決策樹(shù)、神經(jīng)網(wǎng)絡(luò) 半監(jiān)督文本分類(lèi)方法 產(chǎn)生式模型和期望最大化、直推式支持向量機(jī)、自助學(xué)習(xí)法、協(xié)同訓(xùn)練法、主動(dòng)學(xué)習(xí)法 基于正例的文本分類(lèi)方法 PEBL、 Spy_EM、Roc_SVM、類(lèi)別約束SVM(Biased_SVM)、 PNLH方法,緒論:領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取研究現(xiàn)狀,中文詞語(yǔ)的領(lǐng)域類(lèi)別判定之前要進(jìn)行中文新詞發(fā)現(xiàn) 中文新詞發(fā)現(xiàn) 啟發(fā)式特征:構(gòu)詞力、構(gòu)詞模式、互信息、上下文依賴 機(jī)器學(xué)習(xí)模型:隱馬爾科夫模型、最大熵、最大熵馬爾科夫模型、支持向量機(jī)、條件隨機(jī)域,緒論:領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取研究現(xiàn)狀,詞語(yǔ)的領(lǐng)域類(lèi)別判定 基于語(yǔ)言學(xué)知識(shí)的方法 英文的拼寫(xiě)線索、包含詞綴等信息的術(shù)語(yǔ)要素詞典、潛層語(yǔ)法分析、設(shè)定規(guī)則模版 基于統(tǒng)計(jì)量度的方法 基于類(lèi)別的TFIDF(KFIDF)、領(lǐng)域相關(guān)性+領(lǐng)域一致性(DR+DC) 、C-值、C/NC值 機(jī)器學(xué)習(xí)方法 基于自助學(xué)習(xí)法的半監(jiān)督術(shù)語(yǔ)獲取方法 基于詞語(yǔ)分類(lèi)的術(shù)語(yǔ)獲取方法,緒論:研究現(xiàn)狀,領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取的評(píng)價(jià) 人工評(píng)價(jià):語(yǔ)言學(xué)家或者研究者通過(guò)個(gè)人判斷來(lái)確定抽取的詞語(yǔ)是否為領(lǐng)域術(shù)語(yǔ) 對(duì)抽取結(jié)果有直觀感受 費(fèi)時(shí)、費(fèi)力 受人主觀性影響 應(yīng)用評(píng)價(jià):看領(lǐng)域術(shù)語(yǔ)抽取模塊在應(yīng)用系統(tǒng)中的表現(xiàn) 評(píng)測(cè)迅速 完全面向應(yīng)用,不同的應(yīng)用系統(tǒng)可能會(huì)產(chǎn)生不盡相同的結(jié)果,報(bào)告內(nèi)容,緒論 課題研究的目的、意義、研究現(xiàn)狀 論文主體 領(lǐng)域文本自動(dòng)判別方法研究 領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法研究 在文本分類(lèi)和問(wèn)答式信息檢索中的應(yīng)用設(shè)計(jì) 結(jié)論,研究框架,有監(jiān)督文本分類(lèi),基于正例的文本分類(lèi),中文新詞發(fā)現(xiàn),術(shù)語(yǔ)抽取自助學(xué)習(xí)法,基于統(tǒng)計(jì)量度的術(shù)語(yǔ)抽取,在文本分類(lèi)中的應(yīng)用,在問(wèn)答式信息檢索中的應(yīng)用,詞語(yǔ)的領(lǐng)域類(lèi)別判定,概念語(yǔ)義網(wǎng)絡(luò),專(zhuān)業(yè)信息采集,特征集擴(kuò)展,特征選擇,領(lǐng)域文本自動(dòng)判別方法,完整分類(lèi)體系下的領(lǐng)域文本判別 有監(jiān)督文本分類(lèi)方法 需要為每個(gè)類(lèi)別提供一定規(guī)模的訓(xùn)練語(yǔ)料 實(shí)現(xiàn)了一個(gè)文本分類(lèi)評(píng)測(cè)平臺(tái) 包括10種可定制的特征選擇算法和4種可定制的分類(lèi)算法 特征選擇算法:詞頻與倒文檔頻度(TFIDF)、期望交叉熵(ECE)、統(tǒng)計(jì)、互信息(MI)、文本證據(jù)權(quán)(WE)、信息增益(IG)、文檔頻度(DF)、KFIDF、DR+DC、NCD+NDD方法 分類(lèi)算法:簡(jiǎn)單貝葉斯(NB)、Rocchio、K最近鄰(KNN)和支持向量機(jī)(SVM),領(lǐng)域文本自動(dòng)判別方法,非完整分類(lèi)體系下反例集獲取困難 完整分類(lèi)體系下訓(xùn)練某個(gè)類(lèi)別的分類(lèi)器時(shí),其他類(lèi)別訓(xùn)練語(yǔ)料的合集作為反例集 非完整分類(lèi)體系下獲取某個(gè)類(lèi)別的平衡反例集比較困難 基于正例的文本分類(lèi)方法 不需要提供已標(biāo)注的反例集 需要使用大規(guī)模未標(biāo)注樣本,基于正例的文本分類(lèi)問(wèn)題的傳統(tǒng)方案,步驟一:?jiǎn)l(fā)式樣本標(biāo)注 1-DNF,PNLH,spy,rocchio 步驟二:建立分類(lèi)器 通過(guò)迭代建立一系列分類(lèi)器 只建立一個(gè)分類(lèi)器,傳統(tǒng)方法存在的問(wèn)題,啟發(fā)式樣本標(biāo)注中,高準(zhǔn)確率和高召回率不可兼得 1_DNF:將U中不含全部正例特征的文檔看作反例 高準(zhǔn)確率,低召回率 PNLH:定義正例參考值(PRP),將PRP值小于U集全部文檔PRP平均值的文檔當(dāng)作反例 低準(zhǔn)確率,高召回率 不同途徑得到的標(biāo)注樣本的置信度不一致,傳統(tǒng)方法不加區(qū)別的使用所有樣本 勢(shì)必導(dǎo)致分類(lèi)準(zhǔn)確率下降,基于置信度加權(quán)的領(lǐng)域文本判別法,多策略樣本標(biāo)注算法 自動(dòng)標(biāo)注盡可能多的樣本,即在保證樣本標(biāo)注召回率的前提下,按照標(biāo)注樣本的置信度對(duì)樣本集進(jìn)行劃分 加權(quán)支持向量機(jī)算法 為不同置信度的樣本賦予不同的權(quán)重,不同標(biāo)注策略的樣本置信度實(shí)驗(yàn),Retuers語(yǔ)料上的標(biāo)注樣本置信度,三級(jí)反例及基于置信度加權(quán)對(duì)分類(lèi)性能的影響實(shí)驗(yàn),是否使用三級(jí)反例及基于置信度加權(quán)對(duì)Retuers數(shù)據(jù)集的分類(lèi)性能影響,對(duì)比實(shí)驗(yàn),Retuers數(shù)據(jù)集上不同方法的分類(lèi)性能對(duì)比,報(bào)告內(nèi)容,緒論 論文主體 領(lǐng)域文本自動(dòng)判別相關(guān)技術(shù)研究 領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取相關(guān)技術(shù)研究 基于局部最大算法的中文新詞發(fā)現(xiàn) 基于統(tǒng)計(jì)量度的術(shù)語(yǔ)抽取方法 領(lǐng)域術(shù)語(yǔ)抽取自助學(xué)習(xí)法 在文本分類(lèi)和問(wèn)答式信息檢索中的應(yīng)用設(shè)計(jì) 結(jié)論,傳統(tǒng)中文新詞發(fā)現(xiàn)方法的缺點(diǎn),啟發(fā)式特征+經(jīng)驗(yàn)閾值 難以篩選合適的全局閾值統(tǒng)一抽取新詞 機(jī)器學(xué)習(xí)方法 訓(xùn)練時(shí)間較長(zhǎng),基于局部最大算法的中文新詞發(fā)現(xiàn),中文詞語(yǔ)是關(guān)聯(lián)強(qiáng)度較大、結(jié)合較為緊密的字序列 高內(nèi)聚性 可獨(dú)立運(yùn)用性 利用平攤對(duì)稱(chēng)條件概率(SCP_F)衡量字序列的結(jié)合力 局部最大算法思想: 如果ngram W 的關(guān)聯(lián)強(qiáng)度大于所有包含它的(n+1)gram 的關(guān)聯(lián)強(qiáng)度,并且ngram W 的關(guān)聯(lián)強(qiáng)度不小于所有W 包含的(n-1)gram 的關(guān)聯(lián)強(qiáng)度,則 W 被看作候選新詞。 能夠很好地刻畫(huà)詞語(yǔ)的高內(nèi)聚性和可獨(dú)立運(yùn)用性,基于局部最大算法的中文新詞發(fā)現(xiàn),基于后綴數(shù)組的實(shí)現(xiàn)方案 傳統(tǒng)方法在計(jì)算n3的ngram時(shí),速度非常慢,不能滿足互聯(lián)網(wǎng)環(huán)境下大規(guī)模網(wǎng)絡(luò)文本的實(shí)時(shí)新詞發(fā)現(xiàn)需求 采用基于后綴數(shù)組的數(shù)據(jù)結(jié)構(gòu) 采用基于等價(jià)類(lèi)劃分的思想降低存儲(chǔ)空間 只需要存儲(chǔ)每個(gè)等價(jià)類(lèi)中的一個(gè)最長(zhǎng)序列,基于局部最大算法的中文新詞發(fā)現(xiàn)過(guò)程,實(shí)驗(yàn)結(jié)果,在MSR語(yǔ)料上的新詞發(fā)現(xiàn)前后對(duì)比實(shí)驗(yàn)結(jié)果,在PKU語(yǔ)料上的新詞發(fā)現(xiàn)前后對(duì)比實(shí)驗(yàn)結(jié)果,對(duì)比實(shí)驗(yàn),在MSR語(yǔ)料上和中文分詞評(píng)測(cè)中其他系統(tǒng)的對(duì)比實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果,小規(guī)模詞典統(tǒng)計(jì)信息,不同新詞比率下的新詞識(shí)別性能,在不同新詞比率下測(cè)試新詞發(fā)現(xiàn)的性能 在缺乏詞表或者為了擴(kuò)展已有的小詞表的情況下,局部最大算法可以用來(lái)抽取詞語(yǔ)。,報(bào)告內(nèi)容,緒論 論文主體 領(lǐng)域文本自動(dòng)判別相關(guān)技術(shù)研究 領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取相關(guān)技術(shù)研究 基于局部最大算法的中文新詞發(fā)現(xiàn) 基于統(tǒng)計(jì)量度的術(shù)語(yǔ)抽取方法 領(lǐng)域術(shù)語(yǔ)抽取自助學(xué)習(xí)法 在文本分類(lèi)和問(wèn)答式信息檢索中的應(yīng)用設(shè)計(jì) 結(jié)論,基于統(tǒng)計(jì)量度的術(shù)語(yǔ)抽取,抽取原則一:領(lǐng)域術(shù)語(yǔ)應(yīng)該在不同領(lǐng)域類(lèi)別間分布不均勻 頻繁出現(xiàn)在某領(lǐng)域文檔中,很少出現(xiàn)在其它領(lǐng)域文檔中的詞語(yǔ)是領(lǐng)域術(shù)語(yǔ)的可能性較大。 出現(xiàn)該詞語(yǔ)的領(lǐng)域類(lèi)別數(shù)越少,該詞語(yǔ)越有可能是領(lǐng)域術(shù)語(yǔ)。 抽取原則二:領(lǐng)域術(shù)語(yǔ)在其相關(guān)領(lǐng)域的文檔集中應(yīng)盡可能分布均勻 出現(xiàn)在某領(lǐng)域的大多數(shù)文檔中的詞語(yǔ)可能是該領(lǐng)域的術(shù)語(yǔ)。 正規(guī)化策略:減輕不同語(yǔ)料規(guī)模和文檔長(zhǎng)度的影響,傳統(tǒng)方法:KFIDF,DR_DC 對(duì)術(shù)語(yǔ)抽取標(biāo)準(zhǔn)描述不夠細(xì)致和全面 基于正規(guī)化分布熵的領(lǐng)域術(shù)語(yǔ)抽取方法,基于正規(guī)化分布熵的領(lǐng)域術(shù)語(yǔ)抽取,符號(hào)定義:Di (1im): 第i個(gè)領(lǐng)域類(lèi)別 dij (1jni): 類(lèi)別Di中的第j個(gè)文檔 lij: 文檔dij的長(zhǎng)度,即在該文檔中出現(xiàn)的所有詞語(yǔ)的詞頻之和 Li: 類(lèi)別Di包含的所有文檔長(zhǎng)度之和 數(shù)學(xué)描述:,詞語(yǔ)的正規(guī)化的類(lèi)間分布熵NCD,詞語(yǔ)的類(lèi)間分布熵:,詞語(yǔ)“黨性”和“知覺(jué)”在類(lèi)別A(馬列主義)均以0.5的概率出現(xiàn),但“黨性”只出現(xiàn)在A(馬列主義)與D(政治、法律)兩個(gè)類(lèi)別,而“知覺(jué)”共出現(xiàn)在11個(gè)類(lèi)別的語(yǔ)料,基于正規(guī)化分布熵的領(lǐng)域術(shù)語(yǔ)抽取,詞語(yǔ)在領(lǐng)域Di的正規(guī)化的類(lèi)內(nèi)分布熵NDD,“蛔蟲(chóng)”在類(lèi)別G(文化、科學(xué)、教育、體育)的一篇介紹中小學(xué)生健康問(wèn)題中蛔蟲(chóng)感染的文章中多次出現(xiàn),但在該類(lèi)別的其它文檔中未出現(xiàn),那么該詞就不具有領(lǐng)域代表性,不能成為G類(lèi)的領(lǐng)域術(shù)語(yǔ).,C1 馬列主義 無(wú)產(chǎn)階級(jí) 社會(huì)主義 全黨 馬克思主義 共產(chǎn)主義 馬克思列寧主義 馬克思 無(wú)產(chǎn)者 資產(chǎn)階級(jí) 共產(chǎn)主義社會(huì) 剝削 階級(jí) 生產(chǎn)資料 恩格斯 私有制 資產(chǎn)者,C2 法律 司法 人民法院 最高人民法院 案件 審理 訴訟 法院 司法機(jī)關(guān) 當(dāng)事人 職權(quán) 國(guó)家機(jī)關(guān) 審判 被告人 民事 行使 民事訴訟,C3 軍事 作戰(zhàn) 軍種 軍事 軍隊(duì) 戰(zhàn)爭(zhēng) 兵力 事變 美軍 新軍 戰(zhàn)法 我軍 武器 軍兵種 火力 軍事科學(xué) 戰(zhàn)場(chǎng),C4 體育 比賽 首場(chǎng) 球員 球隊(duì) 英格蘭隊(duì) 隊(duì)友 世界杯 奪冠 冠軍 決賽 足協(xié) 后衛(wèi) 主帥 瑞典隊(duì) 任意球 小組賽,C5 醫(yī)藥衛(wèi)生 患者 治療 血管 臨床 療效 藥物 病人 冠心病 并發(fā)癥 動(dòng)脈 冠狀動(dòng)脈 手術(shù) 癥狀術(shù)后 口服 療法 服用,C6 輕工業(yè) 包裝 食品 調(diào)味 保質(zhì)期 肉制品 玻璃瓶 品牌 肉食品 方便化 果汁 腥味 肉類(lèi) 專(zhuān)賣(mài)店 草莓 貨架 糖度,中圖分類(lèi)體系下抽取結(jié)果示例,實(shí)驗(yàn)結(jié)果,中圖分類(lèi)體系下隨機(jī)抽取的六個(gè)領(lǐng)域上的領(lǐng)域術(shù)語(yǔ)抽取數(shù)目,DR+DC方法抽取詞語(yǔ)個(gè)數(shù)會(huì)隨著語(yǔ)料規(guī)模的變化產(chǎn)生較大變化 NCD+NDD方法抽取詞語(yǔ)數(shù)目不完全依賴于語(yǔ)料規(guī)模,實(shí)驗(yàn)結(jié)果,圖1 前200個(gè)詞語(yǔ)的正確率,隨機(jī)抽取的六個(gè)領(lǐng)域上領(lǐng)域術(shù)語(yǔ)抽取正確率,圖2 其余詞語(yǔ)的正確率,對(duì)于語(yǔ)料規(guī)模很大的類(lèi)別, NCD+NDD法的正確率要明顯高于DR+DC法 在其它正確率相當(dāng)?shù)念?lèi)別中,抽取的術(shù)語(yǔ)數(shù)目要明顯高于DR+DC法,領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取相關(guān)技術(shù),未標(biāo)注文本,種子術(shù)語(yǔ),詞語(yǔ)的領(lǐng)域類(lèi)別判定,基于統(tǒng)計(jì)量度的術(shù)語(yǔ)抽取,術(shù)語(yǔ)抽取自助學(xué)習(xí)法,領(lǐng)域?qū)Ρ日Z(yǔ)料,簡(jiǎn)單、快速,術(shù)語(yǔ)抽取自助學(xué)習(xí)法,總體思想: 給定:領(lǐng)域集合D1,D2,Dn 對(duì)應(yīng)的種子術(shù)語(yǔ)集合T0=T10,T20,Tn0 過(guò)程: 術(shù)語(yǔ)分類(lèi)器通過(guò)挖掘未標(biāo)注文檔中的新詞語(yǔ)和給定種子術(shù)語(yǔ)之間的關(guān)聯(lián),將新術(shù)語(yǔ)歸類(lèi)到相應(yīng)領(lǐng)域類(lèi)別中,得到了擴(kuò)大的術(shù)語(yǔ)集:T1=T11,T21,Tn1,然后再用此擴(kuò)大的術(shù)語(yǔ)集訓(xùn)練分類(lèi)器,直到迭代終止,得到最終的新術(shù)語(yǔ)集Tz= T1z ,T2z,Tnz。,基于詞語(yǔ)上下文表示的術(shù)語(yǔ)抽取自助學(xué)習(xí)法,基于詞語(yǔ)上下文表示的術(shù)語(yǔ)抽取自助學(xué)習(xí)法 傳統(tǒng)基于文檔空間表示法的缺陷 無(wú)法表示文檔內(nèi)部的信息 只能獲取在多個(gè)文檔中出現(xiàn)的術(shù)語(yǔ) 基于全局上下文的詞語(yǔ)表示 術(shù)語(yǔ)ti出現(xiàn)在語(yǔ)料的子集di1,di2,dit中,設(shè)cij表示術(shù)語(yǔ)ti在文檔dij中的上下文特征集,則ti的全局上下文是ci1,ci2,cit的并集。 基于潛在語(yǔ)義索引的特征空間壓縮,術(shù)語(yǔ)抽取自助學(xué)習(xí)法,實(shí)驗(yàn),新浪網(wǎng)前5個(gè)領(lǐng)域 每個(gè)類(lèi)別手工抽取20個(gè)詞語(yǔ)作為種子術(shù)語(yǔ) 新浪網(wǎng)下載的10000篇文檔作為未標(biāo)注語(yǔ)料 對(duì)比方法: 基于上下文空間表示法的術(shù)語(yǔ)抽取 基于文檔空間表示法的術(shù)語(yǔ)抽取,領(lǐng)域類(lèi)別信息,兩種方法在抽取頻率為1的低頻詞上的性能比較,兩種方法抽取術(shù)語(yǔ)性能比較,報(bào)告內(nèi)容,緒論 論文主體 領(lǐng)域文本自動(dòng)判別方法研究 領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法研究 在文本分類(lèi)和問(wèn)答式信息檢索中的應(yīng)用 結(jié)論,文本自動(dòng)分類(lèi)過(guò)程,文本自動(dòng)分類(lèi)需要解決三個(gè)技術(shù)問(wèn)題:文本表示、文本特征選擇和選擇分類(lèi)算法。,在文本自動(dòng)分類(lèi)中的應(yīng)用,應(yīng)用一:特征集擴(kuò)展 將基于局部最大算法的中文新詞發(fā)現(xiàn)方法應(yīng)用于文本分類(lèi)語(yǔ)料的分詞處理,從而擴(kuò)大文本表示的特征集,特征集擴(kuò)展前后文本分類(lèi)性能對(duì)比,小規(guī)模原始詞典下文本分類(lèi)性能對(duì)比,在文本自動(dòng)分類(lèi)中的應(yīng)用,基于統(tǒng)計(jì)量度NCD+NDD的術(shù)語(yǔ)抽取,傳統(tǒng)特征選擇,代替,應(yīng)用二:特征選擇,在中圖分類(lèi)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),在旅游類(lèi)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),在旅游領(lǐng)域問(wèn)答式信息檢索中的應(yīng)用,應(yīng)用一:專(zhuān)業(yè)文本采集 網(wǎng)絡(luò)文本采集是通過(guò)預(yù)先設(shè)定的種子URL集合,以各種不同的爬行策略循環(huán)迭代地訪問(wèn)Web下載網(wǎng)頁(yè) 當(dāng)采集的信息只限定于特定的領(lǐng)域,出于性能上的考慮其不必也不可能對(duì)整個(gè)Web進(jìn)行遍歷 探討了領(lǐng)域文本自動(dòng)判別技術(shù)在專(zhuān)業(yè)文本采集中的應(yīng)用,在旅游領(lǐng)域問(wèn)答式信息檢索中的應(yīng)用,應(yīng)用二:概念語(yǔ)義網(wǎng)絡(luò):以實(shí)現(xiàn)智能化的概念檢索,旅游領(lǐng)域概念語(yǔ)義網(wǎng)絡(luò),領(lǐng)域術(shù)語(yǔ)抽取算法獲取旅游領(lǐng)域術(shù)語(yǔ),構(gòu)建了如下八個(gè)類(lèi)別的概念語(yǔ)義網(wǎng)絡(luò) 賓館飯店、城市概況、地方文化、交通指引、休閑娛樂(lè)、 旅游景點(diǎn)、旅游服務(wù)、購(gòu)物美食,賓館飯店類(lèi)別的部分概念語(yǔ)義網(wǎng)絡(luò)圖示,在旅游領(lǐng)域問(wèn)答式信息檢索中的應(yīng)用,概念語(yǔ)義網(wǎng)絡(luò)維護(hù)工具功能模塊圖,實(shí)現(xiàn)了一個(gè)概念語(yǔ)義網(wǎng)絡(luò)維護(hù)工具 用于構(gòu)建、使用、維護(hù)概念語(yǔ)義網(wǎng)絡(luò),將其納入到問(wèn)答式信息檢索系統(tǒng)中。,報(bào)告內(nèi)容,緒論 課題研究的目的、意義、研究現(xiàn)狀 論文主體 領(lǐng)域文本自動(dòng)判別方法研究 領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法研究 在文本分類(lèi)和問(wèn)答式信息檢索中的應(yīng)用 結(jié)論,結(jié)論,針對(duì)利用正例和未標(biāo)注數(shù)據(jù)的領(lǐng)域文本判別問(wèn)題, 提出基于樣本置信度劃分的加權(quán)支持向量機(jī)方法。,這種方法可以克服傳統(tǒng)方法中啟發(fā)式樣本標(biāo)注的精確度和召回率不可兼得的弊端,提高了領(lǐng)域文本判別系統(tǒng)的性能。,針對(duì)中文新詞發(fā)現(xiàn)問(wèn)題,提出了一種基于局部最大算法的中文新詞發(fā)現(xiàn)方法,用于識(shí)別語(yǔ)料中的候選領(lǐng)域新詞。,該方法是一種高效魯棒的新詞發(fā)現(xiàn)算法,將該新詞發(fā)現(xiàn)方法和命名實(shí)體識(shí)別工具相結(jié)合,可
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 手術(shù)室耗材管理制度
- 2025年軟件評(píng)測(cè)師重難點(diǎn)復(fù)習(xí)試題及答案
- 消防車(chē)滅火器管理制度
- 電焊廠安全生產(chǎn)管理制度
- 買(mǎi)賣(mài)合同管理制度
- 軟件評(píng)測(cè)師課程資源優(yōu)化試題及答案
- 多元視角初級(jí)社會(huì)工作者考試試題及答案
- 文化安全危機(jī)管理制度
- 醫(yī)院藥材庫(kù)管理制度
- 健全貨幣管理制度
- 急性胰腺炎護(hù)理常規(guī)課件
- 2023淄博中考英語(yǔ)試題及答案
- 民兵訓(xùn)練基地管理制度
- 高考前最后一課-數(shù)學(xué)
- 第五章-第四種檢查器的使用
- 班組精細(xì)化管理學(xué)習(xí)體會(huì)
- 八段錦操作評(píng)分標(biāo)準(zhǔn)
- ??低曉诰€測(cè)評(píng)筆試題
- 2023年08月甘肅定西西源國(guó)家糧食儲(chǔ)備庫(kù)有限公司公開(kāi)招聘5人筆試歷年難易錯(cuò)點(diǎn)考題薈萃附帶答案詳解
- 220kV線路工程項(xiàng)目管理實(shí)施規(guī)劃施工組織設(shè)計(jì)
- 《診斷學(xué)》病歷書(shū)寫(xiě)-課件
評(píng)論
0/150
提交評(píng)論