下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
專利新詞發(fā)現(xiàn)的雙向聚合度特征提取新方法專利新詞發(fā)現(xiàn)的雙向聚合度特征提取新方法摘要:隨著互聯(lián)網(wǎng)的發(fā)展,大量的專利文書被公開并存儲(chǔ)在專利數(shù)據(jù)庫(kù)中。專利文書中包含大量的技術(shù)詞匯和新詞,對(duì)于技術(shù)領(lǐng)域的研究和創(chuàng)新具有重要意義。本論文提出了一種新的方法來提取專利文書中的新詞,即專利新詞發(fā)現(xiàn)的雙向聚合度特征提取新方法。該方法能夠根據(jù)專利文書中的雙向聚合度特征,快速準(zhǔn)確地識(shí)別出具有創(chuàng)新性和潛在商業(yè)價(jià)值的新詞。關(guān)鍵詞:專利新詞發(fā)現(xiàn);雙向聚合度特征;特征提?。粍?chuàng)新性1.引言隨著科技的發(fā)展和創(chuàng)新的加速,專利文書成為了記錄和保護(hù)技術(shù)創(chuàng)新的重要手段。專利文書中包含了大量的技術(shù)詞匯和新詞,這些新詞對(duì)于領(lǐng)域內(nèi)的研究和技術(shù)發(fā)展具有重要意義。因此,專利新詞的發(fā)現(xiàn)成為了一個(gè)熱門的研究方向。目前,專利新詞的發(fā)現(xiàn)方法主要有基于統(tǒng)計(jì)學(xué)的方法和基于自然語(yǔ)言處理的方法?;诮y(tǒng)計(jì)學(xué)的方法通過統(tǒng)計(jì)詞頻和共現(xiàn)信息來發(fā)現(xiàn)新詞,但是由于單純的詞頻統(tǒng)計(jì)難以區(qū)分新詞和常見詞,所以該方法往往會(huì)產(chǎn)生很多噪音詞?;谧匀徽Z(yǔ)言處理的方法通過研究詞的語(yǔ)義和上下文信息來發(fā)現(xiàn)新詞,但是該方法往往需要大量的計(jì)算資源和語(yǔ)料庫(kù)支持。為了克服以上方法的缺點(diǎn),本論文提出了一種新的方法來提取專利文書中的新詞,即專利新詞發(fā)現(xiàn)的雙向聚合度特征提取新方法。該方法利用了專利文書中雙向聚合度特征的獨(dú)特性,通過對(duì)專利文書的特征提取和分析,快速準(zhǔn)確地識(shí)別出具有創(chuàng)新性和潛在商業(yè)價(jià)值的新詞。2.方法介紹2.1數(shù)據(jù)預(yù)處理首先,需要對(duì)專利文書進(jìn)行預(yù)處理,主要包括文本清洗、分詞和去停用詞等步驟。文本清洗主要是去除文本中的噪音和特殊字符,以及過濾掉一些無關(guān)的信息。分詞是將文本按詞進(jìn)行切分,以便后續(xù)的詞頻統(tǒng)計(jì)和特征提取。去停用詞是過濾掉一些無實(shí)際含義的常見詞,如“的”、“了”等。2.2雙向聚合度特征提取雙向聚合度特征是指一個(gè)詞在文本中的左鄰和右鄰詞集合的聚合度。通過計(jì)算一個(gè)詞的左鄰和右鄰詞集合的聚合度,可以得到該詞的雙向聚合度特征。具體計(jì)算方法如下:首先,對(duì)于每個(gè)詞,計(jì)算其在文本中的左鄰和右鄰詞集合。左鄰集合是指該詞前面出現(xiàn)的詞集合,右鄰集合是指該詞后面出現(xiàn)的詞集合。然后,對(duì)于一個(gè)詞的左鄰詞集合或右鄰詞集合,計(jì)算其聚合度。聚合度可以用來表示該詞與其左鄰詞集合或右鄰詞集合的緊密程度。聚合度越高,表示該詞與其左鄰詞集合或右鄰詞集合的關(guān)聯(lián)性越高。最后,將左鄰聚合度和右鄰聚合度進(jìn)行綜合考量,得到一個(gè)詞的雙向聚合度特征。綜合考量可以通過計(jì)算左鄰聚合度和右鄰聚合度的平均值、加權(quán)平均值等方式進(jìn)行。3.實(shí)驗(yàn)與結(jié)果為了驗(yàn)證本方法的有效性,我們從專利數(shù)據(jù)庫(kù)中隨機(jī)選擇了一部分專利文書,進(jìn)行了實(shí)驗(yàn)和結(jié)果分析。實(shí)驗(yàn)結(jié)果表明,本方法能夠較好地提取出具有創(chuàng)新性和潛在商業(yè)價(jià)值的新詞。與基于統(tǒng)計(jì)學(xué)的方法和基于自然語(yǔ)言處理的方法相比,本方法具有更高的準(zhǔn)確性和效率。4.結(jié)論本論文提出了一種新的方法來提取專利文書中的新詞,即專利新詞發(fā)現(xiàn)的雙向聚合度特征提取新方法。該方法通過對(duì)專利文書的雙向聚合度特征進(jìn)行提取和分析,能夠快速準(zhǔn)確地識(shí)別出具有創(chuàng)新性和潛在商業(yè)價(jià)值的新詞。實(shí)驗(yàn)證明,該方法具有較高的準(zhǔn)確性和效率,可以有效地應(yīng)用于專利新詞發(fā)現(xiàn)領(lǐng)域。參考文獻(xiàn):1.Wei,Z.,He,Z.,Chen,C.,&Wang,S.(2016).ExtractionofKeyTechnologyInformationfromCombiningPatentClassificationandTextAnalysis.MathematicalProblemsinEngineering,2016,1-14.2.Wu,P.,Du,H.,Lu,M.,&Wang,M.(2018).ANovelMethodforPatentNewWordRecognitionBasedonTextMining.AppliedSciences,8(3),436.3.Yang,J.I.,Choi,H.,&Yu,H.(2010).NewterminologyextractionusingaPatent-Qu
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度代持合同糾紛調(diào)解服務(wù)協(xié)議4篇
- 2025年度大學(xué)創(chuàng)新創(chuàng)業(yè)基地運(yùn)營(yíng)管理合同4篇
- 2025年度龍門吊拆除與吊裝作業(yè)人員培訓(xùn)服務(wù)合同4篇
- 二零二五年度綠化苗木種植養(yǎng)護(hù)勞務(wù)分包合同書4篇
- 個(gè)性化手繪墻繪2024合作合同書版B版
- 2025年度出租車司機(jī)服務(wù)規(guī)范及考核標(biāo)準(zhǔn)合同4篇
- 二零二五年度跨境電商平臺(tái)租賃合同范本4篇
- 二零二五年度商業(yè)街區(qū)窗簾更新改造合同4篇
- 2025年度全國(guó)成品油管道運(yùn)輸合同范本(專項(xiàng)服務(wù)版)4篇
- 二零二五年度油氣儲(chǔ)罐升級(jí)改造工程合同4篇
- 2025貴州貴陽(yáng)市屬事業(yè)單位招聘筆試和高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024年住院醫(yī)師規(guī)范化培訓(xùn)師資培訓(xùn)理論考試試題
- 期末綜合測(cè)試卷(試題)-2024-2025學(xué)年五年級(jí)上冊(cè)數(shù)學(xué)人教版
- 2024年廣東省公務(wù)員錄用考試《行測(cè)》試題及答案解析
- 結(jié)構(gòu)力學(xué)本構(gòu)模型:斷裂力學(xué)模型:斷裂力學(xué)實(shí)驗(yàn)技術(shù)教程
- 黑色素的合成與美白產(chǎn)品的研究進(jìn)展
- 金蓉顆粒-臨床用藥解讀
- 法治副校長(zhǎng)專題培訓(xùn)課件
- 《幼兒園健康》課件精1
- 汽車、電動(dòng)車電池火災(zāi)應(yīng)對(duì)
- 中醫(yī)藥適宜培訓(xùn)-刮痧療法教學(xué)課件
評(píng)論
0/150
提交評(píng)論