![中文文本預(yù)處理_第1頁](http://file4.renrendoc.com/view/1127d3083e60f202ccb2be37b8c6a4a9/1127d3083e60f202ccb2be37b8c6a4a91.gif)
![中文文本預(yù)處理_第2頁](http://file4.renrendoc.com/view/1127d3083e60f202ccb2be37b8c6a4a9/1127d3083e60f202ccb2be37b8c6a4a92.gif)
![中文文本預(yù)處理_第3頁](http://file4.renrendoc.com/view/1127d3083e60f202ccb2be37b8c6a4a9/1127d3083e60f202ccb2be37b8c6a4a93.gif)
![中文文本預(yù)處理_第4頁](http://file4.renrendoc.com/view/1127d3083e60f202ccb2be37b8c6a4a9/1127d3083e60f202ccb2be37b8c6a4a94.gif)
![中文文本預(yù)處理_第5頁](http://file4.renrendoc.com/view/1127d3083e60f202ccb2be37b8c6a4a9/1127d3083e60f202ccb2be37b8c6a4a95.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1中文文本預(yù)處理分詞軟件調(diào)用(中科院分詞系統(tǒng))軟件下載:/軟件包目錄&介紹|Readme.txt >介紹I+---binI+---DocExtractor >文檔篇章語義抽取系統(tǒng)|| DocExtractor.bat-->批處理,可以針對(duì)指定的文件夾進(jìn)行語義抽取|| DocExtractor.dl卜->支撐的動(dòng)態(tài)鏈接庫(kù),基于分詞基礎(chǔ)上|| DocExtractorSample.exe-->應(yīng)用程序II|\---ICTCLAS2015 >分詞系統(tǒng)| ICTCLAS-tools.exe--〉分詞的支撐工具,可用于測(cè)試,本處主要用來做用戶詞典導(dǎo)入| importuserdict.bat-->可將用戶詞典自動(dòng)導(dǎo)入到系統(tǒng)內(nèi)| NLPIR.dl卜->W(wǎng)in32下的支撐動(dòng)態(tài)鏈接庫(kù),其他環(huán)境的庫(kù),可以訪問lib對(duì)應(yīng)環(huán)境的庫(kù)文件| NLPIR.lib| NLPIR_WinDemo.exe-->W(wǎng)in32下的演示程序,在Win832位下編譯而成,部分環(huán)境可能不支持,或者顯示異常| userdic.txt-->用戶詞典,用戶可以自行編輯|+---Data-->系統(tǒng)核心詞庫(kù)| \---English-->英文處理的支持知識(shí)庫(kù),如果不需要英文處理的功能,可以不加載本庫(kù)。|+—doc-->相關(guān)文檔支持| ICTPOS3.0.doc-->我們的詞性標(biāo)注集說明| NLPIR-ICTCLAS2015分詞系統(tǒng)開發(fā)手冊(cè).pdf-->開發(fā)使用手冊(cè)|+---include-->系統(tǒng)頭文件|NLPIR.h|+---lib-->不同環(huán)境下的支撐庫(kù),每一種庫(kù),同時(shí)支持C/C++/C#/Java庫(kù)。其他小眾化的環(huán)境支持,請(qǐng)聯(lián)系我們| +---linux32-->Linux32bit操作系統(tǒng)下的支持庫(kù)| |libNLPIR.so|丨| +---linux64-->Linux64bit操作系統(tǒng)下的支持庫(kù)|| libNLPIR.so|| Readme.txt|丨| +---win32-->Win32bit操作系統(tǒng)下的支持庫(kù)| |NLPIR.dll| |NLPIR.libII| \---win64-->Win64bit操作系統(tǒng)下的支持庫(kù)| NLPIR.dll| NLPIR.libI+---ppt-->NLPIR2015開幕演講的內(nèi)容| NLPIR2014開幕演講.pptx|+---sample-->NLPIR2015示例程序,均調(diào)試通過| +---C-->NLPIR2015C語言示例程序| | Example-C.cpp| | Makefile:Linux下的編譯makefile| +---C#-->NLPIR2014C#語言示例程序| | Example.cs|丨|+---pythonsample-->NLPIR2015Python示例程序|丨| \---JnaTest_NLPIR-->NLPIR2015Java采用JNA調(diào)用的示例程序| | .classpath| | .project| | nlperties| | Readme.txt| 丨| +---.settings| | org.eclipse.core.resources.prefs| | org.eclipse.jdt.core.prefs| 丨| +---bin| |+---code| | | NlpirTest$CLibrary.class| | | NlpirTest.class| 丨丨+---code| |NIpirTest.javaI I| \---utils| ReadConfigUtil.java| SystemParas.javaI\---test-->NLPIR2015測(cè)試文檔集合| 18屆三中全會(huì).TXT| English.txt|中英文混雜示例.txt|屌絲,一個(gè)字頭的誕生.TXT|用戶詞典.txt|\---docs-->NLPIR2015測(cè)試文檔集合0-兩棲戰(zhàn)車亮相.txt遼寧阜新官員涉嫌淫亂事件舉報(bào)者被刑拘.txt遼寧一男子女廁用手機(jī)拍照被拘(圖).txt兩人打甲流疫苗后死亡另有15例較嚴(yán)重異常反應(yīng).txtEnglish.txt1.1.3軟件使用(C++)需要文件:include/NLPIR.h、lib文件夾下根據(jù)系統(tǒng)和版本選擇不同的庫(kù)文件、ata文件夾。常用接口:NLPIR_Init:boolNLPIR_Init(constchar*sInitDirPath=0,intencoding=GBK_CODE,constchar*sLicenceCode=0)接口說明:軟件初始化。參數(shù)說明:sInitDirPath初始化文件夾位置,表示Configure.xml和Data文件夾所在位置,默認(rèn)值為0,表示當(dāng)前目錄;encoding輸入語料的編碼格式,默認(rèn)為GBK_C0DE,可選參數(shù)為UTF8_C0DE和BIG5_CODE;sLicenseCode證書編碼,默認(rèn)可不填。NLPIR_Exit:boolNLPIR_Exit()接口說明:軟件運(yùn)行結(jié)束,釋放內(nèi)存。NLPIR_ImportUserDict:unsignedintNLPIR_ImportUserDict(constchar*sFilename,boolbOverwrite=true)接口說明:引入用戶自定義詞典參數(shù)說明:sFilename用戶詞典文件名;bOverwrite是否覆蓋現(xiàn)有詞典,默認(rèn)為true,改為false將該詞典添加到現(xiàn)有詞典。NLPIR_ParagraphProcess:constchar*NLPIR_ParagraphProcess(constchar*sParagraph,intbPOStagged=1)接口說明:分詞函數(shù)參數(shù)說明:sParagraph需要分詞的字符串;bPOStagged分詞結(jié)果是否包含POS標(biāo)簽,即詞性標(biāo)簽,默認(rèn)為true其他接口函數(shù)請(qǐng)參考Doc目錄下開發(fā)手冊(cè)1.1.4軟件使用(Java)主要通過Jna的方式對(duì)C++接口進(jìn)行調(diào)用。需要文件:lib下根據(jù)系統(tǒng)和版本選用不同的資源庫(kù)文件、Data文件夾和jna.jar使用方法:Jna編程首先根據(jù)C的頭文件來聲明對(duì)應(yīng)的函數(shù),聲明后就像調(diào)用普通的java方法一樣使用即可,詳細(xì)使用例子,請(qǐng)見代碼【注意:我們的dll是通用的,C、java、C#所使用的dll是同一個(gè)】樣例代碼:NlpirTest類就是對(duì)應(yīng)的分詞的C頭文件的函數(shù)的聲明:publicclassNlpirTest{//定義接口CLibrary,繼承自com.sun.jna.LibrarypublicinterfaceCLibraryextendsLibrary{//定義并初始化接口的靜態(tài)變量這一個(gè)語句是來加載dll的,注意dll文件的路徑可以是絕對(duì)路徑也可以是相對(duì)路徑,只需要填寫dll的文件名,不能加后綴。CLibraryInstance=(CLibrary)Native.loadLibrary("E://java//JNI//JnaTest_NLPIR//NLPIR",CLibrary.class);//初始化函數(shù)聲明publicintNLPIR_Init(byte[]sDataPath,intencoding,byte[]sLicenceCode);//執(zhí)行分詞函數(shù)聲明publicStringNLPIR_ParagraphProcess(StringsSrc,intbPOSTagged);//提取關(guān)鍵詞函數(shù)聲明publicStringNLPIR_GetKeyWords(StringsLine,intnMaxKeyLimit,booleanbWeightOut);//退出函數(shù)聲明publicvoidNLPIR_Exit();}publicstaticStringtransString(StringaidString,Stringori_encoding,Stringnew_encoding){try{returnnewString(aidString.getBytes(ori_encoding),new_encoding);}catch(UnsupportedEncodingExceptione){e.printStackTrace();}returnnull;publicstaticvoidmain(String[]args)throwsException{Stringargu=//Stringsystem_charset="GBK";//GBK 0Stringsystem_charset="GBK";intcharset_type=1;//intcharset_type=0;//調(diào)用printf打印信息intinit_flag=CLibrary.Instance.NLPIR_Init(argu.getBytes(system_charset),charset_type,"0".getBytes(system_charset));if(0==init_flag){System.err.println("初始化失?。?);return;}StringsInput="據(jù)悉,質(zhì)檢總局已將最新有關(guān)情況再次通報(bào)美方,要求美方加強(qiáng)對(duì)輸華玉米的產(chǎn)地來源、運(yùn)輸及倉(cāng)儲(chǔ)等環(huán)節(jié)的管控措施,有效避免輸華玉米被未經(jīng)我國(guó)農(nóng)業(yè)部安全評(píng)估并批準(zhǔn)的轉(zhuǎn)基因品系污染?!?;StringnativeBytes=null;try{nativeBytes=CLibrary.Instance.NLPIR_ParagraphProcess(sInput,1);System.out.println("分詞結(jié)果為:"+nativeBytes);intnCountKey=0;StringnativeByte=CLibrary.Instance.NLPIR_GetKeyWords(sInput,10,false);System.out.print("關(guān)鍵詞提取結(jié)果是:"+nativeByte);CLibrary.Instance.NLPIR_Exit();}catch(Exceptionex){//TODOAuto-generatedcatchblockex.printStackTrace();}}}1.2句法分析軟件調(diào)用(斯坦福)1.2.1軟件下載:/software/lex-parser.shtml1.2.2軟件說明可以根據(jù)不同的需要下載不同語言的版本,這里僅介紹Java版本的使用方法。解壓文件中l(wèi)exparser-gui.bat進(jìn)行可視化頁面運(yùn)行,解析需要的模型文件存放在stanford-parser-3.3.0-models.jar,可以對(duì)其解壓,方面以后使用。在中文處理方面,提供的模型文件有chineseFactored.ser.gz、chinesePCFG.ser.gz、xinhuaFactored.ser.gz、xinhuaFactoredSegmenting.ser.gz、xinhuaPCFG.ser.gz。factored包含詞匯化信息,PCFG是更快更小的模板,xinhua據(jù)說是根據(jù)大陸的《新華日?qǐng)?bào)》訓(xùn)練的語料,而Chinese同時(shí)包含香港和臺(tái)灣的語料,xinhuaFactoredSegmenting.ser.gz可以對(duì)未分詞的句子進(jìn)行句法解析。API調(diào)用流程指定模型文件,指定一些參數(shù)信息。Stringgrammars="edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz";加載模型文件,初始化用于句法分析的類LexicalizedParser。LexicalizedParser
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇州降噪聲屏障施工方案
- 個(gè)人抵押豬舍合同范本
- 區(qū)域集體合同范本
- 園林護(hù)欄安裝施工合同范本
- 個(gè)人用人合同合同范例
- 變更承包方合同范例
- 輕型橋架施工方案
- KTV業(yè)績(jī)合同范本
- PVC線管采購(gòu)合同范例
- 分期扣款合同范例
- 2025年1月日歷表(含農(nóng)歷-周數(shù)-方便記事備忘)
- 2024年同等學(xué)力人員申請(qǐng)碩士學(xué)位英語試卷與參考答案
- 臨床用血管理培訓(xùn)
- 介入手術(shù)室護(hù)理風(fēng)險(xiǎn)
- 春季安全行車教育培訓(xùn)
- 2024年江蘇省公務(wù)員錄用考試《行測(cè)》題(A類)
- 工業(yè)自動(dòng)化生產(chǎn)線操作手冊(cè)
- 《走進(jìn)神奇》說課稿
- 江蘇省無錫市2024年中考數(shù)學(xué)試卷(含答案)
- 2024年內(nèi)蒙古中考語文試卷五套合卷附答案
- 2024年保密知識(shí)測(cè)試試題及答案(奪冠)
評(píng)論
0/150
提交評(píng)論