




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《Python人工智能技術(shù)與應(yīng)用》能力模塊五掌握基于深度學(xué)習(xí)的自然語言處理技術(shù)應(yīng)用任務(wù)二完成文本數(shù)據(jù)采集與預(yù)處理實(shí)訓(xùn)TaskImport任務(wù)導(dǎo)入
公司的汽車門戶網(wǎng)站已經(jīng)有大量的合作廠商決定接入,公司的汽車門戶網(wǎng)站非常的火熱,收到了很多用戶對(duì)各種汽車品牌的評(píng)價(jià)和反饋。現(xiàn)需要對(duì)合作廠商的汽車相關(guān)數(shù)據(jù)進(jìn)行收集和文本預(yù)處理以及文本表示。
你作為該公司數(shù)據(jù)科學(xué)助理,主要負(fù)責(zé)協(xié)助數(shù)據(jù)科學(xué)家完成數(shù)據(jù)的準(zhǔn)備和特征表示的任務(wù)。為后續(xù)建立模型對(duì)汽車口碑進(jìn)行分析做數(shù)據(jù)準(zhǔn)備。素養(yǎng)目標(biāo)引導(dǎo)問題的過程中,培養(yǎng)學(xué)生形成勤于思考的能力獲得分析解決問題以及多元化思考解決問題的方法,形成創(chuàng)新意識(shí)。TaskObject任務(wù)目標(biāo)知識(shí)目標(biāo)了解文本數(shù)據(jù)的定義。了解文本數(shù)據(jù)的主要特點(diǎn)。了解文本數(shù)據(jù)的采集方法。了解文本數(shù)據(jù)的數(shù)據(jù)來源。了解中文文本預(yù)處理的流程以及與英文文本預(yù)處理的區(qū)別。技能目標(biāo)能夠列舉實(shí)現(xiàn)汽車評(píng)論文本數(shù)據(jù)的采集和預(yù)處理相關(guān)Python工具。能夠思考出汽車評(píng)論文本數(shù)據(jù)的采集和預(yù)處理的實(shí)現(xiàn)流程,在思考中鍛煉系統(tǒng)性的職業(yè)思維。新
授Python實(shí)現(xiàn)汽車評(píng)論文本的采集和預(yù)處理04CONTENTS目錄文本數(shù)據(jù)的定義與主要特點(diǎn)01文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源02自然語言文本數(shù)據(jù)預(yù)處理流程0301文本數(shù)據(jù)的定義與主要特點(diǎn)
文本數(shù)據(jù)是用字符串形式表示的信息??梢允俏淖帧⒄Z音、圖像或其他多媒體形式在計(jì)算機(jī)中存儲(chǔ)和處理為字符串格式;也可以是文章、評(píng)論、社交媒體消息、電子郵件等表示各種類型的信息形式。定義
由于目前的大多數(shù)信息(80%)是以文本的形式來保存,文本挖掘被認(rèn)為具有較高的商業(yè)潛在價(jià)值。應(yīng)用形式(一)文本數(shù)據(jù)的定義01文本數(shù)據(jù)的定義與主要特點(diǎn)(二)文本數(shù)據(jù)的主要特點(diǎn)半結(jié)構(gòu)化,包含標(biāo)題、作者、分類等結(jié)構(gòu)字段,又包含非結(jié)構(gòu)化的文字內(nèi)容1蘊(yùn)含語義、情感,如一詞多義、一義多詞、起承轉(zhuǎn)合、時(shí)間關(guān)系等2文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源02(一)文本數(shù)據(jù)的采集方法
如scikit-learn中包含20類新聞數(shù)據(jù)集和口語語料庫。Keras中的IMDB評(píng)論數(shù)據(jù)集和商品評(píng)論數(shù)據(jù)集。Python及其第三方庫內(nèi)置的數(shù)據(jù)集文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源02(一)文本數(shù)據(jù)的采集方法開源數(shù)據(jù)集
當(dāng)前已有很多公開的NLP數(shù)據(jù)集支撐相關(guān)的研究和應(yīng)用分析,如github項(xiàng)目:CLUEDatasetSearch(收集了眾多中英文NLP數(shù)據(jù)集)、funNLP(分門別類地組織了眾多的NLP數(shù)據(jù)集和項(xiàng)目)、awesome-chinese-nlp(收集了中文自然語言處理相關(guān)資料)等。文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源02(一)文本數(shù)據(jù)的采集方法網(wǎng)絡(luò)爬蟲
很多情況所研究的是面向某種特定的領(lǐng)域,這些開放語料庫經(jīng)常無法滿足使用需求,可使用爬蟲爬取相應(yīng)的信息。文本數(shù)據(jù)的采集方法和數(shù)據(jù)來源02(二)文本數(shù)據(jù)的來源參考
文本數(shù)據(jù)集的來源通常是在調(diào)查報(bào)告、社交媒體、在線評(píng)論中。以社交媒體為例,在社交平臺(tái)上,人們通過社交帖子中的語言和表情符號(hào)表達(dá)自己的想法、感受和行動(dòng)。社交帖子對(duì)于理解目標(biāo)受眾并引起共鳴非常有價(jià)值,社交媒體可視為世界上最大的文本數(shù)據(jù)池。
社交媒體上存在著大量文本數(shù)據(jù)更多的文本數(shù)據(jù)還來源于社交論壇、新聞報(bào)道、訪談、學(xué)術(shù)研究論文、演講稿等。自然語言文本數(shù)據(jù)預(yù)處理流程03
文本數(shù)據(jù)預(yù)處理是指對(duì)原始文本數(shù)據(jù)進(jìn)行清洗、格式化、結(jié)構(gòu)化處理,以便于后續(xù)的分析和模型訓(xùn)練。包括但不限于去除噪音數(shù)據(jù)、標(biāo)準(zhǔn)化語言、分詞、詞干提取、去除停用詞等步驟。(一)中文文本預(yù)處理流程(以中文文本為例)去除無效標(biāo)簽:例如從網(wǎng)頁源代碼獲取的文本信息中包含HTML標(biāo)簽?;炯m錯(cuò):對(duì)于文本中明顯的人名、地名等常用語和特定場(chǎng)景用語的錯(cuò)誤進(jìn)行糾正。去除空白:文本中可能包含的大量空格、空行等需要去除。去標(biāo)點(diǎn)符號(hào):去除句子中的標(biāo)點(diǎn)符號(hào)、特殊符號(hào)等。分詞:將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。去停用詞:比如“的”“是”等。自然語言文本數(shù)據(jù)預(yù)處理流程03(二)中英文文本預(yù)處理的主要區(qū)別對(duì)英文預(yù)處理要包括拼寫檢查,比如“HeloWorld”這樣的錯(cuò)誤。詞干提?。╯temming)和詞形還原(lemmatization)英文文本可直接處理得到單詞的原始形態(tài)。比如,"faster"、"fastest",都變?yōu)?fast";“l(fā)eafs”“l(fā)eaves”,都變?yōu)?leaf"。拼寫英文可以直接用最簡(jiǎn)單的空格和標(biāo)點(diǎn)符號(hào)完成分詞。中文詞沒有一個(gè)形式上的分界符。分詞自然語言文本數(shù)據(jù)預(yù)處理流程03(二)中英文文本預(yù)處理的主要區(qū)別步驟中文文本預(yù)處理英文文本預(yù)處理分詞中文文本需要分詞,將連續(xù)的漢字切分成離散的詞語英文文本通常已經(jīng)是離散的單詞形式停用詞過濾中文文本需要去除常見但無實(shí)際含義的詞語,如“的”“是”等英文文本也需要去除停用詞,如“the”“a”等詞干提取/詞形還原中文文本不需要詞干提取,但可以使用詞形還原進(jìn)行規(guī)范化處理英文文本需要進(jìn)行詞干提取,如將“running”轉(zhuǎn)化為“run”實(shí)體識(shí)別中文文本需要進(jìn)行實(shí)體識(shí)別,如人名、地名、機(jī)構(gòu)名等英文文本也可以進(jìn)行實(shí)體識(shí)別,如人名、公司名等詞向量表示中文文本需要進(jìn)行中文詞向量表示,如使用Word2Vec或BERT等模型進(jìn)行訓(xùn)練英文文本也可以進(jìn)行詞向量表示,使用相應(yīng)的模型進(jìn)行訓(xùn)練編碼轉(zhuǎn)換中文文本需要將文本從GBK或GB2312等編碼轉(zhuǎn)換為UTF-8編碼英文文本通常已經(jīng)是UTF-8編碼清洗/過濾中文文本需要清洗去除一些噪聲、無用信息和不規(guī)范的文本格式,如網(wǎng)頁標(biāo)簽等英文文本也需要進(jìn)行類似的清洗和過濾文本歸一化中文文本需要進(jìn)行拼音轉(zhuǎn)化、數(shù)字規(guī)范化、繁簡(jiǎn)體轉(zhuǎn)換等處理英文文本通常不需要進(jìn)行文本歸一化處理
中英文文本預(yù)處理步驟區(qū)別表Python實(shí)現(xiàn)汽車評(píng)論文本的采集和預(yù)處理04Jieba庫采用了基于前綴詞典的分詞方法,可以實(shí)現(xiàn)高效準(zhǔn)確的中文分詞。Jieba庫支持三種分詞模式:精確模式、全模式和搜索引擎模式。其中,精確模式是默認(rèn)模式,它試圖將文本切分成最精確的詞語;全模式則將文本中可能的詞語全部切分出來;搜索引擎模式則在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次進(jìn)行切分。Jieba還提供了一些其他的功能,比如關(guān)鍵詞提取、詞性標(biāo)注、繁體轉(zhuǎn)簡(jiǎn)體等。Jieba庫是一個(gè)開源的Python庫,可以通過pip安裝。它的使用非常簡(jiǎn)單,只需要導(dǎo)入庫并調(diào)用相應(yīng)的函數(shù)即可。(一)工具介紹
Jieba(結(jié)巴)是一個(gè)中文分詞庫,它可以將中文文本分成一個(gè)一個(gè)的詞語。Python實(shí)現(xiàn)汽車評(píng)論文本的采集和預(yù)處理04(二)實(shí)現(xiàn)流程1.通過pip命令安裝Jieba庫。代碼示例:!pipinstalljieba2.對(duì)文本進(jìn)行分詞,使用默認(rèn)分詞模式。代碼示例:importjieba<br>seg_list=jieba.cut("我來到清華大學(xué)",cut_all=False)<br>print("DefaultMode:"+"/".join(seg_list))3.將"自然語言處理"添加到詞典中,以便在分詞時(shí)被識(shí)別。代碼示例:jieba.add_word("自然語言處理")4.將"機(jī)器學(xué)習(xí)"從詞典中刪除。代碼示例:jieba.del_word("機(jī)器學(xué)習(xí)")Python實(shí)現(xiàn)汽車評(píng)論文本的采集和預(yù)處理04(二)實(shí)現(xiàn)流程5.使用TF-IDF算法提取關(guān)鍵詞,返回前3個(gè)關(guān)鍵詞及其權(quán)重。代碼示例:importjieba.analyse<br>text="結(jié)巴是一個(gè)優(yōu)秀的中文分詞工具,使用方便,效果出眾"<br>keywords=jieba.analyse.extract_tags(text,topK=3,withWeight=True)<br>print(keywords)6.對(duì)文本進(jìn)行詞性標(biāo)注,輸出每個(gè)詞及其對(duì)應(yīng)的詞性標(biāo)記。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- TD/T 1028-2010鄉(xiāng)(鎮(zhèn))土地利用總體規(guī)劃數(shù)據(jù)庫標(biāo)準(zhǔn)
- JJG(煙草)31-2021煙草數(shù)字投影儀
- 廣東省肇慶市2024-2025屆高三上學(xué)期第二次模擬考試 物理 含答案練習(xí)題
- 化學(xué)●廣東卷丨2023年廣東省普通高中學(xué)業(yè)水平選擇性考試化學(xué)試卷及答案
- 考研復(fù)習(xí)-風(fēng)景園林基礎(chǔ)考研試題附參考答案詳解(基礎(chǔ)題)
- 風(fēng)景園林基礎(chǔ)考研資料試題及參考答案詳解(鞏固)
- 2024年山東華興機(jī)械集團(tuán)有限責(zé)任公司人員招聘筆試備考題庫附答案詳解
- 2024年濱州新能源集團(tuán)有限責(zé)任公司及權(quán)屬公司公開招聘工作人員遞補(bǔ)筆試備考題庫附答案詳解(綜合卷)
- 2023國(guó)家能源投資集團(tuán)有限責(zé)任公司第一批社會(huì)招聘筆試備考題庫帶答案詳解
- 2025年河北省定州市輔警招聘考試試題題庫附答案詳解(突破訓(xùn)練)
- (2025)紀(jì)檢監(jiān)察業(yè)務(wù)知識(shí)考試題及含答案
- (正式版)HGT 6313-2024 化工園區(qū)智慧化評(píng)價(jià)導(dǎo)則
- 《分析化學(xué)》期末考試試卷(A)及答案
- 燒烤店菜單模板
- 電大漢語言文學(xué)專業(yè)本科社會(huì)實(shí)踐調(diào)查報(bào)告
- 11-059 職業(yè)技能鑒定指導(dǎo)書 繼電保護(hù)(第二版)(11-059職業(yè)技能鑒定指導(dǎo)書職業(yè)標(biāo)準(zhǔn)試題庫)
- GMP基礎(chǔ)知識(shí)(新員工培訓(xùn))
- LGJ鋼芯鋁絞線參數(shù)
- 機(jī)械加工工藝卡片實(shí)例(共12頁)
- 油庫安全點(diǎn)檢表
- 金屬材料力學(xué)性能檢測(cè)樣品制樣作業(yè)指導(dǎo)書
評(píng)論
0/150
提交評(píng)論