




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
自然語言處理預訓練模型數(shù)據(jù)準備自然語言處理模型應用課堂導入你知道自然語言處理的主要研究方向是什么嗎?文本分類文本生成信息抽取文本挖掘語音識別語音合成問答系統(tǒng)輿情分析機器翻譯項目目標(1)了解常用的自然語言處理的數(shù)據(jù)集及格式。(2)掌握文本分類數(shù)據(jù)處理方法。(3)掌握文本分類數(shù)據(jù)集加載的方法。項目描述自然語言處理是研究計算機處理人類語言的一門技術,是指讓機器人理解并解釋人類表達、說話方式的能力,主要研究方向包括:信息抽取、文本生成、問答系統(tǒng)、對話系統(tǒng)、文本挖掘、語音識別、語音合成、輿情分析、機器翻譯等。在機器學習中,最為基礎的一項工作就是數(shù)據(jù)準備。如何將大量的數(shù)據(jù)通過處理缺失數(shù)據(jù)、處理重復數(shù)據(jù)和處理異常數(shù)據(jù)等操作,得到數(shù)據(jù)處理和機器學習所需的有效數(shù)據(jù)是一項非常重要的工作。自然語言處理的數(shù)據(jù)集及格式自然語言處理的數(shù)據(jù)集通常有文本類、語音類和圖像類,其中文本類的數(shù)據(jù)集格式主要為txt純文本格式、Json格式以及表格形式等,接下來將對部分數(shù)據(jù)集及其格式進行解釋說明。DuEE數(shù)據(jù)集BSTC數(shù)據(jù)集weibo_senti_100k數(shù)據(jù)集八類情感分類數(shù)據(jù)集自然語言處理的數(shù)據(jù)集及格式DuEE是用于事件提取的大規(guī)模通用中文數(shù)據(jù)集。它由17000個句子組成,其中包含20000個事件,共65個事件類型和相應的人工注釋參數(shù)。根據(jù)百度的熱門搜索板選擇和確定事件類型。65個事件類型不僅包括傳統(tǒng)事件提取評估中的常見事件類型,例如“婚姻,辭職和地震”,還包括具有鮮明的時間特征的事件類型。數(shù)據(jù)集包含約17000個句子,其中包括約12000個句子在訓練集中,1500個在驗證集中和3500個在測試集中。DuEE數(shù)據(jù)集中采用Json格式表示,示例數(shù)據(jù)格式如圖:1DuEE數(shù)據(jù)集自然語言處理的數(shù)據(jù)集及格式BSTC(BaiduSpeechTranslationCorpus,百度語音翻譯語料庫)是用于自動同聲傳譯的大規(guī)模數(shù)據(jù)集。BSTC1.0版包含50個小時的真實演講,包括三個部分,音頻文件,描述文件和補充文件。語料庫可用于構(gòu)建自動同聲傳譯系統(tǒng)。語料庫是從中國普通話的談話和報道中收集的,包括科學,技術,文化,經(jīng)濟等。BSTC數(shù)據(jù)集中的描述文件采用Json格式表示,示例數(shù)據(jù)格式如下:2BSTC數(shù)據(jù)集自然語言處理的數(shù)據(jù)集及格式2BSTC數(shù)據(jù)集自然語言處理的數(shù)據(jù)集及格式另外補充文件包括talks.txt和speakers.txt,兩個文件都采用txt格式表示,示例數(shù)據(jù)格式表示如下:talks.txt2BSTC數(shù)據(jù)集speakers.txt自然語言處理的數(shù)據(jù)集及格式weibo_senti_100k數(shù)據(jù)集的數(shù)據(jù)來源于新浪微博的各種評論,共10萬多條數(shù)據(jù)。數(shù)據(jù)格式為:微博內(nèi)容”review“,帶情感標注”label“,1表示正向評論,0表示負向評論,正負向評論各5萬條數(shù)據(jù)。weibo_senti_100k數(shù)據(jù)集采用表格格式表示,示例數(shù)據(jù)格式如下:3weibo_senti_100k數(shù)據(jù)集labelreview620500太過分了@Rexzhenghao//@Janie_Zhang:最近負面新聞越來越多呀...682630希望你?得好?我本"??史"[暈][哈哈]@Pete三姑父420211[給力]感謝所有支持的芝麻![愛你]777712013最后一天,在新加坡開心度過,向所有的朋友們問聲:新年快樂!2014年,我們會更好[調(diào)...1003990大中午出門辦事找錯路,曝曬中。要多杯具有多杯具。[淚][淚][汗]247981[抱抱]
吉祥書8.8折優(yōu)惠>>>自然語言處理的數(shù)據(jù)集及格式八類情感分類數(shù)據(jù)集的數(shù)據(jù)來源主要是微博上的一些評論內(nèi)容,共26462條數(shù)據(jù)。數(shù)據(jù)集文件存放在實訓平臺”data“目錄下,文件名為”moods_classify8_unprocessed.xlsx“,包含缺失值、重復值和異常值。數(shù)據(jù)標簽如表格所示:4八類情感分類數(shù)據(jù)集labelsplit0.0none1.0like2.0disgust3.0happiness4.0sadness5.0anger6.0surprise7.0fear自然語言處理的數(shù)據(jù)集及格式情感分類數(shù)據(jù)集目錄在本次情感分類數(shù)據(jù)準備中,實訓平臺的“data”目錄下只存放了“moods_classify8_unprocessed.xlsx”數(shù)據(jù)集文件,為了使數(shù)據(jù)能夠輸入到模型當中,需要將數(shù)據(jù)集目錄生成為以下格式,目錄中包含訓練集數(shù)據(jù)文件train.txt和測試集數(shù)據(jù)文件test.txt,測試數(shù)據(jù)集用于測試和驗證。但在實際項目中,可以根據(jù)具體需求,額外再生成驗證集數(shù)據(jù)文件用于驗證。4八類情感分類數(shù)據(jù)集自然語言處理的數(shù)據(jù)集及格式情感分類數(shù)據(jù)集文件格式和內(nèi)容生成的訓練集、驗證集和測試集的數(shù)據(jù)文件的編碼格式建議為utf-8格式。內(nèi)容的第一列是文本類別標簽,第二列為文本內(nèi)容,列與列之間以Tab鍵分隔。建議在數(shù)據(jù)集文件第一行填寫列說明"label"和"text",中間以Tab鍵分隔,示例如下:4八類情感分類數(shù)據(jù)集PaddleHub介紹
PaddleHub是一個深度學習模型開發(fā)工具。它提供了可供百億級大數(shù)據(jù)訓練的預訓練模型,利用它可簡化模型訓練和使用的流程。在PaddleHub中可以便捷地獲取這些預訓練模型,完成模型的管理和一鍵預測。
通過PaddleHub,開發(fā)者可以便捷地獲取PaddlePaddle生態(tài)下的所有預訓練模型,包括文本分類模型、詞法分析模型、語義模型、情感分析模型、語言模型、圖像分類模型、目標檢測模型和視頻分類模型等。
PaddleHub介紹
本項目將使用PaddleHub對數(shù)據(jù)集和模型進行加載,并將數(shù)據(jù)集和模型用于后續(xù)的模型訓練和部署,通過以下命令安裝PaddleHub。
PaddleHub安裝完成后就可以通過調(diào)用PaddleHub集成的各種函數(shù)對數(shù)據(jù)集和模型進行加載。pipinstallpaddlehub
文本分類數(shù)據(jù)處理方法
本項目所使用的8類情感分類數(shù)據(jù)集中,存在許多缺失數(shù)據(jù)、重復數(shù)據(jù)以及異常數(shù)據(jù)。接下來介紹使用以下相關函數(shù)對這些數(shù)據(jù)進行查找和處理,以便后續(xù)進行文本數(shù)據(jù)加載和模型訓練。
用于進行文本數(shù)據(jù)查找和處理的相關函數(shù)如下。isnull():查找是否存在缺失數(shù)據(jù)。drop():刪除數(shù)據(jù)。fillna():填充缺失數(shù)據(jù)。duplicated():查找重復數(shù)據(jù)。drop_duplicates():刪除重復數(shù)據(jù)。
查找異常數(shù)據(jù)的常用方法是使用箱線圖,然后將查找到的異常數(shù)據(jù)刪除。文本分類數(shù)據(jù)集加載方法加載自定義數(shù)據(jù)集的流程文本分類數(shù)據(jù)集加載方法
在文本分類數(shù)據(jù)集的加載過程中,首先需要定義數(shù)據(jù)目錄、數(shù)據(jù)模式以及標簽列表,然后根據(jù)指定的數(shù)據(jù)模式讀取相應的數(shù)據(jù)文件,接著對讀取到的文本數(shù)據(jù)進行文本分詞和判斷是否包含頭部,再根據(jù)輸入文本的長度對文本數(shù)據(jù)進行填充和截斷等數(shù)據(jù)處理操作,使文本數(shù)據(jù)轉(zhuǎn)化為模型可接收的數(shù)據(jù)形式。文本分詞數(shù)據(jù)填充和截斷0102文本分類數(shù)據(jù)集加載方法數(shù)據(jù)填充和截斷的示例數(shù)據(jù)集加載
自定義數(shù)據(jù)集類需要繼承基類TextClassificationDataset,具體需要進行以下設置。base_path:定義存放數(shù)據(jù)集的根目錄,用于后續(xù)讀取目錄下的數(shù)據(jù)文件。label_list:定義標簽列表,列表中的標簽與數(shù)據(jù)文本中的標簽一致。tokenizer:定義模型文本分詞器,其表示將對輸入文本完成分詞,將原始輸入文本轉(zhuǎn)化成模型可以接收的輸入數(shù)據(jù)形式。數(shù)據(jù)集加載max_seq_len:定義模型使用的最大序列長度,即每條數(shù)據(jù)的最大長度,若出現(xiàn)顯存不足的問題,則可適當調(diào)低這一參數(shù)。mode:定義數(shù)據(jù)模式,可選項有train、test和val,默認值為train,即表示選擇訓練集數(shù)據(jù)。data_file:定義讀取指定模式的數(shù)據(jù)文件,根據(jù)所選擇的數(shù)據(jù)模式讀取對應的數(shù)據(jù)文件。is_file_with_header:定義是否包含頭部,設置為True表示數(shù)據(jù)文件中包含頭部信息如“l(fā)abel”和“text_a”,若設置為False則表示數(shù)據(jù)文件中不包含頭部信息。處理、拆分和加載情感分類數(shù)據(jù)集實施思路導入項目所需庫查看數(shù)據(jù)集處理數(shù)據(jù)集拆分數(shù)據(jù)集加載數(shù)據(jù)集知識拓展
百度閱讀理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 信息傳遞的有效性與準確性計劃
- 輸血護理查對制度
- 《貴州林東礦業(yè)集團有限責任公司百里杜鵑風景名勝區(qū)金坡鄉(xiāng)紅林煤礦(變更)礦產(chǎn)資源綠色開發(fā)利用方案(三合一)》評審意見
- 第六單元寫作《表達要得體》教學設計 2024-2025學年統(tǒng)編版語文八年級上冊
- 2025年繪畫防疫創(chuàng)意口罩標準教案
- 2025年濟南貨運從業(yè)資格證試題和答案
- 2025年濰坊道路貨運從業(yè)資格證模擬考試官方題下載
- 2025年銅川貨運上崗證考試題庫
- 2025年營口貨車從業(yè)資格證理考試
- 2025年安康道路貨運輸從業(yè)資格證模擬考試題庫
- 建筑施工安全管理存在的問題及對策【15000字(論文)】
- 2024年湖南鐵道職業(yè)技術學院高職單招語文歷年參考題庫含答案解析
- 2024年山西同文職業(yè)技術學院高職單招職業(yè)適應性測試歷年參考題庫含答案解析
- 2025年青海省建筑安全員B證考試題庫
- 制種玉米種子質(zhì)量控制培訓
- 竣工結(jié)算審計服務投標方案(2024修訂版)(技術方案)
- 《森林資源資產(chǎn)評估》課件-森林資源經(jīng)營
- 管道機器人研究綜述
- 《媒介社會學》課件
- 2024年考研政治真題及答案
- 2024年中國高軟化點瀝青市場調(diào)查研究報告
評論
0/150
提交評論