文本數(shù)據(jù)處理 任務(wù)單 高中信息技術(shù)必修1_第1頁
文本數(shù)據(jù)處理 任務(wù)單 高中信息技術(shù)必修1_第2頁
文本數(shù)據(jù)處理 任務(wù)單 高中信息技術(shù)必修1_第3頁
文本數(shù)據(jù)處理 任務(wù)單 高中信息技術(shù)必修1_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第四章作業(yè):《文本數(shù)據(jù)處理》任務(wù)單班級:學(xué)號:姓名:【基礎(chǔ)知識】1.文本數(shù)據(jù)處理主要應(yīng)用在、情報(bào)分析、自動摘要、自動校對、、文本分類、垃圾郵件過濾、、自動應(yīng)答等方面。2.典型的文本處理過程主要包括分詞、特征提取、數(shù)據(jù)分析、結(jié)果呈現(xiàn)等。(1)分詞分詞是將的過程,就是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。(2)特征提?、偬卣髟~:在中文文本分析中可以采用字、詞或短語作為表示。大多數(shù)中文文本分析中采用作為特征項(xiàng)。②特征提?。和ǔS米鳛樘卣髟~;通過特征提取來找出最具代表性、最有效的文本特征。③:根據(jù)專家的知識挑選有價(jià)值的特征;用數(shù)學(xué)建模的方法構(gòu)造評估函數(shù)自動選取特征。(3)文本數(shù)據(jù)分析與應(yīng)用①標(biāo)簽云:文本可視化的一種方式,用表現(xiàn)文本特征,將關(guān)鍵詞按照一定的順序和規(guī)律排列,如頻率遞減、字母順序等,并以的形式代表詞語的重要性。②文本情感分析:通過計(jì)算機(jī)技術(shù)對文本的主觀性、觀點(diǎn)、情緒、極性進(jìn)行挖掘和分析,對文本的_____________做出分類判斷。課后練習(xí)文本數(shù)據(jù)處理的主要應(yīng)用有()①搜索引擎②自動摘要③論文查重④成績查詢⑤自動應(yīng)答A.①④⑤B.①②③⑤C.②③④D.②③④⑤2.下列數(shù)據(jù)處理中,不屬于文本數(shù)據(jù)處理的是()A.對簡歷數(shù)據(jù)進(jìn)行關(guān)鍵信息提取,構(gòu)建人才畫像,匹配精準(zhǔn)崗位B.分析消費(fèi)者的意見數(shù)據(jù),挖掘用戶觀點(diǎn),輔助運(yùn)營決策C.實(shí)時(shí)監(jiān)測景區(qū)的人流數(shù)據(jù),及時(shí)導(dǎo)流、限流D.解析大量合同文檔,有效監(jiān)控風(fēng)險(xiǎn)條款,節(jié)省人力和時(shí)間成本3.小張收集了近段時(shí)間要學(xué)習(xí)的英文單詞,存儲為“data.txt”文件,格式如圖4-18所示。他處理“data.txt”文件中英文單詞的Python程序段如下:file="data.txt"word_c=[]n=0forwordinopen(file):ifword[0:1]=="c":word_c.append(word)print(word)________________print("字母c開頭的單詞個(gè)數(shù):",n)(1)劃線處的代碼為(2)該程序段運(yùn)行后,列表word_c中的數(shù)據(jù)為4.文本數(shù)據(jù)處理的主要步驟包括:①結(jié)果呈現(xiàn)②特征提取③分詞④數(shù)據(jù)分析⑤文本數(shù)據(jù)獲取正確的順序是()A.⑤②④①B.⑤③①④C.⑤③②④①D.⑤①③②④5.分析某種水果的用戶評論內(nèi)容,創(chuàng)建的標(biāo)簽云如圖4-19所示。其中用作文本的特征項(xiàng)的是()A.字B.詞C.句子D.段落6.下列數(shù)據(jù)分析中可能涉及文本情感分析的是()A.用戶評論內(nèi)容分析B.用戶年齡分布分析C.評論發(fā)布設(shè)備分析D.用戶男女比例分析7.某同學(xué)使用Python編程分析《西游記》中詞語的出現(xiàn)頻率,部分代碼如下。(1)請?jiān)趧澗€處填入合適代碼,完善程序。importjieba#導(dǎo)入jieba模塊importpandasaspdimportmatplotlib.pyplotaspltplt.rcParams["font.sans-serif']=["SimHei"]#圖表中文標(biāo)簽顯示為黑體text=open("xyj.txt",encoding="utf-8").read()#打開文本文件cutwords=jieba.Icut(text,cutall=False)#分詞stopwords=["一個(gè)","兩個(gè)","不知","不是","我們"]counts={}#創(chuàng)建字典,存放詞語及其出現(xiàn)次數(shù)forwordincutwords:iflen(word)!=1andwordnotinstopwords:ifwordincounts: ①else:counts[word]=1df=pd.DataFrame([counts]).Tdf=df.reset_index()#重置df對象行索引df.columns=["詞","次數(shù)"]df=df.sort_values("次數(shù)",ascending=False)#對df按“次數(shù)”降序排序dfl=②#df1對象存儲df中的前20行plt.figure(figsize=(8,4))plt.bar(dfl["詞"],dfl["次數(shù)"])plt.title("《西游記》中高頻詞") ③#顯示圖表print(df.head(10))程序中劃線①處應(yīng)填寫的代碼為程序中劃線②處應(yīng)填寫的代碼為程序中劃線③處應(yīng)填寫的代碼為8.使用百度搜索關(guān)鍵詞“春節(jié)”,將采集到的結(jié)果數(shù)據(jù)存儲為chj.txt文件,如圖4-22所示。處理chj.txt文件中的數(shù)據(jù)后生成chjfc.txt文件,如圖4-23所示。請回答下列問題:(1)文件chj.txt中的數(shù)據(jù)為_______________________________(選填:結(jié)構(gòu)化數(shù)據(jù)/非結(jié)構(gòu)化數(shù)據(jù))。(2)處理文件chj.txt中的數(shù)據(jù)生成chjfc.txt文件的過程,一般稱為。(3)編寫如下Python程序,讀取chjfc.txt文件中的數(shù)據(jù),并統(tǒng)計(jì)其中各詞語(2個(gè)及以上文字構(gòu)成)出現(xiàn)的次數(shù)。在劃線處填寫合適代碼,完善程序。txt=open("chjfc.txt","r",encoding="utf-8").read()words=txt.split()wordcounts={}forwordinwords:iflen(word)==1:continueelse: ①#可以為1行或多行代碼#使用word_counts計(jì)算詞語word在words中出現(xiàn)的次數(shù)word_list=list(word_counts.items())#返回所有鍵值對信息,生成列表wordlist.sort(key=lambdax:x[1],reverse=True)#按詞語出現(xiàn)次數(shù)降序排序foriinrange(20):word,times=②print(word,times)程序中劃線①處應(yīng)填寫的代碼是_______________________________程序

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論