版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第9章文本及在線數(shù)據(jù)的挖掘文本數(shù)據(jù)挖掘(TextMining)是指從大量文本數(shù)據(jù)中抽取出有價(jià)值的知識(shí),并且利用這些知識(shí)重新組織信息的過(guò)程。從這個(gè)意義上講,文本數(shù)據(jù)挖掘是數(shù)據(jù)挖掘與分析的一個(gè)分支。文本挖掘利用智能算法,分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問(wèn)題查詢、網(wǎng)頁(yè)等),抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息。第9章文本及在線數(shù)據(jù)的挖掘第9章文本及在線數(shù)據(jù)的挖掘在線分析處理是一種重要的商務(wù)智能分析方法。這種技術(shù)主要對(duì)多維數(shù)據(jù)集進(jìn)行多角度、多層次的分析,幫助管理者獲取業(yè)務(wù)洞察。在線數(shù)據(jù)分析也稱聯(lián)機(jī)分析處理,是一門新興的軟件技術(shù),它專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持,可以應(yīng)分析人員的要求,快速靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀易懂的形式將查詢結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)的經(jīng)營(yíng)狀況,了解市場(chǎng)需求并制定正確的方案,以增加效益。第9章文本及在線數(shù)據(jù)的挖掘第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.1文本數(shù)據(jù)的預(yù)處理
1.字符及字符串統(tǒng)計(jì)
2.字符串連接與拆分
3.字符串查詢與替換9.1.2文本挖掘及可視化
1.文本挖掘的概念與方法
2.Python分詞包jieba
3.文本數(shù)據(jù)的收集與分詞
4.詞頻與詞云分析及可視化9.1.1文本數(shù)據(jù)的預(yù)處理1.字符及字符串統(tǒng)計(jì)直接使用len()函數(shù)可分別對(duì)字段自身長(zhǎng)度、列表長(zhǎng)度和嵌套列表長(zhǎng)度進(jìn)行統(tǒng)計(jì),len()函數(shù)也可以直接對(duì)中文字段進(jìn)行操作。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.1文本數(shù)據(jù)的預(yù)處理1.字符及字符串統(tǒng)計(jì)9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Ins='abcdef’#字符串的定義len(s)#字符串的長(zhǎng)度Out6InS=["Python","Data","Visual","暨南大學(xué)","管理學(xué)院"];#字符串列表長(zhǎng)度len(S)#字符串的個(gè)數(shù)Out5In[len(s)forsinS]#字符串列表中各字符串長(zhǎng)度Out[6,4,6,4,4]9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(1)字符串的連接方法1:加號(hào)'+'直接使用加號(hào)'+'就可以實(shí)現(xiàn)對(duì)兩個(gè)或多個(gè)字符串進(jìn)行連接。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化In'Excel'+''+'and'+''+'Python'Out'ExcelandPython'9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(1)字符串的連接方法2:字符串格式化輸出有時(shí)對(duì)連接有自定義操作,這時(shí)可以采用字符串格式化輸出,這種方法更為常用。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化Inwebsite='%s%s%s%s%s'%('Excel','','and','','Python’);websiteOut'ExcelandPython'9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(1)字符串的連接方法3:join()如果操作的對(duì)象是列表,也可以采用join()函數(shù)。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InlistStr=['Excel','','and','','Python']''.join(listStr)Out'ExcelandPython'9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(2)字符串的拆分Python內(nèi)置了針對(duì)字串的拆分函數(shù)split()。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InS1='中國(guó);廣東省;廣州市;天河區(qū)'S1.split(';’)#按;拆分Out['中國(guó)','廣東省','廣州市','天河區(qū)']InS2='暨南大學(xué)、管理學(xué)院、企業(yè)管理系'S2.split('、’)#按、拆分Out['暨南大學(xué)','管理學(xué)院','企業(yè)管理系']9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分(2)字符串的拆分針對(duì)字符串列表(相當(dāng)于一段段文本),可以自定義一個(gè)列表拆分函數(shù)list_split()。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化9.1.1文本數(shù)據(jù)的預(yù)處理2.字符串連接與拆分第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InS3=['廣州大學(xué);廣州發(fā)展研究院','暨南大學(xué);文學(xué)院;歷史系','暨南大學(xué);管理學(xué)院']Indeflist_split(lists,sep):#列表拆分函數(shù)new_list=[]foriinrange(len(lists)):new_list.append(list(filter(None,lists[i].split(sep))))returnnew_listInlist_split(S3,';')Out[['廣州大學(xué)','廣州發(fā)展研究院'],['暨南大學(xué)','文學(xué)院','歷史系'],['暨南大學(xué)','管理學(xué)院']]9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(1)in函數(shù)在Python中in可以實(shí)現(xiàn)直接查詢(集合操作)。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化In'暨南大學(xué)'inS2OutTrue9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(1)in函數(shù)根據(jù)in的特點(diǎn)可以自定義一個(gè)字符串列表查詢函數(shù)find_words()。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化Indeflist_find(lists,word):return[lists[i]foriinrange(len(lists))if(wordinlists[i])==True]Inlist_find(S3,'暨南大學(xué)')Out['暨南大學(xué);文學(xué)院;歷史系','暨南大學(xué);管理學(xué)院']9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(2)replace函數(shù)replace函數(shù)可以對(duì)字符串的內(nèi)容進(jìn)行替換。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化InS2.replace('、',';')Out'暨南大學(xué);管理學(xué)院;企業(yè)管理系'9.1.1文本數(shù)據(jù)的預(yù)處理3.字符串查詢與替換(2)replace函數(shù)也可以自定義一個(gè)針對(duì)字符串列表的字符串替換函數(shù)。第9章文本及在線數(shù)據(jù)的挖掘9.1文本數(shù)據(jù)挖掘與可視化Indeflist_replace(lists,old,new):return[lists[i].replace(old,new)foriinrange(len(lists))]Inlist_replace(S3,'暨南大學(xué)','中山大學(xué)')Out['廣州大學(xué);廣州發(fā)展研究院','中山大學(xué);文學(xué)院;歷史系','中山大學(xué);管理學(xué)院']9.1.2文本挖掘及可視化1.文本挖掘的概念與方法文本挖掘是抽取有效、新穎、有用、可理解的、散布在文本文件中的有價(jià)值知識(shí),并且利用這些知識(shí)更好地組織信息的過(guò)程。文本挖掘是數(shù)據(jù)挖掘的一個(gè)應(yīng)用分支,用于基于文本信息的知識(shí)發(fā)現(xiàn)。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法文本挖掘利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源(如文檔、電子表格、客戶電子郵件、問(wèn)題查詢、網(wǎng)頁(yè)等),抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來(lái),但并不意味著簡(jiǎn)單地將數(shù)據(jù)挖掘技術(shù)運(yùn)用到大量文本的集合上就可以實(shí)現(xiàn)文本挖掘,還需要做很多準(zhǔn)備工作。文本挖掘的準(zhǔn)備工作由文本收集、文本分析和特征修剪三個(gè)步驟組成。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法(1)文本收集:需要挖掘的文本數(shù)據(jù)可能具有不同的類型,且分散在很多地方。需要尋找和檢索那些所有被認(rèn)為可能與當(dāng)前工作相關(guān)的文本。一般地,系統(tǒng)用戶都可以定義文本集,但是仍需要一個(gè)用來(lái)過(guò)濾相關(guān)文本的系統(tǒng)。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法(2)文本分析:與數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)相比,文本具有有限的結(jié)構(gòu),或者根本就沒(méi)有結(jié)構(gòu);此外文檔的內(nèi)容是人類所使用的自然語(yǔ)言,計(jì)算機(jī)很難處理其語(yǔ)義。文本數(shù)據(jù)源的這些特殊性使得現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無(wú)法直接應(yīng)用于其上,需要對(duì)文本進(jìn)行分析,抽取代表其特征的元數(shù)據(jù),這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式。其目的在于從文本中掃描并抽取所需要的事實(shí)。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化1.文本挖掘的概念與方法(3)關(guān)鍵詞詞云分析詞云就是對(duì)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺(jué)上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過(guò)濾掉大量的文本信息,使用戶只要一眼掃過(guò)文本就可以領(lǐng)略文本的主旨。好的數(shù)據(jù)可視化,可以使得數(shù)據(jù)分析的結(jié)果更通俗易懂?!霸~云”就是數(shù)據(jù)可視化的一種形式。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化2.Python分詞包jiebaJieba(結(jié)巴分詞)號(hào)稱宇宙最強(qiáng)Python分詞工具,是Python語(yǔ)言中最流行的一個(gè)分詞工具,在自然語(yǔ)言處理等場(chǎng)景被廣泛使用。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化2.Python分詞包jieba(1)安裝9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘In#!pipinstalljiebaOutRequirementalreadysatisfied:jiebainc:\users\lenovo\anaconda3\lib\site-packages(0.42.1)9.1.2文本挖掘及可視化2.Python分詞包jieba(2)簡(jiǎn)單分詞9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inimportjiebawords1=jieba.lcut("我愛(ài)中國(guó)暨南大學(xué)");words1Out['我','愛(ài)','中國(guó)','暨南大學(xué)']句子切分成了5個(gè)詞組的列表。9.1.2文本挖掘及可視化2.Python分詞包jieba(3)全模式分詞9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inwords2=jieba.lcut("我愛(ài)中國(guó)暨南大學(xué)",cut_all=True);words2Out['我','愛(ài)','中國(guó)','暨南','暨南大學(xué)','南大','大學(xué)']全模式分出來(lái)的詞覆蓋面更廣。9.1.2文本挖掘及可視化2.Python分詞包jieba(4)提取關(guān)鍵詞從一個(gè)句子或者一個(gè)段落中提取前K個(gè)關(guān)鍵詞,topK為返回前topK個(gè)權(quán)重最大的關(guān)鍵詞,withWeight返回每個(gè)關(guān)鍵字的權(quán)重值。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化2.Python分詞包jieba9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Insentence="詞云就是對(duì)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺(jué)上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過(guò)濾掉大量的文本信息,使用戶只要一眼掃過(guò)文本就可以領(lǐng)略文本的主旨。其作用是提供用戶在業(yè)務(wù)中的轉(zhuǎn)化率和流失率;揭示了各種業(yè)務(wù)在網(wǎng)站中受歡迎的程度;發(fā)現(xiàn)業(yè)務(wù)流程中存在的問(wèn)題,以及改進(jìn)的效果。"Inimportjieba.analyseasjaja.extract_tags(sentence,topK=5)#句中出現(xiàn)次數(shù)最多的5個(gè)詞Out['文本','關(guān)鍵詞','流失率','用戶','詞云']9.1.2文本挖掘及可視化2.Python分詞包jieba9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inja.extract_tags(sentence,topK=5,withWeight=True)#出現(xiàn)次數(shù)最多的5個(gè)詞及權(quán)重Out[('文本',0.7778130951626087),('關(guān)鍵詞',0.5806607855354349),('流失率',0.30218864460869566),('用戶',0.2966233074965217),('詞云',0.25988625006304344)]9.1.2文本挖掘及可視化3.文本數(shù)據(jù)的收集與分詞(1)粵港澳大灣區(qū)發(fā)展規(guī)劃綱要《粵港澳大灣區(qū)發(fā)展規(guī)劃綱要》是進(jìn)一步提升粵港澳大灣區(qū)在國(guó)家經(jīng)濟(jì)發(fā)展和對(duì)外開(kāi)放中的支撐引領(lǐng)作用,支持香港、澳門融入國(guó)家發(fā)展大局,增進(jìn)香港、澳門同胞福祉,保持香港、澳門長(zhǎng)期繁榮穩(wěn)定,讓港澳同胞同祖國(guó)人民共擔(dān)民族復(fù)興的歷史責(zé)任、共享祖國(guó)繁榮富強(qiáng)的偉大榮光。由中共中央、國(guó)務(wù)院于2019年2月印發(fā)實(shí)施。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.1.2文本挖掘及可視化3.文本數(shù)據(jù)的收集與分詞(2)規(guī)劃綱要正文(節(jié)選)9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Intxt=open("GBAtxt.txt","r",encoding='GBK').read()txt[:200]#顯示前200個(gè)字符Out'《粵港澳大灣區(qū)發(fā)展規(guī)劃綱要》\n前言\n粵港澳大灣區(qū)包括香港特別行政區(qū)、澳門特別行政區(qū)和廣東省廣州市、深圳市、珠海市、佛山市、惠州市、東莞市、中山市、江門市、肇慶市(以下稱珠三角九市),總面積5.6萬(wàn)平方公里,2017年末總?cè)丝诩s7000萬(wàn)人,是我國(guó)開(kāi)放程度最高、經(jīng)濟(jì)活力最強(qiáng)的區(qū)域之一,在國(guó)家發(fā)展大局中具有重要戰(zhàn)略地位。建設(shè)粵港澳大灣區(qū),既是新時(shí)代推動(dòng)形成全面開(kāi)放新格局的新嘗試,也是推動(dòng)“一國(guó)兩制”事'9.1.2文本挖掘及可視化3.文本數(shù)據(jù)的收集與分詞(3)分詞及權(quán)重分析9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inwords=jieba.lcut(txt)#使用精確模式對(duì)文本進(jìn)行分詞words[:10]#顯示前10個(gè)詞Out'《','粵港澳','大灣','區(qū)','發(fā)展','規(guī)劃','綱要','》','\n','前言']9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘InWi=ja.extract_tags(txt,topK=10,withWeight=True)#文中出現(xiàn)次數(shù)最多的10個(gè)詞及權(quán)重pd.DataFrame(Wi,columns=['關(guān)鍵詞','權(quán)重'])Out關(guān)鍵詞權(quán)重0粵港澳0.1491大灣0.1292建設(shè)0.0943港澳0.0864合作0.0855澳門0.0726發(fā)展0.0717創(chuàng)新0.0708支持0.0659香港0.0579.1.2文本挖掘及可視化4.詞頻與詞云分析及可視化(1)詞頻分析9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Indefwords_freq(words):#定義統(tǒng)計(jì)文中詞出現(xiàn)的頻數(shù)函數(shù)counts={}#通過(guò)鍵值對(duì)的形式存儲(chǔ)詞語(yǔ)及其出現(xiàn)的次數(shù)forwordinwords:iflen(word)==1:continue#單個(gè)字不計(jì)算在內(nèi)else:#遍歷所有詞語(yǔ),每出現(xiàn)一次其值加1counts[word]=counts.get(word,0)+1return(DataFrame(counts.items(),columns=['關(guān)鍵詞','頻數(shù)']))Inwordsfreq=words_freq(words);wordsfreq9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Out關(guān)鍵詞頻數(shù)0粵港澳1171大灣1182發(fā)展2013規(guī)劃194綱要1.........2188勞工12189學(xué)術(shù)界12190建立聯(lián)系12191公眾22192意見(jiàn)反饋1[2193rowsx2columns]9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inwordsfreq.sort_values(by='頻數(shù)’,ascending=False,inplace=True);wordsfreqkeys=wordsfreq.set_index('關(guān)鍵詞');keys[:10]#按詞頻排序,并設(shè)關(guān)鍵詞為索引,取排名前10個(gè)關(guān)鍵詞9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Out頻數(shù)關(guān)鍵詞發(fā)展201建設(shè)192合作155支持128創(chuàng)新122大灣118粵港澳117香港98港澳98國(guó)際919.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Inkeys[:10].plot(kind='barh');Out9.1.2文本挖掘及可視化4.詞頻與詞云分析及可視化(2)詞云分析>pipinstallWordCloud#安裝詞云包9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘InfromwordcloudimportWordCloud#加載詞云包Instrings="".join(words)#用.join將分詞連接為字符串,用空格分隔WC=WordCloud(max_words=50,max_font_size=200,width=1200,height=800,font_path='STZHONGS.TTF',background_color="white")plt.imshow(WC.generate(strings));plt.axis("off")9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘Out9.1.2文本挖掘及可視化4.詞頻與詞云分析及可視化注意在做該圖時(shí)并未刪除一些停止詞。停止詞是指在句子中無(wú)關(guān)緊要的詞語(yǔ),例如標(biāo)點(diǎn)符號(hào)、指示代詞等等,做分詞前要先將這些詞去掉。分詞方法cut不支持直接過(guò)濾停止詞,需要手動(dòng)處理。限于篇幅這里從略。9.1文本數(shù)據(jù)挖掘與可視化第9章文本及在線數(shù)據(jù)的挖掘9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡(jiǎn)單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取2.居民消費(fèi)數(shù)據(jù)的抓取9.2.2網(wǎng)絡(luò)數(shù)據(jù)爬蟲及分析1.股票數(shù)據(jù)的抓取與分析2.Python爬蟲步驟3.爬蟲數(shù)據(jù)的分析練習(xí)題9(網(wǎng)上存在大量的在線數(shù)據(jù),如何獲取這些數(shù)據(jù)是大家所關(guān)心的.下面我們以中商情報(bào)網(wǎng)(/)的中商產(chǎn)業(yè)研究院數(shù)據(jù)庫(kù)(/)平臺(tái)為例介紹這類數(shù)據(jù)的獲取和分析。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘中商情報(bào)網(wǎng)是國(guó)內(nèi)第三方市場(chǎng)研究機(jī)構(gòu)和企業(yè)綜合咨詢服務(wù)提供商。已構(gòu)建起企業(yè)商業(yè)情報(bào)數(shù)據(jù)庫(kù),致力于為企業(yè)中高層管理人員、企事業(yè)發(fā)展研究部門人員、市場(chǎng)投資人士、投行及咨詢行業(yè)人士、投資專家等提供各行業(yè)的市場(chǎng)研究資料和商業(yè)競(jìng)爭(zhēng)情報(bào);致力于為國(guó)內(nèi)外各行業(yè)企業(yè)、科研院所、社會(huì)團(tuán)體和政府部門提供專業(yè)的行業(yè)市場(chǎng)研究、行業(yè)專項(xiàng)咨詢、項(xiàng)目可行性研究、IPO咨詢、商業(yè)計(jì)劃書等服務(wù)。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡(jiǎn)單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取中商情報(bào)網(wǎng)上的很多數(shù)據(jù)都是以表格形式出現(xiàn)的,對(duì)少量的表格數(shù)據(jù),我們可以用簡(jiǎn)單的拷貝方式獲取數(shù)據(jù)。進(jìn)入網(wǎng)頁(yè)/data/area/440000/,可選取數(shù)據(jù)并復(fù)制到Python中。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡(jiǎn)單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡(jiǎn)單數(shù)據(jù)的獲取及分析1.行政區(qū)劃數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡(jiǎn)單數(shù)據(jù)的獲取及分析2.居民消費(fèi)數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.1簡(jiǎn)單數(shù)據(jù)的獲取及分析2.居民消費(fèi)數(shù)據(jù)的抓取9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘很多網(wǎng)站都會(huì)以表格的形式展示數(shù)據(jù),但如果表格中的數(shù)據(jù)較多或有多頁(yè)數(shù)據(jù)時(shí),顯然使用復(fù)制的方法是不可行的。如對(duì)于下圖的我國(guó)宏觀經(jīng)濟(jì)的綜合數(shù)據(jù),可通過(guò)爬蟲技術(shù)獲取這些數(shù)據(jù)。從下圖可以看出,我們需要的數(shù)據(jù)都保存在表格中,所以這里可以使用pandas獲取表格數(shù)據(jù)。在pandas庫(kù)中有一個(gè)方法read_html可以直接讀取網(wǎng)頁(yè)中的圖表,然后遍歷出每一個(gè)表格。9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘打開(kāi)網(wǎng)址/stock/a/,其中有幾個(gè)主表數(shù)據(jù)。9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘若表數(shù)據(jù)量不大,也可以用前文介紹的復(fù)制的方法抓取數(shù)據(jù),但若表內(nèi)容較多,這時(shí)使用復(fù)制的方法顯然是不可行的,需通過(guò)編程的方法抓取數(shù)據(jù)。9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取InImportrequestsurl=‘/stock/a’#A股信息html=requwsts.get(url).content.decode(‘utf-8);In#獲取第1張表格的數(shù)據(jù):A股公司營(yíng)業(yè)收入排行榜pd.read_html(html,header=0)[0]9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取In#獲取第2張表格的數(shù)據(jù):A股公司凈利潤(rùn)排行榜pd.read_html(html,header=0)[1]9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取In#獲取第3張表格的數(shù)據(jù):A股公司利潤(rùn)總額排行榜pd.read_html(html,header=0)[2]9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘1.A股收益數(shù)據(jù)的獲取9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘2.A股股票信息的獲取及分析9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘2.A股股票信息的獲取及分析獲取這種數(shù)據(jù)需要通過(guò)代碼進(jìn)行網(wǎng)頁(yè)爬蟲,由于股票數(shù)據(jù)設(shè)計(jì)很多頁(yè),這時(shí)可通過(guò)循環(huán)遍歷出每一個(gè)表,然后將獲取的數(shù)據(jù)保存在表格中即可。下面僅介紹獲取廣東省上市公司(共599家)的數(shù)據(jù)并進(jìn)行簡(jiǎn)單分析。9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘2.A股股票信息的獲取及分析9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘2.A股股票信息的獲取及分析由于每頁(yè)只顯示20只股票的數(shù)據(jù),所以需通過(guò)編程來(lái)獲取數(shù)據(jù),首先構(gòu)建一個(gè)獲取當(dāng)前頁(yè)的函數(shù),通過(guò)pageNum的數(shù)字來(lái)獲取不同頁(yè)。9.2.2復(fù)雜數(shù)據(jù)的獲取及分析9.2在線數(shù)據(jù)的獲取與分析第9章文本及在線數(shù)據(jù)的挖掘
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度房建防水勞務(wù)分包合同(含設(shè)計(jì)變更)范本3篇
- 貴州商學(xué)院《房地產(chǎn)法學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴州黔南科技學(xué)院《建筑供配電與照明》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴州農(nóng)業(yè)職業(yè)學(xué)院《中國(guó)美術(shù)鑒賞A》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五年度房地產(chǎn)開(kāi)發(fā)項(xiàng)目工程墊資合作協(xié)議3篇
- 新疆博爾塔拉蒙古自治州(2024年-2025年小學(xué)六年級(jí)語(yǔ)文)部編版競(jìng)賽題(下學(xué)期)試卷及答案
- 二零二五年度園林綠化工程保險(xiǎn)服務(wù)合同6篇
- 貴州民族大學(xué)《綜合英語(yǔ)一》2023-2024學(xué)年第一學(xué)期期末試卷
- Unit 8 Lesson 2 My home country2024-2025學(xué)年新教材七年級(jí)英語(yǔ)上冊(cè)同步說(shuō)課稿(冀教版2024)河北專版
- 中藥基礎(chǔ)知識(shí)培訓(xùn)課件
- 新人教版小學(xué)英語(yǔ)五年級(jí)下冊(cè)單詞默寫版
- 形容詞副詞(專項(xiàng)訓(xùn)練)-2023年中考英語(yǔ)二輪復(fù)習(xí)
- 搞笑小品劇本《我的健康誰(shuí)做主》臺(tái)詞完整版-宋小寶徐崢
- SAP中國(guó)客戶名單
- 視頻監(jiān)控系統(tǒng)PPT幻燈片課件(PPT 168頁(yè))
- GM∕T 0045-2016 金融數(shù)據(jù)密碼機(jī)技術(shù)規(guī)范
- 人力資源部年度工作計(jì)劃表(超級(jí)詳細(xì)版)
- 《輪機(jī)英語(yǔ)》試題(二三管輪)
- 部編版二年級(jí)語(yǔ)文下冊(cè)《蜘蛛開(kāi)店》
- 北師大二年級(jí)數(shù)學(xué)上教學(xué)反思
- 空調(diào)系統(tǒng)維保記錄表格模板
評(píng)論
0/150
提交評(píng)論