快期刊文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第1頁(yè)
快期刊文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第2頁(yè)
快期刊文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第3頁(yè)
快期刊文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第4頁(yè)
快期刊文學(xué)網(wǎng)數(shù)據(jù)采集與分析_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

目錄

1引言............................................................................................................................1

1.1項(xiàng)目背景......................................................................................................1

1.2開發(fā)環(huán)境與工具..........................................................................................2

1.2.1Python簡(jiǎn)介..........................................................................................2

1.2.2JupyterNotebook簡(jiǎn)介......................................................................2

1.2.3Python第三方庫(kù)簡(jiǎn)介..........................................................................2

2需求分析....................................................................................................................4

2.1可行性需求分析..........................................................................................4

2.2采集目標(biāo)功能分析......................................................................................4

2.3關(guān)鍵技術(shù)分析..............................................................................................5

2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................5

2.3.2文件存取技術(shù).......................................................................................6

2.3.3可視化技術(shù)...........................................................................................6

3數(shù)據(jù)采集....................................................................................................................7

3.1采集頁(yè)面分析..............................................................................................7

3.2字段分析......................................................................................................8

3.3編程實(shí)現(xiàn)......................................................................................................8

4數(shù)據(jù)清洗與處理......................................................................................................10

4.1數(shù)據(jù)清洗....................................................................................................10

4.2數(shù)據(jù)儲(chǔ)存....................................................................................................10

5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................12

5.1數(shù)據(jù)準(zhǔn)備....................................................................................................12

5.2數(shù)據(jù)展示....................................................................................................13

5.2.1期刊級(jí)別統(tǒng)計(jì)和占比分析.................................................................13

5.2.2發(fā)行周期和審稿周期統(tǒng)計(jì)與分析.....................................................14

5.2.3期刊收錄數(shù)統(tǒng)計(jì)和分析.....................................................................15

5.2.4主辦單位統(tǒng)計(jì)與分析.........................................................................16

I

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.3統(tǒng)計(jì)分析小結(jié)............................................................................................16

6總結(jié)..........................................................................................................................17

參考資料.........................................................................................................................18

II

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

快期刊文學(xué)網(wǎng)數(shù)據(jù)采集與分析

1引言

隨著現(xiàn)代社會(huì)科技的飛速發(fā)展,數(shù)字經(jīng)濟(jì)大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)的價(jià)值

在日常生活中的各個(gè)領(lǐng)域都在不斷地得到提升,充斥著我們的生活,同時(shí)也受

大數(shù)據(jù)的影響,從小方面的手機(jī)APP頁(yè)面的推薦,購(gòu)物的軟件首頁(yè)推薦,到大

方面城市的交通,全國(guó)的經(jīng)濟(jì)形勢(shì)分析以及前段時(shí)間全國(guó)處于疫情嚴(yán)重期間時(shí)

等等,大數(shù)據(jù)就是這樣以長(zhǎng)期、大量、多樣化的模式對(duì)數(shù)據(jù)進(jìn)行采集、處理、

判斷分析,所分析出來(lái)的信息就涉及到了我們生活的方方面面,給我們的生活

變得更高效也帶來(lái)了許多的便利。

對(duì)于目前社會(huì)現(xiàn)狀而言,在學(xué)習(xí)、工作、出行以及消費(fèi)等所產(chǎn)生的效果是

非常明顯的,大數(shù)據(jù)技術(shù)已經(jīng)很普遍,而且可以看出在這些方面發(fā)揮展現(xiàn)出來(lái)

的影響之大,互聯(lián)網(wǎng)和大數(shù)據(jù)結(jié)合起來(lái)將會(huì)對(duì)未來(lái)有著很大的發(fā)展,大數(shù)據(jù)時(shí)

代也可能在以后衍生出一些新的概念、新的內(nèi)涵或是新的技術(shù)從而變成新時(shí)代

的標(biāo)志。

1.1項(xiàng)目背景

文學(xué)期刊是文章需要在某一領(lǐng)域或者某一學(xué)科通過(guò)數(shù)據(jù)去研究,具有實(shí)驗(yàn)

性且是定期或者不定期的連續(xù)出版的刊物。從愛看書的人來(lái)說(shuō),閱讀是非常熱

衷的,常常能在文章中了解到更多自身所認(rèn)知范圍之外的知識(shí)和見解,刊期的

時(shí)間發(fā)行那更是尤為看重。

對(duì)于刊物而言,在網(wǎng)站上更多的就是要做到發(fā)行和推廣,使其得到影響力

和知名度。所以這就得獲取快期刊網(wǎng)站各個(gè)期刊的每項(xiàng)數(shù)據(jù)等資料,所采集的

信息繁多,這就需要我們對(duì)網(wǎng)頁(yè)進(jìn)行解析,接著通過(guò)Python爬蟲的方法批次

對(duì)需要的資料進(jìn)行獲取。

我的畢業(yè)設(shè)計(jì)就是在網(wǎng)站的反觀面從用戶所需要的角度出發(fā),來(lái)爬取快期

刊網(wǎng)站刊物數(shù)據(jù),對(duì)其每個(gè)字段進(jìn)行分析處理,然后用圖表的方式來(lái)展示呈現(xiàn)

出來(lái)。最后大量的數(shù)據(jù)經(jīng)過(guò)爬取、解析、判斷所分析清洗出來(lái)的就能簡(jiǎn)單明了

的展現(xiàn)出來(lái),給該網(wǎng)站負(fù)責(zé)的團(tuán)隊(duì)清楚明了的知道有多少條刊物數(shù)據(jù)、收錄詳

情等來(lái)供給訪問(wèn)者直面的數(shù)據(jù)。所以我做的畢業(yè)設(shè)計(jì)這塊就是爬取數(shù)據(jù)、判斷

分析,清晰整理、存儲(chǔ)數(shù)據(jù)和可視化這些操作。

1

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

1.2開發(fā)環(huán)境與工具

1.2.1Python簡(jiǎn)介

Python是20世紀(jì)90年代初由荷蘭計(jì)算機(jī)科學(xué)研究學(xué)會(huì)的Guidovan

Rossum(龜叔)獨(dú)立開發(fā)所創(chuàng)造的,那個(gè)時(shí)期Python還不是很看好,當(dāng)時(shí)的

各種因素所受限制,但直至現(xiàn)如今順著時(shí)代的改變,且Python能夠滿足靈活

敏捷的開發(fā),從而開始得到了快速的發(fā)展。

正是隨著計(jì)算機(jī)信息技術(shù)的到來(lái),互聯(lián)網(wǎng)的發(fā)展,各類技術(shù)的突破,

Python最主流的前沿領(lǐng)域也應(yīng)用在了科學(xué)計(jì)算、軟件開發(fā)、云計(jì)算、Web開

發(fā)、自動(dòng)化運(yùn)維、數(shù)據(jù)分析、網(wǎng)絡(luò)爬蟲、大數(shù)據(jù)和人工智能里,在爬取數(shù)據(jù)、

分析清理和數(shù)據(jù)可視化的大數(shù)據(jù)技術(shù)中也可運(yùn)用Python來(lái)完成,這也是其在

數(shù)據(jù)分析的的最主流的語(yǔ)言之一。在Web開發(fā)框架中也是有非常之多都是基于

Python的,例如Flask,Django。搭建Web服務(wù)開發(fā)快、應(yīng)用廣、易學(xué)且高效

的還最屬Python+Django架構(gòu)。同時(shí)Python語(yǔ)言可移植、可拓展、可嵌入性

強(qiáng)又屬于免費(fèi)開源的,相比于其他語(yǔ)言都簡(jiǎn)單易學(xué),還具備了強(qiáng)大的第三方

庫(kù),于是深受許多人青睞。

1.2.2JupyterNotebook簡(jiǎn)介

JupyterNotebook是基于網(wǎng)頁(yè)的非常強(qiáng)大的交互式和展示數(shù)據(jù)信息的應(yīng)用

程序,它能夠?qū)⒋a、注釋、結(jié)果、公式等,一起包括在內(nèi),作為一個(gè)交互和

展示的文檔并且還能共享。它的特點(diǎn)還包括編寫代碼時(shí)Tab能補(bǔ)全、高亮顯示

語(yǔ)法;可以用HTML、PNG、SCG等來(lái)展示計(jì)算結(jié)果;在瀏覽器運(yùn)行時(shí)結(jié)果直接

顯示在代碼塊下面;編寫說(shuō)明語(yǔ)句時(shí)還支持Markdown語(yǔ)言。

JupyterNotebook現(xiàn)在也已經(jīng)成為了多數(shù)編程人士來(lái)做數(shù)據(jù)分析學(xué)習(xí)的選

擇,它不僅能展現(xiàn)整個(gè)分析過(guò)程,還可以寫出自己的筆記,十分方便,且支持

多種語(yǔ)言。

要是用第一步肯定是先安裝,對(duì)于剛?cè)腴T學(xué)士來(lái)說(shuō)JupyterNotebook最

簡(jiǎn)單的安裝方法就是直接安裝Anaconda,因?yàn)樵诎惭bAnaconda時(shí)它本身就默

認(rèn)自帶一起打包安裝了JupyterNotebook。

1.2.3Python第三方庫(kù)簡(jiǎn)介

request庫(kù):基于urllib編寫的Python語(yǔ)言,非常的簡(jiǎn)便,不過(guò)相對(duì)于

urllib來(lái)看,request爬取網(wǎng)頁(yè)數(shù)據(jù)沒有那么的繁瑣,易理解又節(jié)約時(shí)間,但

2

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

使用這個(gè)庫(kù)時(shí)也需先安裝好。

lxml庫(kù):它的主要用途是可以對(duì)HTML或者XML的數(shù)據(jù)進(jìn)行快速高效的解

析,其他的功能也非常多,這里我們所需要使用的是lxml庫(kù)中的etree模塊

來(lái)解析網(wǎng)頁(yè),利用XPath語(yǔ)法尋找定位所需要的字段節(jié)點(diǎn)。

pandas庫(kù):Python中十分核心的數(shù)據(jù)分析庫(kù),有著快速、靈活且明確的

數(shù)據(jù)結(jié)構(gòu),在這里是用來(lái)將解析完分析之后,將最終所要的數(shù)據(jù)存儲(chǔ)為CSV文

件。

NumPy庫(kù):在Python中是個(gè)科學(xué)計(jì)算的拓展程序庫(kù),用來(lái)對(duì)執(zhí)行計(jì)算多維

數(shù)組的,其特點(diǎn)是運(yùn)算速度快且高效。

Matplotlib庫(kù):2D繪圖庫(kù),Python中十分常見用作可視化的工具,簡(jiǎn)單

的編寫代碼就可創(chuàng)建大量基本的2D平面圖,可以繪制的圖形有條形圖、餅

圖、折線圖、散點(diǎn)圖、甘特圖、箱型圖、雷達(dá)圖、樹地圖等等。

pyecharts庫(kù):可以生成Echarts圖表,在Python中能很方便的用數(shù)據(jù)生

成圖表,種類非常豐富,并且呈現(xiàn)的效果絲滑流暢很美觀。

3

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

2需求分析

2.1可行性需求分析

1.技術(shù)可行性

相對(duì)于C語(yǔ)言和Java語(yǔ)言來(lái)說(shuō),Python更易學(xué)易懂而且還更加簡(jiǎn)潔,這

次項(xiàng)目就是運(yùn)用Python來(lái)編寫代碼,完成對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)的爬取,再對(duì)其字

段的分析和清洗處理,最后進(jìn)行數(shù)據(jù)可視化操作。其中在對(duì)快期刊網(wǎng)站爬取數(shù)

據(jù)時(shí),出現(xiàn)了報(bào)錯(cuò)的情況,網(wǎng)頁(yè)數(shù)據(jù)中某些字段是空值導(dǎo)致,之后經(jīng)過(guò)抽頁(yè)觀

察分析網(wǎng)頁(yè)布局時(shí),發(fā)現(xiàn)不僅僅是單個(gè)字段出現(xiàn)的空值,隨后通過(guò)對(duì)字段添加

異常捕獲的方式對(duì)數(shù)據(jù)為空的字段進(jìn)行設(shè)置,然后將分析出來(lái)的有用的數(shù)據(jù)再

設(shè)置好編碼格式,最后編寫代碼存入CSV文件中做存儲(chǔ)。

以上是這次項(xiàng)目的技術(shù)可行性,我也將在接下來(lái)的步驟中完善到位,確保數(shù)

據(jù)的有效性和安全性。

2.項(xiàng)目可行性

社會(huì)的不斷發(fā)展,科技的不斷進(jìn)步,文學(xué)的發(fā)展作為一種社會(huì)意識(shí)形態(tài)也

在隨著時(shí)代發(fā)展,不斷變化,現(xiàn)代的各種書籍刊物之繁多,不僅僅是在現(xiàn)實(shí)生

活中,在網(wǎng)絡(luò)上更是層出不窮。從小到大的不斷學(xué)習(xí)中,我們所接觸到的事務(wù)

不單單僅限于所要學(xué)的書本中,但對(duì)于更多愛學(xué)習(xí),愛閱讀,喜歡拓寬自己知

識(shí)面的讀者學(xué)士來(lái)說(shuō),自己所看重的一類書籍或者一類刊物的發(fā)行信息是十分

的看中的。

此次項(xiàng)目是通過(guò)對(duì)網(wǎng)站的初步觀察,采集期刊種類比較全面的快期刊網(wǎng)站

內(nèi)的刊物信息,將期刊級(jí)別、發(fā)行周期、期刊收錄、審稿周期四個(gè)方面對(duì)其進(jìn)

行全面分析,解析出更有用的數(shù)據(jù),進(jìn)行可視化操作作出圖表來(lái),更直觀的呈

現(xiàn)出來(lái)從而得到結(jié)果。

2.2采集目標(biāo)功能分析

這次項(xiàng)目所需要用到的數(shù)據(jù)信息是快期刊網(wǎng)站的,使用Python網(wǎng)絡(luò)爬蟲

技術(shù),編程爬取快期刊網(wǎng)站每頁(yè)的刊物數(shù)據(jù)信息,經(jīng)過(guò)解析之后清洗出來(lái)共計(jì)

700條數(shù)據(jù)記錄,再對(duì)這個(gè)數(shù)據(jù)與網(wǎng)站的內(nèi)容進(jìn)行隨機(jī)的抽樣對(duì)比,確認(rèn)數(shù)據(jù)

的準(zhǔn)確性和完整性。

分析快期刊網(wǎng)站上的網(wǎng)頁(yè)信息,確定好需要獲取的字段信息參數(shù)有期刊級(jí)

別、發(fā)行周期、期刊收錄、審稿周期、主辦單位、國(guó)際刊號(hào)、國(guó)內(nèi)刊號(hào)、創(chuàng)刊

4

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

時(shí)間等數(shù)據(jù),有了這些預(yù)處理信息之后,再?gòu)牟煌嵌葋?lái)分析,包括各期刊級(jí)

別的分析,統(tǒng)計(jì)各級(jí)別所占比哪些類多和少;期刊發(fā)行周期的分析,看期刊的

周期所占比是多少;期刊收錄的分析,看不同收錄方有多少條目;以及審稿周

期分析,統(tǒng)計(jì)審稿在哪個(gè)時(shí)間段條目的多少。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

科技的發(fā)展,互聯(lián)網(wǎng)所產(chǎn)生信息數(shù)據(jù)越來(lái)越多,可以用海量來(lái)形容,要想

著快速的搜索檢索到可用并且有效的信息數(shù)據(jù),單純的在網(wǎng)上運(yùn)用搜索引擎慢

慢查找,對(duì)于少數(shù)信息量較小的倒不是問(wèn)題,但如果說(shuō)這個(gè)量十分的龐大的

話,效率和可行性都是令人堪憂的,這個(gè)時(shí)候我們就可以采用網(wǎng)絡(luò)爬蟲技術(shù)來(lái)

編寫代碼程序自動(dòng)化有效且快速的獲取到數(shù)據(jù)。

網(wǎng)絡(luò)爬蟲有常被人稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人、網(wǎng)頁(yè)追逐者,字面意思就

是按照一定的規(guī)則,編寫好相應(yīng)的代碼,運(yùn)行時(shí)自動(dòng)且精準(zhǔn)的在網(wǎng)站采集所需

要的頁(yè)面內(nèi)容信息。爬蟲一般又分為三部分包括采集、處理、和存儲(chǔ)。類型又

分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲等類型。

這些給我們帶來(lái)方便的同時(shí),這門技術(shù)在互聯(lián)網(wǎng)上也就起到重要的作用,

變得多元化,爬蟲就如同一個(gè)偵查勘探的角色,模仿著普通人的行為在網(wǎng)站上

進(jìn)行探測(cè),查詢數(shù)據(jù),把結(jié)果收集起來(lái),就像是螞蟻搬運(yùn)一樣。

享受著爬蟲帶來(lái)的方便的同時(shí),陰孕而生就出現(xiàn)了反爬蟲,通過(guò)一些限制

來(lái)干擾阻止正常進(jìn)行的爬蟲,說(shuō)白點(diǎn)就是防御防守。可一山更比一山高,反爬

蟲機(jī)制的User-Agent、IP、Cookie、JS等手段,同樣可以被高水平的人士運(yùn)

用到位來(lái)獲取數(shù)據(jù),但這往往也加大了爬蟲者的任務(wù)量。

日常生活中,許多人都用過(guò)爬蟲,最鮮明的例子就是網(wǎng)上買票和電商帶貨

時(shí)的搶購(gòu)物品,對(duì)得到的數(shù)據(jù)往往每個(gè)人的想法都不同,目的通俗來(lái)講就是自

身利益,可但凡事務(wù)都具有兩面性,運(yùn)用得好自然是方便了本身,反之則會(huì)給

自己帶來(lái)巨大的風(fēng)險(xiǎn)隱患。

5

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

2.3.2文件存取技術(shù)

Python內(nèi)置pandas庫(kù)進(jìn)行存儲(chǔ),如圖2-1所示。

圖2-1Python內(nèi)置pandas模塊

2.3.3可視化技術(shù)

在網(wǎng)站上看到的數(shù)據(jù)經(jīng)獲取后,雖然都看得懂,但密密麻麻的數(shù)據(jù)直接去

分析的話非常的燒腦,所以在此項(xiàng)目中運(yùn)用第三方庫(kù)將所獲取的數(shù)據(jù)做完存儲(chǔ)

之后,即可對(duì)其進(jìn)行做可視化處理,用圖來(lái)說(shuō)話,一目了然更直觀的展示了數(shù)

據(jù)信息。具體采用的是Python的第三方Matplotlib庫(kù)和pyecharts庫(kù)來(lái)進(jìn)行

可視化操作,分別對(duì)需要分析的字段作出圖形,來(lái)得出結(jié)論。

導(dǎo)入Matplotlib作圖庫(kù)用于后期繪制餅圖和條形圖,如圖2-2所示。

圖2-2導(dǎo)入Matpoltlib庫(kù)

導(dǎo)入的pyecharts可視化作圖庫(kù)用于后期繪制詞云圖,如圖2-3所示。

圖2-3導(dǎo)入pyecharts庫(kù)

6

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

3數(shù)據(jù)采集

3.1采集頁(yè)面分析

首先通過(guò)瀏覽器搜索快期刊網(wǎng)站,然后找到哲學(xué)文人目錄集頁(yè)面進(jìn)行觀

察,如圖3-1所示,其中URL為:

/category/zhexuerenwen/然后點(diǎn)擊網(wǎng)站頁(yè)面下方

的分頁(yè)按鈕,同時(shí)觀察URL,發(fā)現(xiàn)URL有發(fā)生變化。

圖3-1網(wǎng)站數(shù)據(jù)網(wǎng)址頁(yè)面

按F12調(diào)出瀏覽器開發(fā)者工具,按F5刷新頁(yè)面,如圖3-2所示。

圖3-2瀏覽器開發(fā)者工具

7

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

在開發(fā)者工具上面導(dǎo)航欄選擇Network,找到中間的Headers并點(diǎn)擊,看出

這個(gè)是一個(gè)GET請(qǐng)求。

3.2字段分析

接下來(lái)我們就可以單擊Elements打開網(wǎng)頁(yè)數(shù)據(jù)的源代碼,如圖3-3所

示,可以看到所需要獲取的數(shù)據(jù)就是在這里面,上面已知該網(wǎng)站是用GET方法

來(lái)響應(yīng),所以在編寫代碼時(shí)用Requests中的GET方法來(lái)采集數(shù)據(jù),接著用循

環(huán)依次有規(guī)律的重復(fù)獲取響應(yīng)數(shù)據(jù),存放致創(chuàng)建的字典中,最后存儲(chǔ)寫入到

CSV文件中。

圖3-3網(wǎng)頁(yè)源代碼

3.3編程實(shí)現(xiàn)

導(dǎo)入所需要運(yùn)用到的庫(kù),如圖3-4所示。

圖3-4導(dǎo)入所需庫(kù)

8

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

創(chuàng)建一個(gè)字典,用于存放所爬取到的數(shù)據(jù),用于后續(xù)將其寫入文件做準(zhǔn)

備,如圖3-5所示。

圖3-5創(chuàng)建存放數(shù)據(jù)的字典

第一層循環(huán)用于對(duì)網(wǎng)站所有頁(yè)面來(lái)進(jìn)行遍歷,依據(jù)網(wǎng)址變化的規(guī)律設(shè)置好

網(wǎng)址,設(shè)置好請(qǐng)求頭部信息,將User-Agent寫入進(jìn)去。用request庫(kù)的GET

方法爬取網(wǎng)頁(yè)數(shù)據(jù),并將爬取的數(shù)據(jù)再用lxml庫(kù)中的Etree模塊來(lái)解析網(wǎng)

頁(yè),如圖3-6所示。

圖3-6第一層循環(huán)爬取代碼塊

第二層循環(huán)用來(lái)對(duì)單個(gè)頁(yè)面的數(shù)據(jù)條目進(jìn)行遍歷,依據(jù)解析出來(lái)的數(shù)據(jù),

用Xpath語(yǔ)法尋找定位所需要的字段節(jié)點(diǎn)并刪除和分割不必要的部分,對(duì)個(gè)別

字段設(shè)置異常捕獲以防存在缺失值的情況,保證完整性,如圖3-7所示。

圖3-7第二層循環(huán)解析代碼塊

9

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

4數(shù)據(jù)清洗與處理

得到了繁多的數(shù)據(jù)之后,接下來(lái)就是清洗數(shù)據(jù)了,要確保數(shù)據(jù)的有效性和

網(wǎng)頁(yè)數(shù)據(jù)的完整性,看是否有存在空值以及對(duì)應(yīng)字段是否內(nèi)容正確,根據(jù)字段

內(nèi)容做不同處理,將數(shù)據(jù)歸類整齊按獲取的順序排列好,方便在進(jìn)行分析時(shí)高

效的使用。

4.1數(shù)據(jù)清洗

經(jīng)過(guò)比對(duì)和檢查,發(fā)現(xiàn)數(shù)據(jù)是有存在缺失值空值的項(xiàng),那么我們就得考慮完

整性,防止數(shù)據(jù)內(nèi)容的冗余和信息不對(duì)應(yīng)。要做的就是將空值項(xiàng)在編寫代碼時(shí)

添加異常捕獲,將其空值賦予“未標(biāo)明”來(lái)設(shè)置。接著整理為原網(wǎng)頁(yè)格式存入

字典中,最后存儲(chǔ)到CSV文件,留到后面做可視化作圖操作使用。如圖4-1所

示。

圖4-1經(jīng)整理后的數(shù)據(jù)

4.2數(shù)據(jù)儲(chǔ)存

可存儲(chǔ)的方式有很多,通??捎么鏋镋XCEL、TXT、JSON和CSV等,以此

次項(xiàng)目來(lái)考慮,這里選擇以CSV文件存儲(chǔ),文件命名為data.csv做文件名。

如圖4-2所示。

10

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

圖4-2數(shù)據(jù)存儲(chǔ)為CSV文件代碼

打開所存儲(chǔ)的CSV文件確認(rèn)數(shù)據(jù)是否完整,如圖4-3所示。

圖4-3存儲(chǔ)為CSV文件的數(shù)據(jù)

11

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5數(shù)據(jù)統(tǒng)計(jì)與分析

5.1數(shù)據(jù)準(zhǔn)備

導(dǎo)入所需庫(kù),使用pandas加載CSV文件源數(shù)據(jù),如圖5-1所示。

圖5-1數(shù)據(jù)準(zhǔn)備

篩選出作圖所需要的字段數(shù)據(jù),如圖5-2所示。

圖5-2經(jīng)篩選后的數(shù)據(jù)

12

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2數(shù)據(jù)展示

5.2.1期刊級(jí)別統(tǒng)計(jì)和占比分析

將處理好的期刊級(jí)別字段數(shù)據(jù)進(jìn)行作圖,如圖5-3所示。

圖5-3期刊級(jí)別占比圖

圖中可以看出獲取快期刊網(wǎng)站信息各類刊物的期刊級(jí)別最多的還屬于省級(jí)

期刊,其次就是北大核心期刊和國(guó)家級(jí)期刊。北大核心和統(tǒng)計(jì)源期刊這類跟未

標(biāo)明刊期級(jí)別的占比很少。為何要將這些期刊分級(jí)別分類?

其實(shí)這期刊里面又劃分了很多種等級(jí),如按主管部門、按期刊質(zhì)量、按注

冊(cè)地等等這些級(jí)別,以內(nèi)容類別又分一般期刊、學(xué)術(shù)期刊、行業(yè)期刊、檢索期

刊等,每種類別都有自己領(lǐng)域的研究?jī)?nèi)容。

在廣大學(xué)士搜尋喜好的期刊閱讀時(shí)總會(huì)先了解自己要的期刊屬于哪種級(jí)

別,出自哪等信息。從另一方面看對(duì)有了目標(biāo)就會(huì)產(chǎn)生想法,從而去類比閱讀

個(gè)人喜好方面的期刊。就目前形式來(lái)看其一是期刊缺乏市場(chǎng)的,辦得好的期刊

并不多,片面的看,許多企業(yè)單位缺乏專員,再加上財(cái)政的支持力度不大的問(wèn)

題。其二是缺乏對(duì)讀者的研究,期刊是給讀者看的,就如同買東西,一個(gè)非常

吸引人銷量好的物品,總會(huì)有它本身的吸引之處,對(duì)于刊期也是一樣,仔細(xì)的

看懂讀者的心里,使自己有固定的閱讀群體,才能慢慢發(fā)展。

13

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.2發(fā)行周期和審稿周期統(tǒng)計(jì)與分析

將處理好的發(fā)行周期字段數(shù)據(jù)進(jìn)行作圖,如圖5-4所示。

圖5-4發(fā)行周期占比圖

將處理好的審稿周期字段數(shù)據(jù)進(jìn)行作圖,如圖5-5所示。

圖5-5審稿周期條形圖

從兩張圖中可以看出發(fā)行周期是月刊和雙月刊的比例占據(jù)大,季刊在其

后,剩下的半月刊、半年刊和另外三個(gè)就都占的少數(shù)了。以發(fā)行周期來(lái)看審稿

周期也就看出來(lái)了審稿在1個(gè)月內(nèi)的最多,1-3個(gè)月的其次,其余的數(shù)值就更

14

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

少了。兩個(gè)字段性質(zhì)上沒什么差別得出的數(shù)據(jù)上也比較相似,這里綜合了來(lái)

看,期刊的周期不同,看的是出版物期刊的水平?jīng)Q定,一般情況下,普通期刊

時(shí)間周期比較短,比較重要的核心期刊周期就長(zhǎng)些,但也有一種情況,是一些

期刊在所屬的專業(yè)里不是那么具有影響力,稿源也不多,但為了行業(yè)目前的地

位來(lái)說(shuō),就還是會(huì)仔細(xì)審稿,以致時(shí)間就長(zhǎng)了。就讀者而言,在選擇期刊時(shí),

要考慮好前面分析的期刊級(jí)別,還要考慮到審稿和發(fā)行的周期時(shí)間,都是比較

重要的。

5.2.3期刊收錄數(shù)統(tǒng)計(jì)和分析

將處理好的期刊收錄字段數(shù)據(jù)進(jìn)行作圖,如圖5-6所示。

圖5-6期刊收錄條形圖

圖中期刊收錄條目統(tǒng)計(jì)來(lái)看,知網(wǎng)、維普、萬(wàn)方三方都有收錄的最多,知

網(wǎng)和維普都收錄的第二,知網(wǎng)獨(dú)自收錄的第三,其次第四就是知網(wǎng)和萬(wàn)方收錄

的。

相對(duì)于期刊收錄是創(chuàng)作者要發(fā)表的東西被期刊收錄了,還有一種意思是期

刊收錄的方向和類型等。只有發(fā)表被期刊所收錄了才能在網(wǎng)上檢索的到。不難

看出我國(guó)期刊收錄的三巨頭就是知網(wǎng),維普和萬(wàn)方,這也是多數(shù)創(chuàng)作者要發(fā)表

作品時(shí)想要被收錄進(jìn)去的,就知網(wǎng)而言,很多人都知曉它資料是非常多的,而

且也是目前最權(quán)威的查重系統(tǒng),速度快、靈活且支持類型多,三者也都各自有

自己的特色。

15

湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)

5.2.4主辦單位統(tǒng)計(jì)與分析

將處理好的主辦單位字段數(shù)據(jù)進(jìn)行作圖,如圖5-7所示。

圖5-7主辦單位數(shù)據(jù)展示

據(jù)詞云圖來(lái)看主辦單位里次數(shù)由多到少的前四位依次是中國(guó)藝術(shù)研究院、

北京外國(guó)語(yǔ)大學(xué)、中國(guó)美術(shù)出版總社、中國(guó)音樂(lè)家協(xié)會(huì)。主辦單位是對(duì)期刊如

何創(chuàng)辦,如何出版內(nèi)容進(jìn)行把關(guān),相當(dāng)于是一個(gè)監(jiān)督管理的角色,從我們獲取

的哲學(xué)文人類期刊記錄來(lái)看中國(guó)藝術(shù)研究院是里面出的最出眾的,出版的多則

是對(duì)這塊領(lǐng)域鉆研見解的多。

5.3統(tǒng)計(jì)分析小結(jié)

綜上,期刊級(jí)別多數(shù)屬于省級(jí)期刊,發(fā)行和審稿周期綜合來(lái)看是在1個(gè)月

時(shí)間段內(nèi),知網(wǎng)、維普、萬(wàn)方一同收錄的占首位,中國(guó)藝術(shù)研究院是對(duì)這塊研

究頗多的主辦單位。通過(guò)對(duì)快期刊網(wǎng)哲學(xué)文人類板塊數(shù)據(jù)的爬取,獲得了刊物

的各項(xiàng)資料,經(jīng)過(guò)分析所得出,創(chuàng)作者的期刊大多數(shù)都是出自省級(jí),對(duì)于審稿

和發(fā)行時(shí)間長(zhǎng)的期刊不多,整體的期刊收錄都在知網(wǎng)、維普、萬(wàn)方一同收錄的

三巨頭中,對(duì)這類板塊見解多,期刊發(fā)出的多少來(lái)看,可以多閱覽中國(guó)藝術(shù)研

究院所發(fā)表的期刊。

16

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論