版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
目錄
1引言............................................................................................................................1
1.1項(xiàng)目背景......................................................................................................1
1.2開發(fā)環(huán)境與工具..........................................................................................2
1.2.1Python簡(jiǎn)介..........................................................................................2
1.2.2JupyterNotebook簡(jiǎn)介......................................................................2
1.2.3Python第三方庫(kù)簡(jiǎn)介..........................................................................2
2需求分析....................................................................................................................4
2.1可行性需求分析..........................................................................................4
2.2采集目標(biāo)功能分析......................................................................................4
2.3關(guān)鍵技術(shù)分析..............................................................................................5
2.3.1網(wǎng)絡(luò)爬蟲技術(shù).......................................................................................5
2.3.2文件存取技術(shù).......................................................................................6
2.3.3可視化技術(shù)...........................................................................................6
3數(shù)據(jù)采集....................................................................................................................7
3.1采集頁(yè)面分析..............................................................................................7
3.2字段分析......................................................................................................8
3.3編程實(shí)現(xiàn)......................................................................................................8
4數(shù)據(jù)清洗與處理......................................................................................................10
4.1數(shù)據(jù)清洗....................................................................................................10
4.2數(shù)據(jù)儲(chǔ)存....................................................................................................10
5數(shù)據(jù)統(tǒng)計(jì)與分析......................................................................................................12
5.1數(shù)據(jù)準(zhǔn)備....................................................................................................12
5.2數(shù)據(jù)展示....................................................................................................13
5.2.1期刊級(jí)別統(tǒng)計(jì)和占比分析.................................................................13
5.2.2發(fā)行周期和審稿周期統(tǒng)計(jì)與分析.....................................................14
5.2.3期刊收錄數(shù)統(tǒng)計(jì)和分析.....................................................................15
5.2.4主辦單位統(tǒng)計(jì)與分析.........................................................................16
I
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.3統(tǒng)計(jì)分析小結(jié)............................................................................................16
6總結(jié)..........................................................................................................................17
參考資料.........................................................................................................................18
II
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
快期刊文學(xué)網(wǎng)數(shù)據(jù)采集與分析
1引言
隨著現(xiàn)代社會(huì)科技的飛速發(fā)展,數(shù)字經(jīng)濟(jì)大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)的價(jià)值
在日常生活中的各個(gè)領(lǐng)域都在不斷地得到提升,充斥著我們的生活,同時(shí)也受
大數(shù)據(jù)的影響,從小方面的手機(jī)APP頁(yè)面的推薦,購(gòu)物的軟件首頁(yè)推薦,到大
方面城市的交通,全國(guó)的經(jīng)濟(jì)形勢(shì)分析以及前段時(shí)間全國(guó)處于疫情嚴(yán)重期間時(shí)
等等,大數(shù)據(jù)就是這樣以長(zhǎng)期、大量、多樣化的模式對(duì)數(shù)據(jù)進(jìn)行采集、處理、
判斷分析,所分析出來(lái)的信息就涉及到了我們生活的方方面面,給我們的生活
變得更高效也帶來(lái)了許多的便利。
對(duì)于目前社會(huì)現(xiàn)狀而言,在學(xué)習(xí)、工作、出行以及消費(fèi)等所產(chǎn)生的效果是
非常明顯的,大數(shù)據(jù)技術(shù)已經(jīng)很普遍,而且可以看出在這些方面發(fā)揮展現(xiàn)出來(lái)
的影響之大,互聯(lián)網(wǎng)和大數(shù)據(jù)結(jié)合起來(lái)將會(huì)對(duì)未來(lái)有著很大的發(fā)展,大數(shù)據(jù)時(shí)
代也可能在以后衍生出一些新的概念、新的內(nèi)涵或是新的技術(shù)從而變成新時(shí)代
的標(biāo)志。
1.1項(xiàng)目背景
文學(xué)期刊是文章需要在某一領(lǐng)域或者某一學(xué)科通過(guò)數(shù)據(jù)去研究,具有實(shí)驗(yàn)
性且是定期或者不定期的連續(xù)出版的刊物。從愛看書的人來(lái)說(shuō),閱讀是非常熱
衷的,常常能在文章中了解到更多自身所認(rèn)知范圍之外的知識(shí)和見解,刊期的
時(shí)間發(fā)行那更是尤為看重。
對(duì)于刊物而言,在網(wǎng)站上更多的就是要做到發(fā)行和推廣,使其得到影響力
和知名度。所以這就得獲取快期刊網(wǎng)站各個(gè)期刊的每項(xiàng)數(shù)據(jù)等資料,所采集的
信息繁多,這就需要我們對(duì)網(wǎng)頁(yè)進(jìn)行解析,接著通過(guò)Python爬蟲的方法批次
對(duì)需要的資料進(jìn)行獲取。
我的畢業(yè)設(shè)計(jì)就是在網(wǎng)站的反觀面從用戶所需要的角度出發(fā),來(lái)爬取快期
刊網(wǎng)站刊物數(shù)據(jù),對(duì)其每個(gè)字段進(jìn)行分析處理,然后用圖表的方式來(lái)展示呈現(xiàn)
出來(lái)。最后大量的數(shù)據(jù)經(jīng)過(guò)爬取、解析、判斷所分析清洗出來(lái)的就能簡(jiǎn)單明了
的展現(xiàn)出來(lái),給該網(wǎng)站負(fù)責(zé)的團(tuán)隊(duì)清楚明了的知道有多少條刊物數(shù)據(jù)、收錄詳
情等來(lái)供給訪問(wèn)者直面的數(shù)據(jù)。所以我做的畢業(yè)設(shè)計(jì)這塊就是爬取數(shù)據(jù)、判斷
分析,清晰整理、存儲(chǔ)數(shù)據(jù)和可視化這些操作。
1
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
1.2開發(fā)環(huán)境與工具
1.2.1Python簡(jiǎn)介
Python是20世紀(jì)90年代初由荷蘭計(jì)算機(jī)科學(xué)研究學(xué)會(huì)的Guidovan
Rossum(龜叔)獨(dú)立開發(fā)所創(chuàng)造的,那個(gè)時(shí)期Python還不是很看好,當(dāng)時(shí)的
各種因素所受限制,但直至現(xiàn)如今順著時(shí)代的改變,且Python能夠滿足靈活
敏捷的開發(fā),從而開始得到了快速的發(fā)展。
正是隨著計(jì)算機(jī)信息技術(shù)的到來(lái),互聯(lián)網(wǎng)的發(fā)展,各類技術(shù)的突破,
Python最主流的前沿領(lǐng)域也應(yīng)用在了科學(xué)計(jì)算、軟件開發(fā)、云計(jì)算、Web開
發(fā)、自動(dòng)化運(yùn)維、數(shù)據(jù)分析、網(wǎng)絡(luò)爬蟲、大數(shù)據(jù)和人工智能里,在爬取數(shù)據(jù)、
分析清理和數(shù)據(jù)可視化的大數(shù)據(jù)技術(shù)中也可運(yùn)用Python來(lái)完成,這也是其在
數(shù)據(jù)分析的的最主流的語(yǔ)言之一。在Web開發(fā)框架中也是有非常之多都是基于
Python的,例如Flask,Django。搭建Web服務(wù)開發(fā)快、應(yīng)用廣、易學(xué)且高效
的還最屬Python+Django架構(gòu)。同時(shí)Python語(yǔ)言可移植、可拓展、可嵌入性
強(qiáng)又屬于免費(fèi)開源的,相比于其他語(yǔ)言都簡(jiǎn)單易學(xué),還具備了強(qiáng)大的第三方
庫(kù),于是深受許多人青睞。
1.2.2JupyterNotebook簡(jiǎn)介
JupyterNotebook是基于網(wǎng)頁(yè)的非常強(qiáng)大的交互式和展示數(shù)據(jù)信息的應(yīng)用
程序,它能夠?qū)⒋a、注釋、結(jié)果、公式等,一起包括在內(nèi),作為一個(gè)交互和
展示的文檔并且還能共享。它的特點(diǎn)還包括編寫代碼時(shí)Tab能補(bǔ)全、高亮顯示
語(yǔ)法;可以用HTML、PNG、SCG等來(lái)展示計(jì)算結(jié)果;在瀏覽器運(yùn)行時(shí)結(jié)果直接
顯示在代碼塊下面;編寫說(shuō)明語(yǔ)句時(shí)還支持Markdown語(yǔ)言。
JupyterNotebook現(xiàn)在也已經(jīng)成為了多數(shù)編程人士來(lái)做數(shù)據(jù)分析學(xué)習(xí)的選
擇,它不僅能展現(xiàn)整個(gè)分析過(guò)程,還可以寫出自己的筆記,十分方便,且支持
多種語(yǔ)言。
要是用第一步肯定是先安裝,對(duì)于剛?cè)腴T學(xué)士來(lái)說(shuō)JupyterNotebook最
簡(jiǎn)單的安裝方法就是直接安裝Anaconda,因?yàn)樵诎惭bAnaconda時(shí)它本身就默
認(rèn)自帶一起打包安裝了JupyterNotebook。
1.2.3Python第三方庫(kù)簡(jiǎn)介
request庫(kù):基于urllib編寫的Python語(yǔ)言,非常的簡(jiǎn)便,不過(guò)相對(duì)于
urllib來(lái)看,request爬取網(wǎng)頁(yè)數(shù)據(jù)沒有那么的繁瑣,易理解又節(jié)約時(shí)間,但
2
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
使用這個(gè)庫(kù)時(shí)也需先安裝好。
lxml庫(kù):它的主要用途是可以對(duì)HTML或者XML的數(shù)據(jù)進(jìn)行快速高效的解
析,其他的功能也非常多,這里我們所需要使用的是lxml庫(kù)中的etree模塊
來(lái)解析網(wǎng)頁(yè),利用XPath語(yǔ)法尋找定位所需要的字段節(jié)點(diǎn)。
pandas庫(kù):Python中十分核心的數(shù)據(jù)分析庫(kù),有著快速、靈活且明確的
數(shù)據(jù)結(jié)構(gòu),在這里是用來(lái)將解析完分析之后,將最終所要的數(shù)據(jù)存儲(chǔ)為CSV文
件。
NumPy庫(kù):在Python中是個(gè)科學(xué)計(jì)算的拓展程序庫(kù),用來(lái)對(duì)執(zhí)行計(jì)算多維
數(shù)組的,其特點(diǎn)是運(yùn)算速度快且高效。
Matplotlib庫(kù):2D繪圖庫(kù),Python中十分常見用作可視化的工具,簡(jiǎn)單
的編寫代碼就可創(chuàng)建大量基本的2D平面圖,可以繪制的圖形有條形圖、餅
圖、折線圖、散點(diǎn)圖、甘特圖、箱型圖、雷達(dá)圖、樹地圖等等。
pyecharts庫(kù):可以生成Echarts圖表,在Python中能很方便的用數(shù)據(jù)生
成圖表,種類非常豐富,并且呈現(xiàn)的效果絲滑流暢很美觀。
3
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
2需求分析
2.1可行性需求分析
1.技術(shù)可行性
相對(duì)于C語(yǔ)言和Java語(yǔ)言來(lái)說(shuō),Python更易學(xué)易懂而且還更加簡(jiǎn)潔,這
次項(xiàng)目就是運(yùn)用Python來(lái)編寫代碼,完成對(duì)目標(biāo)網(wǎng)站數(shù)據(jù)的爬取,再對(duì)其字
段的分析和清洗處理,最后進(jìn)行數(shù)據(jù)可視化操作。其中在對(duì)快期刊網(wǎng)站爬取數(shù)
據(jù)時(shí),出現(xiàn)了報(bào)錯(cuò)的情況,網(wǎng)頁(yè)數(shù)據(jù)中某些字段是空值導(dǎo)致,之后經(jīng)過(guò)抽頁(yè)觀
察分析網(wǎng)頁(yè)布局時(shí),發(fā)現(xiàn)不僅僅是單個(gè)字段出現(xiàn)的空值,隨后通過(guò)對(duì)字段添加
異常捕獲的方式對(duì)數(shù)據(jù)為空的字段進(jìn)行設(shè)置,然后將分析出來(lái)的有用的數(shù)據(jù)再
設(shè)置好編碼格式,最后編寫代碼存入CSV文件中做存儲(chǔ)。
以上是這次項(xiàng)目的技術(shù)可行性,我也將在接下來(lái)的步驟中完善到位,確保數(shù)
據(jù)的有效性和安全性。
2.項(xiàng)目可行性
社會(huì)的不斷發(fā)展,科技的不斷進(jìn)步,文學(xué)的發(fā)展作為一種社會(huì)意識(shí)形態(tài)也
在隨著時(shí)代發(fā)展,不斷變化,現(xiàn)代的各種書籍刊物之繁多,不僅僅是在現(xiàn)實(shí)生
活中,在網(wǎng)絡(luò)上更是層出不窮。從小到大的不斷學(xué)習(xí)中,我們所接觸到的事務(wù)
不單單僅限于所要學(xué)的書本中,但對(duì)于更多愛學(xué)習(xí),愛閱讀,喜歡拓寬自己知
識(shí)面的讀者學(xué)士來(lái)說(shuō),自己所看重的一類書籍或者一類刊物的發(fā)行信息是十分
的看中的。
此次項(xiàng)目是通過(guò)對(duì)網(wǎng)站的初步觀察,采集期刊種類比較全面的快期刊網(wǎng)站
內(nèi)的刊物信息,將期刊級(jí)別、發(fā)行周期、期刊收錄、審稿周期四個(gè)方面對(duì)其進(jìn)
行全面分析,解析出更有用的數(shù)據(jù),進(jìn)行可視化操作作出圖表來(lái),更直觀的呈
現(xiàn)出來(lái)從而得到結(jié)果。
2.2采集目標(biāo)功能分析
這次項(xiàng)目所需要用到的數(shù)據(jù)信息是快期刊網(wǎng)站的,使用Python網(wǎng)絡(luò)爬蟲
技術(shù),編程爬取快期刊網(wǎng)站每頁(yè)的刊物數(shù)據(jù)信息,經(jīng)過(guò)解析之后清洗出來(lái)共計(jì)
700條數(shù)據(jù)記錄,再對(duì)這個(gè)數(shù)據(jù)與網(wǎng)站的內(nèi)容進(jìn)行隨機(jī)的抽樣對(duì)比,確認(rèn)數(shù)據(jù)
的準(zhǔn)確性和完整性。
分析快期刊網(wǎng)站上的網(wǎng)頁(yè)信息,確定好需要獲取的字段信息參數(shù)有期刊級(jí)
別、發(fā)行周期、期刊收錄、審稿周期、主辦單位、國(guó)際刊號(hào)、國(guó)內(nèi)刊號(hào)、創(chuàng)刊
4
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
時(shí)間等數(shù)據(jù),有了這些預(yù)處理信息之后,再?gòu)牟煌嵌葋?lái)分析,包括各期刊級(jí)
別的分析,統(tǒng)計(jì)各級(jí)別所占比哪些類多和少;期刊發(fā)行周期的分析,看期刊的
周期所占比是多少;期刊收錄的分析,看不同收錄方有多少條目;以及審稿周
期分析,統(tǒng)計(jì)審稿在哪個(gè)時(shí)間段條目的多少。
2.3關(guān)鍵技術(shù)分析
2.3.1網(wǎng)絡(luò)爬蟲技術(shù)
科技的發(fā)展,互聯(lián)網(wǎng)所產(chǎn)生信息數(shù)據(jù)越來(lái)越多,可以用海量來(lái)形容,要想
著快速的搜索檢索到可用并且有效的信息數(shù)據(jù),單純的在網(wǎng)上運(yùn)用搜索引擎慢
慢查找,對(duì)于少數(shù)信息量較小的倒不是問(wèn)題,但如果說(shuō)這個(gè)量十分的龐大的
話,效率和可行性都是令人堪憂的,這個(gè)時(shí)候我們就可以采用網(wǎng)絡(luò)爬蟲技術(shù)來(lái)
編寫代碼程序自動(dòng)化有效且快速的獲取到數(shù)據(jù)。
網(wǎng)絡(luò)爬蟲有常被人稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人、網(wǎng)頁(yè)追逐者,字面意思就
是按照一定的規(guī)則,編寫好相應(yīng)的代碼,運(yùn)行時(shí)自動(dòng)且精準(zhǔn)的在網(wǎng)站采集所需
要的頁(yè)面內(nèi)容信息。爬蟲一般又分為三部分包括采集、處理、和存儲(chǔ)。類型又
分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲等類型。
這些給我們帶來(lái)方便的同時(shí),這門技術(shù)在互聯(lián)網(wǎng)上也就起到重要的作用,
變得多元化,爬蟲就如同一個(gè)偵查勘探的角色,模仿著普通人的行為在網(wǎng)站上
進(jìn)行探測(cè),查詢數(shù)據(jù),把結(jié)果收集起來(lái),就像是螞蟻搬運(yùn)一樣。
享受著爬蟲帶來(lái)的方便的同時(shí),陰孕而生就出現(xiàn)了反爬蟲,通過(guò)一些限制
來(lái)干擾阻止正常進(jìn)行的爬蟲,說(shuō)白點(diǎn)就是防御防守。可一山更比一山高,反爬
蟲機(jī)制的User-Agent、IP、Cookie、JS等手段,同樣可以被高水平的人士運(yùn)
用到位來(lái)獲取數(shù)據(jù),但這往往也加大了爬蟲者的任務(wù)量。
日常生活中,許多人都用過(guò)爬蟲,最鮮明的例子就是網(wǎng)上買票和電商帶貨
時(shí)的搶購(gòu)物品,對(duì)得到的數(shù)據(jù)往往每個(gè)人的想法都不同,目的通俗來(lái)講就是自
身利益,可但凡事務(wù)都具有兩面性,運(yùn)用得好自然是方便了本身,反之則會(huì)給
自己帶來(lái)巨大的風(fēng)險(xiǎn)隱患。
5
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
2.3.2文件存取技術(shù)
Python內(nèi)置pandas庫(kù)進(jìn)行存儲(chǔ),如圖2-1所示。
圖2-1Python內(nèi)置pandas模塊
2.3.3可視化技術(shù)
在網(wǎng)站上看到的數(shù)據(jù)經(jīng)獲取后,雖然都看得懂,但密密麻麻的數(shù)據(jù)直接去
分析的話非常的燒腦,所以在此項(xiàng)目中運(yùn)用第三方庫(kù)將所獲取的數(shù)據(jù)做完存儲(chǔ)
之后,即可對(duì)其進(jìn)行做可視化處理,用圖來(lái)說(shuō)話,一目了然更直觀的展示了數(shù)
據(jù)信息。具體采用的是Python的第三方Matplotlib庫(kù)和pyecharts庫(kù)來(lái)進(jìn)行
可視化操作,分別對(duì)需要分析的字段作出圖形,來(lái)得出結(jié)論。
導(dǎo)入Matplotlib作圖庫(kù)用于后期繪制餅圖和條形圖,如圖2-2所示。
圖2-2導(dǎo)入Matpoltlib庫(kù)
導(dǎo)入的pyecharts可視化作圖庫(kù)用于后期繪制詞云圖,如圖2-3所示。
圖2-3導(dǎo)入pyecharts庫(kù)
6
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
3數(shù)據(jù)采集
3.1采集頁(yè)面分析
首先通過(guò)瀏覽器搜索快期刊網(wǎng)站,然后找到哲學(xué)文人目錄集頁(yè)面進(jìn)行觀
察,如圖3-1所示,其中URL為:
/category/zhexuerenwen/然后點(diǎn)擊網(wǎng)站頁(yè)面下方
的分頁(yè)按鈕,同時(shí)觀察URL,發(fā)現(xiàn)URL有發(fā)生變化。
圖3-1網(wǎng)站數(shù)據(jù)網(wǎng)址頁(yè)面
按F12調(diào)出瀏覽器開發(fā)者工具,按F5刷新頁(yè)面,如圖3-2所示。
圖3-2瀏覽器開發(fā)者工具
7
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
在開發(fā)者工具上面導(dǎo)航欄選擇Network,找到中間的Headers并點(diǎn)擊,看出
這個(gè)是一個(gè)GET請(qǐng)求。
3.2字段分析
接下來(lái)我們就可以單擊Elements打開網(wǎng)頁(yè)數(shù)據(jù)的源代碼,如圖3-3所
示,可以看到所需要獲取的數(shù)據(jù)就是在這里面,上面已知該網(wǎng)站是用GET方法
來(lái)響應(yīng),所以在編寫代碼時(shí)用Requests中的GET方法來(lái)采集數(shù)據(jù),接著用循
環(huán)依次有規(guī)律的重復(fù)獲取響應(yīng)數(shù)據(jù),存放致創(chuàng)建的字典中,最后存儲(chǔ)寫入到
CSV文件中。
圖3-3網(wǎng)頁(yè)源代碼
3.3編程實(shí)現(xiàn)
導(dǎo)入所需要運(yùn)用到的庫(kù),如圖3-4所示。
圖3-4導(dǎo)入所需庫(kù)
8
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
創(chuàng)建一個(gè)字典,用于存放所爬取到的數(shù)據(jù),用于后續(xù)將其寫入文件做準(zhǔn)
備,如圖3-5所示。
圖3-5創(chuàng)建存放數(shù)據(jù)的字典
第一層循環(huán)用于對(duì)網(wǎng)站所有頁(yè)面來(lái)進(jìn)行遍歷,依據(jù)網(wǎng)址變化的規(guī)律設(shè)置好
網(wǎng)址,設(shè)置好請(qǐng)求頭部信息,將User-Agent寫入進(jìn)去。用request庫(kù)的GET
方法爬取網(wǎng)頁(yè)數(shù)據(jù),并將爬取的數(shù)據(jù)再用lxml庫(kù)中的Etree模塊來(lái)解析網(wǎng)
頁(yè),如圖3-6所示。
圖3-6第一層循環(huán)爬取代碼塊
第二層循環(huán)用來(lái)對(duì)單個(gè)頁(yè)面的數(shù)據(jù)條目進(jìn)行遍歷,依據(jù)解析出來(lái)的數(shù)據(jù),
用Xpath語(yǔ)法尋找定位所需要的字段節(jié)點(diǎn)并刪除和分割不必要的部分,對(duì)個(gè)別
字段設(shè)置異常捕獲以防存在缺失值的情況,保證完整性,如圖3-7所示。
圖3-7第二層循環(huán)解析代碼塊
9
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
4數(shù)據(jù)清洗與處理
得到了繁多的數(shù)據(jù)之后,接下來(lái)就是清洗數(shù)據(jù)了,要確保數(shù)據(jù)的有效性和
網(wǎng)頁(yè)數(shù)據(jù)的完整性,看是否有存在空值以及對(duì)應(yīng)字段是否內(nèi)容正確,根據(jù)字段
內(nèi)容做不同處理,將數(shù)據(jù)歸類整齊按獲取的順序排列好,方便在進(jìn)行分析時(shí)高
效的使用。
4.1數(shù)據(jù)清洗
經(jīng)過(guò)比對(duì)和檢查,發(fā)現(xiàn)數(shù)據(jù)是有存在缺失值空值的項(xiàng),那么我們就得考慮完
整性,防止數(shù)據(jù)內(nèi)容的冗余和信息不對(duì)應(yīng)。要做的就是將空值項(xiàng)在編寫代碼時(shí)
添加異常捕獲,將其空值賦予“未標(biāo)明”來(lái)設(shè)置。接著整理為原網(wǎng)頁(yè)格式存入
字典中,最后存儲(chǔ)到CSV文件,留到后面做可視化作圖操作使用。如圖4-1所
示。
圖4-1經(jīng)整理后的數(shù)據(jù)
4.2數(shù)據(jù)儲(chǔ)存
可存儲(chǔ)的方式有很多,通??捎么鏋镋XCEL、TXT、JSON和CSV等,以此
次項(xiàng)目來(lái)考慮,這里選擇以CSV文件存儲(chǔ),文件命名為data.csv做文件名。
如圖4-2所示。
10
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
圖4-2數(shù)據(jù)存儲(chǔ)為CSV文件代碼
打開所存儲(chǔ)的CSV文件確認(rèn)數(shù)據(jù)是否完整,如圖4-3所示。
圖4-3存儲(chǔ)為CSV文件的數(shù)據(jù)
11
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5數(shù)據(jù)統(tǒng)計(jì)與分析
5.1數(shù)據(jù)準(zhǔn)備
導(dǎo)入所需庫(kù),使用pandas加載CSV文件源數(shù)據(jù),如圖5-1所示。
圖5-1數(shù)據(jù)準(zhǔn)備
篩選出作圖所需要的字段數(shù)據(jù),如圖5-2所示。
圖5-2經(jīng)篩選后的數(shù)據(jù)
12
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2數(shù)據(jù)展示
5.2.1期刊級(jí)別統(tǒng)計(jì)和占比分析
將處理好的期刊級(jí)別字段數(shù)據(jù)進(jìn)行作圖,如圖5-3所示。
圖5-3期刊級(jí)別占比圖
圖中可以看出獲取快期刊網(wǎng)站信息各類刊物的期刊級(jí)別最多的還屬于省級(jí)
期刊,其次就是北大核心期刊和國(guó)家級(jí)期刊。北大核心和統(tǒng)計(jì)源期刊這類跟未
標(biāo)明刊期級(jí)別的占比很少。為何要將這些期刊分級(jí)別分類?
其實(shí)這期刊里面又劃分了很多種等級(jí),如按主管部門、按期刊質(zhì)量、按注
冊(cè)地等等這些級(jí)別,以內(nèi)容類別又分一般期刊、學(xué)術(shù)期刊、行業(yè)期刊、檢索期
刊等,每種類別都有自己領(lǐng)域的研究?jī)?nèi)容。
在廣大學(xué)士搜尋喜好的期刊閱讀時(shí)總會(huì)先了解自己要的期刊屬于哪種級(jí)
別,出自哪等信息。從另一方面看對(duì)有了目標(biāo)就會(huì)產(chǎn)生想法,從而去類比閱讀
個(gè)人喜好方面的期刊。就目前形式來(lái)看其一是期刊缺乏市場(chǎng)的,辦得好的期刊
并不多,片面的看,許多企業(yè)單位缺乏專員,再加上財(cái)政的支持力度不大的問(wèn)
題。其二是缺乏對(duì)讀者的研究,期刊是給讀者看的,就如同買東西,一個(gè)非常
吸引人銷量好的物品,總會(huì)有它本身的吸引之處,對(duì)于刊期也是一樣,仔細(xì)的
看懂讀者的心里,使自己有固定的閱讀群體,才能慢慢發(fā)展。
13
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.2發(fā)行周期和審稿周期統(tǒng)計(jì)與分析
將處理好的發(fā)行周期字段數(shù)據(jù)進(jìn)行作圖,如圖5-4所示。
圖5-4發(fā)行周期占比圖
將處理好的審稿周期字段數(shù)據(jù)進(jìn)行作圖,如圖5-5所示。
圖5-5審稿周期條形圖
從兩張圖中可以看出發(fā)行周期是月刊和雙月刊的比例占據(jù)大,季刊在其
后,剩下的半月刊、半年刊和另外三個(gè)就都占的少數(shù)了。以發(fā)行周期來(lái)看審稿
周期也就看出來(lái)了審稿在1個(gè)月內(nèi)的最多,1-3個(gè)月的其次,其余的數(shù)值就更
14
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
少了。兩個(gè)字段性質(zhì)上沒什么差別得出的數(shù)據(jù)上也比較相似,這里綜合了來(lái)
看,期刊的周期不同,看的是出版物期刊的水平?jīng)Q定,一般情況下,普通期刊
時(shí)間周期比較短,比較重要的核心期刊周期就長(zhǎng)些,但也有一種情況,是一些
期刊在所屬的專業(yè)里不是那么具有影響力,稿源也不多,但為了行業(yè)目前的地
位來(lái)說(shuō),就還是會(huì)仔細(xì)審稿,以致時(shí)間就長(zhǎng)了。就讀者而言,在選擇期刊時(shí),
要考慮好前面分析的期刊級(jí)別,還要考慮到審稿和發(fā)行的周期時(shí)間,都是比較
重要的。
5.2.3期刊收錄數(shù)統(tǒng)計(jì)和分析
將處理好的期刊收錄字段數(shù)據(jù)進(jìn)行作圖,如圖5-6所示。
圖5-6期刊收錄條形圖
圖中期刊收錄條目統(tǒng)計(jì)來(lái)看,知網(wǎng)、維普、萬(wàn)方三方都有收錄的最多,知
網(wǎng)和維普都收錄的第二,知網(wǎng)獨(dú)自收錄的第三,其次第四就是知網(wǎng)和萬(wàn)方收錄
的。
相對(duì)于期刊收錄是創(chuàng)作者要發(fā)表的東西被期刊收錄了,還有一種意思是期
刊收錄的方向和類型等。只有發(fā)表被期刊所收錄了才能在網(wǎng)上檢索的到。不難
看出我國(guó)期刊收錄的三巨頭就是知網(wǎng),維普和萬(wàn)方,這也是多數(shù)創(chuàng)作者要發(fā)表
作品時(shí)想要被收錄進(jìn)去的,就知網(wǎng)而言,很多人都知曉它資料是非常多的,而
且也是目前最權(quán)威的查重系統(tǒng),速度快、靈活且支持類型多,三者也都各自有
自己的特色。
15
湖南商務(wù)職業(yè)技術(shù)學(xué)院畢業(yè)設(shè)計(jì)
5.2.4主辦單位統(tǒng)計(jì)與分析
將處理好的主辦單位字段數(shù)據(jù)進(jìn)行作圖,如圖5-7所示。
圖5-7主辦單位數(shù)據(jù)展示
據(jù)詞云圖來(lái)看主辦單位里次數(shù)由多到少的前四位依次是中國(guó)藝術(shù)研究院、
北京外國(guó)語(yǔ)大學(xué)、中國(guó)美術(shù)出版總社、中國(guó)音樂(lè)家協(xié)會(huì)。主辦單位是對(duì)期刊如
何創(chuàng)辦,如何出版內(nèi)容進(jìn)行把關(guān),相當(dāng)于是一個(gè)監(jiān)督管理的角色,從我們獲取
的哲學(xué)文人類期刊記錄來(lái)看中國(guó)藝術(shù)研究院是里面出的最出眾的,出版的多則
是對(duì)這塊領(lǐng)域鉆研見解的多。
5.3統(tǒng)計(jì)分析小結(jié)
綜上,期刊級(jí)別多數(shù)屬于省級(jí)期刊,發(fā)行和審稿周期綜合來(lái)看是在1個(gè)月
時(shí)間段內(nèi),知網(wǎng)、維普、萬(wàn)方一同收錄的占首位,中國(guó)藝術(shù)研究院是對(duì)這塊研
究頗多的主辦單位。通過(guò)對(duì)快期刊網(wǎng)哲學(xué)文人類板塊數(shù)據(jù)的爬取,獲得了刊物
的各項(xiàng)資料,經(jīng)過(guò)分析所得出,創(chuàng)作者的期刊大多數(shù)都是出自省級(jí),對(duì)于審稿
和發(fā)行時(shí)間長(zhǎng)的期刊不多,整體的期刊收錄都在知網(wǎng)、維普、萬(wàn)方一同收錄的
三巨頭中,對(duì)這類板塊見解多,期刊發(fā)出的多少來(lái)看,可以多閱覽中國(guó)藝術(shù)研
究院所發(fā)表的期刊。
16
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 法律法規(guī)經(jīng)濟(jì)與施工-二級(jí)注冊(cè)建筑師《法律、法規(guī)、經(jīng)濟(jì)與施工》押題密卷3
- 長(zhǎng)春版語(yǔ)文三年級(jí)上冊(cè)教案
- 老年人用藥提醒助手
- 海洋生物醫(yī)藥產(chǎn)業(yè)布局
- 2024屆遼寧省本溪某中學(xué)高考化學(xué)押題試卷含解析
- 2024高中物理第三章傳感器章末質(zhì)量評(píng)估含解析粵教版選修3-2
- 2024高中語(yǔ)文第5單元莊子蚜第2課鵬之徙于南冥訓(xùn)練含解析新人教版選修先秦諸子蚜
- 2024高中語(yǔ)文第五課言之有“理”第3節(jié)有話“好好說(shuō)”-修改蹭訓(xùn)練含解析新人教版選修語(yǔ)言文字應(yīng)用
- 2024高中語(yǔ)文綜合閱讀訓(xùn)練2含解析新人教版選修先秦諸子蚜
- 2024高考化學(xué)一輪復(fù)習(xí)第9章化學(xué)實(shí)驗(yàn)基礎(chǔ)第29講化學(xué)實(shí)驗(yàn)基礎(chǔ)知識(shí)和技能精練含解析
- 2025年江蘇建筑安全員A證考試題庫(kù)及答案
- 2024年員工簡(jiǎn)單個(gè)人總結(jié)
- 2025屆遼寧省沈陽(yáng)市高三上學(xué)期一模英語(yǔ)試卷含答案
- 2024年南京市第一醫(yī)院分院高層次衛(wèi)技人才招聘筆試歷年參考題庫(kù)頻考點(diǎn)附帶答案
- 2025年高考?xì)v史復(fù)習(xí)之小題狂練300題(選擇題):秦漢時(shí)期(20題)
- 熱電站汽輪機(jī)發(fā)電安全操作規(guī)程(2篇)
- 鉆機(jī)安全操作規(guī)程(3篇)
- 2025年中考物理復(fù)習(xí)資料專題18 生活用電(知識(shí)梳理+典例+練習(xí))(原卷版)
- 2025年產(chǎn)業(yè)園區(qū)運(yùn)營(yíng)與管理企業(yè)組織結(jié)構(gòu)及部門職責(zé)
- 巖土工程勘察.課件
- 第五章 無(wú)土育苗技術(shù)
評(píng)論
0/150
提交評(píng)論