基于Python的久久醫(yī)藥網(wǎng)中藥數(shù)據(jù)采集與分析_第1頁
基于Python的久久醫(yī)藥網(wǎng)中藥數(shù)據(jù)采集與分析_第2頁
基于Python的久久醫(yī)藥網(wǎng)中藥數(shù)據(jù)采集與分析_第3頁
基于Python的久久醫(yī)藥網(wǎng)中藥數(shù)據(jù)采集與分析_第4頁
基于Python的久久醫(yī)藥網(wǎng)中藥數(shù)據(jù)采集與分析_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

目錄

1引言1

1.1項目背景1

1.2開發(fā)環(huán)境與工具2

1.2.1Pycharm簡介2

1.2.2Python簡介2

1.2.3Jupyternotebook簡介3

1.2.4Python第三方庫簡介錯誤!未定義書簽。

2需求分析3

2.1可行性需求分析4

2.2采集目標功能分析5

2.3關(guān)鍵技術(shù)分析5

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)5

2.3.2文件存取技術(shù)5

2.3.3可視化技術(shù)6

3數(shù)據(jù)采集7

3.1采集頁面分析7

3.2字段分析9

3.3編程實現(xiàn)9

4數(shù)據(jù)清洗與處理11

4.1數(shù)據(jù)清洗12

4.2數(shù)據(jù)儲存13

4.3編程實現(xiàn)15

5數(shù)據(jù)統(tǒng)計與分析17

5.1數(shù)據(jù)準備17

5.2數(shù)據(jù)展示19

5.2.1依據(jù)生產(chǎn)企業(yè)進行統(tǒng)計19

5.2.2依據(jù)藥品是否在醫(yī)保目錄進行統(tǒng)計20

I

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

5.2.3根據(jù)藥品是否為處方藥進行統(tǒng)計和分析21

5.3綜述22

6小結(jié)23

參考資料24

II

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

基于Python的久久醫(yī)藥網(wǎng)中藥數(shù)據(jù)采集與分析

1引言

隨著時間的推移,我國已經(jīng)進入了快速發(fā)展階段。百年難得的巨變,正是

這一代年輕人應該抓住的機遇。史蒂夫·喬布斯的一場新聞發(fā)布會開創(chuàng)了移動

互聯(lián)網(wǎng)時代。信息爆炸導致各種技術(shù)應用的需求不斷涌現(xiàn),就像雨后發(fā)芽的春

筍。

云、大、物、智等計算機互聯(lián)網(wǎng)技術(shù)為民生各方面的智能生活提供了技術(shù)

基礎(chǔ)。從公眾日常購物、旅行和其他活動所產(chǎn)生的數(shù)據(jù),也為廣大的技術(shù)人員

提供了大量的數(shù)據(jù)來源,使大家能夠?qū)W習、開發(fā)和應用事物。

在服裝、食品、住房、交通、醫(yī)療保健等領(lǐng)域產(chǎn)生的大量數(shù)據(jù)對發(fā)展越來

越有價值。這一代人也踏上了信息革命的門檻,正在進入信息滿天飛的時代。

許多IT工作者提倡“風口”一詞,并將許多人引入該行業(yè)。大數(shù)據(jù)從業(yè)者知道,

海量數(shù)據(jù)中隱藏的寶藏正在等待那些有緣或愿意探索它們的人。數(shù)據(jù)科學和大

數(shù)據(jù)技術(shù)也成為信息技術(shù)領(lǐng)域的熱點分支,大家都認為這是未來!

1.1項目背景

一家大型的上市公司的固定資產(chǎn)絕對不僅僅限于他們的樓房和股票,信息

也是資產(chǎn)組成部分中的固定一環(huán)。

對于一家中藥公司來說,中藥的研發(fā)和從國外進口各種各樣的中藥是關(guān)系

到公司現(xiàn)金流動儲備和公司發(fā)展的重要決策。然后,公司需要獲得藥物的清單

及其制造商的具體數(shù)據(jù),因此,本項目通過久久醫(yī)藥網(wǎng)查詢相關(guān)中藥的信息。

涉及到的藥品信息有很多,所以需要對網(wǎng)頁進行解析。然后通過Python爬

蟲的手段批量獲取需要的資料,然后進行分析。

本次畢業(yè)設(shè)計是爬取久久醫(yī)藥網(wǎng)網(wǎng)站中的中藥數(shù)據(jù),然后進行處理,分析,

以及數(shù)據(jù)可視化。繁雜的數(shù)據(jù)經(jīng)過清洗和分析之后,將結(jié)果一目了然地呈現(xiàn)出來,

公司的領(lǐng)導就可以討論哪些產(chǎn)商是可靠的合作伙伴,現(xiàn)階段最需要進貨哪些藥

品,最后做出相對正確的決策。所以本次畢業(yè)設(shè)計部分包含數(shù)據(jù)爬取、清洗處

理、儲存、可視化。

1

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

1.2開發(fā)環(huán)境與工具

1.2.1Pycharm簡介

PyCharm是一款強大的Python集成開發(fā)環(huán)境(IDE),由JetBrains開發(fā),

提供了豐富的功能以提高Python開發(fā)人員的生產(chǎn)力。

PyCharm支持多種操作系統(tǒng),包括Windows、macOS和Linux,其功能包括

代碼編輯、調(diào)試、代碼審查、單元測試等。它提供了強大的代碼智能提示和自

動補全功能,可以大大提高開發(fā)人員的編碼效率。PyCharm還具有代碼分析和重

構(gòu)功能,可幫助開發(fā)人員找出代碼中的錯誤和優(yōu)化代碼。

另外,PyCharm還提供了一些Python開發(fā)所需的特定工具,例如Python命

令行工具、Python包和模塊管理工具等。開發(fā)人員還可以使用PyCharm創(chuàng)建

PythonWeb應用程序并進行Web開發(fā),支持各種框架,如Flask、Django等。

總體而言,PyCharm是一款快速、高效、功能豐富的Python開發(fā)工具,適

用于各種規(guī)模的Python項目和開發(fā)團隊。

1.2.2Python簡介

Python是一種高級編程語言,具有簡單、易學、可讀性好等特征。它被廣

泛應用在各種領(lǐng)域,如科學計算、Web開發(fā)、人工智能、自動化、數(shù)據(jù)分析等。

Python得名于MontyPython,這是創(chuàng)始人的一種幽默風格。

Python的語法簡潔而優(yōu)雅,代碼可讀性強,這使得它成為了一門廣受歡迎

的編程語言。與其他一些編程語言相比,Python的編寫效率非常高,同時也具

有快速開發(fā)和測試的優(yōu)勢。Python提供了豐富的第三方庫和框架,使它成為了

一種多功能語言,可以幫助開發(fā)人員快速構(gòu)建各種類型的應用。

Python的標準庫提供了大量的功能模塊,包括字符串操作、文件處理、網(wǎng)

絡(luò)編程、GUI開發(fā)等等。此外,Python生態(tài)系統(tǒng)中有許多強大的第三方庫和框

架,如NumPy、Pandas、SciPy、Django、Flask等,這些工具使得Python在數(shù)

據(jù)科學、Web開發(fā)、人工智能、自動化測試、機器學習等方面得到廣泛應用。

總體來說,Python是一門簡單、易學、靈活、高效的編程語言,具有豐富

的庫和框架,可用于各種應用場景,包括科學計算、Web開發(fā)、自動化測試、數(shù)

據(jù)分析和人工智能等,其強大的生態(tài)系統(tǒng)和社區(qū)支持使其成為了計算機編程中

不可或缺的一部分。

2

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

1.2.3Jupyternotebook簡介

JupyterNotebook是一個開源的Web應用程序,可讓用戶創(chuàng)建和共享由代

碼、文本、圖表和其他富媒體組成的交互式文檔。它被廣泛用于數(shù)據(jù)分析、科

學計算、機器學習和其他相關(guān)領(lǐng)域。

JupyterNotebook的突出特點是它允許用戶將代碼、注釋和可視化內(nèi)容結(jié)

合在一起。它支持多種編程語言,包括Python、R、Julia、Scala等,并以JSON

格式保存筆記本。

JupyterNotebook的界面很容易入手且具有交互性,它將代碼和解釋文檔

集成在一起,并允許用戶通過單元格方式逐步運行代碼,以及可視化輸出結(jié)果。

JupyterNotebook還支持與外部庫的交互,允許用戶將其它一些集成化的工具

集成在筆記本中。

總的來說,JupyterNotebook是一款功能強大、易于使用的交互式計算平

臺,使得編寫和分享基于代碼的文檔變得非常簡單和方便。

1.2.4Python第三方庫簡介

requests:requests是一個PythonHTTP客戶端庫,它被廣泛用于向Web服

務器發(fā)送HTTP/1.1請求。requests庫提供了類HTTP請求方法的簡單易用的

API,例如GET、POST、PUT、DELETE等。它還提供了許多高級功能,例如會話

管理、身份驗證、Cookies的自動處理、自定義頭、超時和重試等。

Lxml:lxml是一款用于解析XML和HTML文檔的Python庫,它是基于C語

言實現(xiàn)的,因此解析速度非常快。lxml提供了簡單而且易于使用的API,使它

成為Python開發(fā)者最受歡迎的XML/HTML處理庫之一。

Json:JSON(JavaScriptObjectNotation)是一種輕量級的數(shù)據(jù)交換格式,

它以文本的形式表示復雜的數(shù)據(jù)結(jié)構(gòu),可以被幾乎所有編程語言解析。該模塊

允許開發(fā)人員編碼和解碼JSON數(shù)據(jù),從而在Python應用程序中處理JSON格式

數(shù)據(jù)變得非常簡單。通過json模塊提供的方法,可以輕松地將Python對象轉(zhuǎn)

換為JSON格式的字符串,并將JSON格式的字符串轉(zhuǎn)換回Python對象。

Csv:csv屬于python中的內(nèi)置模塊,它能夠讀取csv格式的文件或者將數(shù)

據(jù)存入到csv表格中。并且csv文件是表格和數(shù)據(jù)庫中常見的文件操作格式。

PIL:PIL(PythonImagingLibrary)是Python中最常用的圖像處理庫之

一,它支持多種圖像格式(如JPEG、PNG、BMP、GIF等)的讀寫和處理,PIL提

供的圖片處理功能非常豐富,包括圖片裁剪、旋轉(zhuǎn)、縮放、色彩調(diào)整、圖像濾

3

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

波等常用的基本操作,以及復雜的圖像處理算法,如邊緣檢測、形態(tài)學變換等。

NumPy:是Python科學計算領(lǐng)域中的一個重要的軟件包,它提供了多維數(shù)

組對象和許多用于操作這些數(shù)組的函數(shù)。

Pandas:Pandas的功能包括數(shù)據(jù)清洗、切片、合并、聚合、重塑、時間序

列和分類等。Pandas可以處理各種不同形式的數(shù)據(jù),如時間序列數(shù)據(jù)、非結(jié)構(gòu)

化的文本數(shù)據(jù)、表格數(shù)據(jù)和具有層次結(jié)構(gòu)的多維數(shù)據(jù)等。[2]

Matplotlib:Matplotlib是一個Python的繪圖庫,它提供了一個類似于

MATLAB的繪圖界面。它能夠完成各種類型的2D和3D繪圖,并且可以輕松地將

這些圖像導出為各種常見的圖像格式。Matplotlib可用于繪制線圖、散點圖、

熱力圖、柱狀圖等常見的統(tǒng)計圖表,也可以通過3D繪圖來創(chuàng)建立體圖形。此外,

Matplotlib還具有可定制化的屬性,使得用戶可以完全控制繪圖的外觀和風格。

Wordcloud:wordcloud[3]是一款Python的第三方庫,可以用于生成詞云。

詞云可以以詞語為基本單位,然后根據(jù)詞語的出現(xiàn)頻率確定詞語的大小,將所

有這些詞放到一張圖片里,就可以更藝術(shù)的展示文本。

2需求分析

2.1可行性分析

1、技術(shù)可行性

Python是面向?qū)ο笳Z言中一種易于理解的計算機編程語言。在這個項目中,

Python用于編寫程序,以實現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)清理和預處理以及數(shù)據(jù)可視化。

數(shù)據(jù)采集過程中存在一些小問題。首先,通過抓包捕獲分析,其次通過瀏覽器

控制臺獲得了請求及其參數(shù),然后可以獲得頁面數(shù)據(jù)的返回值。再次抓取的原

始數(shù)據(jù)以csv格式臨時存儲,最后在后續(xù)的數(shù)據(jù)預處理和可視化中調(diào)用。

Jupyternotebook用于數(shù)據(jù)的清洗,通過去除存在缺失值和空白值等字段進行

清洗。Mysql用于存儲清洗完成后所得到數(shù)據(jù)。

2、項目可行性

現(xiàn)在有一種說法:教育、醫(yī)療、住房是新時代的“三座大山”。為什么這

么說呢,就是他們有個共同的特點就是“難”、“貴”。這已經(jīng)成了老百姓的

不可承受之重。

本次項目通過采集久久醫(yī)藥網(wǎng)的網(wǎng)站中中藥的數(shù)據(jù),來分析部分中藥的藥

品信息。首先從藥品的性質(zhì)、生產(chǎn)的企業(yè)等方面對其進行分析,分析有價值的信

息,然后將其可視化,最后根據(jù)結(jié)果來得出結(jié)論,可以有效的幫助大家在選取

4

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

藥品的時候更加正確。

2.2采集目標分析

本次項目的數(shù)據(jù)集的來源是久久醫(yī)藥網(wǎng),是通過python爬取久久醫(yī)藥網(wǎng)的

中藥的信息。爬取完成后盡可能的檢查數(shù)據(jù)的準確性以及實時性,確定爬取出來

的數(shù)據(jù)準確和無誤,并且是屬于久久醫(yī)藥網(wǎng)中存在的中藥藥品信息。

分析久久醫(yī)藥網(wǎng)的網(wǎng)頁信息,明確此項目需要爬取的藥品參數(shù)有藥品名稱、

批準文號、是否處方藥、醫(yī)保類型、主治疾病、適應癥狀、生產(chǎn)企業(yè)等數(shù)據(jù),對

原始數(shù)據(jù)進行預處理之后,此項目將從多個層面對其進行分析。

2.3關(guān)鍵技術(shù)分析

2.3.1網(wǎng)絡(luò)爬蟲技術(shù)

在日常生活中,大家經(jīng)常在瀏覽網(wǎng)頁時遇到需要在本地緩存的數(shù)據(jù)。當數(shù)

據(jù)量很小時,大家可以手動下載數(shù)據(jù)以獲取所需的數(shù)據(jù)。然而,在大數(shù)據(jù)領(lǐng)域,

數(shù)據(jù)量通常是幾個G甚至幾個T單位。此時,手動下載和獲取數(shù)據(jù)無疑是一種

非常愚蠢的方式,因此本項目將采取網(wǎng)絡(luò)爬蟲的手段自動獲取數(shù)據(jù)。

爬蟲(又稱“網(wǎng)絡(luò)爬蟲”、“蜘蛛”)是一種自動抓取網(wǎng)頁內(nèi)容的程序,

通常用于自動搜集大量數(shù)據(jù)或信息。它們可以抓取整個網(wǎng)站,也可以抓取指定

頁面或者指定目錄下的所有文件。爬蟲使用特定的算法來抓取網(wǎng)頁的具體內(nèi)容,

例如圖像、文字、視頻、音頻等。

爬蟲的本質(zhì)是一種自動化技術(shù),它可以實現(xiàn)根據(jù)用戶指定的URL地址,自

動獲取網(wǎng)頁上的信息,并將其保存到本地或者存儲在數(shù)據(jù)庫中。爬蟲可以用于

實時收集網(wǎng)絡(luò)上的大量信息、進行網(wǎng)絡(luò)爬行、網(wǎng)絡(luò)搜索、更新網(wǎng)絡(luò)信息等高效

率的任務。

爬蟲的原理很簡單,就是通過發(fā)出HTTP請求,然后自動抓取返回的網(wǎng)頁內(nèi)

容,并解析這些網(wǎng)頁內(nèi)容,從而獲取有用的信息。

總之,爬蟲技術(shù)[4]是一種能夠自動抓取網(wǎng)絡(luò)信息的技術(shù),它可以收集大量

的數(shù)據(jù),從而有助于實現(xiàn)大數(shù)據(jù)分析,為企業(yè)提供決策支持。

2.3.2文件存取技術(shù)

首先導入csv和json模塊,然后使用withopen()命令來寫入文件或者讀

取文件中的數(shù)據(jù),讀取或者寫入完成后,然后可以通過print命令來進行查看

5

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

讀取和寫入是否成功,以便判斷代碼是否出現(xiàn)問題,如下所示:

csv模塊讀取文件如圖2-1顯示:

圖2-1csv模塊

json模塊寫入文件如圖2-2顯示:

圖2-2json模塊

2.3.3可視化技術(shù)

爬取下來的數(shù)據(jù)通過預處理、保存為csv文件格式。這樣繁雜的數(shù)據(jù)集并

不能一眼就得到本次項目所需要的結(jié)論,于是就需要用到一種技術(shù),將獲取到的

繁雜數(shù)據(jù),以統(tǒng)計圖形的方式顯示在大家的面前,以便大家能夠一眼就看到結(jié)

果。這個就是數(shù)據(jù)可視化技術(shù)[5]。

多年來,可視化技術(shù)逐漸發(fā)展為以下三類:信息可視化、科學可視化以及

可視化分析。在本次項目中使用到的是信息可視化。信息可視化的處理對象是

非結(jié)構(gòu)化和非幾何抽象數(shù)據(jù),如金融交易、社交網(wǎng)絡(luò)和文本數(shù)據(jù)等。其核心挑

戰(zhàn)是如何減少視覺混亂對大規(guī)模和高維復雜數(shù)據(jù)信息的干擾。

在這個項目中,使用第三方python庫Matplotlib來可視化。Matplotlib

包含許多庫,這些庫對應于餅圖、條形圖、直方圖、折線圖和其他圖形,可以

有效地顯示數(shù)據(jù)。

3數(shù)據(jù)采集

3.1采集頁面分析

首先通過edge瀏覽器搜索久久醫(yī)藥網(wǎng)然后進入主網(wǎng)頁如圖3-1,然后找到

6

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

中藥目錄頁面,URL為:/zhongyao/,點擊下面的頁碼,發(fā)

現(xiàn)URL發(fā)生了改變,變成了:/zhongyao/?page=2,如圖3-2

所示。

圖3-1久久醫(yī)藥網(wǎng)主網(wǎng)頁界面

圖3-2久久醫(yī)藥網(wǎng)中藥頁面

按F12調(diào)出開發(fā)者工具,刷新頁面,利用全局搜索工具定位所需數(shù)據(jù)位置,

知道了該網(wǎng)頁是GET請求,如圖3-3.

7

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖3-3開發(fā)者工具

3.2字段分析

首先,來到網(wǎng)頁面,然后將選擇欄目,定位到此次項目所需要的數(shù)據(jù)所在的

位置,然后通過開發(fā)者工具得到字段信息、數(shù)據(jù)類型以及所在網(wǎng)頁的位置,如圖

3-4所示。再通過Requests方法中的GET方法來獲得響應的數(shù)據(jù)。

圖3-4分析數(shù)據(jù)類型頁面

8

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

3.3編程實現(xiàn)

導入所需庫。

圖3-5導入所需庫頁面

設(shè)置請求頭和URL。

圖3-6請求頭內(nèi)容頁面

代碼實現(xiàn)如下:

9

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

源文件.zip

4數(shù)據(jù)清洗與處理

在獲得了龐大的數(shù)據(jù)集之后,本項目還需要對這些數(shù)據(jù)集進行預處理,也就

是所謂的清洗和檢查,確定爬取過來的數(shù)據(jù)是否存在無效值和確實值,要保證數(shù)

10

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

據(jù)的一致性,這個對于信息質(zhì)量的評估是一項很重要的任務。

不僅如此,還需要將數(shù)據(jù)進行有理化和有序化,這樣子能夠在數(shù)據(jù)調(diào)用共享

過程中方便很多開發(fā)人員對數(shù)據(jù)信息的使用。本次項目中需要將爬下來的數(shù)據(jù)

和網(wǎng)頁原數(shù)據(jù)進行比對,并且檢查是否出現(xiàn)空值,還有數(shù)據(jù)的位置是否正確。然

后根據(jù)不同的需求來對數(shù)據(jù)進行不同的處理,使得數(shù)據(jù)更方便大家來進行觀察。

4.1數(shù)據(jù)清洗

圖4-1數(shù)據(jù)清洗準備頁面

對比數(shù)據(jù)檢查之后,發(fā)現(xiàn)數(shù)據(jù)集中的主治疾病和適應癥狀字段存在空值,那

么就需要根據(jù)需求去除這些包含空值的數(shù)據(jù),首先在notebook中可以通過使用

data2=pd.DataFrame(data.dropna())命令來去除存在空值的數(shù)據(jù),代碼運行完

成后,進行檢查,發(fā)現(xiàn)空值和缺失值已經(jīng)刪除完畢。數(shù)據(jù)清洗完畢后將數(shù)據(jù)進

行保存,留做后續(xù)進行可視化、存儲以及分析。

11

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖4-2數(shù)據(jù)清洗完成界面

4.2數(shù)據(jù)儲存

存儲數(shù)據(jù)的方法有很多,例如使用數(shù)據(jù)庫、記事本格式(txt)存儲,或用

csv、excel、json等存儲方式來存儲文件。數(shù)據(jù)庫分為關(guān)系型數(shù)據(jù)庫和非關(guān)系

型數(shù)據(jù)庫。典型的關(guān)系型數(shù)據(jù)庫包括MySQL和Oracle,非關(guān)系數(shù)據(jù)庫包括

Mongodb和Redis,它們以鍵值對的形式存儲數(shù)據(jù)。數(shù)據(jù)庫一般用來存儲大型數(shù)

據(jù)信息。在本次項目中,爬取的網(wǎng)站久久醫(yī)藥網(wǎng)中的中藥數(shù)據(jù)數(shù)據(jù)量相對較少,

所以不需要用到數(shù)據(jù)庫,于是本項目將使用csv和json來存儲數(shù)據(jù)。

如圖4-3,4-4所示:

12

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖4-3數(shù)據(jù)存儲為json頁面

圖4-4數(shù)據(jù)存儲csv頁面

13

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

4.3編程實現(xiàn)

打開Jupyternotebook,導入此次項目所需要的相關(guān)模塊,如下圖4-5所示。

圖4-5Jupyternotebook導入相關(guān)模塊代碼

讀取data.json文件,查看數(shù)據(jù)并檢查是否有問題,發(fā)現(xiàn)存在缺失值以及

空值,如圖4-6所示。

圖4-6讀取數(shù)據(jù)代碼及結(jié)果頁面

使用data.dropna()命令去除空值以及缺失值,結(jié)果如圖4-7所示。

14

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖4-7去除缺失值代碼及結(jié)果頁面

將處理后的數(shù)據(jù)保存,然后再將保存的數(shù)據(jù)存入新建的data2.csv文件中,

如下圖4-8所示。

圖4-8保存數(shù)據(jù)代碼

最后讀取data2.csv文件,查看是否還存在問題,發(fā)現(xiàn)缺失值以及空值已

經(jīng)刪除完畢,如圖4-9所示。

圖4-9查看csv文件頁面

15

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

5數(shù)據(jù)統(tǒng)計與分析

5.1數(shù)據(jù)準備

導入相關(guān)庫,使用pandas來顯示數(shù)據(jù),此次項目在前面已經(jīng)進行了數(shù)據(jù)

的清洗,所以不需要再檢查數(shù)據(jù)的缺失值、空值以及錯位等情況。首先檢查

notebook中數(shù)據(jù)是否有問題,檢查完成沒有發(fā)現(xiàn)問題。然后再去csv中檢

查文件是否出錯,檢查完成,沒有出現(xiàn)問題,如圖5-1、5-2。

圖5-1notebook數(shù)據(jù)頁面

16

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

圖5-2csv數(shù)據(jù)頁面

打開Pycharm軟件,編寫代碼讀取文件,如圖5-3:

圖5-3Pycharm頁面

17

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

5.2數(shù)據(jù)展示

5.2.1依據(jù)生產(chǎn)企業(yè)進行統(tǒng)計

圖5-4生產(chǎn)企業(yè)數(shù)據(jù)展示頁面

將表中生產(chǎn)企業(yè)的字段數(shù)據(jù)進行匯總和處理,然后統(tǒng)計出現(xiàn)的頻率,最后生

成特定序列,通過特定序列里面的數(shù)據(jù)再按照詞頻生成詞云圖,如圖5-4中可以

看出甘肅河西制藥有限責任公司出現(xiàn)的頻率最高,其次是平?jīng)龇鹈扑幱邢挢?/p>

任公司和遼寧金丹藥業(yè)有限公司。

不僅如此,上榜的公司大多處于吉林、甘肅等地區(qū)。從側(cè)面分析,這些地區(qū)

的中藥產(chǎn)業(yè)發(fā)展呈上升趨勢,畢業(yè)后,中醫(yī)藥人才可以考慮去這些地區(qū)。也許他

們會在這些領(lǐng)域獲得更多的發(fā)展和機會。還有更多的工業(yè)巨頭位于這些地方,

這對個人職業(yè)發(fā)展和前景有不可估量的好處。藥品生產(chǎn)質(zhì)量越好,企業(yè)越重視

18

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

人才管理。這些企業(yè)未來可能會發(fā)展得更好,其中一些甚至可以成為行業(yè)中的

佼佼者。

5.2.2依據(jù)藥品是否在醫(yī)保目錄進行統(tǒng)計

圖5-5是否醫(yī)保數(shù)據(jù)展示頁面

從圖5-5中可以看出來久久醫(yī)藥網(wǎng)所收錄的中藥大多數(shù)都是非醫(yī)保類的藥

品,在醫(yī)保目錄內(nèi)的藥品所占比例要少很多。

醫(yī)療保險主要分為兩類,國家醫(yī)保和商業(yè)醫(yī)保。國家醫(yī)保就是大家所說的

醫(yī)療保險,是由政府主導的福利性制度,每個城市或鄉(xiāng)村都能投保,投保條件

較為寬松,不管身體是否疾病還是健康,都可以加入保障,但畢竟參保人數(shù)多,

只能保而不包,很多自費藥治療手段無法一并覆蓋;商業(yè)醫(yī)保是由保險公司開

發(fā)的醫(yī)療保險,需要投保人自己投保。目前市面上的商業(yè)醫(yī)療險主要有兩種:一

種是小額醫(yī)療險,報銷額度一般在1~3萬,免賠額較低;一種是百萬醫(yī)療險,

報銷額度多在100萬以上,一般有1萬元的免賠額。

19

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

醫(yī)療保險有以下好處:減輕財務負擔:醫(yī)療費用普遍很高,尤其是對于突

發(fā)疾病或長期治療的病患,花費很大。醫(yī)??梢詼p輕個人和家庭的財務負擔,

降低醫(yī)療費用開銷;提供保障:醫(yī)保為參保人提供定期體檢、門診、住院及大

病治療等等保障,使人們可以更加放心地生活;促進公民健康:醫(yī)保提高了醫(yī)

療治療的可及性和可負擔性,使更多人能夠及時治療并預防疾病,提高了公民

的健康水平;降低社會醫(yī)療成本:由于大部分人受到醫(yī)療保險保障,醫(yī)院可以

比以前更好地管理醫(yī)療資源,以及優(yōu)化診療流程,節(jié)約醫(yī)療成本。

5.2.3根據(jù)藥品是否為處方藥進行統(tǒng)計和分析

圖5-6是否處方數(shù)據(jù)展示頁面

從圖5-6中可以可以看出來久久醫(yī)藥網(wǎng)所收錄的中藥大多數(shù)都是以非處方

藥為主,占中藥總比例的86.13%,處方藥所占比例為13.87%。

非處方藥(Over-The-CounterDrugs,簡稱OTCDrugs)是指為方便公眾用

藥,在保證用藥安全的前提下,經(jīng)國家衛(wèi)生行政部門規(guī)定或?qū)彾ê螅恍枰?/p>

20

湖南商務職業(yè)技術(shù)學院畢業(yè)設(shè)計

需要醫(yī)生處方即可自由購買和使用的藥物,一般公眾憑自我判斷,按照藥品標

簽及使用說明就可以自行使用。非處方藥的標簽、說明書必須具有國家制定的

專用標識,即“OTC”字樣,這些藥品一般被用于治療一些日常常見的輕度疾病

和癥狀,例如感冒、咳嗽、發(fā)熱、頭痛、胃痛、腹瀉、過敏等,由于非處方藥

品主要是依靠自己來進行判斷和使用,所以經(jīng)常作為家庭常備用藥,因此非處

方藥具有如下特點:安全性大。臨床長期實踐已確證為較安全的藥物,在推薦治

療劑量下,一般無嚴重不良反應即便有反應,也較輕微,停藥后可迅速自行消

退;療效可靠。適應證狀比較明確,使用后能夠比較較迅速的起到效果,容易

為消費者掌握;說明書通俗易懂。方便大家閱讀、判斷、選擇以及使用。

需要注意的是,雖然非處方藥沒有處方的,但是在使用時也需要注意劑量

和頻率的要求和約束,不要擅自更改藥品的使用方式和規(guī)格,同時在使用非處

方藥時,一旦出現(xiàn)了不適癥狀,應立即停止使用藥品。如果癥狀不緩解或者出

現(xiàn)嚴重不良反應,應該立即去就近醫(yī)院治療。

與非處方藥不同,處方藥它沒有特殊標簽。它們具有非常強的藥理作用,

比較容易引起一定的毒副作用。使用不當?shù)脑捑腿菀滓鹬卸?,危及到病人?/p>

生命安全。這就是醫(yī)生在明確診斷病情之后,要求病人必須要按處方服用藥品

的原因。

非處方藥的推行有以下好處:非處方藥可以隨時隨地購買,而無需預約醫(yī)

生,掛號或等待,從而節(jié)省時間成本;在大量情況下,非處方藥可以有效地緩

解癥狀或治療一些常見病癥,例如感冒、頭痛、咳嗽等,這樣可以減輕醫(yī)療資

源的壓力,讓醫(yī)生更好地服務于有需要的患者;推行非處方藥可以提高人們自

我護理的能力,讓公眾更加熟悉常用藥物,并掌握藥物的正確用法和用量,從

而提高了人們對自身健康狀況的認識和健康素質(zhì);推行非處方藥可以避免不必

要的醫(yī)療和化驗檢查,降低醫(yī)療成本,有效的節(jié)省醫(yī)療資源。

總之,非處方藥在很多情況下具有顯著的優(yōu)勢,它可以提高人們自我護理

的能力,緩解輕癥狀,降低醫(yī)療負擔并降低醫(yī)療成本,但是需要注意非處方藥

也可能存在一定的安全風險,因此在使用前一定要仔細閱讀說明書并嚴格按照

劑量和頻率的要求使用。

5.3綜述

綜上,國產(chǎn)優(yōu)秀中藥企業(yè)坐落于甘肅與吉林,其中甘肅河西制藥有限責任公

司是行業(yè)翹楚。根據(jù)數(shù)據(jù)分析,不在醫(yī)保目錄中的占百分之八十以上。增加醫(yī)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論