【r與數(shù)據(jù)庫】r +數(shù)據(jù)庫=非常完美_第1頁
【r與數(shù)據(jù)庫】r +數(shù)據(jù)庫=非常完美_第2頁
【r與數(shù)據(jù)庫】r +數(shù)據(jù)庫=非常完美_第3頁
【r與數(shù)據(jù)庫】r +數(shù)據(jù)庫=非常完美_第4頁
【r與數(shù)據(jù)庫】r +數(shù)據(jù)庫=非常完美_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

【與數(shù)據(jù)庫】6數(shù)0據(jù);庫6非0常;完美前言經(jīng)常用處理數(shù)據(jù)的分析師都會(huì)對包情有獨(dú)鐘,它強(qiáng)大的數(shù)據(jù)整理功能讓原始數(shù)據(jù)從雜亂無章到有序清晰,便于后期進(jìn)一步的深入分析,特別是配合上數(shù)據(jù)庫的使用,更是讓分析師如虎添翼,輕松搞定難以駕馭的數(shù)據(jù)容量,下面我們通過一個(gè)實(shí)用案例來具體看看如何將和數(shù)據(jù)庫完美融合在一起。在以后的博客中我們還會(huì)陸續(xù)講解包的各種功能和用語言訪問數(shù)據(jù)庫的方法。包可以配合一系列數(shù)據(jù)庫使用,如:l這里我們著重探討l數(shù)據(jù)的介紹首先我們來熟悉一下即將用到的數(shù)據(jù),在美國,藥品的檢疫是個(gè)嚴(yán)謹(jǐn)?shù)倪^程,當(dāng)患者在服用藥物后有任何不適反應(yīng),都可以將情況反映給相關(guān)部門(),而這些收集來的數(shù)據(jù)也對大眾公開,可以下載和分析。在這篇博客里我們會(huì)用到有關(guān)患者的人口統(tǒng)計(jì)信息和針對某種癥狀患者使用了特定藥物,因?yàn)橹忻浪幬镩g的差別,我們暫時(shí)沒有加入所用藥品的信息,如果讀者感興趣,可以自行調(diào)整分析的范圍,這里作者用較少數(shù)據(jù)力求讓讀者快速理解如何用來讀取網(wǎng)絡(luò)數(shù)據(jù),將其存入數(shù)據(jù)庫,并融合數(shù)據(jù)集,然后做深入分析。系統(tǒng)準(zhǔn)備下載數(shù)據(jù)首先我們建立循環(huán)語句來下載上半年的季度性數(shù)據(jù)(如果空間允許,還可以建立雙循環(huán)下載多于一年的數(shù)據(jù)解析下載數(shù)據(jù),構(gòu)建人口統(tǒng)計(jì)信息和反應(yīng)癥狀數(shù)據(jù)集創(chuàng)建數(shù)據(jù)庫這里我們沒有給出路徑,數(shù)據(jù)庫于是會(huì)被建在之前已設(shè)好的工作文件夾中上載數(shù)據(jù)集到建好的數(shù)據(jù)庫中copy_to(my.db,demography,temporary=FALSE)#uploadingdemographydata##Source:sqlite3.8.6[adverse.events]##From:demography[606,551x7]####primaryidcaseidevent_dtagesexwtoccr_country##(int)(int)(int)(dbl)(chr)(dbl)(chr)##13503293335032932000011839.000F83.0US##2366558823665588NA35.000FNADE##33867118338671182002101554.000F70.0US##4387757133877571NANAMNAGB##5387834433878344NA66.000MNAIT##64095463440954632004020465.476FNAJP##741149942411499420001117.000FNA##841352566413525620030346.000FNAUS##94194388241943882004032175.000F60.8##1042207644422076420040418.000FNAUS##.......................copy_to(my.db,indication,temporary=FALSE)#uploadingindicationdata##Source:sqlite3.8.6.建.立.與已有數(shù)據(jù)庫的鏈接并檢索所存數(shù)據(jù)表訪問數(shù)據(jù)庫包的命令可以借助語言來對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整理,首先我們用來從數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)caseidevent_dtagesexwtoccr_country##13503293335032932000011839.000F83US##2366558823665588NA35.000FNADE##33867118338671182002101554.000F70US##4387757133877571NANAMNAGB##5387834433878344NA66.000MNAIT##64095463440954632004020465.476FNAJPindication=tbl(my.db,'indication')head(indication)##primaryidindi_drug_seqindi_pt##1350329331TOC\o"1-5"\h\zMultiplesclerosis##2350329332Multiplesclerosis##3350329333Depression##4350329334Hypercholesterolaemia##5350329335Benignneoplasmofthyroidgland##6350329336DepressionFR=filter(demography,occr_country=='FR')#FilteringdemographyofpatientsfromFranceFR$query##SELECT'primaryid','caseid','event_dt','age','sex','wt','occr_country'##FROM'demography'##WHERE'occr_country'='FR'##explain(FR)####SELECT'primaryid','caseid','event_dt','age','sex','wt',

通過檢索美國患者的信息可以看到包的通過檢索美國患者的信息可以看到包的命令自行產(chǎn)生的數(shù)據(jù)庫檢索語句包的命令皆可用于修理數(shù)據(jù)庫中的數(shù)據(jù),我們還可以用包中的功能()將多重命令鏈接在一起數(shù)據(jù)分析可視化外行人經(jīng)常認(rèn)為數(shù)據(jù)分析師的工作不明覺厲,繪制漂亮高大上的圖表,然后從紛繁的數(shù)據(jù)中探索趨勢現(xiàn)象,但業(yè)內(nèi)的人都有這樣的體會(huì),很多工作都是洗數(shù)據(jù)的“體力活”,和真正的數(shù)據(jù)分析相比,占據(jù)了分析師的大量時(shí)間和精力。比如我們在做下面幾個(gè)數(shù)據(jù)分析例子前,完全可以再多花些時(shí)間將數(shù)據(jù)整理的更完善,這一塊我們將會(huì)在以后的文章中詳解。我們注意到由于美國患者人數(shù)的眾多,使得其他國家的差異在橫軸上不再明顯,于是我們剔除美國的影響,以便觀察不適反應(yīng)報(bào)告較多的其他國家的差異or='blue',fill='orange')+xlab('')+ggtitle('TopTenNon-USCountries')+theme(plot.title=element_text(size=rel(1.6),lineheight=.9,family='Times',face='bold.italic',colour='darkgreen'))+coord_flip()+ylab('TotalNumberOfReports')+theme(axis.title.x=element_text(size=15,lineheight=.9,family='Times',face='bold.italic',colour='blue'))+theme(axis.text.y=element_text(size=12,family='Times',face='bold.italic',colour='blue'))indication%>%group_by(indi_pt)%>%summarise(count=n())%>%arrange(desc(count))%>%head(5)##indi_ptcount##1Productusedforunknownindication463524##2Diabetesmellitus53742##3Rheumatoidarthritis47780##4Multiplesclerosis30946##5Plasmacellmyeloma29256indication%>%group_by(indi_pt)%>%summarise(count=n())%>%arrange(desc(count))%>%head(6)%>%tail(-1)%>%mutate(indi_pt=factor(indi_pt,levels=indi_pt[order(desc(count))]))%>%ggplot(aes(x=indi_pt,y=count))+我們剔除了計(jì)數(shù)最多的一項(xiàng),即不明確患者癥狀圖表表明針對肥胖的藥物記錄了最多的不適癥狀,在美國這一現(xiàn)象比較符合預(yù)期,眾所周知的人口肥胖問題使相關(guān)藥物使用較為普遍年齡的分布基本分布函數(shù),和都能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論