基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用.doc_第1頁
基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用.doc_第2頁
基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用.doc_第3頁
基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用.doc_第4頁
基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用.doc_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用 乳腺癌發(fā)病隱匿,確切病因尚未完全明確,一般認(rèn)為與遺傳、生育、行為生活習(xí)慣等多種內(nèi)在和外界的因素共同作用有關(guān)。 早期乳腺癌通過規(guī)范化治療,治愈率較高;中晚期乳腺癌雖可延長患者生存期,卻難以徹底治愈。 由于人們早發(fā)現(xiàn)、早診斷、早治療的健康意識淡薄,加之我國人口眾多、醫(yī)療衛(wèi)生資源有限等因素,很難實現(xiàn)全國范圍內(nèi)的乳腺癌篩查工作。 因此開展乳腺癌預(yù)測模型的研究,及時篩選出乳腺癌高危人群,從而有的放矢顯得尤為重要。 課題引入代價敏感學(xué)習(xí)算法,對乳腺癌預(yù)測模型進(jìn)行研究,進(jìn)而實現(xiàn)對高危人群的篩選,達(dá)到乳腺癌輔助檢測的目的。 本文的主要工作內(nèi)容如下 (1)數(shù)據(jù)分析。 課題收集并1031位就診者的臨床診療數(shù)據(jù)。 分別對訓(xùn)練數(shù)據(jù)(數(shù)據(jù)集1)中定量因素之間的獨(dú)立性,以及各因素在病例組和對照組之間的差異性進(jìn)行分析。 將具有統(tǒng)計學(xué)意義的影響因素變量納入乳腺癌危險因素中,并組建新的實驗數(shù)據(jù)集(數(shù)據(jù)集2)。 (2)提出了一種基于閾值優(yōu)化Logistic回歸的乳腺癌預(yù)測模型。 針對實驗數(shù)據(jù)存在的不平衡問題,實驗采用優(yōu)化分類閾值的方法提升Logistic回歸模型的預(yù)測性能。 本文分別對數(shù)據(jù)集1和數(shù)據(jù)集2構(gòu)建Logistic回歸模型,并且通過查準(zhǔn)率-查全率曲線評價改變閾值對模型性能的影響效果。 實驗表明,數(shù)據(jù)集2構(gòu)建的Logistic回歸模型設(shè)置閾值為0.031時,模型Main_Logistic_Model預(yù)測性能最高,其AUC值為75.08%,敏感度為71.43%。 (3)提出了一種基于代價敏感決策樹C5.0的乳腺癌預(yù)測模型。 在不平衡問題中,不同的分類錯誤會導(dǎo)致不同的分類代價。 實驗通過引入代價矩陣(cost matrix)的方法,分別對數(shù)據(jù)集1以及數(shù)據(jù)集2構(gòu)建的決策樹C5.0預(yù)測模型進(jìn)行優(yōu)化。 實驗表明,數(shù)據(jù)集1構(gòu)建的決策樹C5.0模型,設(shè)置c(A)/c(B)比值為18/1時,模型C5.0_Model的預(yù)測性能最優(yōu),其AUC值為89.37%,模型的敏感度更是高達(dá)100.00%。 (4)設(shè)計并實現(xiàn)了乳腺癌預(yù)測系統(tǒng)。 針對本文提出的兩種不同的分類器,制定合理的系統(tǒng)算法,設(shè)計并實現(xiàn)乳腺癌預(yù)測系統(tǒng)。 其包括用戶端和管理員端。 用戶端通過收集用戶相關(guān)指標(biāo),實現(xiàn)對女性乳腺癌的患病風(fēng)險進(jìn)行預(yù)測,及時有效的篩選出高危人群,基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用IV對于乳腺癌的輔助檢測,具有積極意義。 關(guān)鍵詞乳腺癌;代價敏感學(xué)習(xí);Logistic回歸;決策樹C5.0;預(yù)測模型濟(jì)南大學(xué)碩士學(xué)位論文V AbstractBreast cancer is theleading malignanttumor in the world,and ithas agreat impacton females health,national economyand socialdevelopment.It hasbee amajor publichealth problemin currentsociety.The incidenceof breast cancerisconcealed,and theexact causeis notpletely clear.It isgenerally believedto berelated toa varietyof internaland externalfactors suchas heredity,fertility,and behavioralhabits.Early breast cancer hasa relativelyhigh curerate throughstandardized treatment.Although thereare somemethods forprolonging thesurvival ofpatients withterminal breastcancer,it isdifficult topletely cure.Due tothe lackof healthawareness ofearly detection,early diagnosisand earlytreatment,and thefact thatChina hasa largepopulation andlimited medicaland healthresources,it isdifficult toachieve breastcancer screeningacross the country.Therefore,it isparticularly importantto carryout researchon breastcancer prediction models andtimely screen out high-risk groupsof breastcancer.The subjectintroduces acost-sensitive learningalgorithm tostudy breastcancer prediction models,in orderto screenout high-risk populationsand achievethe purposeof breastcancer assisted detection.The mainwork ofthis paperis asfollows: (1)Data Analysis.The projecthas collectedand piledclinical dataon1031breastcancerpatients.This paperanalyzes theindependence betweenquantitative factorsinthetraining data(data set1)and thedifferences betweenthe diseasegroups inthe casegroup and the controlgroup.Statistically significantinfluencing factorswere includedin breastcancer riskfactors anda newexperimental data set(data set2)was established. (2)A breastcancer prediction model basedon threshold-optimized Logistic regression wasproposed for the imbalance problem ofexperimental data,the experimentused themethod ofoptimizing classificationthreshold toimprove theprediction performance of Logistic regression model.In this paper,Logisticregression models areconstructed fordata set1and data set2respectively,and theeffect ofchanging thresholdsonmodelperformance isevaluated bythe precision-recall curve.Experiments showthat whenthe thresholdof Logisticregressionmodel constructed by dataset2is0.031,the modelMain_Logistic_Model has the highestprediction performance,the modelAUC valueis75.08%,andthesensitivity is基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用VI71.43%. (3)A breastcancer predictionmodel basedon cost-sensitive decision tree C5.0is proposed.In theimbalanceproblem,different classificationerrors leadto differentclassification costs.The experimentoptimizes thedecision treeC5.0predictionmodelconstructed bydataset1and dataset2by introducingthe costmatrix method.Experiments showthat thedecision treeC5.0modelconstructedbydataset1has thebest predictiveperformanceofthe modelC5.0_Model whenthec(A)/c(B)ratio is18/1,and itsAUC valueis89.37%.Sensitivity isas highas100.00%. (4)The breastcancer predictionsystem wasdesigned and implemented.Aording tothe twodifferent classifiersproposed inthispaper,a reasonablesystem algorithmis developedto designandimplementthe breastcancer predictionsystem.The systemincludes aclient andan administrator.By collectinguser-related indicators,the clientcan predictthe riskof breastcancer infemale,so canscreenouthigh-risk groupseffectively,which haspositive significancefortheassisteddetectionof breastcancer.Key Words:breastcancer;cost-sensitive learning;Logisticregression;decisiontreeC5.0;predictionmodel濟(jì)南大學(xué)碩士學(xué)位論文1第一章緒論本章1.1節(jié)介紹了課題研究背景和意義,1.2節(jié)闡述了國內(nèi)外研究現(xiàn)狀以及存在的問題,引入代價敏感學(xué)習(xí)算法;本章1.3和1.4節(jié),分別簡要介紹了本文研究的主要內(nèi)容和本文的結(jié)構(gòu)安排。 1.1研究背景及意義乳腺癌是女性最常見的惡性腫瘤之一,位于女性腫瘤死因的首位1。 其對經(jīng)濟(jì)、社會及家庭都造成了極大的影響。 據(jù)世界衛(wèi)生組織下屬國際癌癥研究機(jī)構(gòu)(International Agencyfor Researchon Cancer,IARC)2018年發(fā)布的全球癌癥統(tǒng)計數(shù)據(jù)顯示,全球新發(fā)癌癥病例1810萬,其中乳腺癌210萬,約占11.6%;新發(fā)癌癥死亡人數(shù)960萬,其中包含63萬乳腺癌患者,約占6.6%。 在全球860萬女性新發(fā)癌癥病例中,乳腺癌約占24.2%,位于女性癌癥發(fā)病首位(圖1.1a)。 在全球420萬女性癌癥死亡人數(shù)中,乳腺癌約占總數(shù)的15.0,也高居第一(圖1.1b)。 在全球絕大多數(shù)國家,女性乳腺癌的發(fā)病率均高于其它癌癥2。 由此可見,乳腺癌已成為當(dāng)前社會的重大公共衛(wèi)生問題3。 (a)全球女性的癌癥發(fā)病率分布(b)全球女性的癌癥死亡率分布圖1.1全球女性的癌癥發(fā)病率和死亡率分布中國雖不是乳腺癌高發(fā)國家,但隨著我國經(jīng)濟(jì)發(fā)展以及人們生活水平的提高,乳腺癌的發(fā)展?fàn)顩r不容樂觀。 據(jù)國家癌癥中心2018年發(fā)布的全國乳腺癌統(tǒng)計數(shù)據(jù)顯示,我國女性乳腺癌新發(fā)病例約27.89萬,占女性新發(fā)癌癥病例的16.51%,位居女性癌癥發(fā)病首位。 女性乳腺癌死亡病例約6.60萬,占女性癌癥死亡病例的7.82%,是女性癌癥死基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用2亡的主要原因之一4。 高死亡率大多歸因于診斷較晚,導(dǎo)致錯過最佳治療時機(jī)。 針對乳腺癌現(xiàn)狀,加強(qiáng)乳腺癌篩查工作,使大批可能患有乳腺癌的病人得到及時有效的控制和治療,從而提高乳腺癌早期發(fā)現(xiàn)率是目前工作的重中之重。 由于乳腺癌發(fā)病機(jī)制復(fù)雜、加之人們的健康意識淡薄,以及我國人口眾多、醫(yī)療衛(wèi)生資源有限等綜合因素,很難實現(xiàn)全國范圍內(nèi)的乳腺癌篩查工作,因而開展乳腺癌預(yù)測模型的研究,篩選出乳腺癌高危人群從而有的放矢顯得尤為重要。 課題開展乳腺癌預(yù)測模型的研究,通過構(gòu)建基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型,準(zhǔn)確評估出乳腺癌高危人群,并對高危人群及時實施合理有效的干預(yù)和監(jiān)測手段,對于乳腺癌的輔助檢測,具有積極意義。 1.2國內(nèi)外研究現(xiàn)狀乳腺癌預(yù)測模型基于收集就診者乳腺癌危險因素信息,進(jìn)而開展研究。 研究認(rèn)為,基因因素、生育因素、內(nèi)分泌因素、飲食、運(yùn)動情況、體質(zhì)指數(shù)等均與乳腺癌的發(fā)病風(fēng)險相關(guān)5-10。 模型依據(jù)選定的乳腺癌危險因素不同,主要分為兩大類統(tǒng)計型預(yù)測模型和基因型預(yù)測模型。 國外專家和學(xué)者對乳腺癌預(yù)測模型研究較早。 目前歐美國家使用范圍較廣的乳腺癌統(tǒng)計型模型是Gail模型和Claus模型。 1989年,Gail等11針對三十萬白人婦女的乳腺癌危險因素相關(guān)數(shù)據(jù)進(jìn)行分析,并從樣本中選取2852例患者和3146例對照,采用非條件Logistic回歸分析方法,提出用于評估特定人群在一定的影響因素下患乳腺癌概率的Gail模型。 Gail模型存在明顯弊端,除考慮危險因素不夠全面外,Gail模型還具有明顯的種族局限性。 Claus等12將患乳腺癌的親屬個數(shù)及其發(fā)病的年齡(包括一級和二級親屬)納入到模型當(dāng)中,提出用于評估具有乳腺癌家族史的女性患乳腺癌的風(fēng)險的Claus模型。 但對于無家族史女性,Claus模型的預(yù)測效力偏低,且Chay等13也報道該模型不適用于評估亞洲女性。 隨著Miki14和Wooster等15分別發(fā)現(xiàn)BRCA1基因、BRCA2基因與乳腺癌有一定關(guān)聯(lián)。 1997年,Couch等16構(gòu)建了Couch模型。 之后陸續(xù)研究出Shattuck-Eidens模型、Myriad模型、Myriad模型、BRCAPRO模型以及BOADICEA模型17。 目前使用范圍最廣的基因型模型是BRCAPRO模型,該模型利用貝葉斯理論預(yù)測BRCA基因的突變概率,用于評估特定年齡患乳腺癌的風(fēng)險18。 但BRCAPRO模型在預(yù)測沒有遺傳因素的女性患有乳腺癌的風(fēng)險時準(zhǔn)確率欠佳,且模型的適用性存在不同種族性差異。 Fischer等19發(fā)現(xiàn),BRCAPRO模型較準(zhǔn)確預(yù)測出德國人群攜帶BRCA突濟(jì)南大學(xué)碩士學(xué)位論文3變基因的概率,但Kang20卻發(fā)現(xiàn),該模型不適用于韓國女性。 國內(nèi)學(xué)者和專家考慮我國乳腺癌現(xiàn)狀,很難開展全國范圍內(nèi)的乳腺癌篩查工作,紛紛投入乳腺癌預(yù)測模型的研究當(dāng)中。 由于基因檢測昂貴,通過個體的家族史建立攜帶乳腺癌易感基因概率,進(jìn)而預(yù)測易感基因突變概率的預(yù)測模型不適合大規(guī)模乳腺癌篩查。 故目前大多是從流行病學(xué)角度考慮乳腺癌危險因素,應(yīng)用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)進(jìn)行乳腺癌統(tǒng)計型預(yù)測模型研究。 xx年,侯爭光等21對未絕經(jīng)、已絕經(jīng)病例組和對照組分別進(jìn)行Logistic單因素和多因素回歸分析,建立預(yù)測模型并進(jìn)行判別分析,對乳腺癌的預(yù)測有一定的參考價值。 xx年,徐衛(wèi)云等22通過流行病學(xué)調(diào)查并結(jié)合西部二級城市女性乳腺癌相關(guān)危險因素,提出基于Logistic回歸的乳腺癌預(yù)測模型,對臨床工作起到指導(dǎo)作用,但模型尚需進(jìn)行大規(guī)模人群的驗證研究。 xx年,吳菲等23采用Cox比例風(fēng)險模型,計算乳腺癌5年發(fā)病風(fēng)險,初步建立符合該人群流行病學(xué)特征的乳腺癌預(yù)測模型,為乳腺癌高危人群的篩選提供依據(jù)。 董華24等提出基于決策樹算法和支持向量機(jī)(SVM)特征消除算法構(gòu)建三陰乳腺癌(TNBC)預(yù)測模型,實現(xiàn)對三陰乳腺癌精準(zhǔn)診斷,但模型不適用于其它類型乳腺癌預(yù)測。 2019年,段文鑫等25針對西藏地區(qū)女性乳腺癌數(shù)據(jù),構(gòu)建了基于Logistic回歸的乳腺癌風(fēng)險評分模型,但不適用于大范圍篩查。 其它各地區(qū)乳腺癌預(yù)測模型研究也陸續(xù)展開,為中國制定合理有效的乳腺癌干預(yù)策略提供科學(xué)依據(jù)。 雖然上述方法均取得了一定研究成果,但仍存在以下問題。 (1)沒有考慮醫(yī)療數(shù)據(jù)的特殊性。 上述模型構(gòu)建時,收集病例組數(shù)據(jù)和對照組數(shù)據(jù)偏差均較小。 但在現(xiàn)實生活中,患乳腺癌和未患乳腺癌的人數(shù)是極不對稱的。 忽略數(shù)據(jù)存在的嚴(yán)重不平衡問題,會極大影響預(yù)測效果。 (2)傳統(tǒng)的學(xué)習(xí)方法總是基于不同類別樣本代價相同為前提。 其以優(yōu)化總體精度為最終目標(biāo),極易造成分類器在多數(shù)類分類精度過高,而少數(shù)類分類精度極低的情況。 但在實際乳腺癌預(yù)測中,把一個真正的乳腺癌患者預(yù)測為不患病的成本,要遠(yuǎn)遠(yuǎn)大于把一個健康用戶預(yù)測為乳腺癌的成本。 代價敏感學(xué)習(xí)(Cost-Sensitive Learning,CSL)可通過對不同類別樣本賦予不同的錯分代價,從而解決數(shù)據(jù)不平衡問題。 目前,代價敏感學(xué)習(xí)應(yīng)用于我國很多研究領(lǐng)域。 在醫(yī)學(xué)領(lǐng)域,任福龍等26提出基于代價敏感的半監(jiān)督Bagging(CS-SemiBagging)的算法,實現(xiàn)對糖尿病視網(wǎng)膜病變進(jìn)行分級。 在科技領(lǐng)域,楊杰等27提出基于Boosting算法的軟件缺陷預(yù)測模型。 在商業(yè)領(lǐng)域,石瀚凌28提出基于Boosting與代價敏感決策樹的集成算法,基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用4用來進(jìn)行客戶流失預(yù)測等。 故針對課題數(shù)據(jù)存在的嚴(yán)重不平衡問題,本文基于代價敏感學(xué)習(xí)對乳腺癌預(yù)測模型進(jìn)行研究,分別提出了一種基于閾值優(yōu)化Logistic回歸的乳腺癌預(yù)測模型和一種基于代價敏感決策樹C5.0的乳腺癌預(yù)測模型,有助于高效的篩選出乳腺癌高危人群,并及時進(jìn)行干預(yù)以達(dá)到降低乳腺癌死亡率的目的。 課題對于乳腺癌的輔助檢測,有一定的參考價值。 1.3論文研究內(nèi)容本文共收集和了1031個就診者的臨床診療數(shù)據(jù),所有就診者均進(jìn)行了乳腺癌檢查。 其中26例患乳腺癌(診斷結(jié)果呈陽性),1005例未患乳腺癌(診斷結(jié)果呈陰性)。 由于數(shù)據(jù)集存在嚴(yán)重不平衡問題,且實際的乳腺癌診斷中,少數(shù)類的錯分代價要遠(yuǎn)高于多數(shù)類。 故課題采用代價敏感學(xué)習(xí)的方法,分別構(gòu)建了基于閾值優(yōu)化Logistic回歸的乳腺癌概率預(yù)測模型和基于代價敏感決策樹C5.0的乳腺癌分類預(yù)測模型,其對于乳腺癌的輔助檢測研究,具有指導(dǎo)作用。 本課題運(yùn)用R語言進(jìn)行研究,技術(shù)路線如圖1.2所示,研究內(nèi)容主要包括以下五個方面圖1.2課題技術(shù)路線圖 (1)數(shù)據(jù)與數(shù)據(jù)預(yù)處理。 課題采用的實驗數(shù)據(jù)均為醫(yī)院臨床數(shù)據(jù)。 由于數(shù)據(jù)采集過程中存在噪聲,所以先對數(shù)據(jù)進(jìn)行預(yù)處理,主要包括缺失值處理以及異常值處理。 確定研究方案數(shù)據(jù)收集和數(shù)據(jù)預(yù)處理乳腺癌數(shù)據(jù)分析構(gòu)造基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型(a:基于閾值優(yōu)化Logistic回歸的乳腺癌預(yù)測模型b:基于代價敏感決策樹C5.0的乳腺癌預(yù)測模型)乳腺癌預(yù)測系統(tǒng)設(shè)計與開發(fā)有助于乳腺癌輔助檢測且為我國制定乳腺癌早期干預(yù)策略提供科學(xué)依據(jù)濟(jì)南大學(xué)碩士學(xué)位論文5且基于隨機(jī)采樣按照預(yù)測目標(biāo)變量將數(shù)據(jù)集劃分為70%的訓(xùn)練數(shù)據(jù)(數(shù)據(jù)集1)和30%的測試數(shù)據(jù)。 (2)乳腺癌數(shù)據(jù)分析。 首先對數(shù)據(jù)集1中定量因素之間的獨(dú)立性進(jìn)行分析,刪除冗余變量。 然后分析數(shù)據(jù)集1中各維度因素在病例組和對照組之間的差異性。 課題采用假設(shè)檢驗的方法進(jìn)行分析,定量資料選用參數(shù)檢驗法,主要包括t檢驗和F檢驗;定性資料選用Pearson X2獨(dú)立性檢驗或者Fisher精確獨(dú)立性檢驗。 數(shù)據(jù)分析主要包括以下四個部分的內(nèi)容1)分析基礎(chǔ)資料與乳腺癌之間的關(guān)系;2)分析生育因素與乳腺癌之間的關(guān)系;3)分析遺傳因素與乳腺癌之間的關(guān)系;4)分析行為生活習(xí)慣與乳腺癌之間的關(guān)系;通過假設(shè)檢驗,篩選得到乳腺癌高危因素。 由于數(shù)據(jù)集1自身存在不平衡問題,故適當(dāng)調(diào)整檢驗水平(P0.3),以免丟失某些重要的影響因素變量。 利用篩選得到的乳腺癌高危因素,組建新的實驗數(shù)據(jù)集(數(shù)據(jù)集2)。 (3)基于閾值優(yōu)化Logistic回歸的乳腺癌概率預(yù)測模型。 對于數(shù)據(jù)集1和數(shù)據(jù)集2分別構(gòu)建Logistic回歸預(yù)測模型,并尋找其最佳閾值,最后對測試數(shù)據(jù)進(jìn)行預(yù)測,通過AUC以及敏感度等其它模型評價指標(biāo)綜合對模型進(jìn)行對比分析,得到基于閾值優(yōu)化Logistic回歸的最佳乳腺癌預(yù)測模型。 (4)基于代價敏感決策樹C5.0的乳腺癌分類預(yù)測模型。 對于數(shù)據(jù)集1和數(shù)據(jù)集2分別構(gòu)建決策樹C5.0預(yù)測模型,并引入不同的代價矩陣對初始模型進(jìn)行優(yōu)化,最后對測試數(shù)據(jù)進(jìn)行預(yù)測,通過AUC以及敏感度等其它模型評價指標(biāo)綜合對模型進(jìn)行對比分析,得到基于代價敏感決策樹C5.0的最佳乳腺癌預(yù)測模型。 (5)根據(jù)上述實驗得到兩種基于不同算法的最優(yōu)乳腺癌預(yù)測模型,制定合理的系統(tǒng)算法,設(shè)計并開發(fā)乳腺癌預(yù)測系統(tǒng)。 用戶通過注冊個人信息,登錄系統(tǒng),輸入自身相關(guān)指標(biāo)信息,即可預(yù)測患乳腺癌的風(fēng)險高低。 對于預(yù)測結(jié)果,建議中、高危人群去正規(guī)醫(yī)院進(jìn)行近一步診斷。 1.4論文組織結(jié)構(gòu)本文組織結(jié)構(gòu)內(nèi)容如下基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用6第一章緒論。 該部分先介紹課題研究背景、目的以及意義;然后闡述國外、國內(nèi)相關(guān)的乳腺癌預(yù)測模型研究成果以及存在問題,繼而提出代價敏感學(xué)習(xí)的研究方法;最后確定課題的研究內(nèi)容和技術(shù)路線。 第二章相關(guān)知識及技術(shù)介紹。 主要介紹了本文所采用的關(guān)鍵技術(shù)以及功能的實現(xiàn)。 首先簡述乳腺癌病因以及常見的乳腺癌篩查方法;之后對課題采用的主要工具R進(jìn)行概述;然后從數(shù)據(jù)層面和算法層面兩個方面展開介紹代價敏感學(xué)習(xí)方法,從而引出課題實驗部分所采用算法。 最后介紹了數(shù)據(jù)分析采用的假設(shè)檢驗的相關(guān)方法。 第三章數(shù)據(jù)和數(shù)據(jù)預(yù)處理。 首先介紹了課題的數(shù)據(jù)以及相關(guān)指標(biāo)信息。 然后為保證后期得到高質(zhì)量的數(shù)據(jù)分析和構(gòu)建模型效果,在進(jìn)行數(shù)據(jù)分析和構(gòu)建模型之前,對原始數(shù)據(jù)進(jìn)行缺失值和異常值處理。 最后依據(jù)預(yù)測目標(biāo)變量將數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)(數(shù)據(jù)集1)和測試數(shù)據(jù)。 第四章數(shù)據(jù)分析。 首次對數(shù)據(jù)集1中的定量變量進(jìn)行獨(dú)立性分析,然后分別對數(shù)據(jù)集1中基礎(chǔ)資料、生育因素、遺傳因素和行為生活習(xí)慣和是否患乳腺癌之間的關(guān)系進(jìn)行統(tǒng)計學(xué)分析,主要采用假設(shè)檢驗(t檢驗、F檢驗、Pearson X2獨(dú)立性檢驗、Fisher精確獨(dú)立性檢驗)方法進(jìn)行數(shù)據(jù)分析。 最后將具有統(tǒng)計學(xué)意義(P0.3)的影響因素變量納入乳腺癌高危因素中,組建新的實驗數(shù)據(jù)集(數(shù)據(jù)集2)。 第五章基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究。 由于數(shù)據(jù)存在嚴(yán)重不平衡性問題,課題提出采用代價敏感學(xué)習(xí)的方法進(jìn)行乳腺癌預(yù)測模型研究。 該章節(jié)主要分為四部分。 第一部分介紹常見的模型評價指標(biāo),并確定課題使用的主要評價指標(biāo)。 第二部分主要介紹了基于閾值優(yōu)化Logistic回歸的乳腺癌概率預(yù)測模型的構(gòu)建。 首先闡述了Logistic回歸算法;然后針對數(shù)據(jù)集1和數(shù)據(jù)集2分別構(gòu)建基于Logistic回歸的乳腺癌預(yù)測模型,并通過確定最優(yōu)閾值對模型進(jìn)行優(yōu)化;最后對模型構(gòu)建結(jié)果進(jìn)行對比分析。 第三部分主要介紹了基于代價敏感決策樹C5.0的乳腺癌分類預(yù)測模型的構(gòu)建。 首先闡述了決策樹C5.0算法,然后針對數(shù)據(jù)集1和數(shù)據(jù)集2分別構(gòu)建基于C5.0的乳腺癌預(yù)測模型,并引入代價矩陣對模型進(jìn)行優(yōu)化;最后對模型構(gòu)建結(jié)果進(jìn)行對比分析;第四部分總結(jié)了本章的內(nèi)容。 第六章乳腺癌預(yù)測系統(tǒng)的設(shè)計與實現(xiàn)。 課題設(shè)計并開發(fā)乳腺癌預(yù)測系統(tǒng),通過采集用戶指標(biāo),可評估用戶患乳腺癌的風(fēng)險高低。 該章節(jié)主要分為系統(tǒng)設(shè)計和系統(tǒng)實現(xiàn)兩部分內(nèi)容。 系統(tǒng)設(shè)計部分介紹了乳腺癌預(yù)測系統(tǒng)的用戶-角色劃分、需求-功能分析、業(yè)濟(jì)南大學(xué)碩士學(xué)位論文7務(wù)流程分析以及數(shù)據(jù)庫結(jié)構(gòu)的設(shè)計。 系統(tǒng)實現(xiàn)部分介紹了乳腺癌預(yù)測系統(tǒng)的開發(fā)環(huán)境、系統(tǒng)的算法設(shè)計思想以及系統(tǒng)的主要功能及界面顯示。 第七章結(jié)論與展望。 第一部分重點講述課題展開哪些方面的研究工作,以及研究成果;第二部分指出課題存在的不足之處,并對課題后期改進(jìn)和完善工作進(jìn)行展望。 基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用8第二章相關(guān)知識與技術(shù)介紹本章2.1節(jié)介紹了乳腺癌病因以及篩查方法,2.2節(jié)是對數(shù)據(jù)挖掘工具R進(jìn)行概述;2.3節(jié)從數(shù)據(jù)層面和算法層面闡述代價敏感學(xué)習(xí)算法,2.4節(jié)對數(shù)據(jù)分析使用的假設(shè)檢驗方法進(jìn)行介紹。 2.1乳腺癌病因及篩查方法女性乳腺由皮膚、纖維組織、乳腺腺體和脂肪組成,乳腺癌是發(fā)生在乳腺腺上皮組織的惡性腫瘤。 在通常情況下,乳腺腺上皮細(xì)胞以有序方式分裂和生長。 但有時,由于復(fù)雜的原因,一些細(xì)胞發(fā)生基因突變,細(xì)胞增生失控,表現(xiàn)為無序、無限制的惡性分裂和生長,逐漸形成乳腺癌。 圖2.1乳腺癌危險因素乳腺癌的病因尚不十分明確,研究者多年分析得到乳腺癌患者具有的危險因素,是女性日常需要防范的因素。 其中主要包括家族遺傳、基因因素、生育因素、環(huán)境因素、激素影響、行為生活習(xí)慣六個方面的因素以及其它因素(圖2.1)。 其中家族因素包括乳腺癌家族史、乳腺良性病史等;基因因素包括BRCA1基因、BRCA2等;生育因素包括首次妊娠年齡、月經(jīng)初潮時間、絕經(jīng)年齡等;環(huán)境因素包括有無長期輻射等;激素影響指個體雌激素水平,比如是否長期使用含激素藥物等;行為生活習(xí)慣包括吸煙、飲酒等。 雖具有上述某些項危險因素的女性不一定患乳腺癌,但其患病風(fēng)險卻比正常人高。 醫(yī)學(xué)上將乳腺癌分為0期、I期、II期、III期、IV期。 乳腺癌的治愈率與臨床分期有很大的關(guān)系。 早期乳腺癌患者的治愈率較高,晚期患者的治愈率極低。 由于乳腺癌發(fā)濟(jì)南大學(xué)碩士學(xué)位論文9病隱匿,早期癥狀并不明顯,所以很多患者一旦經(jīng)過診斷,就確診為中晚期,不僅延誤病情,同時給家庭和社會造成了極大的影響。 故乳腺癌防控比治療更為重要。 乳腺癌篩查29是對無明顯癥狀的婦女進(jìn)行有效的乳腺檢查,以達(dá)到早期發(fā)現(xiàn),降低乳腺癌死亡率的目的。 常用的乳腺癌篩查方法有 (1)臨床乳腺檢查; (2)乳腺超聲檢查; (3)乳腺磁共振成像; (4)數(shù)字乳腺斷層合成技術(shù); (5)乳腺癌風(fēng)險預(yù)測系統(tǒng)。 由于人們早發(fā)現(xiàn)、早診斷、早治療的健康意識淡薄;加之我國人口基數(shù)大、醫(yī)療衛(wèi)生條件有限等多種因素制約,前四種篩查方法很難進(jìn)行大規(guī)模開展。 所以借助科技手段,設(shè)計并實現(xiàn)準(zhǔn)確高效的乳腺癌預(yù)測系統(tǒng),用戶可實時進(jìn)行乳腺癌風(fēng)險評估。 其有利于乳腺癌的輔助診斷,同時為我國制定乳腺癌干預(yù)策略,提供科學(xué)依據(jù)。 2.2R語言概述R語言由新西蘭奧克蘭大學(xué)的Ross Ihaka和Robert Gentleman創(chuàng)建,目前由R語言開發(fā)的核心團(tuán)隊進(jìn)行研究。 R語言類似于傳統(tǒng)的C語言和Java語言,是一門計算機(jī)編程語言。 但除此之外,R語言更適用于數(shù)據(jù)分析、統(tǒng)計建模、數(shù)據(jù)可視化等。 R具備良好的數(shù)學(xué)計算的環(huán)境,除了提供一些集成的統(tǒng)計工具之外,它還提供大量適用于數(shù)學(xué)計算、統(tǒng)計計算的函數(shù),方便用戶能夠靈活開展數(shù)據(jù)分析,甚至創(chuàng)造符合需要的新型統(tǒng)計計算方法。 相比其他的數(shù)據(jù)挖掘軟件,R的優(yōu)點如下。 (1)R是一個開源的自由軟件,它有Unix、Windows、Mac OS、Linux版本,可以直接在CRAN(Comprehensive RArchive Network)上進(jìn)行下載和使用,且安裝簡單。 (2)R具備完整的數(shù)據(jù)處理以及計算系統(tǒng),其功能非常強(qiáng)大。 主要功能包括數(shù)據(jù)存儲和處理系統(tǒng);數(shù)組運(yùn)算工具;完整連貫的統(tǒng)計分析工具;R是簡便且強(qiáng)大的編程語言,對數(shù)據(jù)輸入、輸出進(jìn)行操縱,實現(xiàn)循環(huán)、分支,用戶自定義等功能。 (3)語言簡單易學(xué)。 雖然R與C、Java等編程語言有很大差別,但編程語言的基礎(chǔ)邏輯仍保留一致。 (4)優(yōu)秀的統(tǒng)計制圖功能,是很好的數(shù)據(jù)可視化工具。 (5)R與其它編程語言、數(shù)據(jù)庫之間存在良好接口。 基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用102.3代價敏感學(xué)習(xí)代價敏感學(xué)習(xí)30通常應(yīng)用于不平衡學(xué)習(xí)中。 不平衡學(xué)習(xí),即訓(xùn)練數(shù)據(jù)少數(shù)類和多數(shù)類數(shù)量存在較大差異情況下采用的學(xué)習(xí)方法。 現(xiàn)實生活中存在很多不平衡問題,比如癌癥檢測、網(wǎng)絡(luò)入侵以及客戶流失等。 傳統(tǒng)的學(xué)習(xí)方法總是基于樣本不同類別數(shù)目相等,以及不同類別被錯分代價相等為前提展開。 雖然準(zhǔn)確率較高,但本質(zhì)上無法實現(xiàn)真正意義上的模型最優(yōu),故不適用于不平衡學(xué)習(xí)。 解決不平衡學(xué)習(xí)的方法主要包括重采樣和代價敏感學(xué)習(xí)。 重采樣是通過調(diào)整原始訓(xùn)練數(shù)據(jù)的樣本比例,對數(shù)據(jù)進(jìn)行處理從而得到平衡數(shù)據(jù)的方法,其主要包括過采樣(oversampling)、欠采樣(undersampling)以及混合采樣(包括SMOTE算法31)等。 重采樣改變了數(shù)據(jù)原始組成,使數(shù)據(jù)失去客觀性。 代價敏感學(xué)習(xí)基于原始數(shù)據(jù),對不同類別錯分賦予不同代價進(jìn)行不平衡學(xué)習(xí)。 大量研究表明,利用代價敏感學(xué)習(xí)方法解決不平衡問題的效果明顯優(yōu)于重采樣方法。 所以本課題采用基于代價敏感學(xué)習(xí)的方法進(jìn)行乳腺癌預(yù)測模型的研究。 本章主要從數(shù)據(jù)層面和算法層面兩方面來介紹代價敏感學(xué)習(xí)。 2.3.1數(shù)據(jù)層面代價敏感學(xué)習(xí)對原始數(shù)據(jù)的處理與重采樣不同,其根據(jù)錯誤分類的代價,對原始訓(xùn)練樣本的分布進(jìn)行調(diào)整。 例如,Chan32和Stolfo33提出層次化模型(Stratification),把不均勻分布的訓(xùn)練數(shù)據(jù)轉(zhuǎn)化為均勻分布的正負(fù)例數(shù)據(jù)。 Zadrozny等34研究人員基于cost-proportionate思想,進(jìn)行調(diào)節(jié)訓(xùn)練數(shù)據(jù)權(quán)值大小。 Abe等35探討如何實現(xiàn)多分類問題的代價敏感學(xué)習(xí),提出了一種新的迭代學(xué)習(xí)方法。 2.3.2算法層面代價敏感學(xué)習(xí)在算法方面主要提出了如下幾種常見的處理方法。 (1)對模型輸出數(shù)據(jù)進(jìn)行后處理。 該方法以實現(xiàn)損失最小為目標(biāo),對采用傳統(tǒng)方法學(xué)習(xí)得到的模型結(jié)果作出調(diào)整。 此方法不依賴于特定的分類器,但缺點是它要求分類器的輸出結(jié)果必須為概率。 本課題基于閾值優(yōu)化的Logistic回歸的乳腺癌預(yù)測模型的構(gòu)建即采用該方法實現(xiàn)代價敏感學(xué)習(xí),按照Logistic回歸構(gòu)建模型,然后把代價敏感性考慮在內(nèi),通過調(diào)整多數(shù)類閾值的方法,增加對少數(shù)類樣本的學(xué)習(xí)速率,以此達(dá)到最小化誤分類代價。 濟(jì)南大學(xué)碩士學(xué)位論文11 (2)改進(jìn)單一的學(xué)習(xí)模型,使之適應(yīng)不平衡數(shù)據(jù)的學(xué)習(xí)。 專家針對決策樹,SVM以及神經(jīng)網(wǎng)絡(luò)等不同的學(xué)習(xí)模型分別提出了對應(yīng)的代價敏感的方法。 Knoll等36和Bradford等37為決策樹提出了代價敏感的剪枝方法。 Bradford等研究了在代價敏感的條件下如何對決策樹進(jìn)行剪枝使得損失達(dá)到最小,研究表明基于拉普拉斯方法的剪枝方法能夠取得最好的效果。 Drummond和Holte38研究了代價敏感學(xué)習(xí)的決策樹的節(jié)點分裂方法。 Fumera和Roli等39從結(jié)構(gòu)風(fēng)險最小的角度來看代價敏感問題,提出了代價敏感的SVM分類算法。 Kukar和Kononenko40為神經(jīng)網(wǎng)絡(luò)提出一種新的后向傳播算法,使其能夠滿足代價敏感學(xué)習(xí)的需求。 其中常用的是與決策樹和SVM相結(jié)合的代價敏感學(xué)習(xí)分類方法。 由于決策樹與其它分類算法相比較,產(chǎn)生的分類規(guī)則易于理解,且準(zhǔn)確率較高,故本課題引入代價矩陣,構(gòu)建基于代價敏感決策樹C5.0的方法來進(jìn)行乳腺癌預(yù)測模型。 (3)集成學(xué)習(xí)(Ensemble learning)算法。 Adaboost算法41是對Boosting算法42的調(diào)整,它能夠針對弱學(xué)習(xí)訓(xùn)練的弱分類器的錯誤,進(jìn)行適應(yīng)性調(diào)整。 Adaboost算法是一種迭代算法,核心思想是把不同訓(xùn)練集訓(xùn)練得到的分類器整合起來,最終構(gòu)建一個強(qiáng)分類器。 Fan和Stolfo等43人提出了基于代價敏感的提升算法AdaCost。 AdaCost是AdaBoost的一種變體,是一種誤分類的代價敏感的增強(qiáng)方法,其比AdaBoost更多地減少累積錯誤分類成本,實證評估表明,在不消耗額外計算能力的情況下,AdaCost可顯著降低累積誤分類代價。 Viola和Jones44提出AsymBoost算法,對錯分的少數(shù)類樣本賦予更大的權(quán)重,使弱分類器對少數(shù)類更加敏感,這種方式在一定程度上提高了對少數(shù)類樣本的識別能力,但降低了對多數(shù)類樣本的識別能力。 由于集成學(xué)習(xí)極易造成過擬合問題,故本課題未采用該方法進(jìn)行模型構(gòu)建。 2.4假設(shè)檢驗假設(shè)檢驗也稱顯著性檢驗,是推論統(tǒng)計中用于檢驗統(tǒng)計假設(shè)的一種方法。 假設(shè)檢驗是一種先構(gòu)造假設(shè)條件,之后通過樣本數(shù)據(jù)對假設(shè)條件進(jìn)行檢驗,從而得到結(jié)論的方法。 首先需要針對特定問題建立假設(shè)檢驗,通常被稱為原假設(shè)或零假設(shè)(記為0H),與之相對應(yīng)的假設(shè),稱為備擇假設(shè)(記為1H)。 然后選擇合適的假設(shè)檢驗方法計算檢驗統(tǒng)計量(用于抉擇是否拒絕0H的統(tǒng)計量)。 最后判斷臨界值,作出推斷結(jié)論。 在根據(jù)假設(shè)檢驗做出統(tǒng)計決策時,可能會犯兩種錯誤,分別是否定真實的原假設(shè)和接受錯誤的原假設(shè)。 基于代價敏感學(xué)習(xí)的乳腺癌預(yù)測模型研究及應(yīng)用12犯第一類錯誤的概率定義為P否定0H|0H為真,犯第二類錯誤的概率定義

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論