版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第10章數(shù)據(jù)分析建模信息學(xué)院2024引言10.1案例:金融領(lǐng)域的數(shù)據(jù)分析10.2Scikit-learn介紹10.3Scikit-learn實(shí)現(xiàn)回歸模型10.4Scikit-learn實(shí)現(xiàn)分類模型10.5編程實(shí)踐10.6本章小結(jié)10.7習(xí)題本章將深入學(xué)習(xí)基于Scikit-Learn的數(shù)據(jù)分析模型(回歸和分類)和實(shí)現(xiàn)。以兩種模型為基礎(chǔ),解決兩個(gè)在金融領(lǐng)域存在的問題。在編程實(shí)踐中,基于現(xiàn)有模型進(jìn)行擴(kuò)展,針對(duì)一個(gè)醫(yī)療服務(wù)平臺(tái)中的數(shù)據(jù)進(jìn)行分析。10.1案例:金融領(lǐng)域的數(shù)據(jù)分析數(shù)據(jù)分析的方法豐富繁雜,在多個(gè)專業(yè)和行業(yè)領(lǐng)域都有著廣泛的應(yīng)用。本章重點(diǎn)介紹兩種數(shù)據(jù)分析方法,即回歸方法和分類方法。案例1:對(duì)股票價(jià)格的回歸分析,以實(shí)現(xiàn)對(duì)股票價(jià)格的預(yù)測(cè)。案例2:對(duì)貸款過程中的分類計(jì)算,以實(shí)現(xiàn)對(duì)貸款人是否逾期還款的預(yù)測(cè)。10.1案例1:股票價(jià)格回歸分析采用Scikit-learn中的線性回歸模型對(duì)蘋果公司股票價(jià)格進(jìn)行分析,可以擬合為如下圖形:結(jié)論:線性回歸模型基本能夠擬合股票的上升趨勢(shì),但效果不夠理想,得分為68.5%。思考:通過非線性回歸可以進(jìn)一步提高擬合精度10.1案例2:貸款人分類采用Scikit-learn中的決策樹模型對(duì)貸款人進(jìn)行分類,預(yù)測(cè)貸款人是否會(huì)逾期還款,分類樹的形狀如下圖:為如下圖形:結(jié)論:通過分類,能夠正確預(yù)測(cè)73%左右的貸款人的還款情況。Scikit-learn(也稱為sklearn)是一個(gè)用于機(jī)器學(xué)習(xí)的開源Python庫。它的名稱源于它是“SciKit”(SciPy工具包),它建立在NumPy、SciPy和matplotlib之上,提供了簡(jiǎn)單且高效的工具,用于數(shù)據(jù)挖掘和數(shù)據(jù)分析。本章基于前期在Pandas和Numpy上的預(yù)處理數(shù)據(jù)方法,進(jìn)一步以幾個(gè)常見問題為例詳細(xì)介紹使用Scikit-learn進(jìn)行數(shù)據(jù)分析建模的方法。10.2Scikit-learn介紹起源:由DavidCournapeau等人于2007年在Google的夏季代碼項(xiàng)目中開發(fā)。公開:2010年1月下旬發(fā)布了第一個(gè)公開版本0.1beta。本書中統(tǒng)一使用1.0的版本10.2.1Scikit-learn的歷史時(shí)間版本2022年12月scikit-learn1.2.02022年5月scikit-learn1.1.02021年9月scikit-learn1.02020年12月scikit-learn0.24.02020年5月scikit-learn0.23.02019年12月scikit-learn0.22.02019年5月scikit-learn0.21.02018年9月scikit-learn0.20.02017年7月scikit-learn0.19.02016年9月scikit-learn0.18.02015年11月scikit-learn0.17.02015年3月scikit-learn0.16.02014年7月scikit-learn0.15.02013年8月scikit-learn0.14.0Sklearn的發(fā)展歷史官網(wǎng):/stable/該官網(wǎng)包括Scikit-learn的詳細(xì)安裝、使用的方法,如果有問題也可以在官網(wǎng)的社區(qū)上進(jìn)行提問。國內(nèi)參考網(wǎng)站:/源代碼:/scikit-learn/scikit-learn安裝:pipinstallscikit-learn10.2.2Scikit-learn資源介紹Scikit-learn是一個(gè)非常龐雜、功能強(qiáng)大的第三方庫,包含了上百種算法的實(shí)現(xiàn),并且涉及大量的數(shù)學(xué)、計(jì)算機(jī)和機(jī)器學(xué)習(xí)方面的知識(shí)。本章將介紹線性回歸的基本原理和實(shí)現(xiàn)方法,以及一個(gè)基于Scikit-learn的線性回歸模型的快速實(shí)現(xiàn)。10.3Scikit-learn實(shí)現(xiàn)回歸模型
10.3.1線性回歸模型的原理舉例:假定大學(xué)學(xué)生的身高和體重存在一定的關(guān)系,那么就可以首先采集現(xiàn)實(shí)世界中不同學(xué)生的身高和體重,以身高為自變量x,以體重為因變量y,通過線性回歸建立二者的量化關(guān)系,形成預(yù)測(cè)模型。當(dāng)未來有一個(gè)新的學(xué)生入學(xué)后,當(dāng)測(cè)得了他的身高,就可以以回歸模型來預(yù)測(cè)他的體重。假定北京地區(qū)的房價(jià)和地段存在一定的關(guān)系,那么就可以首先采集北京地區(qū)各個(gè)小區(qū)住房的均價(jià)和所在的位置,以位置為自變量x,以價(jià)格為因變量y,通過線性回歸建立二者的量化關(guān)系,形成預(yù)測(cè)模型。當(dāng)未來建立了一個(gè)新的小區(qū)后,在已知它的位置的情況下,就可以以回歸模型來預(yù)測(cè)其價(jià)格。10.3.1線性回歸模型的原理
10.3.1線性回歸模型的原理
10.3.1線性回歸模型的原理線性回歸模型可以通過NumPy實(shí)現(xiàn),具體過程如下:首先,隨機(jī)生成了50個(gè)從-20到20之間的x值、y值由2x+3并隨機(jī)增加噪聲來生成。生成的點(diǎn)在二維平面上表示r如右圖所示,10.3.2線性回歸模型的簡(jiǎn)單實(shí)現(xiàn)線性回歸模型可以通過NumPy實(shí)現(xiàn),具體過程如下:然后,實(shí)現(xiàn)了LinearRegression類,定義了損失函數(shù)和梯度下降的值函數(shù),并在學(xué)習(xí)率為0.01的情況下訓(xùn)練了100次。10.3.2線性回歸模型的簡(jiǎn)單實(shí)現(xiàn)擬合后的結(jié)果如右圖所示Scikit-learn實(shí)現(xiàn)了多種模型,其接口和步驟具有通用性,極大降低了學(xué)習(xí)者的難度,具體來說分為四步:(1)從scikit-learn庫中導(dǎo)入需要使用的模型文件,以本部分內(nèi)容為例,可以導(dǎo)入“l(fā)inear_model”,即線性模型(2)模型文件中通常包含了大量不同類型的模型,每個(gè)模型采用一個(gè)類來實(shí)現(xiàn),因此可以根據(jù)類來進(jìn)行實(shí)例化,這兒對(duì)應(yīng)于線性回歸模型的是“SGDRegressor”類(3)利用模型實(shí)例來調(diào)用fit函數(shù),傳遞數(shù)據(jù),完成模型訓(xùn)練(4)利用模型實(shí)例調(diào)用predict函數(shù)進(jìn)行預(yù)測(cè),測(cè)試模型的可行性10.3.3預(yù)測(cè)股票價(jià)格漲跌趨勢(shì)SGD:StochasticGradientDescent隨機(jī)梯度下降
SGDRegressor類定義:10.3.3預(yù)測(cè)股票價(jià)格漲跌趨勢(shì)classsklearn.linear_model.SGDRegressor(loss='squared_error',*,penalty='l2',alpha=0.0001,l1_ratio=0.15,fit_intercept=True,max_iter=1000,tol=0.001,shuffle=True,verbose=0,epsilon=0.1,random_state=None,learning_rate='invscaling',eta0=0.01,power_t=0.25,early_stopping=False,validation_fraction=0.1,n_iter_no_change=5,warm_start=False,average=False)SGDRegressor類常用屬性為coef和intercept,前者表示斜率,即w,后者表示截距,即b。SGDRegressor類常用方法為fit()、predict()、score()。分別用來進(jìn)行模型訓(xùn)練、預(yù)測(cè)和評(píng)價(jià)。fit函數(shù)(其中X為自變量,y為因變量,是必須輸入的參數(shù)):fit(X,y,coef_init=None,intercept_init=None,sample_weight=None)predict函數(shù)(給定自變量X,進(jìn)行因變量的預(yù)測(cè),返回因變量的預(yù)測(cè)):predict(X)score函數(shù)(給定自變量X,進(jìn)行因變量的預(yù)測(cè),該函數(shù)返回預(yù)測(cè)結(jié)果與真實(shí)結(jié)果y的相關(guān)性,該值越接近1表示該模型越好):score(X,y,sample_weight=None)10.3.3預(yù)測(cè)股票價(jià)格漲跌趨勢(shì)基于SGDRegressor類實(shí)現(xiàn)前面隨機(jī)數(shù)據(jù)的擬合過程:結(jié)果得分為0.98,擬合結(jié)果如右圖所示10.3.3預(yù)測(cè)股票價(jià)格漲跌趨勢(shì)例10-1蘋果公司股票(tic:AAPL)的未來走勢(shì)回歸分析數(shù)據(jù)集:采用的是道瓊斯指數(shù)數(shù)據(jù)集。道瓊斯指數(shù)是美國股票市場(chǎng)上工業(yè)構(gòu)成的發(fā)展對(duì)世界金融最具有影響的指數(shù)之一,包括美國30間最大、最知名的上市公司。該數(shù)據(jù)集保存在"dow30_origin.csv"中,包含了從2008年12月31日到2021年10月29日的30只股票的開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、股票數(shù)量等信息,共有94360條數(shù)據(jù)。10.3.3預(yù)測(cè)股票價(jià)格漲跌趨勢(shì)例10-1蘋果公司股票(tic:AAPL)的未來走勢(shì)回歸分析數(shù)據(jù)分析過程--1.數(shù)據(jù)預(yù)處理:從現(xiàn)有數(shù)據(jù)集中提取所有tic為“AAPL”的收盤價(jià)數(shù)據(jù),按照日期進(jìn)行排序,并轉(zhuǎn)換為Numpy數(shù)組。10.3.3預(yù)測(cè)股票價(jià)格漲跌趨勢(shì)提取tic為AAPL的數(shù)據(jù)按日期排序提取收盤價(jià)數(shù)據(jù)例10-1蘋果公司股票(tic:AAPL)的未來走勢(shì)回歸分析數(shù)據(jù)分析過程--2.線性回歸模型構(gòu)建:利用Scikit-learn的linear_model來構(gòu)建線性回歸模型并進(jìn)行訓(xùn)練,結(jié)果得分為0.68。數(shù)據(jù)分析過程--3.線性回歸模型的評(píng)價(jià)和可視化:利用x生成預(yù)測(cè)值,并通過可視化與源數(shù)據(jù)進(jìn)行比對(duì)。10.3.3預(yù)測(cè)股票價(jià)格漲跌趨勢(shì)注意:沒有再使用SGDRegression,而是用的LinearRegression例10-2根據(jù)其他股票的價(jià)格來預(yù)測(cè)蘋果股票(數(shù)據(jù)集與10-1相同)數(shù)據(jù)分析過程--1.數(shù)據(jù)預(yù)處理:從現(xiàn)有數(shù)據(jù)集中提取所有股票的收盤價(jià)數(shù)據(jù),按照股票、日期進(jìn)行排序,并分別獲得蘋果股票的數(shù)據(jù)作為因變量,獲得其他股票的數(shù)據(jù)作為自變量。10.3.3預(yù)測(cè)股票價(jià)格漲跌趨勢(shì)提取tic、date、close等數(shù)據(jù),排序提取tic為AAPL的數(shù)據(jù)提取tic為其他的數(shù)據(jù)例10-2根據(jù)其他股票的價(jià)格來預(yù)測(cè)蘋果股票(數(shù)據(jù)集與10-1相同)數(shù)據(jù)分析過程--2.線性回歸模型構(gòu)建:利用Scikit-learn的linear_model來構(gòu)建線性回歸模型并進(jìn)行訓(xùn)練,結(jié)果得分為0.994。數(shù)據(jù)分析過程--3.線性回歸模型的評(píng)價(jià)和可視化:利用x生成預(yù)測(cè)值,并通過可視化與源數(shù)據(jù)進(jìn)行比對(duì)。10.3.3預(yù)測(cè)股票價(jià)格漲跌趨勢(shì)回歸模型是擬合給定數(shù)據(jù)的趨勢(shì),以此來進(jìn)行后續(xù)趨勢(shì)的預(yù)測(cè),因此,這種模型常常用于具有時(shí)序特征的數(shù)據(jù)。分類模型是給定一些事物的屬性和類別標(biāo)簽,通過訓(xùn)練來確定屬性和類別標(biāo)簽之間的關(guān)系,當(dāng)有新事物產(chǎn)生時(shí),可以通過屬性來預(yù)測(cè)其類別。分類模型與回歸模型本質(zhì)上都是建立映射關(guān)系。其區(qū)別在于:回歸問題的輸出空間是一個(gè)度量空間,即所謂的“定量”,而分類問題的輸出空間不是度量空間,即所謂“定性”。10.4Scikit-learn實(shí)現(xiàn)分類模型決策樹模型呈樹狀結(jié)構(gòu),在分類問題上,表示基于特征(即事物屬性)對(duì)實(shí)例進(jìn)行分類的過程。優(yōu)點(diǎn):可讀性高,分類速度快。方法:利用數(shù)據(jù)進(jìn)行訓(xùn)練,然后根據(jù)損失函數(shù)最小化的原則進(jìn)行構(gòu)建。當(dāng)預(yù)測(cè)時(shí),將新的特征數(shù)據(jù)輸入模型,獲得實(shí)例類別。10.4.1決策樹分類模型的原理
10.4.1決策樹分類模型的原理決策樹的基本算法為ID3算法,其核心是在決策樹的各個(gè)節(jié)點(diǎn)上應(yīng)用信息增益準(zhǔn)則來選擇特征,遞歸的構(gòu)建決策樹。具體分為三步:(1)從根節(jié)點(diǎn)出發(fā),對(duì)節(jié)點(diǎn)計(jì)算所有可能特征的信息增益,選擇信息增益最大的特征作為節(jié)點(diǎn)的特征,由該特征的不同取值建立子節(jié)點(diǎn);(2)再對(duì)子節(jié)點(diǎn)遞歸的調(diào)用以上方法,構(gòu)建決策樹;(3)直到所有特征的信息增益均很小或沒有特征可以選擇為止,得到最后的決策樹;10.4.1決策樹分類模型的原理
10.4.1決策樹分類模型(擴(kuò)展)
10.4.1決策樹分類模型(擴(kuò)展)基于信息增益的概念,ID算法描述如下:輸入:訓(xùn)練數(shù)據(jù)集D,特征集A,閾值輸出:決策樹T(1)若D中所有實(shí)例屬于同一類Ck,則T為單節(jié)點(diǎn)樹,并將類Ck作為該節(jié)點(diǎn)的類標(biāo)記,返回T;(2)若A為空,則T為單節(jié)點(diǎn)樹,并將D中實(shí)例數(shù)最大的類Ck作為該節(jié)點(diǎn)的類標(biāo)記,返回T;(3)否則,計(jì)算A中各個(gè)特征對(duì)D的信息增益,選擇信息增益最大的特征Ag;(4)如果Ag的信息增益小于,則T為單節(jié)點(diǎn)樹,并將D中實(shí)例數(shù)最大的類Ck作為該節(jié)點(diǎn)的類標(biāo)記,返回T;(5)否則,對(duì)Ag的每個(gè)可能值ai,按照Ag=ai將D分割為若干非空子集Di,將Di中的實(shí)例數(shù)最大的類作為標(biāo)記,構(gòu)建子節(jié)點(diǎn),由節(jié)點(diǎn)及其子節(jié)點(diǎn)構(gòu)成樹T,返回T;(6)對(duì)第i個(gè)子節(jié)點(diǎn),以Di為訓(xùn)練集,以A-{Ag}為訓(xùn)練集,遞歸調(diào)用步驟(1)-(5),得到子樹Ti并返回。10.4.1決策樹分類模型(擴(kuò)展)數(shù)據(jù)集:生成了15條數(shù)據(jù),這些數(shù)據(jù)包含一個(gè)成人的“年齡”、“工作”、“房子”、“信貸情況”和“類別”,其中前四個(gè)特征是個(gè)人情況的描述,最后一個(gè)特征“類別”是標(biāo)簽,用來標(biāo)示是否可以對(duì)其進(jìn)行貸款。我們希望通過模型,根據(jù)其個(gè)人情況,來預(yù)測(cè)是否可以向其貸款。數(shù)據(jù)集示例如右圖10.4.2決策樹分類模型的簡(jiǎn)單實(shí)現(xiàn)算法實(shí)現(xiàn)-樹結(jié)點(diǎn)的構(gòu)造10.4.2決策樹分類模型的簡(jiǎn)單實(shí)現(xiàn)算法實(shí)現(xiàn)-樹的構(gòu)造10.4.2決策樹分類模型的簡(jiǎn)單實(shí)現(xiàn)計(jì)算信息熵算法實(shí)現(xiàn)-樹的構(gòu)造10.4.2決策樹分類模型的簡(jiǎn)單實(shí)現(xiàn)計(jì)算條件信息熵算法實(shí)現(xiàn)-樹的構(gòu)造10.4.2決策樹分類模型的簡(jiǎn)單實(shí)現(xiàn)計(jì)算信息增益和訓(xùn)練算法實(shí)現(xiàn)-樹的構(gòu)造10.4.2決策樹分類模型的簡(jiǎn)單實(shí)現(xiàn)決策樹訓(xùn)練的實(shí)現(xiàn)算法實(shí)現(xiàn)-樹的構(gòu)造10.4.2決策樹分類模型的簡(jiǎn)單實(shí)現(xiàn)決策樹的訓(xùn)練和預(yù)測(cè)決策樹的應(yīng)用和結(jié)果Scikit-learn用于決策樹分類的模型是放置在“tree”這一模型文件中,對(duì)應(yīng)的模型類是“DecisionTreeClassifier”,其定義為:10.4.3基于Scikit-learn的決策樹模型classsklearn.tree.DecisionTreeClassifier(*,criterion='gini',splitter='best',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_nodes=None,min_impurity_decrease=0.0,class_weight=None,ccp_alpha=0.0)DecisionTreeClassifier類中包含的常用方法為fit()、predict()、score()。分別用來進(jìn)行模型訓(xùn)練、預(yù)測(cè)和評(píng)價(jià)。fit函數(shù)(給定自變量和因變量,進(jìn)行模型的訓(xùn)練。其中X為自變量,y為因變量,是必須輸入的參數(shù)):fit(X,y,sample_weight=None,check_input=True)predict函數(shù)(給定自變量,進(jìn)行因變量的預(yù)測(cè),該函數(shù)返回因變量的預(yù)測(cè)值):predict(X,check_input=True)score函數(shù)(給定測(cè)試集中的自變量和因變量,計(jì)算其預(yù)測(cè)的平均精確度):score(X,y,sample_weight=None)10.4.3基于Scikit-learn的決策樹模型DecisionTreeClassifier類中包含的常用方法為fit()、predict()、score()。分別用來進(jìn)行模型訓(xùn)練、預(yù)測(cè)和評(píng)價(jià)。fit函數(shù)(給定自變量和因變量,進(jìn)行模型的訓(xùn)練。其中X為自變量,y為因變量,是必須輸入的參數(shù)):fit(X,y,sample_weight=None,check_input=True)predict函數(shù)(給定自變量,進(jìn)行因變量的預(yù)測(cè),該函數(shù)返回因變量的預(yù)測(cè)值):predict(X,check_input=True)score函數(shù)(給定測(cè)試集中的自變量和因變量,計(jì)算其預(yù)測(cè)的平均精確度):score(X,y,sample_weight=None)10.4.3基于Scikit-learn的決策樹模型例10.3根據(jù)貸款人的屬性,判斷貸款人是否會(huì)逾期歸還貸款。數(shù)據(jù)集:采用的是在網(wǎng)絡(luò)上爬取的小額貸款數(shù)據(jù)集"financial_loan.csv",該文件中包含了貸款金額(amount)、貸款利率(rate)、貸款成功數(shù)量(success_loan_no)、貸款失敗數(shù)量(failed_loan_no)、貸款人性別(sex)、貸款人年齡(age)、貸款人信用(credit)、是否逾期(overdue),其中前七個(gè)特征為自變量的特征,最后一個(gè)特征為因變量,即標(biāo)簽。該數(shù)據(jù)集中共有20000條數(shù)據(jù)。右圖為數(shù)據(jù)示例10.4.3基于Scikit-learn的決策樹模型例10.3根據(jù)貸款人的屬性,判斷貸款人是否會(huì)逾期歸還貸款。數(shù)據(jù)分析過程--1.數(shù)據(jù)預(yù)處理:對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,將數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)值化和離散化。其中,對(duì)于年齡特征,分為不同粒度,具體規(guī)則為:20歲以下;20-25歲;26-32歲;33-39歲;39歲以上,按照該規(guī)則離散化為5個(gè)值;對(duì)于信用特征,將不同的字符串進(jìn)行數(shù)值化。10.4.3基于Scikit-learn的決策樹模型對(duì)年齡進(jìn)行離散化規(guī)則對(duì)年齡離散化,對(duì)信用數(shù)值化處理后數(shù)據(jù)例10.3根據(jù)貸款人的屬性,判斷貸款人是否會(huì)逾期歸還貸款。數(shù)據(jù)分析過程--2.決策樹分類分析:將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,構(gòu)建決策樹分類模型,對(duì)數(shù)據(jù)進(jìn)行線性回歸分析,結(jié)果得分為0.774。數(shù)據(jù)分析過程--3.決策樹分類模型的評(píng)價(jià)和可視化:利用測(cè)試數(shù)據(jù)x_test生成預(yù)測(cè)值,并通過可視化來了解決策樹的具體過程。10.4.3基于Scikit-learn的決策樹模型訓(xùn)練和測(cè)試采用不同的數(shù)據(jù)集,可以確保模型的獨(dú)立性
對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行模型擬合例10.3根據(jù)貸款人的屬性,判斷貸款人是否會(huì)逾期歸還貸款。數(shù)據(jù)分析過程--4.改進(jìn)1:在自變量使用的過程中,由于特征之間存在較大差異,因此模型的訓(xùn)練容易產(chǎn)生更大誤差,所以常常對(duì)每個(gè)特征進(jìn)行規(guī)范化,即將特征值歸范直0到1之間,從而降低預(yù)測(cè)的誤差。采用preprocessing模塊中的StandardScaler類來完成。數(shù)據(jù)分析過程--4.改進(jìn)2:之前需要手動(dòng)的進(jìn)行訓(xùn)練集和測(cè)試集的分割,再分別進(jìn)行訓(xùn)練。當(dāng)指定不同的分割比例時(shí),需要多次訓(xùn)練。這個(gè)過程可以進(jìn)一步集成,通過model_selection的cross_val_score方法,可以傳入模型、自變量和因變量,再給定訓(xùn)練的次數(shù),就可以進(jìn)行自動(dòng)的交叉驗(yàn)證,確保訓(xùn)練結(jié)果的穩(wěn)定性。10.4.3基于Scikit-learn的決策樹模型對(duì)某醫(yī)療服務(wù)平臺(tái)中獲得的數(shù)據(jù)進(jìn)行分析數(shù)據(jù)集:采用的是在某醫(yī)療服務(wù)平臺(tái)中爬取的醫(yī)生在線診療數(shù)據(jù)集"haodf_con_2022.xlsx",該文件中包含了臨床職稱(doc_cli_title)、科室(doc_depart)、患者評(píng)分(rating)、患者總數(shù)(patient_number)、訪問次數(shù)(visiting_num)、昨日訪問次數(shù)(visiting_num_day)、文章數(shù)量(article_num)、診后患者數(shù)量(patient_num_treat)、診后評(píng)價(jià)數(shù)量(rating_treat)、禮物總數(shù)(gift_num_total)、醫(yī)生使用OHC天數(shù)(experience)、心意禮物數(shù)量(gift_num)等12個(gè)特征。該數(shù)據(jù)集共有3364條數(shù)據(jù)。下圖是數(shù)據(jù)示例:10.5編程實(shí)踐問題1:對(duì)于一個(gè)在該平臺(tái)工作醫(yī)生來說,假設(shè)其經(jīng)驗(yàn)值與其患者評(píng)分存在線性關(guān)系,嘗試通過線性回歸模型來擬合,檢驗(yàn)該假設(shè)是否成立。數(shù)據(jù)分析思路:提取其經(jīng)驗(yàn)值(article_num)和患者評(píng)分(rating)兩個(gè)特征,以經(jīng)驗(yàn)值為自變量x,以患者評(píng)分為因變量y,構(gòu)建線性回歸模型。數(shù)據(jù)預(yù)處理:10.5編程實(shí)踐問題1:對(duì)于一個(gè)在該平臺(tái)工作醫(yī)生來說,假設(shè)其經(jīng)驗(yàn)值與其患者評(píng)分存在線性關(guān)系,嘗試通過線性回歸模型來擬合,檢驗(yàn)該假設(shè)是否成立。線性回歸模型預(yù)測(cè):結(jié)論:從預(yù)測(cè)結(jié)果來看,只能達(dá)到3%左右的精確度,所以可以得出結(jié)論,兩個(gè)特征之間基本不具有線性關(guān)系。10.5編程實(shí)踐問題2:對(duì)于一位在該平臺(tái)工作的醫(yī)生,他通常具有不同職稱,假設(shè)其評(píng)分、訪問次數(shù)、患者數(shù)量等特征能夠反映其職稱情況,嘗試通過決策樹分類模型進(jìn)行擬合,檢驗(yàn)該模型的可行性。數(shù)據(jù)分析思路:提取職稱數(shù)據(jù)作為標(biāo)簽y,提取除所屬科室以外的其他數(shù)據(jù)作為特征x,構(gòu)建決策樹分類模型。數(shù)據(jù)預(yù)處理:10.5編程實(shí)踐問題2:對(duì)于一位在該平臺(tái)工作的醫(yī)生,他通常具有不同職稱,假設(shè)其評(píng)分、訪問次數(shù)、患者數(shù)量等特征能夠反映
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 招標(biāo)代理公司掛靠合同范例
- 冰箱合同范例
- 砂漿銷售運(yùn)輸合同范例
- 商業(yè)地產(chǎn)投資租賃合同范例
- 橙子 收購合同范例
- 個(gè)人詐騙罪合同范例
- 四方協(xié)議合同范例
- 股票英文合同范例
- 合同范例簽訂
- 出口銷售合同范例中文
- 鄰二甲苯安全技術(shù)說明書
- 高熱的中醫(yī)護(hù)理課件
- 廣東省房屋建筑和市政工程工程質(zhì)量安全檢測(cè)收費(fèi)指導(dǎo)價(jià)
- 國內(nèi)工程建設(shè)招標(biāo)招投標(biāo)實(shí)務(wù)操作手冊(cè)范本
- 城市智慧排水管網(wǎng)監(jiān)測(cè)解決方案
- 報(bào)價(jià)單報(bào)價(jià)表
- DLT電力設(shè)備預(yù)防性試驗(yàn)規(guī)程
- 服裝投標(biāo)技術(shù)方案全
- “尚美課堂”各學(xué)科課堂要求
- 2022年新高考山東地理高考真題(含答案)
- 卡通小學(xué)生萬能PPT模板課件
評(píng)論
0/150
提交評(píng)論