《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》課件項(xiàng)目四電商平臺(tái)運(yùn)輸行為預(yù)測(cè)-邏輯回歸

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-12-31 格式：PPTX 頁(yè)數(shù)：110 大?。?4.46MB 積分：20 舉報(bào) 版權(quán)申訴

《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》課件項(xiàng)目四電商平臺(tái)運(yùn)輸行為預(yù)測(cè)-邏輯回歸_第2頁(yè)

《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》課件項(xiàng)目四電商平臺(tái)運(yùn)輸行為預(yù)測(cè)-邏輯回歸_第3頁(yè)

《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》課件項(xiàng)目四電商平臺(tái)運(yùn)輸行為預(yù)測(cè)-邏輯回歸_第4頁(yè)

《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》課件項(xiàng)目四電商平臺(tái)運(yùn)輸行為預(yù)測(cè)-邏輯回歸_第5頁(yè)

已閱讀5頁(yè)，還剩105頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

處理電商平臺(tái)用戶行為數(shù)據(jù)電商平臺(tái)用戶購(gòu)買預(yù)測(cè)——邏輯回歸任務(wù)描述某電商平臺(tái)需要對(duì)該平臺(tái)的運(yùn)輸行為進(jìn)行分析，并預(yù)測(cè)運(yùn)輸行為是否會(huì)按時(shí)到達(dá)。本任務(wù)需要對(duì)這些數(shù)據(jù)進(jìn)行處理和分析，以幫助該電商平臺(tái)更好地了解運(yùn)輸行為，并優(yōu)化運(yùn)輸策略，提高客戶滿意度。在處理敏感的電商平臺(tái)用戶數(shù)據(jù)時(shí)，需要特別關(guān)注網(wǎng)絡(luò)信息安全問題。在數(shù)據(jù)預(yù)處理過程中，應(yīng)當(dāng)采取措施保證用戶數(shù)據(jù)的機(jī)密性、完整性和可用性。本任務(wù)的目標(biāo)是對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理與探索，包括數(shù)據(jù)的啞變量處理和屬性構(gòu)造。任務(wù)要求探索電商平臺(tái)運(yùn)輸行為數(shù)據(jù)。對(duì)性別變量進(jìn)行啞變量處理。構(gòu)造總成本的特征。啞變量處理離散化處理屬性構(gòu)造啞變量處理什么是啞變量處理?在某些分類問題中，原始數(shù)據(jù)可能包含一些分類變量（也稱為離散變量），如性別、顏色等。男女無(wú)法識(shí)別啞變量處理啞變量處理：即將每個(gè)分類變量拆分成多個(gè)二元變量。拆分后性別變量變?yōu)椤澳小薄芭眱煞N形式，其中1表示肯定，0表示否定。用戶ID性別1男2女3男4男5女6女7男8女9男10男性別_男性別_女10011010010110011010啞變量處理01如何實(shí)現(xiàn)啞變量處理？

在Python中，使用pandas庫(kù)的get_dummies函數(shù)可以對(duì)類別型數(shù)據(jù)進(jìn)行啞變量處理，其基本使用格式如下。啞變量處理pd.get_dummies(data,prefix=None,prefix_sep='_',dummy_na=False,columns=None,sparse=False,drop_first=False)啞變量處理get_dummies函數(shù)常用參數(shù)及其說明參數(shù)名稱說明data接收DataFrame。表示輸入數(shù)據(jù)集，無(wú)默認(rèn)值prefix接收字符串。表示虛擬變量的名稱前綴，默認(rèn)為Noneprefix_sep接收字符串。表示虛擬變量的名稱前綴與原始列名之間的分隔符，默認(rèn)為'_'dummy_na接收字符串或列表。表示是否添加一列表示缺失值，默認(rèn)為Falsecolumns接收字符串或列表。要進(jìn)行獨(dú)熱編碼的列名，默認(rèn)為Nonesparse接收bool。表示是否使用稀疏矩陣表示虛擬變量，默認(rèn)為Falsedrop_first接收bool。表示是否刪除每個(gè)虛擬變量的第一列，默認(rèn)為False雙十一是中國(guó)的網(wǎng)購(gòu)狂歡節(jié)。一家電商品牌公司統(tǒng)計(jì)了其旗艦店老客戶在雙十一期間的是否購(gòu)買某美妝產(chǎn)品的消費(fèi)者信息數(shù)據(jù)。啞變量處理例題用戶ID年齡/歲地區(qū)歷史消費(fèi)金額/元是否購(gòu)買128北京12001232上海8000325廣州5000440上海32001535深圳15001627廣州6000730北京9001826北京7000938北京240011029上海10000例題分析對(duì)地區(qū)變量進(jìn)行啞變量處理主要通過以下4個(gè)步驟實(shí)現(xiàn)。觀察啞變量處理前的數(shù)據(jù)集選取數(shù)據(jù)集的“地區(qū)”變量列將“地區(qū)”列按照類別“北上廣深”拆分為4個(gè)二元變量輸出啞變量處理后的數(shù)據(jù)集處理電商平臺(tái)用戶行為數(shù)據(jù)電商平臺(tái)用戶購(gòu)買預(yù)測(cè)——邏輯回歸任務(wù)描述某電商平臺(tái)需要對(duì)該平臺(tái)的運(yùn)輸行為進(jìn)行分析，并預(yù)測(cè)運(yùn)輸行為是否會(huì)按時(shí)到達(dá)。本任務(wù)需要對(duì)這些數(shù)據(jù)進(jìn)行處理和分析，以幫助該電商平臺(tái)更好地了解運(yùn)輸行為，并優(yōu)化運(yùn)輸策略，提高客戶滿意度。在處理敏感的電商平臺(tái)用戶數(shù)據(jù)時(shí)，需要特別關(guān)注網(wǎng)絡(luò)信息安全問題。在數(shù)據(jù)預(yù)處理過程中，應(yīng)當(dāng)采取措施保證用戶數(shù)據(jù)的機(jī)密性、完整性和可用性。本任務(wù)的目標(biāo)是對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理與探索，包括數(shù)據(jù)的啞變量處理和屬性構(gòu)造。任務(wù)要求探索電商平臺(tái)運(yùn)輸行為數(shù)據(jù)。對(duì)性別變量進(jìn)行啞變量處理。構(gòu)造總成本的特征。啞變量處理離散化處理屬性構(gòu)造離散化處理離散化處理主要應(yīng)用于某些場(chǎng)景下的連續(xù)變量數(shù)據(jù)，將其轉(zhuǎn)化為離散變量數(shù)據(jù)，從而降低數(shù)據(jù)的復(fù)雜度、降低計(jì)算量，提高模型的建立和訓(xùn)練效率。常見的離散化方法有等寬離散化、等頻離散化等，可以根據(jù)實(shí)際情況選擇不同的離散化方法。什么是離散化處理？等寬法等寬法（Equi-WidthBinning）將變量的取值范圍劃分為k個(gè)等寬的區(qū)間，將落在同一個(gè)區(qū)間內(nèi)的數(shù)據(jù)歸為同一類。什么是等寬法？012345678910111213

14等寬法等寬法（Equi-WidthBinning）將變量的取值范圍劃分為k個(gè)等寬的區(qū)間，將落在同一個(gè)區(qū)間內(nèi)的數(shù)據(jù)歸為同一類。什么是等寬法？01234567891011

121314等寬法等寬法劃分示例圖用戶ID年齡1282323254405356277308269381029年齡[26-30][31-35][20-25][36-40][31-35][26-30][26-30][26-30][36-40][26-30]如何實(shí)現(xiàn)等寬法處理？

在Python中，使用pandas庫(kù)的cut函數(shù)可以實(shí)現(xiàn)等寬離散化處理，其基本使用格式如下。等寬法pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates='raise')cut函數(shù)常用參數(shù)及其說明等寬法pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates='raise')參數(shù)名稱說明x接收Series或Numpy。表示輸入的數(shù)據(jù)集，無(wú)默認(rèn)值bins接收int。指定離散化的區(qū)間，可以是一個(gè)整數(shù)、一個(gè)序列（表示區(qū)間邊緣的數(shù)值）或者字符串（表示自定義區(qū)間的名稱），無(wú)默認(rèn)值right接收bool。是否包含右邊界，默認(rèn)為Truelabels接收bool。指定離散化后每個(gè)區(qū)間的標(biāo)簽，可以是一個(gè)列表或數(shù)組，長(zhǎng)度應(yīng)該與分組后的區(qū)間數(shù)量相同。默認(rèn)為Nonecut函數(shù)常用參數(shù)及其說明等寬法retbins接收bool。是否返回每個(gè)區(qū)間的邊界值，默認(rèn)為Falseprecision接收int。設(shè)置顯示區(qū)間邊界的小數(shù)位數(shù)，默認(rèn)為3include_lowest接收bool。是否將最小值包含在第一個(gè)區(qū)間內(nèi)，默認(rèn)為Falseduplicates接收指定str。當(dāng)區(qū)間存在重復(fù)時(shí)，指定如何處理。默認(rèn)為raise參數(shù)名稱說明pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates='raise')等寬法對(duì)年齡變量進(jìn)行等寬離散化處理主要通過以下4個(gè)步驟實(shí)現(xiàn)。觀察離散化處理前的數(shù)據(jù)集選取數(shù)據(jù)集的“年齡”變量列將“年齡”列按照相同間距劃分為4個(gè)區(qū)間輸出離散化處理后的數(shù)據(jù)集等頻法等頻法（Equi-DepthBinning）將變量的取值范圍劃分為k個(gè)區(qū)間，每個(gè)區(qū)間包含大致相等數(shù)量的數(shù)據(jù)點(diǎn)，也稱為分位數(shù)法（QuantileBinning）。什么是等頻法？等頻法等頻法（Equi-DepthBinning）將變量的取值范圍劃分為k個(gè)區(qū)間，每個(gè)區(qū)間包含大致相等數(shù)量的數(shù)據(jù)點(diǎn)，也稱為分位數(shù)法（QuantileBinning）。什么是等頻法？等頻法如何實(shí)現(xiàn)等頻法處理？

在Python中，使用pandas庫(kù)的qcut函數(shù)可以實(shí)現(xiàn)等頻離散化處理，其基本使用格式如下。pandas.qcut(x,q,labels=None,retbins=False,precision=3,duplicates='raise')等頻法qcut函數(shù)常用參數(shù)及其說明pandas.qcut(x,q,labels=None,retbins=False,precision=3,duplicates='raise')參數(shù)名稱說明retbins接收bool類型。表示是否返回每個(gè)區(qū)間的邊界值，默認(rèn)為Falseprecision接收int。表示設(shè)置顯示區(qū)間邊界的小數(shù)位數(shù)，默認(rèn)為3duplicates接收指定str。表示當(dāng)區(qū)間存在重復(fù)時(shí)，指定如何處理。默認(rèn)為raisex接收Series或Numpy。表示輸入數(shù)據(jù)集。無(wú)默認(rèn)值q接收int或列表。表示指定要分成的區(qū)間數(shù)量，表示分位數(shù)。無(wú)默認(rèn)值labels接收bool、int、序列或bool標(biāo)記。表示指定離散化后每個(gè)區(qū)間的標(biāo)簽，可以是一個(gè)列表或數(shù)組，長(zhǎng)度應(yīng)該與分組后的區(qū)間數(shù)量相同。如果未指定，則默認(rèn)為整數(shù)索引等頻法對(duì)歷史消費(fèi)金額變量進(jìn)行等頻離散化處理主要通過以下4個(gè)步驟實(shí)現(xiàn)。觀察離散化處理前的數(shù)據(jù)集選取數(shù)據(jù)集的“歷史消費(fèi)金額”變量列按照“歷史消費(fèi)金額”將顧客消費(fèi)水平等頻劃分為3個(gè)消費(fèi)等級(jí)輸出離散化處理后的數(shù)據(jù)集屬性構(gòu)造是指在某些場(chǎng)景下，原始數(shù)據(jù)可能不夠完整或不夠豐富，無(wú)法滿足模型的需求。在這種情況下，可以采用屬性構(gòu)造，即通過計(jì)算、轉(zhuǎn)換、組合等方式生成新的屬性來(lái)增加數(shù)據(jù)的信息量，以便在建模時(shí)能夠更好地反映實(shí)際情況。屬性構(gòu)造什么是屬性構(gòu)造？屬性構(gòu)造什么是屬性構(gòu)造？是否購(gòu)買歷史消費(fèi)金額年齡地區(qū)

[20,25][26,30][31,35][36,40]

北京上海廣州深圳

進(jìn)行屬性構(gòu)造屬性構(gòu)造什么是屬性構(gòu)造？歷史消費(fèi)金額

進(jìn)行屬性構(gòu)造

歷史消費(fèi)金額差異消費(fèi)金額平均消費(fèi)金額

屬性構(gòu)造構(gòu)造歷史消費(fèi)金額差異屬性主要通過以下4個(gè)步驟實(shí)現(xiàn)。計(jì)算歷史消費(fèi)金額的平均值計(jì)算每個(gè)用戶消費(fèi)金額與平均值的差值并單獨(dú)保存一列，名為“歷史消費(fèi)金額差異”輸出屬性構(gòu)造后的數(shù)據(jù)集輸出離散化處理后的數(shù)據(jù)集處理電商平臺(tái)運(yùn)輸行為數(shù)據(jù)電商平臺(tái)運(yùn)輸行為預(yù)測(cè)——邏輯回歸任務(wù)描述某電商平臺(tái)需要對(duì)該平臺(tái)的運(yùn)輸行為進(jìn)行分析，并預(yù)測(cè)運(yùn)輸行為是否會(huì)按時(shí)到達(dá)。本任務(wù)需要對(duì)這些數(shù)據(jù)進(jìn)行處理和分析，以幫助該電商平臺(tái)更好地了解運(yùn)輸行為，并優(yōu)化運(yùn)輸策略，提高客戶滿意度。在處理敏感的電商平臺(tái)用戶數(shù)據(jù)時(shí)，需要特別關(guān)注網(wǎng)絡(luò)信息安全問題。在數(shù)據(jù)預(yù)處理過程中，應(yīng)當(dāng)采取措施保證用戶數(shù)據(jù)的機(jī)密性、完整性和可用性。本任務(wù)的目標(biāo)是對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理與探索，包括數(shù)據(jù)的啞變量處理和屬性構(gòu)造。任務(wù)要求探索電商平臺(tái)運(yùn)輸行為數(shù)據(jù)。對(duì)性別變量進(jìn)行啞變量處理。構(gòu)造總成本的特征。讀取電商平臺(tái)運(yùn)輸行為數(shù)據(jù)啞變量處理屬性構(gòu)造讀取電商平臺(tái)運(yùn)輸行為數(shù)據(jù)讀取電商平臺(tái)運(yùn)輸行為數(shù)據(jù)主要通過以下6個(gè)步驟實(shí)現(xiàn)。查看電商平臺(tái)運(yùn)輸行為數(shù)據(jù)讀取數(shù)據(jù)查看數(shù)據(jù)維度查看數(shù)據(jù)類型分析產(chǎn)品重要程度分析是否按時(shí)到達(dá)查看電商平臺(tái)運(yùn)輸行為數(shù)據(jù)考慮到電商平臺(tái)用戶數(shù)據(jù)的敏感性和網(wǎng)絡(luò)信息安全問題，在采取保證用戶數(shù)據(jù)的機(jī)密性、完整性和可用性的基礎(chǔ)上，已到數(shù)據(jù)進(jìn)行脫敏處理，加強(qiáng)個(gè)人信息保護(hù)。脫敏后的特征說明如表所示。客戶ID客戶的ID號(hào)，已經(jīng)過脫敏處理公司廠庫(kù)公司的倉(cāng)庫(kù)編號(hào)，分為1~5等區(qū)裝運(yùn)方式裝運(yùn)產(chǎn)品的方式，分為船舶、飛行和公路。其中0代表公路，1表示船舶，2表示飛行客戶服務(wù)電話數(shù)量從詢價(jià)到詢價(jià)的客戶服務(wù)電話總數(shù)量字段字段說明查看電商平臺(tái)運(yùn)輸行為數(shù)據(jù)考慮到電商平臺(tái)用戶數(shù)據(jù)的敏感性和網(wǎng)絡(luò)信息安全問題，在采取保證用戶數(shù)據(jù)的機(jī)密性、完整性和可用性的基礎(chǔ)上，已到數(shù)據(jù)進(jìn)行脫敏處理，加強(qiáng)個(gè)人信息保護(hù)。脫敏后的特征說明如表所示。運(yùn)輸數(shù)量運(yùn)輸數(shù)量字段字段說明客戶評(píng)價(jià)公司已對(duì)每位客戶進(jìn)行了評(píng)價(jià)。1為最低，5為最高產(chǎn)品重要性公司根據(jù)產(chǎn)品的重要程度，為0~10的評(píng)分?jǐn)?shù)產(chǎn)品成本產(chǎn)品成本查看電商平臺(tái)運(yùn)輸行為數(shù)據(jù)考慮到電商平臺(tái)用戶數(shù)據(jù)的敏感性和網(wǎng)絡(luò)信息安全問題，在采取保證用戶數(shù)據(jù)的機(jī)密性、完整性和可用性的基礎(chǔ)上，已到數(shù)據(jù)進(jìn)行脫敏處理，加強(qiáng)個(gè)人信息保護(hù)。脫敏后的特征說明如表所示。字段字段說明性別客戶的性別重量產(chǎn)品的重量折扣針對(duì)該特定產(chǎn)品提供的折扣準(zhǔn)時(shí)到達(dá)商品是否準(zhǔn)時(shí)到達(dá)。其中0表示未按時(shí)到達(dá)產(chǎn)品，1表示已按時(shí)到達(dá)讀取數(shù)據(jù)使用pandas庫(kù)中read_csv函數(shù)讀取用戶行為數(shù)據(jù)。查看電子商務(wù)運(yùn)輸數(shù)據(jù)，輸出前5行數(shù)據(jù)。讀取數(shù)據(jù)維度使用pandas庫(kù)中shape屬性可以得到DataFrame對(duì)象的維度信息。返回一個(gè)包含行數(shù)和列數(shù)的元組。查看數(shù)據(jù)類型使用pandas庫(kù)中info()方法查看電商平臺(tái)運(yùn)輸行為數(shù)據(jù)類型。分析產(chǎn)品重要程度使用Python中的pandas庫(kù)中的cut函數(shù)可以對(duì)產(chǎn)品重要性進(jìn)行等寬離散化處理。使用Matplotlib庫(kù)的pie函數(shù)繪制產(chǎn)品重要程度分布餅圖。讀取電商平臺(tái)運(yùn)輸行為數(shù)據(jù)使用Matplotlib庫(kù)的pie函數(shù)繪制是否按時(shí)到達(dá)分布的餅圖。由圖可知，初始數(shù)據(jù)集中有53.9%的客戶按時(shí)到達(dá)，46.1%的客戶未按時(shí)到達(dá)。啞變量處理使用pandas庫(kù)中g(shù)et_dummies函數(shù)對(duì)性別變量進(jìn)行啞變量處理。將一元變量性別拆分為性別_男和性別_女二元變量，并查看處理后的數(shù)據(jù)情況。客戶ID性別1男2女3女4女5男性別_男性別_女1001010110屬性說明想要得到測(cè)試集的類別標(biāo)簽，需要模型經(jīng)過訓(xùn)練集學(xué)習(xí)，模型在訓(xùn)練集上學(xué)習(xí)的其實(shí)就是特征。在給模型輸入數(shù)據(jù)時(shí)，實(shí)際上模型用到的是特征及其相應(yīng)的類別標(biāo)簽，而特征就是用于描述為什么該樣本的類別標(biāo)簽如此。在本例中即用于描述某用戶運(yùn)輸行為準(zhǔn)時(shí)/不準(zhǔn)時(shí)。結(jié)合生活經(jīng)驗(yàn)及業(yè)務(wù)理解，為數(shù)據(jù)集增加“總成本”屬性。構(gòu)造總成本屬性使用pandas的DataFrame數(shù)據(jù)結(jié)構(gòu)df訪問“產(chǎn)品成本”和“運(yùn)輸數(shù)量”這兩個(gè)屬性列，并將它們相乘，得到每個(gè)客戶的總成本。將總成本除以1000，得到以千元為單位的總成本，并將結(jié)果存儲(chǔ)在一個(gè)新的列“總成本/千元”中。保存數(shù)據(jù)使用pandas庫(kù)的to_csv()方法將處理后的數(shù)據(jù)保存為新的數(shù)據(jù)集“新電子商務(wù)運(yùn)輸數(shù)據(jù).csv”。保存路徑為tmp文件，保留原有的中文表頭且不保存行索引。構(gòu)建電商平臺(tái)運(yùn)輸行為預(yù)測(cè)電商平臺(tái)用戶購(gòu)買預(yù)測(cè)——邏輯回歸任務(wù)描述電商平臺(tái)運(yùn)輸預(yù)測(cè)是一項(xiàng)非常重要的任務(wù)。堅(jiān)持一切為了人民，通過預(yù)測(cè)用戶的運(yùn)輸行為，電商平臺(tái)可以更好地了解用戶需求。然而，運(yùn)輸行為往往是一個(gè)難以捉摸的過程，不受規(guī)律和時(shí)間限制的影響，這給預(yù)測(cè)模型的建立帶來(lái)了很大的挑戰(zhàn)。本任務(wù)基于邏輯回歸模型，從歷史交互數(shù)據(jù)中學(xué)習(xí)運(yùn)輸行為的一般特征，預(yù)測(cè)下一個(gè)月用戶可能會(huì)運(yùn)輸哪些品牌。將重點(diǎn)關(guān)注電商平臺(tái)用戶的運(yùn)輸行為，提高運(yùn)輸預(yù)測(cè)的準(zhǔn)確率，優(yōu)化平臺(tái)的運(yùn)營(yíng)管理和商業(yè)決策，從而提高平臺(tái)的競(jìng)爭(zhēng)力和收益。任務(wù)要求利用sklearn庫(kù)建立邏輯回歸模型。邏輯回歸模型邏輯回歸模型二分類問題是一種基本的分類問題，它涉及將數(shù)據(jù)樣本分為兩個(gè)不同的類別或標(biāo)簽中的一個(gè)。例如，將垃圾郵件與正常郵件分類、將腫瘤分為惡性和良性等都是二分類問題。在二分類問題中，通常將一個(gè)類別標(biāo)記為“正例”（positive）和另一個(gè)標(biāo)記為“反例”（negative）。分類模型的目標(biāo)是學(xué)習(xí)如何將輸入特征與相應(yīng)的標(biāo)簽相關(guān)聯(lián)，以便在新的未知數(shù)據(jù)上進(jìn)行分類預(yù)測(cè)。邏輯回歸模型常用的二分類算法包括邏輯回歸、決策樹、隨機(jī)森林等。這些算法在不同的數(shù)據(jù)集和應(yīng)用場(chǎng)景中表現(xiàn)不同，因此，選擇合適的算法以及進(jìn)行適當(dāng)?shù)奶卣鞴こ淌沁M(jìn)行二分類任務(wù)的重要部分。邏輯回歸模型在任務(wù)3.1的學(xué)習(xí)中已經(jīng)介紹了線性回歸的一般形式，給出了自變量x與因變量y成線性關(guān)系時(shí)所建立的函數(shù)關(guān)系。但是，現(xiàn)實(shí)場(chǎng)景中更多的情況y不是與x成線性關(guān)系，而是與x的某個(gè)函數(shù)成線性關(guān)系，此時(shí)需要引入廣義線性回歸模型。需要注意的是，邏輯回歸雖然稱作“回歸”，但實(shí)際上是一種分類算法。該算法期望所有預(yù)測(cè)值都介于0~1之間。具體的分類方法為設(shè)定一個(gè)分類閾值，將預(yù)測(cè)結(jié)果y大于分類閾值的樣本歸為正類，反之歸為反類。邏輯回歸模型邏輯回歸雖然稱作“回歸”，但實(shí)際上是一種分類算法。該算法期望所有預(yù)測(cè)值都介于0~1之間。具體的分類方法為設(shè)定一個(gè)分類閾值，將預(yù)測(cè)結(jié)果y大于分類閾值的樣本歸為正類，反之歸為反類。決策邊界邏輯回歸模型假設(shè)函數(shù)如下式所示。

表示分類閾值參數(shù)集。

上式的圖像如圖所示，保證了所有函數(shù)值都介于[0,1]之間。Logstic函數(shù)如下式所示。邏輯回歸模型合并左邊兩式轉(zhuǎn)為標(biāo)準(zhǔn)邏輯回歸形式如左式所示。

邏輯回歸模型建模步驟根據(jù)分析目的設(shè)置因變量和自變量，并進(jìn)行屬性篩選列出線性回歸方程，估計(jì)回歸系數(shù)模型檢驗(yàn)?zāi)Ｐ皖A(yù)測(cè)邏輯回歸模型LogisticRegression類使用scikit-learn庫(kù)中l(wèi)inear_model模塊的LogisticRegression類可以建立邏輯回歸模型，其語(yǔ)法格式如下。classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='liblinear',max_iter=100,multi_class='ovr',verbose=0,warm_start=False,n_jobs=1)邏輯回歸模型LogisticRegression類常用參數(shù)及其說明penalty接收str。表示正則化選擇參數(shù)，可選l1或l2。默認(rèn)為l2solver接收str。表示優(yōu)化算法選擇參數(shù)，可選參數(shù)為newton-cg、lbfg、liblinear、sag，當(dāng)penalty='l2'時(shí)，4種都可選；當(dāng)penalty='l1'時(shí)，只能選liblinear。默認(rèn)為liblinearmulti_class接收str。表示分類方式選擇參數(shù)，可選ovr和multinomial。默認(rèn)為ovr參數(shù)名稱說明classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='liblinear',max_iter=100,multi_class='ovr',verbose=0,warm_start=False,n_jobs=1)邏輯回歸模型LogisticRegression類常用參數(shù)及其說明class_weight接收balanced以及字典。表示類型權(quán)重參數(shù)，如對(duì)于因變量取值為0或1的二元模型，可以定義class_weight={0:0.9,1:0.1}，這樣類型0的權(quán)重為90%，而類型1的權(quán)重為10%。默認(rèn)為Nonecopy_X接收bool。表示是否復(fù)制數(shù)據(jù)表進(jìn)行運(yùn)算。默認(rèn)為Truen_jobs接收int。表示計(jì)算時(shí)使用的核數(shù)。默認(rèn)為1參數(shù)名稱說明classsklearn.linear_model.LogisticRegression(penalty='l2',dual=False,tol=0.0001,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver='liblinear',max_iter=100,multi_class='ovr',verbose=0,warm_start=False,n_jobs=1)邏輯回歸模型人才是第一資源，碩士研究生招生考試競(jìng)爭(zhēng)非常激烈，尤其是在一些熱門專業(yè)中，招生人數(shù)往往遠(yuǎn)遠(yuǎn)少于報(bào)考人數(shù)。因此，考生需要充分準(zhǔn)備，提高自己的綜合素質(zhì)和應(yīng)試能力，加快建設(shè)教育強(qiáng)國(guó)。研究生入學(xué)考試分為初試和復(fù)試兩個(gè)環(huán)節(jié)。下表為某高校某專業(yè)2022年考生的考研分?jǐn)?shù)數(shù)據(jù)集，其中初試成績(jī)已按比例處理為百分制。初試成績(jī)復(fù)試成績(jī)錄取結(jié)果34.6278.02094.8345.69135.8472.900………55.3464.93142.0878.840邏輯回歸模型繪制數(shù)據(jù)集的散點(diǎn)圖構(gòu)建邏輯回歸模型預(yù)測(cè)考生錄取情況繪制決策邊界使用LogisticRegression構(gòu)建考生錄取情況預(yù)測(cè)模型主要分為以下四個(gè)步驟。構(gòu)建邏輯回歸模型繪制運(yùn)輸預(yù)測(cè)結(jié)果柱形圖構(gòu)建邏輯回歸模型讀取數(shù)據(jù)提取特征變量和目標(biāo)變量拆分訓(xùn)練集和測(cè)試集構(gòu)建模型使用LogisticRegression構(gòu)建電商平臺(tái)運(yùn)輸行為預(yù)測(cè)主要分為以下五個(gè)步驟。對(duì)電商平臺(tái)運(yùn)輸行為進(jìn)行預(yù)測(cè)讀取數(shù)據(jù)使用pandas庫(kù)中read_csv函數(shù)讀取處理后的電子商務(wù)運(yùn)輸數(shù)據(jù)。提取特征變量和目標(biāo)變量從原始數(shù)據(jù)集中提取出特征變量（即用于預(yù)測(cè)的變量）和目標(biāo)變量（即要預(yù)測(cè)的變量）?？蛻鬒D公司廠庫(kù)裝運(yùn)方式客戶服務(wù)電話數(shù)量客戶評(píng)價(jià)產(chǎn)品成本運(yùn)輸數(shù)量產(chǎn)品重要性折扣重量準(zhǔn)時(shí)到達(dá)性別_女性別_男總成本/千元特征變量目標(biāo)變量拆分訓(xùn)練集和測(cè)試集將數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集。使用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練，使用測(cè)試集對(duì)構(gòu)建的模型進(jìn)行測(cè)試，其中測(cè)試集占整個(gè)數(shù)據(jù)集的20%。使用train_test_split類拆分為訓(xùn)練集和測(cè)試集構(gòu)建邏輯回歸模型使用LogisticRegression類構(gòu)建電商平臺(tái)運(yùn)輸邏輯回歸預(yù)測(cè)模型。對(duì)電商平臺(tái)運(yùn)輸行為進(jìn)行預(yù)測(cè)利用訓(xùn)練后的電商平臺(tái)運(yùn)輸行為預(yù)測(cè)模型來(lái)預(yù)測(cè)測(cè)試集中的運(yùn)輸行為。繪制運(yùn)輸預(yù)測(cè)結(jié)果柱形圖使用柱形圖可視化展示預(yù)測(cè)得到的各類型的柱形圖。觀察圖可以看出模型的預(yù)測(cè)結(jié)果，預(yù)測(cè)前的真實(shí)值是861人運(yùn)輸不準(zhǔn)時(shí)，1068人運(yùn)輸準(zhǔn)時(shí)。預(yù)測(cè)后的結(jié)果是964運(yùn)輸不準(zhǔn)時(shí)，965人運(yùn)輸準(zhǔn)時(shí)。評(píng)估與優(yōu)化電商平臺(tái)運(yùn)輸行為預(yù)測(cè)電商平臺(tái)用戶購(gòu)買預(yù)測(cè)——邏輯回歸任務(wù)描述電商平臺(tái)運(yùn)輸預(yù)測(cè)模型已經(jīng)建立，通過各種指標(biāo)（例如準(zhǔn)確率、召回率、精確率等）來(lái)評(píng)價(jià)模型的性能，并找出模型存在的不足之處。在了解模型不足的地方之后，可以采用類不平衡問題處理等方法改進(jìn)模型，以優(yōu)化模型，提高模型預(yù)測(cè)效果，貫徹高質(zhì)量發(fā)展精神。不斷地優(yōu)化模型，使其在預(yù)測(cè)電商客戶運(yùn)輸行為方面的準(zhǔn)確率和效果不斷提高。任務(wù)要求使用sklearn.metrics模塊對(duì)邏輯回歸模型進(jìn)行評(píng)價(jià)。使用imblearn庫(kù)解決類不平衡問題?；煜仃?、準(zhǔn)確率與召回率ROC曲線樣本平衡混淆矩陣（ConfusionMatrix）是模式識(shí)別領(lǐng)域中一種常用的表達(dá)形式，描繪樣本數(shù)據(jù)的真實(shí)屬性與識(shí)別結(jié)果類型之間的關(guān)系，是評(píng)價(jià)分類器性能的一種常用方法，并且可以將分類問題的結(jié)果進(jìn)行可視化。以一個(gè)二分類任務(wù)為例，可將樣本根據(jù)真實(shí)類別與預(yù)測(cè)的分類結(jié)果的組合劃分為真正例（TruePositive，TP）、假正例（FalsePositive，F(xiàn)P）、真反例（TrueNegative，TN）和假反例（FalseNegative，F(xiàn)N）共4種情形，并對(duì)應(yīng)其樣本數(shù)，則有總樣本數(shù)=TP+FP+FN+TN。混淆矩陣分類結(jié)束后的混淆矩陣如表所示。混淆矩陣真實(shí)結(jié)果預(yù)測(cè)結(jié)果正類反類正類TPFN反類FPTNTP:正確地將正樣本預(yù)測(cè)為正樣本的分類數(shù)FN:錯(cuò)誤地將正樣本預(yù)測(cè)為負(fù)樣本的分類數(shù)FP:錯(cuò)誤地將負(fù)樣本預(yù)測(cè)為正樣本的分類數(shù)TN:正確地將負(fù)樣本預(yù)測(cè)為負(fù)樣本的分類數(shù)準(zhǔn)確率（Accuracy）是指分類器正確分類的樣本數(shù)與總樣本數(shù)之比，它可以展示分類器的整體分類效果。準(zhǔn)確率定義如式所示。

準(zhǔn)確率取值范圍為[0,1]，取值越高表示分類模型效果越好，完美分類的準(zhǔn)確率為1，完全隨機(jī)猜測(cè)的準(zhǔn)確率為分類的類別數(shù)的倒數(shù)。準(zhǔn)確率召回率（Recall），是指分類器正確分類的正樣本數(shù)與實(shí)際正樣本數(shù)之比，它可以展示分類器對(duì)于正樣本的分類效果，用于評(píng)估模型對(duì)正類的識(shí)別能力。計(jì)算公式如公式所示。召回率的取值范圍為[0,1]，取值越大表示模型在預(yù)測(cè)正樣本方面的能力越強(qiáng)，即能夠更準(zhǔn)確地將正樣本識(shí)別出來(lái)。當(dāng)召回率為1時(shí)，表示模型能夠?qū)⑺姓龢颖径甲R(shí)別出來(lái)，沒有遺漏，這是理想的情況。召回率classification_report是一個(gè)用于生成分類報(bào)告的類，用于評(píng)估分類模型的性能。它計(jì)算并打印出準(zhǔn)確率、召回率、F1-score和support等指標(biāo)。分類報(bào)告ROC曲線接收者操作特征曲線（ReceiverOperatingCharacteristiccurve，ROC曲線）是一種非常有效的模型評(píng)價(jià)方法，可為選定臨界值給出定量提示。正確地將正例預(yù)測(cè)為正例的比率為縱坐標(biāo)錯(cuò)誤地將負(fù)例預(yù)測(cè)為正例的比率為橫坐標(biāo)該曲線下的面積（AUC）為0.93，而面積的大小與每種方法的優(yōu)劣密切相關(guān)，可反映分類器正確分類的統(tǒng)計(jì)概率，因此，其值越接近1說明該算法效果越好。在Python中，使用sklearn.metrics模塊中的roc_curve類中的roc_curve函數(shù)可以計(jì)算ROC曲線，其基本使用格式如下。ROC曲線fpr,tpr,thresholds=roc_curve(y_true,y_score,pos_label=None,sample_weight=None,drop_intermediate=True)ROC曲線roc_curve函數(shù)常用參數(shù)及其說明如下。參數(shù)名稱說明y_true接收數(shù)組。表示樣本真實(shí)的標(biāo)簽，必須為0或1。無(wú)默認(rèn)值y_score接收數(shù)組。表示分類器預(yù)測(cè)的樣本得分，可以是概率值、決策函數(shù)的值等。無(wú)默認(rèn)值pos_label接收int或str。表示正類的標(biāo)簽。默認(rèn)為Nonesample_weight接收數(shù)組。表示樣本的權(quán)重，可以用于不平衡樣本的處理。默認(rèn)為Nonedrop_intermediate接收bool。表示是否刪除不必要的閾值點(diǎn)，如果為True，則只返回fpr和tpr值中有效的部分。默認(rèn)為True對(duì)邏輯回歸模型進(jìn)行評(píng)價(jià)對(duì)考生錄取預(yù)測(cè)模型進(jìn)行評(píng)價(jià)主要通過以下4個(gè)步驟實(shí)現(xiàn)。計(jì)算考生錄取情況預(yù)測(cè)模型的混淆矩陣計(jì)算考生錄取情況預(yù)測(cè)模型的準(zhǔn)確率與召回率計(jì)算考生錄取情況預(yù)測(cè)模型的分類報(bào)告繪制考生錄取情況預(yù)測(cè)模型的ROC曲線在現(xiàn)實(shí)分類模型中，常存在類別不平衡問題，即指在數(shù)據(jù)集中，不同類別的樣本數(shù)量差別很大，其中一個(gè)類別的樣本數(shù)量遠(yuǎn)遠(yuǎn)少于另一個(gè)類別的樣本數(shù)量。這種情況在機(jī)器學(xué)習(xí)任務(wù)中很常見，如欺詐檢測(cè)、罕見病預(yù)測(cè)等。如果不處理類別不平衡問題，那么訓(xùn)練得到的模型可能會(huì)偏向于樣本數(shù)量多的類別，對(duì)樣本數(shù)量少的類別預(yù)測(cè)效果較差。樣本平衡什么是類別不平衡？解決類別不平衡問題的方法有欠采樣、過采樣等。欠采樣是一種處理類不平衡問題的方法，它通過減少多數(shù)類樣本的數(shù)量來(lái)達(dá)到平衡樣本分布的目的。欠采樣的主要思想是從多數(shù)類中隨機(jī)選擇一部分樣本作為訓(xùn)練集，使得多數(shù)類樣本數(shù)量和少數(shù)類樣本數(shù)量相近。在Python中，可以使用imblearn庫(kù)中under_sampling模塊的RandomUnderSampler類實(shí)現(xiàn)欠采樣。樣本平衡如何解決類別不平衡問題？SMOTE（SyntheticMinorityOver-samplingTechnique）是一種常見的過采樣方法，它通過生成新的合成樣本來(lái)增加少數(shù)類別的樣本數(shù)量，從而平衡數(shù)據(jù)集中各個(gè)類別的樣本數(shù)量。它主要是通過生成一些與小類樣本相似的樣本來(lái)達(dá)到平衡數(shù)據(jù)的目的。該算法不是簡(jiǎn)單復(fù)地制小類樣本，而是增加新的并不存在的樣本，因此在一定程度上可以避免過擬合的問題。樣本平衡SMOTE過采樣SMOTE算法的實(shí)現(xiàn)過程如下

樣本平衡對(duì)于少數(shù)類樣本中的每一個(gè)樣本，計(jì)算其與所有少數(shù)類樣本的歐氏距離。選取距離該樣本最近的k個(gè)少數(shù)類樣本，對(duì)其進(jìn)行隨機(jī)采樣。對(duì)于每個(gè)選中的少數(shù)類樣本，按照公式生成一個(gè)新的合成樣本。新樣本＝原樣本+隨機(jī)因子（選中樣本－原樣本）其中，選中樣本為為樣本空間中隨機(jī)選擇的一個(gè)樣本，隨機(jī)因子為[0,1]之間的隨機(jī)數(shù)。在Python中，可以使用imblearn庫(kù)中over_sampling模塊的SMOTE類實(shí)現(xiàn)過采樣，其基本使用格式如下。樣本平衡SMOTE=SMOTE(sampling_strategy='auto',k_neighbors=5,random_state=42)樣本平衡SMOTE類常用參數(shù)及其說明如下。參數(shù)名稱說明sampling_strategy接收str或float。表示用于設(shè)置合成樣本的數(shù)量，默認(rèn)為autok_neighbors接收int。表示用于設(shè)置用于合成樣本的k個(gè)最近鄰居的數(shù)量，默認(rèn)為5random_state接收int。表示用于設(shè)置

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》課件項(xiàng)目四電商平臺(tái)運(yùn)輸行為預(yù)測(cè)-邏輯回歸

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》 課件 項(xiàng)目四 電商平臺(tái)運(yùn)輸行為預(yù)測(cè)-邏輯回歸

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》課件項(xiàng)目四電商平臺(tái)運(yùn)輸行為預(yù)測(cè)-邏輯回歸