第9章項(xiàng)目案例-廣告檢測(cè)的流量作弊識(shí)別

上傳人：1*** IP屬地：廣東上傳時(shí)間：2025-02-16 格式：PPTX 頁(yè)數(shù)：46 大?。?.51MB 積分：20 舉報(bào) 版權(quán)申訴

第9章項(xiàng)目案例-廣告檢測(cè)的流量作弊識(shí)別_第2頁(yè)

第9章項(xiàng)目案例-廣告檢測(cè)的流量作弊識(shí)別_第3頁(yè)

第9章項(xiàng)目案例-廣告檢測(cè)的流量作弊識(shí)別_第4頁(yè)

第9章項(xiàng)目案例-廣告檢測(cè)的流量作弊識(shí)別_第5頁(yè)

已閱讀5頁(yè)，還剩41頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目案例——廣告

檢測(cè)的流量作弊識(shí)別與傳統(tǒng)的電視廣告、戶外廣告采買相比，虛假流量一直被看作互聯(lián)網(wǎng)廣告特有的弊病?；ヂ?lián)網(wǎng)廣告虛假流量，是指通過(guò)特殊的方式，模仿人類瀏覽行為而生成的訪問流量。如通過(guò)設(shè)置程序，每分鐘訪問一次某網(wǎng)站的主頁(yè)，這樣的流量即屬于虛假流量。廣告主尋找媒體投放廣告的目的是將信息傳達(dá)給目標(biāo)受眾，以促進(jìn)相關(guān)產(chǎn)品的銷售。而媒體的責(zé)任則是盡可能引導(dǎo)更多的用戶瀏覽這些信息。同等條件下，流量大的網(wǎng)站收取的廣告費(fèi)用更高。因此，部分網(wǎng)站受利益的驅(qū)使，會(huì)通過(guò)作弊方式產(chǎn)生虛假?gòu)V告流量。任務(wù)背景虛假?gòu)V告流量的問題在數(shù)字營(yíng)銷行業(yè)中一直存在，給廣告主帶來(lái)了嚴(yán)重的損失。但互聯(lián)網(wǎng)不是法外之地，利用大數(shù)據(jù)及人工智能技術(shù)構(gòu)筑網(wǎng)絡(luò)安全屏障，一方面能夠保障國(guó)家安全；一方面能夠提高市場(chǎng)效率，消除網(wǎng)絡(luò)垃圾，懲治網(wǎng)絡(luò)違法行為。目前，廣告監(jiān)測(cè)行為數(shù)據(jù)被越來(lái)越多地用于建模和做決策，如繪制用戶畫像、跨設(shè)備識(shí)別對(duì)應(yīng)用戶等。作弊行為、惡意曝光，甚至是在用戶毫無(wú)感知的情況下被控制訪問等非用戶主觀發(fā)出的行為給數(shù)據(jù)帶來(lái)了巨大的噪聲，給模型訓(xùn)練造成了很大影響。本章將通過(guò)Spark大數(shù)據(jù)技術(shù)實(shí)現(xiàn)廣告檢測(cè)的流量作弊識(shí)別，使讀者可以更加熟悉Spark相關(guān)技術(shù)，并靈活應(yīng)用相關(guān)技術(shù)解決相應(yīng)的大數(shù)據(jù)問題。任務(wù)背景1探索分析廣告流量數(shù)據(jù)目錄分析需求2預(yù)處理數(shù)據(jù)并構(gòu)建特征3構(gòu)建與評(píng)估分類模型4任何解決方案都需要從需求入手，分析實(shí)現(xiàn)目標(biāo)所需要進(jìn)行的步驟。本節(jié)的任務(wù)如下。了解在互聯(lián)網(wǎng)中常見的廣告流量作弊方式；結(jié)合廣告檢測(cè)的流量作弊識(shí)別案例的目標(biāo)，分析案例的需求。任務(wù)描述互聯(lián)網(wǎng)時(shí)代的核心之一是流量，更多的流量意味著更多的關(guān)注和可能的更高的收入。廣告主在互聯(lián)網(wǎng)投放廣告時(shí)往往會(huì)依據(jù)流量信息來(lái)設(shè)計(jì)投放方案，廣告流量作弊不僅僅會(huì)使廣告主選擇錯(cuò)誤的廣告投放方案，造成浪費(fèi)，也會(huì)使后期根據(jù)用戶瀏覽信息對(duì)現(xiàn)有廣告進(jìn)行修改時(shí)出現(xiàn)偏差。這些問題常常會(huì)引發(fā)“蝴蝶效應(yīng)”，造成不可估量的損失。因此，對(duì)廣告流量進(jìn)行作弊檢測(cè)進(jìn)而加以防范是非常有必要的。廣告的瀏覽信息數(shù)據(jù)量往往十分龐大，人工對(duì)其進(jìn)行篩選很不現(xiàn)實(shí)，所以一般會(huì)通過(guò)算法對(duì)海量瀏覽信息進(jìn)行自動(dòng)化篩選。常見的流量作弊方式常見的幾種廣告流量作弊方式作弊者通過(guò)各項(xiàng)技術(shù)，不斷模擬人的行為，增大識(shí)別作弊流量的難度。機(jī)器模擬的流量是通過(guò)軟件實(shí)現(xiàn)的，與人類的點(diǎn)擊流量存在一定的差異。常見的流量作弊方式廣告流量作弊方式說(shuō)明腳本刷量設(shè)定程序，使計(jì)算機(jī)按一定的規(guī)則訪問目標(biāo)網(wǎng)站控制肉雞訪問利用互聯(lián)網(wǎng)上受病毒感染的計(jì)算機(jī)訪問目標(biāo)網(wǎng)站頁(yè)面代碼修改通過(guò)病毒感染或其他方式，在媒體網(wǎng)站插入隱藏代碼，在其頁(yè)面加載肉眼不可見的指向目標(biāo)網(wǎng)站的小頁(yè)面DNS劫持通過(guò)篡改DNS服務(wù)器上的數(shù)據(jù)，強(qiáng)制修改用戶計(jì)算機(jī)的訪問位置，使用戶原本訪問的網(wǎng)站被修改為目標(biāo)網(wǎng)站根據(jù)目標(biāo)對(duì)廣告檢測(cè)的流量作弊識(shí)別的整體實(shí)現(xiàn)流程進(jìn)行拆分，如下圖。分析需求廣告檢測(cè)的流量作弊識(shí)別實(shí)現(xiàn)流程的步驟如下。對(duì)廣告檢測(cè)獲得的歷史流量數(shù)據(jù)進(jìn)行選擇性抽取和數(shù)據(jù)劃分。對(duì)第（1）步中形成的數(shù)據(jù)集進(jìn)行數(shù)據(jù)探索分析，包括缺失值、冗余字段的基礎(chǔ)探索和流量作弊的行為特征的業(yè)務(wù)探索。根據(jù)探索分析結(jié)果得出的清洗規(guī)則，對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理，并構(gòu)建建模時(shí)需要的特征，形成建模樣本數(shù)據(jù)。建立不同的虛假流量識(shí)別模型，并對(duì)模型進(jìn)行評(píng)估及對(duì)比。保存效果較好的模型，模擬新數(shù)據(jù)產(chǎn)生，加載保存好的模型以進(jìn)行應(yīng)用。分析需求1探索分析廣告流量數(shù)據(jù)目錄分析需求2預(yù)處理數(shù)據(jù)并構(gòu)建特征3構(gòu)建與評(píng)估分類模型4不同的作弊行為產(chǎn)生的數(shù)據(jù)特征不同，對(duì)數(shù)據(jù)進(jìn)行探索分析并合理歸納虛假流量的數(shù)據(jù)特征，為后期有針對(duì)性地對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、構(gòu)建相應(yīng)的指標(biāo)提供可靠依據(jù)，可有效提高模型分類的準(zhǔn)確率。本節(jié)的任務(wù)如下。對(duì)廣告流量數(shù)據(jù)進(jìn)行探索分析，包括對(duì)數(shù)據(jù)說(shuō)明、數(shù)據(jù)記錄數(shù)、日訪問流量等的基礎(chǔ)探索；對(duì)作弊瀏覽的特征探索。任務(wù)描述廣告流量數(shù)據(jù)數(shù)據(jù)說(shuō)明字段名稱說(shuō)明rank記錄序號(hào)dt相對(duì)日期，單位為天cookiecookie值ipIP地址，已脫敏idfaIDFA值，可用于識(shí)別iOS用戶imeiIMEI值，可用于識(shí)別Android用戶androidAndroid值，可用于識(shí)別Android用戶openudidOpenUDID值，可用于識(shí)別iOS用戶macMAC值，可用于識(shí)別不同硬件設(shè)備timestamps時(shí)間戳camp項(xiàng)目IDcreativeid創(chuàng)意ID（續(xù)表）數(shù)據(jù)說(shuō)明字段名稱說(shuō)明mobile_os設(shè)備OS版本信息，該值為原始值mobile_type機(jī)型app_key_md5AppKey信息app_name_md5AppName信息placementid廣告位信息useragent瀏覽器信息mediaid媒體ID信息os_typeOS類型標(biāo)記born_timecookie生成時(shí)間label作弊標(biāo)簽，1表示作弊，0表示正常本案例的完整流程都將在IntelliJIDEA中通過(guò)編程實(shí)現(xiàn)，同時(shí)由于數(shù)據(jù)探索和處理部分會(huì)較為頻繁地輸出結(jié)果以進(jìn)行驗(yàn)證，因此數(shù)據(jù)探索和處理的程序?qū)⑦x擇本地模式進(jìn)行編譯運(yùn)行。首先創(chuàng)建一個(gè)Spark工程，導(dǎo)入Spark相關(guān)的開發(fā)依賴包，創(chuàng)建一個(gè)Explore.scala類。實(shí)例化SparkSession對(duì)象，命名為spark，并設(shè)置日志級(jí)別為“WARN”?；A(chǔ)探索數(shù)據(jù)讀取本地case_data_new.csv文件的數(shù)據(jù)為DataFrame格式的數(shù)據(jù)，通過(guò)option設(shè)置文件首行為列名，使用count()方法統(tǒng)計(jì)數(shù)據(jù)記錄數(shù)，結(jié)果如下圖?；A(chǔ)探索數(shù)據(jù)1．探索記錄數(shù)廣告檢測(cè)流量數(shù)據(jù)總共有7天的數(shù)據(jù)，在該數(shù)據(jù)中，dt字段記錄了流量數(shù)據(jù)提取的相對(duì)天數(shù)。dt字段的值為1～7，1表示提取的7天流量數(shù)據(jù)的第1天數(shù)據(jù)，以此類推。對(duì)每天的數(shù)據(jù)流量進(jìn)行統(tǒng)計(jì)，查看是否有異常。使用groupBy()方法根據(jù)dt字段進(jìn)行分組統(tǒng)計(jì)，查詢7天中每天的日流量，并根據(jù)相對(duì)天數(shù)進(jìn)行升序排序，結(jié)果如右圖?；A(chǔ)探索數(shù)據(jù)2．探索日流量根據(jù)數(shù)據(jù)的類型對(duì)數(shù)據(jù)中的22個(gè)字段進(jìn)行探索，結(jié)果如下表。基礎(chǔ)探索數(shù)據(jù)3．分析數(shù)據(jù)類型數(shù)據(jù)類型字段名稱字符類型（character）cookie、ip、idfa、imei、android、openudid、mac、app_key_md5、app_name_md5、placementid、useragent、os_type數(shù)值類型（numeric）rank、dt、timestamps、camp、creativeid、mobile_os、mobile_type、mediaid、born_time、label對(duì)7天中所有的廣告流量數(shù)據(jù)進(jìn)行缺失值探索，統(tǒng)計(jì)出各個(gè)字段的缺失值情況。SparkSQL的DataFrame中有na()方法可以對(duì)缺失值進(jìn)行統(tǒng)計(jì)，結(jié)合drop()方法即可得到數(shù)據(jù)字段的缺失值占比，即缺失率。原始數(shù)據(jù)存在22個(gè)字段，若對(duì)每個(gè)字段的缺失率統(tǒng)計(jì)都編寫類似的代碼，會(huì)造成代碼冗余。同時(shí)通過(guò)觀察，creativeid字段的大量值都為0，不符合正常情況，因此，若creativeid的字段值為0也視為存在缺失值，且需單獨(dú)統(tǒng)計(jì)?；A(chǔ)探索數(shù)據(jù)4．統(tǒng)計(jì)缺失數(shù)據(jù)缺失值探索為提高代碼利用率，在主程序（main()方法）外構(gòu)建自定義方法用于計(jì)算數(shù)據(jù)字段缺失率。在主程序內(nèi)調(diào)用for循環(huán)對(duì)各個(gè)字段進(jìn)行統(tǒng)計(jì)。結(jié)果如下圖?；A(chǔ)探索數(shù)據(jù)缺失值探索的完整結(jié)果基礎(chǔ)探索數(shù)據(jù)字段名稱缺失率

字段名稱缺失率rank0.0%creativeid98.38905404089067%dt0.0%mobile_os80.23365259243003%cookie0.0%mobile_type77.39617428941281%ip0.0%app_key_md579.96577774074409%idfa92.19213756503227%app_name_md580.5729411778513%imei79.83116549325942%placementid0.0%android80.78859070248346%useragent4.350839184721567%openudid84.14450806675923%mediaid0.0%mac78.82843921382691%os_type67.29080822507825%timestamps0.0%born_time0.0%camp0.0%label0.0%缺失率分析結(jié)果基礎(chǔ)探索數(shù)據(jù)5．分析冗余數(shù)據(jù)字段名稱缺失率備注idfa92.19%可用于識(shí)別iOS用戶imei79.83%可用于識(shí)別Android用戶android80.79%可用于識(shí)別Android用戶openudid84.14%可用于識(shí)別iOS用戶腳本刷新網(wǎng)頁(yè)作弊通過(guò)設(shè)定程序，使計(jì)算機(jī)按一定的規(guī)則訪問目標(biāo)網(wǎng)站。該作弊方式產(chǎn)生的數(shù)據(jù)記錄中cookie與ip不變，且存在多條記錄。在cookie和ip不變的情況下統(tǒng)計(jì)數(shù)據(jù)記錄數(shù)，使用groupBy()方法根據(jù)ip和cookie字段進(jìn)行分組統(tǒng)計(jì)，并使用withColumn()新增一個(gè)ip_cookie_count_precent字段，用于存放同一ip和cookie的數(shù)據(jù)記錄數(shù)，結(jié)果如右圖。探索作弊流量的數(shù)據(jù)特征1．腳本刷新網(wǎng)頁(yè)作弊正常情況下，極少有人在7天內(nèi)頻繁瀏覽某廣告多達(dá)100次或以上，因此在ip和cookie不變的情況下，對(duì)廣告的瀏覽次數(shù)超過(guò)100的記錄進(jìn)行簡(jiǎn)單統(tǒng)計(jì)。使用filter()方法過(guò)濾出count字段值大于100的數(shù)據(jù)，并統(tǒng)計(jì)篩選后的數(shù)據(jù)記錄數(shù)，結(jié)果如下圖。探索作弊流量的數(shù)據(jù)特征同一ip和cookie的用戶瀏覽數(shù)據(jù)很容易被識(shí)別，因此作弊者往往也會(huì)通過(guò)定期清除cookie，制造不同cookie的訪問記錄，使流量數(shù)據(jù)避免被廣告主識(shí)別為虛假流量，該類虛假流量的特征為ip不變，cookie不同。使用groupBy()方法根據(jù)ip字段進(jìn)行分組統(tǒng)計(jì)，統(tǒng)計(jì)每個(gè)ip對(duì)應(yīng)的不同cookie值的數(shù)量分布情況，結(jié)果如右圖。探索作弊流量的數(shù)據(jù)特征2．定期清除cookie，刷新網(wǎng)頁(yè)作弊作弊者利用ADSL（AsymmetricDigitalSubscriberLine，非對(duì)稱數(shù)字用戶線）重新?lián)芴?hào)后刷新網(wǎng)頁(yè)作弊，ADSL重新?lián)芴?hào)后刷新網(wǎng)頁(yè)瀏覽廣告這一行為產(chǎn)生的流量同樣為虛假流量。其特征是在某一時(shí)間段里，多條訪問記錄的ip來(lái)源于同一個(gè)區(qū)域，因此ip的前2段或前3段相同。根據(jù)ip前2段進(jìn)行分組統(tǒng)計(jì)，統(tǒng)計(jì)ip前2段相同的記錄數(shù)的分布情況，使用substring_index()方法根據(jù)“.”對(duì)ip進(jìn)行分割，取出前2段，統(tǒng)計(jì)ip前2段相同的記錄數(shù)，并根據(jù)記錄數(shù)進(jìn)行降序排序，結(jié)果如右圖。探索作弊流量的數(shù)據(jù)特征3．ADSL重新?lián)芴?hào)后刷新網(wǎng)頁(yè)作弊根據(jù)ip前3段進(jìn)行分組統(tǒng)計(jì)，統(tǒng)計(jì)ip前3段相同的記錄數(shù)的分布情況，結(jié)果如右圖。探索作弊流量的數(shù)據(jù)特征1探索分析廣告流量數(shù)據(jù)目錄分析需求2預(yù)處理數(shù)據(jù)并構(gòu)建特征3構(gòu)建與評(píng)估分類模型4在上一小節(jié)的數(shù)據(jù)探索分析中，了解到一些數(shù)據(jù)字段存在大量的缺失值，同時(shí)一些字段為說(shuō)明性數(shù)據(jù)字段，不足以直接作為特征進(jìn)行訓(xùn)練并構(gòu)建模型。本節(jié)的任務(wù)如下。根據(jù)上一小節(jié)的探索分析結(jié)果對(duì)數(shù)據(jù)進(jìn)行處理，刪除缺失率較高的數(shù)據(jù)字段；構(gòu)建相應(yīng)的新特征；對(duì)特征進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。任務(wù)描述為了減小缺失數(shù)據(jù)對(duì)模型產(chǎn)生的影響，刪除缺失率過(guò)高的mac、creativeid、mobile_os、mobile_type、app_key_md5、app_name_md5、os_type等字段。刪除缺失率高的字段。將處理后的數(shù)據(jù)保存至Hive中。先在Hive中創(chuàng)建數(shù)據(jù)庫(kù)ad_traffic，使用saveAsTable()方法將處理后的數(shù)據(jù)保存至Hive的ad_traffic數(shù)據(jù)庫(kù)中，表名為AdData，通過(guò)mode()方法設(shè)置保存模式為覆蓋保存。刪除缺失值字段分別構(gòu)建N、N1、N2、N3特征，如下表。構(gòu)建廣告流量作弊識(shí)別特征特征構(gòu)建方法說(shuō)明N統(tǒng)計(jì)在5小時(shí)內(nèi)，原始數(shù)據(jù)集中，同一ip、cookie的記錄的出現(xiàn)次數(shù)ip和cookie不變的情況下，出現(xiàn)的記錄次數(shù)指標(biāo)：NN1統(tǒng)計(jì)在5小時(shí)內(nèi)，原始數(shù)據(jù)集中，同一個(gè)ip對(duì)應(yīng)的不同cookie的數(shù)量ip不變，對(duì)應(yīng)的不同cookie出現(xiàn)的次數(shù)指標(biāo)：N1N2統(tǒng)計(jì)在5小時(shí)內(nèi)，原始數(shù)據(jù)集中，ip前2段相同的記錄的出現(xiàn)次數(shù)ip前2段相同的次數(shù)指標(biāo)：N2N3統(tǒng)計(jì)在5小時(shí)內(nèi)，原始數(shù)據(jù)集中，ip前3段相同的記錄的出現(xiàn)次數(shù)ip前3段相同的次數(shù)指標(biāo)：N3range()方法可以在自定義的區(qū)間內(nèi)，以規(guī)定的間隔將自定義的區(qū)間等分切割成不同的小區(qū)間。選取timestamps字段，并將其轉(zhuǎn)換為Int類型數(shù)據(jù)，使用max()和min()方法分別求出數(shù)據(jù)中的最大時(shí)間點(diǎn)和最小時(shí)間點(diǎn)，使用range()方法對(duì)區(qū)間進(jìn)行分割，最終得到一個(gè)時(shí)間分割點(diǎn)列表，結(jié)果如下圖。構(gòu)建廣告流量作弊識(shí)別特征1．劃分時(shí)間區(qū)間得到時(shí)間分割點(diǎn)列表后，需要根據(jù)時(shí)間分割點(diǎn)列表取出前25小時(shí)的數(shù)據(jù)。使用for循環(huán)，再通過(guò)filter()方法篩選出timestamps字段在相應(yīng)區(qū)間內(nèi)的數(shù)據(jù)。篩選得到前25小時(shí)內(nèi)的數(shù)據(jù)后，以5小時(shí)的區(qū)間對(duì)數(shù)據(jù)進(jìn)行特征構(gòu)建，構(gòu)建特征N、N1、N2、N3。在得到4個(gè)特征數(shù)據(jù)集后，將這些數(shù)據(jù)集根據(jù)ranks字段進(jìn)行合并得到含ranks和4個(gè)特征的完整特征數(shù)據(jù)集，將此數(shù)據(jù)集以Append的方式寫入Hive表中，這時(shí)Hive表中就會(huì)存在前5小時(shí)數(shù)據(jù)的特征數(shù)據(jù)集。之后進(jìn)行下一次的循環(huán)，4個(gè)獨(dú)立的特征數(shù)據(jù)集將會(huì)被重新賦值、合并，添加至Hive表中。構(gòu)建廣告流量作弊識(shí)別特征2．構(gòu)建特征在Hive的ad_traffic數(shù)據(jù)庫(kù)中查詢TimeFeatures表的前10行，并查看表中的字段名稱及類型結(jié)果。構(gòu)建廣告流量作弊識(shí)別特征完成特征構(gòu)建后，讀取TimeFeatures表和AdData表的數(shù)據(jù)并根據(jù)ranks字段進(jìn)行連接，選取4個(gè)特征字段、dt字段和label字段，并保存至FeaturesData表中。在Hive中查詢FeaturesData表的數(shù)據(jù)、字段名稱及類型。構(gòu)建廣告流量作弊識(shí)別特征將需要進(jìn)行歸一化的字段合并至同一個(gè)向量中，再使用MinMaxScaler()方法對(duì)其進(jìn)行處理。進(jìn)行數(shù)據(jù)歸一化后，使用randomSplite()方法將數(shù)據(jù)按7:3進(jìn)行劃分，分別保存為modelData模型訓(xùn)練數(shù)據(jù)和testData模型測(cè)試數(shù)據(jù)，modelData用于后續(xù)的模型構(gòu)建與評(píng)估，testData則用于模擬真實(shí)的模型應(yīng)用階段。構(gòu)建廣告流量作弊識(shí)別特征3．特征標(biāo)準(zhǔn)化1探索分析廣告流量數(shù)據(jù)目錄分析需求2預(yù)處理數(shù)據(jù)并構(gòu)建特征3構(gòu)建與評(píng)估分類模型4本節(jié)的任務(wù)如下。使用邏輯回歸算法和隨機(jī)森林算法構(gòu)建分類模型；進(jìn)行模型預(yù)測(cè)與評(píng)估；經(jīng)過(guò)對(duì)不同模型的效果對(duì)比，選擇效果較好的模型并應(yīng)用至實(shí)際的模型加載及預(yù)測(cè)中。任務(wù)描述通過(guò)觀察label字段可以看出，廣告流量作弊識(shí)別為經(jīng)典的二分類問題，即該廣告訪問記錄是否為作弊訪問記錄。邏輯回歸是解決二分類問題的一個(gè)經(jīng)典模型，而且邏輯回歸的原理簡(jiǎn)單，對(duì)于二分類問題的預(yù)測(cè)準(zhǔn)確率也較高。在模型構(gòu)建與評(píng)估中，編寫的Spark程序?qū)⒉灰员镜啬Ｊ竭\(yùn)行，而是對(duì)Spark程序進(jìn)行編譯打包，使用集群模式將程序上傳至集群中運(yùn)行，因此在IntelliJIDEA中的SparkSession的實(shí)例化和部分參數(shù)的設(shè)置將會(huì)被調(diào)整。構(gòu)建與評(píng)估邏輯回歸模型使用LogisticRegression()方法設(shè)置相關(guān)正則化系數(shù)和最大迭代次數(shù)等相關(guān)參數(shù)。經(jīng)過(guò)參數(shù)調(diào)優(yōu)，發(fā)現(xiàn)將最大迭代次數(shù)設(shè)置為15，正則化系數(shù)設(shè)為0.03，其余相關(guān)參數(shù)為默認(rèn)值時(shí)，模型效果較好。使用randomSplit()方法先將數(shù)據(jù)集按7:3的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集，調(diào)用LogisticRegression()方法進(jìn)行模型構(gòu)建，該方法所使用的數(shù)據(jù)類型為L(zhǎng)ablePoint類型。LogisticRegression()方法會(huì)自動(dòng)將列名為features的字段作為特征字段，將列名為label的字段作為標(biāo)簽字段，因此構(gòu)建模型時(shí)無(wú)須進(jìn)行特征字段和標(biāo)簽字段的參數(shù)設(shè)置。構(gòu)建與評(píng)估邏輯回歸模型1．構(gòu)建邏輯回歸模型模型訓(xùn)練好后對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)，SparkMLlib為模型提供多種評(píng)估標(biāo)準(zhǔn)，本文選擇較為直觀的accuracy（準(zhǔn)確率）進(jìn)行評(píng)估，使用MulticlassClassificationEvaluator對(duì)象構(gòu)建模型評(píng)估器，設(shè)置標(biāo)簽字段名稱和預(yù)測(cè)標(biāo)簽字段名稱，并設(shè)置評(píng)估標(biāo)準(zhǔn)為accuracy，對(duì)測(cè)試數(shù)據(jù)的預(yù)測(cè)結(jié)果進(jìn)行準(zhǔn)確率計(jì)算。當(dāng)對(duì)模型完成構(gòu)建、訓(xùn)練、評(píng)估一系列操作后，可以對(duì)效果優(yōu)良的模型進(jìn)行保存。構(gòu)建與評(píng)估邏輯回歸模型2．評(píng)估邏輯回歸模型將工程編譯打包，命名為Mode

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第9章項(xiàng)目案例-廣告檢測(cè)的流量作弊識(shí)別

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第9章 項(xiàng)目案例-廣告檢測(cè)的流量作弊識(shí)別

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

第9章項(xiàng)目案例-廣告檢測(cè)的流量作弊識(shí)別