




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
項(xiàng)目案例——廣告
檢測(cè)的流量作弊識(shí)別與傳統(tǒng)的電視廣告、戶外廣告采買相比,虛假流量一直被看作互聯(lián)網(wǎng)廣告特有的弊病?;ヂ?lián)網(wǎng)廣告虛假流量,是指通過(guò)特殊的方式,模仿人類瀏覽行為而生成的訪問流量。如通過(guò)設(shè)置程序,每分鐘訪問一次某網(wǎng)站的主頁(yè),這樣的流量即屬于虛假流量。廣告主尋找媒體投放廣告的目的是將信息傳達(dá)給目標(biāo)受眾,以促進(jìn)相關(guān)產(chǎn)品的銷售。而媒體的責(zé)任則是盡可能引導(dǎo)更多的用戶瀏覽這些信息。同等條件下,流量大的網(wǎng)站收取的廣告費(fèi)用更高。因此,部分網(wǎng)站受利益的驅(qū)使,會(huì)通過(guò)作弊方式產(chǎn)生虛假?gòu)V告流量。任務(wù)背景虛假?gòu)V告流量的問題在數(shù)字營(yíng)銷行業(yè)中一直存在,給廣告主帶來(lái)了嚴(yán)重的損失。但互聯(lián)網(wǎng)不是法外之地,利用大數(shù)據(jù)及人工智能技術(shù)構(gòu)筑網(wǎng)絡(luò)安全屏障,一方面能夠保障國(guó)家安全;一方面能夠提高市場(chǎng)效率,消除網(wǎng)絡(luò)垃圾,懲治網(wǎng)絡(luò)違法行為。目前,廣告監(jiān)測(cè)行為數(shù)據(jù)被越來(lái)越多地用于建模和做決策,如繪制用戶畫像、跨設(shè)備識(shí)別對(duì)應(yīng)用戶等。作弊行為、惡意曝光,甚至是在用戶毫無(wú)感知的情況下被控制訪問等非用戶主觀發(fā)出的行為給數(shù)據(jù)帶來(lái)了巨大的噪聲,給模型訓(xùn)練造成了很大影響。本章將通過(guò)Spark大數(shù)據(jù)技術(shù)實(shí)現(xiàn)廣告檢測(cè)的流量作弊識(shí)別,使讀者可以更加熟悉Spark相關(guān)技術(shù),并靈活應(yīng)用相關(guān)技術(shù)解決相應(yīng)的大數(shù)據(jù)問題。任務(wù)背景1探索分析廣告流量數(shù)據(jù)目錄分析需求2預(yù)處理數(shù)據(jù)并構(gòu)建特征3構(gòu)建與評(píng)估分類模型4任何解決方案都需要從需求入手,分析實(shí)現(xiàn)目標(biāo)所需要進(jìn)行的步驟。本節(jié)的任務(wù)如下。了解在互聯(lián)網(wǎng)中常見的廣告流量作弊方式;結(jié)合廣告檢測(cè)的流量作弊識(shí)別案例的目標(biāo),分析案例的需求。任務(wù)描述互聯(lián)網(wǎng)時(shí)代的核心之一是流量,更多的流量意味著更多的關(guān)注和可能的更高的收入。廣告主在互聯(lián)網(wǎng)投放廣告時(shí)往往會(huì)依據(jù)流量信息來(lái)設(shè)計(jì)投放方案,廣告流量作弊不僅僅會(huì)使廣告主選擇錯(cuò)誤的廣告投放方案,造成浪費(fèi),也會(huì)使后期根據(jù)用戶瀏覽信息對(duì)現(xiàn)有廣告進(jìn)行修改時(shí)出現(xiàn)偏差。這些問題常常會(huì)引發(fā)“蝴蝶效應(yīng)”,造成不可估量的損失。因此,對(duì)廣告流量進(jìn)行作弊檢測(cè)進(jìn)而加以防范是非常有必要的。廣告的瀏覽信息數(shù)據(jù)量往往十分龐大,人工對(duì)其進(jìn)行篩選很不現(xiàn)實(shí),所以一般會(huì)通過(guò)算法對(duì)海量瀏覽信息進(jìn)行自動(dòng)化篩選。常見的流量作弊方式常見的幾種廣告流量作弊方式作弊者通過(guò)各項(xiàng)技術(shù),不斷模擬人的行為,增大識(shí)別作弊流量的難度。機(jī)器模擬的流量是通過(guò)軟件實(shí)現(xiàn)的,與人類的點(diǎn)擊流量存在一定的差異。常見的流量作弊方式廣告流量作弊方式說(shuō)明腳本刷量設(shè)定程序,使計(jì)算機(jī)按一定的規(guī)則訪問目標(biāo)網(wǎng)站控制肉雞訪問利用互聯(lián)網(wǎng)上受病毒感染的計(jì)算機(jī)訪問目標(biāo)網(wǎng)站頁(yè)面代碼修改通過(guò)病毒感染或其他方式,在媒體網(wǎng)站插入隱藏代碼,在其頁(yè)面加載肉眼不可見的指向目標(biāo)網(wǎng)站的小頁(yè)面DNS劫持通過(guò)篡改DNS服務(wù)器上的數(shù)據(jù),強(qiáng)制修改用戶計(jì)算機(jī)的訪問位置,使用戶原本訪問的網(wǎng)站被修改為目標(biāo)網(wǎng)站根據(jù)目標(biāo)對(duì)廣告檢測(cè)的流量作弊識(shí)別的整體實(shí)現(xiàn)流程進(jìn)行拆分,如下圖。分析需求廣告檢測(cè)的流量作弊識(shí)別實(shí)現(xiàn)流程的步驟如下。對(duì)廣告檢測(cè)獲得的歷史流量數(shù)據(jù)進(jìn)行選擇性抽取和數(shù)據(jù)劃分。對(duì)第(1)步中形成的數(shù)據(jù)集進(jìn)行數(shù)據(jù)探索分析,包括缺失值、冗余字段的基礎(chǔ)探索和流量作弊的行為特征的業(yè)務(wù)探索。根據(jù)探索分析結(jié)果得出的清洗規(guī)則,對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理,并構(gòu)建建模時(shí)需要的特征,形成建模樣本數(shù)據(jù)。建立不同的虛假流量識(shí)別模型,并對(duì)模型進(jìn)行評(píng)估及對(duì)比。保存效果較好的模型,模擬新數(shù)據(jù)產(chǎn)生,加載保存好的模型以進(jìn)行應(yīng)用。分析需求1探索分析廣告流量數(shù)據(jù)目錄分析需求2預(yù)處理數(shù)據(jù)并構(gòu)建特征3構(gòu)建與評(píng)估分類模型4不同的作弊行為產(chǎn)生的數(shù)據(jù)特征不同,對(duì)數(shù)據(jù)進(jìn)行探索分析并合理歸納虛假流量的數(shù)據(jù)特征,為后期有針對(duì)性地對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、構(gòu)建相應(yīng)的指標(biāo)提供可靠依據(jù),可有效提高模型分類的準(zhǔn)確率。本節(jié)的任務(wù)如下。對(duì)廣告流量數(shù)據(jù)進(jìn)行探索分析,包括對(duì)數(shù)據(jù)說(shuō)明、數(shù)據(jù)記錄數(shù)、日訪問流量等的基礎(chǔ)探索;對(duì)作弊瀏覽的特征探索。任務(wù)描述廣告流量數(shù)據(jù)數(shù)據(jù)說(shuō)明字段名稱說(shuō)明rank記錄序號(hào)dt相對(duì)日期,單位為天cookiecookie值ipIP地址,已脫敏idfaIDFA值,可用于識(shí)別iOS用戶imeiIMEI值,可用于識(shí)別Android用戶androidAndroid值,可用于識(shí)別Android用戶openudidOpenUDID值,可用于識(shí)別iOS用戶macMAC值,可用于識(shí)別不同硬件設(shè)備timestamps時(shí)間戳camp項(xiàng)目IDcreativeid創(chuàng)意ID(續(xù)表)數(shù)據(jù)說(shuō)明字段名稱說(shuō)明mobile_os設(shè)備OS版本信息,該值為原始值mobile_type機(jī)型app_key_md5AppKey信息app_name_md5AppName信息placementid廣告位信息useragent瀏覽器信息mediaid媒體ID信息os_typeOS類型標(biāo)記born_timecookie生成時(shí)間label作弊標(biāo)簽,1表示作弊,0表示正常本案例的完整流程都將在IntelliJIDEA中通過(guò)編程實(shí)現(xiàn),同時(shí)由于數(shù)據(jù)探索和處理部分會(huì)較為頻繁地輸出結(jié)果以進(jìn)行驗(yàn)證,因此數(shù)據(jù)探索和處理的程序?qū)⑦x擇本地模式進(jìn)行編譯運(yùn)行。首先創(chuàng)建一個(gè)Spark工程,導(dǎo)入Spark相關(guān)的開發(fā)依賴包,創(chuàng)建一個(gè)Explore.scala類。實(shí)例化SparkSession對(duì)象,命名為spark,并設(shè)置日志級(jí)別為“WARN”?;A(chǔ)探索數(shù)據(jù)讀取本地case_data_new.csv文件的數(shù)據(jù)為DataFrame格式的數(shù)據(jù),通過(guò)option設(shè)置文件首行為列名,使用count()方法統(tǒng)計(jì)數(shù)據(jù)記錄數(shù),結(jié)果如下圖?;A(chǔ)探索數(shù)據(jù)1.探索記錄數(shù)廣告檢測(cè)流量數(shù)據(jù)總共有7天的數(shù)據(jù),在該數(shù)據(jù)中,dt字段記錄了流量數(shù)據(jù)提取的相對(duì)天數(shù)。dt字段的值為1~7,1表示提取的7天流量數(shù)據(jù)的第1天數(shù)據(jù),以此類推。對(duì)每天的數(shù)據(jù)流量進(jìn)行統(tǒng)計(jì),查看是否有異常。使用groupBy()方法根據(jù)dt字段進(jìn)行分組統(tǒng)計(jì),查詢7天中每天的日流量,并根據(jù)相對(duì)天數(shù)進(jìn)行升序排序,結(jié)果如右圖?;A(chǔ)探索數(shù)據(jù)2.探索日流量根據(jù)數(shù)據(jù)的類型對(duì)數(shù)據(jù)中的22個(gè)字段進(jìn)行探索,結(jié)果如下表。基礎(chǔ)探索數(shù)據(jù)3.分析數(shù)據(jù)類型數(shù)據(jù)類型字段名稱字符類型(character)cookie、ip、idfa、imei、android、openudid、mac、app_key_md5、app_name_md5、placementid、useragent、os_type數(shù)值類型(numeric)rank、dt、timestamps、camp、creativeid、mobile_os、mobile_type、mediaid、born_time、label對(duì)7天中所有的廣告流量數(shù)據(jù)進(jìn)行缺失值探索,統(tǒng)計(jì)出各個(gè)字段的缺失值情況。SparkSQL的DataFrame中有na()方法可以對(duì)缺失值進(jìn)行統(tǒng)計(jì),結(jié)合drop()方法即可得到數(shù)據(jù)字段的缺失值占比,即缺失率。原始數(shù)據(jù)存在22個(gè)字段,若對(duì)每個(gè)字段的缺失率統(tǒng)計(jì)都編寫類似的代碼,會(huì)造成代碼冗余。同時(shí)通過(guò)觀察,creativeid字段的大量值都為0,不符合正常情況,因此,若creativeid的字段值為0也視為存在缺失值,且需單獨(dú)統(tǒng)計(jì)?;A(chǔ)探索數(shù)據(jù)4.統(tǒng)計(jì)缺失數(shù)據(jù)缺失值探索為提高代碼利用率,在主程序(main()方法)外構(gòu)建自定義方法用于計(jì)算數(shù)據(jù)字段缺失率。在主程序內(nèi)調(diào)用for循環(huán)對(duì)各個(gè)字段進(jìn)行統(tǒng)計(jì)。結(jié)果如下圖?;A(chǔ)探索數(shù)據(jù)缺失值探索的完整結(jié)果基礎(chǔ)探索數(shù)據(jù)字段名稱缺失率
字段名稱缺失率rank0.0%creativeid98.38905404089067%dt0.0%mobile_os80.23365259243003%cookie0.0%mobile_type77.39617428941281%ip0.0%app_key_md579.96577774074409%idfa92.19213756503227%app_name_md580.5729411778513%imei79.83116549325942%placementid0.0%android80.78859070248346%useragent4.350839184721567%openudid84.14450806675923%mediaid0.0%mac78.82843921382691%os_type67.29080822507825%timestamps0.0%born_time0.0%camp0.0%label0.0%缺失率分析結(jié)果基礎(chǔ)探索數(shù)據(jù)5.分析冗余數(shù)據(jù)字段名稱缺失率備注idfa92.19%可用于識(shí)別iOS用戶imei79.83%可用于識(shí)別Android用戶android80.79%可用于識(shí)別Android用戶openudid84.14%可用于識(shí)別iOS用戶腳本刷新網(wǎng)頁(yè)作弊通過(guò)設(shè)定程序,使計(jì)算機(jī)按一定的規(guī)則訪問目標(biāo)網(wǎng)站。該作弊方式產(chǎn)生的數(shù)據(jù)記錄中cookie與ip不變,且存在多條記錄。在cookie和ip不變的情況下統(tǒng)計(jì)數(shù)據(jù)記錄數(shù),使用groupBy()方法根據(jù)ip和cookie字段進(jìn)行分組統(tǒng)計(jì),并使用withColumn()新增一個(gè)ip_cookie_count_precent字段,用于存放同一ip和cookie的數(shù)據(jù)記錄數(shù),結(jié)果如右圖。探索作弊流量的數(shù)據(jù)特征1.腳本刷新網(wǎng)頁(yè)作弊正常情況下,極少有人在7天內(nèi)頻繁瀏覽某廣告多達(dá)100次或以上,因此在ip和cookie不變的情況下,對(duì)廣告的瀏覽次數(shù)超過(guò)100的記錄進(jìn)行簡(jiǎn)單統(tǒng)計(jì)。使用filter()方法過(guò)濾出count字段值大于100的數(shù)據(jù),并統(tǒng)計(jì)篩選后的數(shù)據(jù)記錄數(shù),結(jié)果如下圖。探索作弊流量的數(shù)據(jù)特征同一ip和cookie的用戶瀏覽數(shù)據(jù)很容易被識(shí)別,因此作弊者往往也會(huì)通過(guò)定期清除cookie,制造不同cookie的訪問記錄,使流量數(shù)據(jù)避免被廣告主識(shí)別為虛假流量,該類虛假流量的特征為ip不變,cookie不同。使用groupBy()方法根據(jù)ip字段進(jìn)行分組統(tǒng)計(jì),統(tǒng)計(jì)每個(gè)ip對(duì)應(yīng)的不同cookie值的數(shù)量分布情況,結(jié)果如右圖。探索作弊流量的數(shù)據(jù)特征2.定期清除cookie,刷新網(wǎng)頁(yè)作弊作弊者利用ADSL(AsymmetricDigitalSubscriberLine,非對(duì)稱數(shù)字用戶線)重新?lián)芴?hào)后刷新網(wǎng)頁(yè)作弊,ADSL重新?lián)芴?hào)后刷新網(wǎng)頁(yè)瀏覽廣告這一行為產(chǎn)生的流量同樣為虛假流量。其特征是在某一時(shí)間段里,多條訪問記錄的ip來(lái)源于同一個(gè)區(qū)域,因此ip的前2段或前3段相同。根據(jù)ip前2段進(jìn)行分組統(tǒng)計(jì),統(tǒng)計(jì)ip前2段相同的記錄數(shù)的分布情況,使用substring_index()方法根據(jù)“.”對(duì)ip進(jìn)行分割,取出前2段,統(tǒng)計(jì)ip前2段相同的記錄數(shù),并根據(jù)記錄數(shù)進(jìn)行降序排序,結(jié)果如右圖。探索作弊流量的數(shù)據(jù)特征3.ADSL重新?lián)芴?hào)后刷新網(wǎng)頁(yè)作弊根據(jù)ip前3段進(jìn)行分組統(tǒng)計(jì),統(tǒng)計(jì)ip前3段相同的記錄數(shù)的分布情況,結(jié)果如右圖。探索作弊流量的數(shù)據(jù)特征1探索分析廣告流量數(shù)據(jù)目錄分析需求2預(yù)處理數(shù)據(jù)并構(gòu)建特征3構(gòu)建與評(píng)估分類模型4在上一小節(jié)的數(shù)據(jù)探索分析中,了解到一些數(shù)據(jù)字段存在大量的缺失值,同時(shí)一些字段為說(shuō)明性數(shù)據(jù)字段,不足以直接作為特征進(jìn)行訓(xùn)練并構(gòu)建模型。本節(jié)的任務(wù)如下。根據(jù)上一小節(jié)的探索分析結(jié)果對(duì)數(shù)據(jù)進(jìn)行處理,刪除缺失率較高的數(shù)據(jù)字段;構(gòu)建相應(yīng)的新特征;對(duì)特征進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。任務(wù)描述為了減小缺失數(shù)據(jù)對(duì)模型產(chǎn)生的影響,刪除缺失率過(guò)高的mac、creativeid、mobile_os、mobile_type、app_key_md5、app_name_md5、os_type等字段。刪除缺失率高的字段。將處理后的數(shù)據(jù)保存至Hive中。先在Hive中創(chuàng)建數(shù)據(jù)庫(kù)ad_traffic,使用saveAsTable()方法將處理后的數(shù)據(jù)保存至Hive的ad_traffic數(shù)據(jù)庫(kù)中,表名為AdData,通過(guò)mode()方法設(shè)置保存模式為覆蓋保存。刪除缺失值字段分別構(gòu)建N、N1、N2、N3特征,如下表。構(gòu)建廣告流量作弊識(shí)別特征特征構(gòu)建方法說(shuō)明N統(tǒng)計(jì)在5小時(shí)內(nèi),原始數(shù)據(jù)集中,同一ip、cookie的記錄的出現(xiàn)次數(shù)ip和cookie不變的情況下,出現(xiàn)的記錄次數(shù)指標(biāo):NN1統(tǒng)計(jì)在5小時(shí)內(nèi),原始數(shù)據(jù)集中,同一個(gè)ip對(duì)應(yīng)的不同cookie的數(shù)量ip不變,對(duì)應(yīng)的不同cookie出現(xiàn)的次數(shù)指標(biāo):N1N2統(tǒng)計(jì)在5小時(shí)內(nèi),原始數(shù)據(jù)集中,ip前2段相同的記錄的出現(xiàn)次數(shù)ip前2段相同的次數(shù)指標(biāo):N2N3統(tǒng)計(jì)在5小時(shí)內(nèi),原始數(shù)據(jù)集中,ip前3段相同的記錄的出現(xiàn)次數(shù)ip前3段相同的次數(shù)指標(biāo):N3range()方法可以在自定義的區(qū)間內(nèi),以規(guī)定的間隔將自定義的區(qū)間等分切割成不同的小區(qū)間。選取timestamps字段,并將其轉(zhuǎn)換為Int類型數(shù)據(jù),使用max()和min()方法分別求出數(shù)據(jù)中的最大時(shí)間點(diǎn)和最小時(shí)間點(diǎn),使用range()方法對(duì)區(qū)間進(jìn)行分割,最終得到一個(gè)時(shí)間分割點(diǎn)列表,結(jié)果如下圖。構(gòu)建廣告流量作弊識(shí)別特征1.劃分時(shí)間區(qū)間得到時(shí)間分割點(diǎn)列表后,需要根據(jù)時(shí)間分割點(diǎn)列表取出前25小時(shí)的數(shù)據(jù)。使用for循環(huán),再通過(guò)filter()方法篩選出timestamps字段在相應(yīng)區(qū)間內(nèi)的數(shù)據(jù)。篩選得到前25小時(shí)內(nèi)的數(shù)據(jù)后,以5小時(shí)的區(qū)間對(duì)數(shù)據(jù)進(jìn)行特征構(gòu)建,構(gòu)建特征N、N1、N2、N3。在得到4個(gè)特征數(shù)據(jù)集后,將這些數(shù)據(jù)集根據(jù)ranks字段進(jìn)行合并得到含ranks和4個(gè)特征的完整特征數(shù)據(jù)集,將此數(shù)據(jù)集以Append的方式寫入Hive表中,這時(shí)Hive表中就會(huì)存在前5小時(shí)數(shù)據(jù)的特征數(shù)據(jù)集。之后進(jìn)行下一次的循環(huán),4個(gè)獨(dú)立的特征數(shù)據(jù)集將會(huì)被重新賦值、合并,添加至Hive表中。構(gòu)建廣告流量作弊識(shí)別特征2.構(gòu)建特征在Hive的ad_traffic數(shù)據(jù)庫(kù)中查詢TimeFeatures表的前10行,并查看表中的字段名稱及類型結(jié)果。構(gòu)建廣告流量作弊識(shí)別特征完成特征構(gòu)建后,讀取TimeFeatures表和AdData表的數(shù)據(jù)并根據(jù)ranks字段進(jìn)行連接,選取4個(gè)特征字段、dt字段和label字段,并保存至FeaturesData表中。在Hive中查詢FeaturesData表的數(shù)據(jù)、字段名稱及類型。構(gòu)建廣告流量作弊識(shí)別特征將需要進(jìn)行歸一化的字段合并至同一個(gè)向量中,再使用MinMaxScaler()方法對(duì)其進(jìn)行處理。進(jìn)行數(shù)據(jù)歸一化后,使用randomSplite()方法將數(shù)據(jù)按7:3進(jìn)行劃分,分別保存為modelData模型訓(xùn)練數(shù)據(jù)和testData模型測(cè)試數(shù)據(jù),modelData用于后續(xù)的模型構(gòu)建與評(píng)估,testData則用于模擬真實(shí)的模型應(yīng)用階段。構(gòu)建廣告流量作弊識(shí)別特征3.特征標(biāo)準(zhǔn)化1探索分析廣告流量數(shù)據(jù)目錄分析需求2預(yù)處理數(shù)據(jù)并構(gòu)建特征3構(gòu)建與評(píng)估分類模型4本節(jié)的任務(wù)如下。使用邏輯回歸算法和隨機(jī)森林算法構(gòu)建分類模型;進(jìn)行模型預(yù)測(cè)與評(píng)估;經(jīng)過(guò)對(duì)不同模型的效果對(duì)比,選擇效果較好的模型并應(yīng)用至實(shí)際的模型加載及預(yù)測(cè)中。任務(wù)描述通過(guò)觀察label字段可以看出,廣告流量作弊識(shí)別為經(jīng)典的二分類問題,即該廣告訪問記錄是否為作弊訪問記錄。邏輯回歸是解決二分類問題的一個(gè)經(jīng)典模型,而且邏輯回歸的原理簡(jiǎn)單,對(duì)于二分類問題的預(yù)測(cè)準(zhǔn)確率也較高。在模型構(gòu)建與評(píng)估中,編寫的Spark程序?qū)⒉灰员镜啬J竭\(yùn)行,而是對(duì)Spark程序進(jìn)行編譯打包,使用集群模式將程序上傳至集群中運(yùn)行,因此在IntelliJIDEA中的SparkSession的實(shí)例化和部分參數(shù)的設(shè)置將會(huì)被調(diào)整。構(gòu)建與評(píng)估邏輯回歸模型使用LogisticRegression()方法設(shè)置相關(guān)正則化系數(shù)和最大迭代次數(shù)等相關(guān)參數(shù)。經(jīng)過(guò)參數(shù)調(diào)優(yōu),發(fā)現(xiàn)將最大迭代次數(shù)設(shè)置為15,正則化系數(shù)設(shè)為0.03,其余相關(guān)參數(shù)為默認(rèn)值時(shí),模型效果較好。使用randomSplit()方法先將數(shù)據(jù)集按7:3的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,調(diào)用LogisticRegression()方法進(jìn)行模型構(gòu)建,該方法所使用的數(shù)據(jù)類型為L(zhǎng)ablePoint類型。LogisticRegression()方法會(huì)自動(dòng)將列名為features的字段作為特征字段,將列名為label的字段作為標(biāo)簽字段,因此構(gòu)建模型時(shí)無(wú)須進(jìn)行特征字段和標(biāo)簽字段的參數(shù)設(shè)置。構(gòu)建與評(píng)估邏輯回歸模型1.構(gòu)建邏輯回歸模型模型訓(xùn)練好后對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),SparkMLlib為模型提供多種評(píng)估標(biāo)準(zhǔn),本文選擇較為直觀的accuracy(準(zhǔn)確率)進(jìn)行評(píng)估,使用MulticlassClassificationEvaluator對(duì)象構(gòu)建模型評(píng)估器,設(shè)置標(biāo)簽字段名稱和預(yù)測(cè)標(biāo)簽字段名稱,并設(shè)置評(píng)估標(biāo)準(zhǔn)為accuracy,對(duì)測(cè)試數(shù)據(jù)的預(yù)測(cè)結(jié)果進(jìn)行準(zhǔn)確率計(jì)算。當(dāng)對(duì)模型完成構(gòu)建、訓(xùn)練、評(píng)估一系列操作后,可以對(duì)效果優(yōu)良的模型進(jìn)行保存。構(gòu)建與評(píng)估邏輯回歸模型2.評(píng)估邏輯回歸模型將工程編譯打包,命名為Mode
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋租賃付定金合同
- 獨(dú)家代理合同(20篇)
- 酒店服務(wù)標(biāo)準(zhǔn)化建設(shè)合作協(xié)議
- 軟件開發(fā)委托服務(wù)合同
- 食品安全檢測(cè)認(rèn)證服務(wù)合同
- 藝術(shù)品交易鑒賞期免責(zé)合同協(xié)議
- 手房租賃買賣合同
- 工程施工中止合同書
- 環(huán)保工程承包施工合同
- 夫妻債務(wù)協(xié)議書有效
- GB/T 20308-2020產(chǎn)品幾何技術(shù)規(guī)范(GPS)矩陣模型
- 男孩女孩動(dòng)起來(lái)健康運(yùn)動(dòng)知識(shí)PPT模板
- 體育原理課件
- 鐵路道岔知識(shí)課件
- 自考公共關(guān)系學(xué)課件
- 森林害蟲防治方法課件
- 各種el34名膽電子管評(píng)測(cè)
- 超分子化學(xué)-杯芳烴課件
- 北郵工程數(shù)學(xué)期末試卷B卷
- 超長(zhǎng)結(jié)構(gòu)及大體積混凝土專項(xiàng)施工方案
- 車標(biāo)識(shí)別 課講義件課件
評(píng)論
0/150
提交評(píng)論