![人工智能在推薦系統(tǒng)的應(yīng)用關(guān)鍵詞:人工智能;推薦系統(tǒng);機(jī)器學(xué)習(xí);算法_第1頁](http://file4.renrendoc.com/view/c89f8117ffa69bd744dc42e9de7e5ca6/c89f8117ffa69bd744dc42e9de7e5ca61.gif)
![人工智能在推薦系統(tǒng)的應(yīng)用關(guān)鍵詞:人工智能;推薦系統(tǒng);機(jī)器學(xué)習(xí);算法_第2頁](http://file4.renrendoc.com/view/c89f8117ffa69bd744dc42e9de7e5ca6/c89f8117ffa69bd744dc42e9de7e5ca62.gif)
![人工智能在推薦系統(tǒng)的應(yīng)用關(guān)鍵詞:人工智能;推薦系統(tǒng);機(jī)器學(xué)習(xí);算法_第3頁](http://file4.renrendoc.com/view/c89f8117ffa69bd744dc42e9de7e5ca6/c89f8117ffa69bd744dc42e9de7e5ca63.gif)
![人工智能在推薦系統(tǒng)的應(yīng)用關(guān)鍵詞:人工智能;推薦系統(tǒng);機(jī)器學(xué)習(xí);算法_第4頁](http://file4.renrendoc.com/view/c89f8117ffa69bd744dc42e9de7e5ca6/c89f8117ffa69bd744dc42e9de7e5ca64.gif)
![人工智能在推薦系統(tǒng)的應(yīng)用關(guān)鍵詞:人工智能;推薦系統(tǒng);機(jī)器學(xué)習(xí);算法_第5頁](http://file4.renrendoc.com/view/c89f8117ffa69bd744dc42e9de7e5ca6/c89f8117ffa69bd744dc42e9de7e5ca65.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
考試試卷考試時間: 考試科目: 現(xiàn)代控制系統(tǒng)年級專業(yè):_考生姓名: 評卷人: 考試分?jǐn)?shù): 注意事項考前研究生將上述項目填寫清楚字跡要清楚,保持卷面清潔試題、試卷一齊交監(jiān)考教師教師將試題、試卷、成績單,一起送研究生部專業(yè)課報所在院、系人工智能在推薦系統(tǒng)的應(yīng)用摘要:個性化推薦通過收集和分析用戶的行為信息,預(yù)測用戶的興趣偏好并進(jìn)行推薦,通過影響用戶的消費(fèi)行為,從而產(chǎn)生經(jīng)濟(jì)效益。個性化推薦歷經(jīng)了基于統(tǒng)計學(xué)、基于內(nèi)容、基于協(xié)同過濾、基于社交網(wǎng)絡(luò)和混合式推薦的發(fā)展歷程。人工智能應(yīng)用最多的就是推薦系統(tǒng),人工智能的算法對推薦系統(tǒng)起到了至關(guān)重要的作用,人工智能下的機(jī)器學(xué)習(xí)算法應(yīng)用在推薦系統(tǒng)上最為廣泛及有效。本文針對這一現(xiàn)狀,對機(jī)器學(xué)習(xí)相關(guān)的推薦系統(tǒng)做了一些簡單的概述。通過對機(jī)器學(xué)習(xí)在推薦系統(tǒng)上用的一些技術(shù)和思想進(jìn)行解析,讓更多的人了解什么是推薦系統(tǒng),什么是機(jī)器學(xué)習(xí)。最為重要的一點(diǎn)是讓大家了解機(jī)器學(xué)習(xí)對我們的日常所產(chǎn)生的深遠(yuǎn)影響。關(guān)鍵詞:人工智能;推薦系統(tǒng);機(jī)器學(xué)習(xí);算法ApplicationofartificialintelligenceinrecommendationsystemAbstract:Personalizedrecommendationthroughthecollectionandanalysisofuserbehaviorinformation,predictstheuser'sinterestpreferencesandrecommends,byinfluencingtheuser'sconsumptionbehavior,therebygeneratingeconomicbenefits.Personalizedrecommendationhasgonethroughthedevelopmentprocessbasedonstatistics,content,collaborativefiltering,socialnetworkandhybridrecommendation.Therecommendationsystemisthemostwidelyusedartificialintelligence.Theartificialintelligencealgorithmplaysavitalroleintherecommendationsystem.Themachinelearningalgorithmunderartificialintelligenceisthemostwidelyandeffectiveapplicationintherecommendationsystem.Inviewofthissituation,thisarticlegivesabriefoverviewofrecommendersystemsrelatedtomachinelearning.Byanalyzingsomeofthetechniquesandideasusedbymachinelearningintherecommendationsystem,letmorepeopleunderstandwhatarecommendationsystemisandwhatismachinelearning.Themostimportantpointistoleteveryoneunderstandtheprofoundimpactthatmachinelearninghasonourdailylives.Keywords:artificialintelligence;recommendationsystem;machinelearning;algorithm0引言在電子商務(wù)、個性化閱讀、社交網(wǎng)絡(luò)(媒體)以及共享經(jīng)濟(jì)高速發(fā)展的今天,發(fā)現(xiàn)用戶的需求、了解用戶的行為并為用戶篩選出最相關(guān)的信息和產(chǎn)品已經(jīng)是互聯(lián)網(wǎng)服務(wù)的一個核心環(huán)節(jié)[17。]互聯(lián)網(wǎng)上的信息是海量的:YouTube用戶每分鐘上傳超過400小時的視頻;微信上超過1000萬個公眾賬號每天產(chǎn)生豐富的自媒體內(nèi)容;Instagram用戶每天貼出超過800萬照片;Snapchat用戶每天生成5億多“故事”(Story),全部看完需要158年……類似的例子數(shù)不勝數(shù)。因此,在幫助用戶尋找信息,幫助服務(wù)商尋找客戶的環(huán)節(jié),推薦系統(tǒng)扮演了舉足輕重的地位。一方面,推薦系統(tǒng)從互聯(lián)網(wǎng)應(yīng)用的配角成為了諸如雅虎、LinkedIn和Netflix等大型網(wǎng)站的主角,為用戶和系統(tǒng)交互提供各類個性化服務(wù)。時至今日,已經(jīng)很難想象一個新的互聯(lián)網(wǎng)應(yīng)用沒有利用推薦系統(tǒng)來優(yōu)化用戶體驗(yàn)。另一方面,從早期的協(xié)同過濾(CollaborativeFiltering)算法到由Netflix大賽所推動的隱語義模型(LatentFactorModels),再到更加復(fù)雜的深度學(xué)習(xí)模型,推薦系統(tǒng)的技術(shù)已經(jīng)在過去十多年里有了長足的進(jìn)步。推薦系統(tǒng)的最終目標(biāo)也從準(zhǔn)確預(yù)測用戶的喜好,逐漸演變成在用戶、模塊以及系統(tǒng)中達(dá)到動態(tài)平衡,使得整個系統(tǒng)健康運(yùn)行。1人工智能的概述早期人們對人工智能的理解不同,一些人認(rèn)為人工智能是通過非生物系統(tǒng)實(shí)現(xiàn)的任何智能形式的同義詞,智能的實(shí)現(xiàn)方式與人類智能的實(shí)現(xiàn)是否相同是無關(guān)緊要的;而另一些人認(rèn)為,人工智能系統(tǒng)必須能夠模仿人類智能。隨著人工智能技術(shù)的發(fā)展和應(yīng)用,人工智能的定義更傾向于第一種說法,人工智能分為“強(qiáng)人工智能”和“弱人工智能”。強(qiáng)人工智能認(rèn)為有可能制造出真正能推理和解決問題的智能機(jī)器,這樣的機(jī)器是有知覺的,有自我意識的。強(qiáng)人工智能可以有兩類:一類是類人的人工智能,即機(jī)器的思考和推理就像人的思維一樣;一類是非類人的人工智能,即機(jī)器產(chǎn)生了和人完全不一樣的知覺和意識,使用和人完全不一樣的推理方式。弱人工智能認(rèn)為不可能制造出能真正地推理和解決問題的智能機(jī)器,這些機(jī)器只不過看起來像是智能的,但是并不真正擁有智能,也不會有自主意識。約翰?麥卡錫于1955年的定義是“制造智能機(jī)器的科學(xué)與工程”。安德里亞斯?卡普蘭(AndreasKaplan)和邁克爾?海恩萊因(MichaelHaenlein)將人工智能定義為“系統(tǒng)正確解釋外部數(shù)據(jù),從這些數(shù)據(jù)中學(xué)習(xí),并利用這些知識通過靈活適應(yīng)實(shí)現(xiàn)特定目標(biāo)和任務(wù)的能力”。維基百科上對人工智能的定義是:人工智能是指由人制造出來的機(jī)器所表現(xiàn)出來的智能。百度百科上對人工智能的定義是:人工智能是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。維基百科上的定義簡單明了,百度百科的定義更正式一些,總體來說都傾向于給人工智能一個更廣義的定義,即人工智能是模仿人類但不局限人類的一切人工制造的智能形式,包含強(qiáng)人工智能、弱人工智能的一切形態(tài)。進(jìn)入21世紀(jì),得益于大數(shù)據(jù)和計算機(jī)技術(shù)的快速發(fā)展,許多先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)成功應(yīng)用于經(jīng)濟(jì)社會中的許多問題。麥肯錫全球研究院在一份題為《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域》的報告中估計,到2009年,美國經(jīng)濟(jì)所有行業(yè)中具有1000名以上員工的公司都至少平均擁有一個200兆兆字節(jié)的存儲數(shù)據(jù)。到2016年,AI相關(guān)產(chǎn)品、硬件、軟件等的市場規(guī)模已經(jīng)超過80億美元,紐約時報評價道AI已經(jīng)到達(dá)了一個熱潮。大數(shù)據(jù)應(yīng)用也開始逐漸滲透到其他領(lǐng)域,例如生態(tài)學(xué)模型訓(xùn)練、經(jīng)濟(jì)領(lǐng)域中的各種應(yīng)用、醫(yī)學(xué)研究中的疾病預(yù)測及新藥研發(fā)等。深度學(xué)習(xí)(特別是深度卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò))更是極大地推動了圖像和視頻處理、文本分析、語音識別等問題的研究進(jìn)程。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支,它通過一個有著很多層處理單元的深層網(wǎng)絡(luò)對數(shù)據(jù)中的高級抽象進(jìn)行建模。根據(jù)全局逼近原理(Universalapproximationtheorem),對于神經(jīng)網(wǎng)絡(luò)而言,如果要擬合任意連續(xù)函數(shù),深度性并不是必須的,即使一個單層的網(wǎng)絡(luò),只要擁有足夠多的非線性激活單元,也可以達(dá)到擬合目的。但是,目前深度神經(jīng)網(wǎng)絡(luò)得到了更多的關(guān)注,這主要是源于其結(jié)構(gòu)層次性,能夠快速建模更加復(fù)雜的情況,同時避免淺層網(wǎng)絡(luò)可能遭遇的諸多缺點(diǎn)。然而,深度學(xué)習(xí)也有自身的缺點(diǎn)。以循環(huán)神經(jīng)網(wǎng)絡(luò)為例,一個最常見的問題是梯度消失問題(沿著時間序列反向傳播過程中,梯度逐漸減小到0附近,造成學(xué)習(xí)停滯)。為了解決這些問題,很多針對性的模型被提出來,例如LSTM(長短期記憶網(wǎng)絡(luò),早在1997年就已經(jīng)提出,最近隨著RNN的大火,又重新進(jìn)入大眾視野)、GRU(門控循環(huán)神經(jīng)單元)等等。現(xiàn)在,最先進(jìn)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在某些領(lǐng)域已經(jīng)能夠達(dá)到甚至超過人類平均準(zhǔn)確率,例如在計算機(jī)視覺領(lǐng)域,特別是一些具體的任務(wù)上,比如MNIST數(shù)據(jù)集(一個手寫數(shù)字識別數(shù)據(jù)集)、交通信號燈識別等。再如游戲領(lǐng)域,Google的deepmind團(tuán)隊研發(fā)的AlaphaGo,在問題搜索復(fù)雜度極高的圍棋上,已經(jīng)打遍天下無敵手。2推薦系統(tǒng)的概述隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時代走入了信息過載的時代。在這個時代,無論是信息消費(fèi)者還是信息生產(chǎn)者都遇到很大的挑戰(zhàn);對于消費(fèi)者,從大量信息中找到自己感興趣的信息是一件非常困難的事情;對于信息生產(chǎn)者,讓自己的信息脫穎而出,受到廣大用戶的關(guān)注,也是一件非常困難的事情。推薦系統(tǒng)就是解決這一矛盾的重要工具。推薦系統(tǒng)的任務(wù)就是聯(lián)系用戶和信息,一方面幫助用戶發(fā)現(xiàn)對自己有價值的信息,另一方面讓信息能夠展現(xiàn)在對它感興趣的用戶面前,從而實(shí)現(xiàn)信息消費(fèi)在和信息生產(chǎn)者的雙贏。和搜索引擎一樣,推薦系統(tǒng)也是一種幫助用戶快速發(fā)現(xiàn)有用信息的工具。但是搜索引擎需要用戶主動給出需求,推薦系統(tǒng)則不需要用戶提供明確的需求,而是通過分析用戶的歷史行為給用戶的興趣建模,從而主動給用戶推薦能夠滿足他們興趣和需求的信息。因此推薦系統(tǒng)需要依賴用戶的行為數(shù)據(jù)。從某種意義上說,推薦系統(tǒng)和搜索引擎對于用戶來說是兩個互補(bǔ)的工具。搜索引擎滿足了用戶有明確目的時的主動查找需求,而推薦系統(tǒng)能夠在用戶沒有明確目的的時候幫助他們發(fā)現(xiàn)感興趣的新內(nèi)容。從物品的角度出發(fā),推薦系統(tǒng)可以更好的發(fā)掘商品的長尾。根據(jù)傳統(tǒng)的80/20原則(80%的銷售額來自于20%的熱門商品),推薦系統(tǒng)通過發(fā)掘用戶的行為,找到用戶的個性化需求,從而將長尾商品準(zhǔn)確地推薦給需要它的用戶,幫助用戶發(fā)現(xiàn)那些他們感興趣但很難發(fā)現(xiàn)的商品。3推薦系統(tǒng)常用方法分析基于統(tǒng)計學(xué)的推薦?;诮y(tǒng)計學(xué)的推薦是最簡單的一種實(shí)現(xiàn)方式,假定在某些統(tǒng)計指標(biāo)上相似的用戶,也具有相似的興趣偏好。例如,季節(jié)性推薦,秋季臨近結(jié)束向用戶推薦冬裝;區(qū)域性推薦,機(jī)場或火車站附近向用戶推薦出租車或酒店住宿;年齡性別推薦,向男性推薦男士洗面奶,向女性推薦化妝品;事件性推薦,當(dāng)疫情出現(xiàn)時集中推薦安全防護(hù)用品?;诮y(tǒng)計學(xué)的個性化推薦原理最容易理解,但在實(shí)際應(yīng)用中無法根據(jù)用戶的復(fù)雜條件和多元化需求進(jìn)行個性化推薦,只能用在較少數(shù)特定場景之下?;趦?nèi)容的推薦?;趦?nèi)容的推薦是早期使用較多的個性化推薦方法。[18]它將個性化推薦看成是一個對用戶和被推薦對象提取特征和類別,再進(jìn)行分類匹配的過程。首先,該方法提取能夠描述被推薦對象特征的關(guān)鍵詞,并與描述用戶偏好特征的關(guān)鍵詞進(jìn)行匹配,按照匹配度的高低排序,將排名較高的結(jié)果推薦給用戶。可以看出,該方法需要分別建立用戶偏好模型與被推薦對象特征模型,然后通過某些算法,例如用不同權(quán)重描述重要性,用向量空間表示各特征值,進(jìn)行向量計算的方式獲得匹配度?;趦?nèi)容的個性化推薦依賴于被推薦對象特征的提取,當(dāng)被推薦對象是文本或具有較強(qiáng)屬性特征的時候,該方法能夠取得較好的效果,不需要提供用戶的歷史信息,對于新異的被推薦對象也有很好的效果。但對于不易枚舉描述特征的對象,例如多媒體信息等難以適用。其次,對于新用戶或用戶產(chǎn)生的新需求,基于內(nèi)容的個性化推薦也無法及時做出反饋。另外,構(gòu)造用戶和被推薦對象分類時需要很大的數(shù)據(jù)量。基于協(xié)同過濾的推薦。基于協(xié)同過濾的方法是目前使用最廣泛的個性化推薦方式。協(xié)同過濾基于以下假設(shè):興趣偏好相似的人,對于某個新對象的偏好情況可能也相似。該方法需要基于用戶給對象的評價信息,通過建立與當(dāng)前用戶評價記錄相似的用戶集合,再利用這些用戶集合中相似的評價記錄來生成推薦內(nèi)容?;趨f(xié)同過濾的個性化推薦可以分為基于記憶的協(xié)同過濾和基于模型的協(xié)同過濾兩大類。其中,基于記憶的協(xié)同過濾包括基于用戶的協(xié)同過濾與基于項目的協(xié)同過濾?;谟脩舻膮f(xié)同過濾方法的核心思想是以用戶為核心[19],假設(shè)一些用戶對某些對象的評價相似,那么他們對其他推薦對象的評價也應(yīng)該是相似的。因此,該方法尋找并建立用戶的“鄰居”,這些鄰居與該用戶的興趣偏好接近,通過鄰居對推薦對象的評價來預(yù)測用戶對這些對象的評價,再對評價的預(yù)測結(jié)果進(jìn)行排序,選擇排名較高的結(jié)果反饋給用戶?;陧椖康膮f(xié)同過濾方法的核心思想是以被推薦對象為核心,假設(shè)大部分用戶對某個對象的評價相似,那么當(dāng)前用戶對這個對象的評價可能與大部分用戶相似。該方法與基于用戶的協(xié)同過濾類似,轉(zhuǎn)而計算被推薦對象的“鄰居”,并進(jìn)行排序,把排名較高的結(jié)果反饋給用戶?;谀P偷膮f(xié)同過濾方法是目前應(yīng)用最廣泛的協(xié)同過濾推薦方法,其核心思想是將個性化推薦看成是一個分類和預(yù)測的過程,建立用戶矩陣和對象評價矩陣,可使用多種機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的算法,建立用戶與對象之間的偏好模型,然后進(jìn)行個性化推薦。與基于內(nèi)容的個性化推薦相比,基于協(xié)同過濾的個性化推薦優(yōu)勢在于不局限于計算機(jī)可提取特征的信息,因此能夠準(zhǔn)確地推薦復(fù)雜項目,例如電影、音樂等,而無需對內(nèi)容本身有過多的理解。同時,可以使用大量成熟的算法用于計算用戶相似性或項目相似性,例如皮爾遜相關(guān)、聚類算法等。但是基于協(xié)同過濾的個性化推薦也存在一些缺點(diǎn):(1)冷啟動問題,即新用戶或新項目無法獲得推薦,而這些對象往往對個性化推薦有較強(qiáng)烈的需要;(2)稀疏性問題,即大量用戶之間偏好的差異性,以及大量對象缺少評價信息,導(dǎo)致很多用戶缺少“鄰居”,無法獲得推薦,很多對象無法被選為“鄰居”,無法得到推薦;(3)對歷史數(shù)據(jù)及評價質(zhì)量有較強(qiáng)依賴?;谏鐣W(wǎng)絡(luò)的推薦。在傳統(tǒng)的消費(fèi)模式下,“口口相傳”是一種歷史最為悠久而有效的個性化推薦方式。在互聯(lián)網(wǎng)時代,越來越多的購物平臺也將這種模式搬到了線上。很多網(wǎng)站通過社交網(wǎng)絡(luò)賬號登錄,或者鼓勵用戶將購物體驗(yàn)、商品推薦分享到社交網(wǎng)絡(luò),從而實(shí)現(xiàn)個性化推薦。從本質(zhì)上說,基于社會網(wǎng)絡(luò)的個性化推薦,核心是人際關(guān)系,這種推薦模式,相對容易獲得信任,增加推薦的接受度。通過用戶將自己的購物內(nèi)容或體驗(yàn)主動地、選擇性地分享給社會網(wǎng)絡(luò)中特定用戶的方式,也可以解決一部分的冷啟動問題,并且這種個性化推薦某種程度上是定向的,因此具有更高的準(zhǔn)確性。不過,構(gòu)成社會網(wǎng)絡(luò)成員的因素有很多種,有時并不一定是共同的興趣愛好,甚至消費(fèi)習(xí)慣和偏好。因此,這種個性化推薦方式的效果很難進(jìn)行系統(tǒng)的評價。有研究使用一些方法首先對社交網(wǎng)絡(luò)中用戶之間的信任度或關(guān)系強(qiáng)度進(jìn)行評估,再通過其他各種評估指標(biāo)和算法進(jìn)行個性化推薦,獲得更加準(zhǔn)確的推薦結(jié)果[20。]混合式推薦。上述幾種個性化推薦方式存在各自的優(yōu)點(diǎn)及缺陷,因此在實(shí)際應(yīng)用中,往往將多種個性化推薦方式在不同場景、不同階段混合使用,以彌補(bǔ)不同推薦方式的不足,取得更好的推薦效果。例如,將不同推薦方式的結(jié)果進(jìn)行加權(quán)混合并展現(xiàn)給用戶,或者將不同推薦方式的結(jié)果通過輪詢的方式逐一展現(xiàn)給用戶,以及可以使用比較熱門的深度學(xué)習(xí)技術(shù)對結(jié)果進(jìn)行個性化重排。4基于機(jī)器學(xué)習(xí)的推薦系統(tǒng)4.1獲取數(shù)據(jù)機(jī)器學(xué)習(xí)的第一步就是獲取數(shù)據(jù),沒有數(shù)據(jù)的機(jī)器學(xué)習(xí)都是空談。數(shù)據(jù)的獲取相對于后面的步驟較為容易,因?yàn)閿?shù)據(jù)無處不在。超市里有消費(fèi)者的購買記錄,行車記錄儀上有車輛的行駛記錄,電影院有影迷的觀看記錄等,這些數(shù)據(jù)信息是我們開始機(jī)器學(xué)習(xí)的前提。4.2清洗數(shù)據(jù)我們獲取的數(shù)據(jù)是無規(guī)則的,其中有很多對我們沒有利用價值的冗余數(shù)據(jù),還有可能會有影響到我們分析結(jié)果的錯誤信息。我們在進(jìn)行具體的分析之前需要對這些信息進(jìn)行預(yù)處理,以免會影響到分析結(jié)果的準(zhǔn)確率。數(shù)據(jù)預(yù)處理主要分為三個方面:距離度量、抽樣、降維。在協(xié)同過濾推薦系統(tǒng)中使用的KNN分類(k-NearestNeighbor)主要取決于距離度量方法。比較常用的距離度量方法有歐幾里得距離、皮爾遜相關(guān)系數(shù)、Jaccard系數(shù)(針對二進(jìn)制屬性)等。抽樣是數(shù)據(jù)挖掘從大數(shù)據(jù)集中選擇相關(guān)數(shù)據(jù)子集的主要技術(shù),其在最終的解釋步驟也起了很重要的作用,最常采用的抽樣方法是無取代抽樣,當(dāng)物品被選擇時,物品被從整體中取走,但執(zhí)行取代抽樣也是允許的,也就是說物品即使被選擇也無需從整體中去除。通常訓(xùn)練集和測試集比例為80/20。最后降維是為了去除一些非常稀疏且對結(jié)果集影響不大的點(diǎn),降低維度,避免維度災(zāi)難,降低運(yùn)算難度。4.3分析數(shù)據(jù)與建立模型推薦用的算法系統(tǒng)所使是機(jī)器學(xué)習(xí)算法,屬于人工智能的范疇。在整個機(jī)器學(xué)習(xí)的過程中,難度最大最為核心的就是分析數(shù)據(jù)。分析數(shù)據(jù)的方法有很多種,每一種在不同的實(shí)際應(yīng)用有其不同的作用,要具體情況具體分析。這里將介紹幾種在推薦系統(tǒng)中較為常用的數(shù)據(jù)分析方法:最近鄰算法(KNN):KNN通過存儲訓(xùn)練記錄并使用它們來預(yù)測未知樣本的標(biāo)簽類別。這種分類器會存儲所有的訓(xùn)練集,只有當(dāng)新紀(jì)錄與訓(xùn)練集完全匹配時才進(jìn)行分類。相對于其它機(jī)器學(xué)習(xí)算法,KNN是最簡單的,因?yàn)镵NN無需建立一個顯示的模型,被稱為是一個懶學(xué)習(xí)者。盡管KNN方法簡單直觀,但它的結(jié)果準(zhǔn)確,非常易于提升[1]。k-means算法:k-means算法是一個分塊聚類算法,把獲取的n個對象數(shù)據(jù)分割成k個不相關(guān)子集(k<n)。它與處理混合正態(tài)分布的最大期望算法很相似,因?yàn)樗鼈兌际窃噲D找到數(shù)據(jù)中自然聚類的中心。它假設(shè)對象屬性來自于空間向量,并且目標(biāo)是使各個群組內(nèi)部的均方誤差總和最小。k-means算法一開始會隨機(jī)選擇k個中心點(diǎn),所有物品都會被分配到它們最靠近的中心節(jié)點(diǎn)的類中。當(dāng)物品新添加或者移除時,新聚類的中心節(jié)點(diǎn)需要更新,聚類的成員關(guān)系也需要更新,這樣不斷迭代,直到?jīng)]有物品改變它們的聚類成員關(guān)系。最終的聚類對初始的中心點(diǎn)異常敏感,還可能存在空聚類[2]。邏輯回歸算法:在統(tǒng)計學(xué)中,有種算法叫做回歸算法。實(shí)現(xiàn)起來比較容易理解,復(fù)雜性也相對較低。而且,還可以用于大規(guī)模的機(jī)器學(xué)習(xí)。也就是說,由于他的優(yōu)點(diǎn)很多,所以可以長期使用,但他的缺點(diǎn)是非線[3]。因?yàn)樗且粋€現(xiàn)象模型。梯度迭代決策樹算法:在上個世紀(jì)90年代,提出了一種新的融合性算法,叫做梯度迭代決策樹算法。這是一種基于學(xué)習(xí)機(jī)器的框架,它可以提高任意算法的準(zhǔn)度和精確度,他是受到近似模型的啟發(fā),而被研究出來的[6]。它的優(yōu)點(diǎn)也十分的多,它作為一種性能比較優(yōu)良的分類器,很多人將它和增強(qiáng)框架相結(jié)合使用。[7]在實(shí)驗(yàn)中也確實(shí),實(shí)現(xiàn)了較為優(yōu)異的實(shí)驗(yàn)結(jié)果。因子分解機(jī)算法:現(xiàn)在有一種更通用的算法叫做因數(shù)分解機(jī)。[8]這個算法在2010年被提案了,利用分解模型的特征進(jìn)行變換。另外,通過因素之間的相互作用表示。也就是說,可以很好地模擬變量之間的相互作用。即使數(shù)據(jù)不足和數(shù)據(jù)不足,也能得到良好的訓(xùn)練效果。在任務(wù)的實(shí)際執(zhí)行中較好的完成[9]。貝葉斯分類器:貝葉斯分類器是基于概率定義和貝葉斯定理的一類算法,貝葉斯統(tǒng)計學(xué)派使用概率來代表從數(shù)據(jù)中學(xué)習(xí)到的關(guān)系的不確定性[10]。其把每一個屬性和類標(biāo)簽當(dāng)作隨機(jī)變量。給定一個帶有N個屬性的記錄(A1,A2,A3,...,AN),目標(biāo)是預(yù)測類Ck,方法是在給定數(shù)據(jù)P(CklA1,A2,...,AN)下,找到能夠最大化該類后驗(yàn)概率的Ck的值。常見貝葉斯分類器算法有樸素貝葉斯算法、平均單依賴估計(AODE)以及貝葉斯網(wǎng)絡(luò)(BBN)等[11]。循環(huán)神經(jīng)網(wǎng)絡(luò):循環(huán)神經(jīng)網(wǎng)絡(luò)的推薦與普通的神經(jīng)網(wǎng)絡(luò)不同,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在隱含層之間也有連接,模型訓(xùn)練中會對序列的每個元素執(zhí)行相同的計算,模型的輸出依賴之前的計算結(jié)果[12]。也就是說RNN具有記憶功能,因此技術(shù)應(yīng)用第1期RNN尤其適合建模序列數(shù)據(jù)。目前RNN已經(jīng)在語音識別、機(jī)器翻譯等領(lǐng)域得到了廣泛的應(yīng)用。但是當(dāng)RNN進(jìn)行網(wǎng)絡(luò)訓(xùn)練時,常常會遭遇漸變消失或爆炸的問題,通常用長短時記憶(LSTM)和門控遞歸單元(GRU)體系結(jié)構(gòu)來解決此類問題[13]。在推薦系統(tǒng)中,RNN通常用于建模用戶行為序列或者是與注意力機(jī)制結(jié)合構(gòu)建用戶和項目的文本信息序列,應(yīng)用于評分預(yù)測和文本推薦等領(lǐng)域[4]。卷積神經(jīng)網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)(CNN)在至少一層中應(yīng)用卷積運(yùn)算代替一般的矩陣乘法,模型通常由卷積層、池化層和全連接層組成。其中卷積層主要實(shí)現(xiàn)將輸入的數(shù)據(jù)執(zhí)行卷積運(yùn)算并輸出特征圖[14]。池化層則實(shí)現(xiàn)特征圖的降維,以減少處理時間,通常選用最大池化或者平均池化操作。最后將池化層的輸出作為全連接層的輸入,進(jìn)而實(shí)現(xiàn)分類。目前CNN已經(jīng)成功地應(yīng)用于許多困難的任務(wù),如圖像和對象識別、音頻處理和自動駕駛汽車。在推薦系統(tǒng)中CNN常作為特征提取工具,廣泛應(yīng)用于文本、音樂等項目的特征提?。哿?xí)。Kim等人提出ConvMF深度學(xué)習(xí)模型,利用CNN提取電影簡介文本,然后集成到PMF中進(jìn)行評分預(yù)測,有效提高了預(yù)測精度[15]。4.4測試模型整個機(jī)器學(xué)習(xí)的最后一步就是測試模型,檢測模型的準(zhǔn)確率。這是衡量一個算法的優(yōu)劣的重要步驟。測試的數(shù)據(jù)集可以從測試中隨機(jī)選取或者從提前預(yù)留的測試集中獲取。5機(jī)器學(xué)習(xí)在推薦系統(tǒng)領(lǐng)域存在的挑戰(zhàn)機(jī)器學(xué)習(xí)在推薦系統(tǒng)中同樣有很廣泛的應(yīng)用,其中較為廣泛的是采用三種方式:基于商品的推薦算法、基于用戶的推薦算法以及混合推薦算法。在很多大型互聯(lián)網(wǎng)網(wǎng)站比如Amazon、淘寶、京東等,都投入了很大的精力在推薦系統(tǒng)這一領(lǐng)域上,希望用戶能夠更加快速的找到自己想要的商品[16]。盡管機(jī)器學(xué)習(xí)在推薦系統(tǒng)領(lǐng)域的發(fā)展?jié)摿艽?,但也不得不面臨一些問題。其中一個很棘手的問題就是隨著時間的推移,用戶的興趣愛好也可能跟著變化,而我們獲取的僅僅是用戶過去的購買記錄。當(dāng)用戶有了新的興趣后,短時間很難去捕獲到。這只是其中一個方面,對機(jī)器學(xué)習(xí)算法的研究還有很長的路要走,但我相信,隨著科技的進(jìn)步,這些都不是問題。6總結(jié)互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,數(shù)據(jù)采集和計算變得越來越便宜,目前來看,大數(shù)據(jù)時代已經(jīng)到來。國內(nèi)外電子商務(wù)公司和研究機(jī)構(gòu)越來越擅長于利用數(shù)據(jù)為用戶提供個性化的體驗(yàn)推薦,特別是近年來,人們利用先進(jìn)的機(jī)器學(xué)習(xí)算法對這一領(lǐng)域的問題進(jìn)行了深入的學(xué)習(xí)和研究。傳統(tǒng)的推薦算法在信息過濾的實(shí)際應(yīng)用中面臨很多挑戰(zhàn)。深度學(xué)習(xí)具有自動學(xué)習(xí)深層特征能力,與傳統(tǒng)推薦方法結(jié)合能夠有效提升推薦質(zhì)量和泛化能力。目前深度學(xué)習(xí)在推薦系統(tǒng)中已經(jīng)有了一些研究成果,并在YouTube的視頻推薦、Yahoo的新聞推薦等實(shí)際場景中得到了一些應(yīng)用,但整體來說還處于起步階段,模型在可擴(kuò)展性、復(fù)雜性和解釋性方面還有待進(jìn)一步研究。這些算法都出現(xiàn)在各個問題領(lǐng)域的推薦系統(tǒng)中。這些推薦系統(tǒng)的商業(yè)應(yīng)用不僅極大地改善了用戶體驗(yàn),還增加了企業(yè)的收益。在推薦系統(tǒng)中還存在許多問題,另外技術(shù)需要進(jìn)一步的改進(jìn)。本文介紹了個性化推薦系統(tǒng)中使用的機(jī)器學(xué)習(xí)算法。機(jī)器學(xué)習(xí)中的絕大多數(shù)算法都在推薦系統(tǒng)中有所應(yīng)用。推薦系統(tǒng)的設(shè)計者需要具備將產(chǎn)品需求轉(zhuǎn)化為機(jī)器學(xué)習(xí)問題的能力,能夠掌握機(jī)器學(xué)習(xí)的研究方向和算法,將各種算法物盡其用,這樣才能設(shè)計出一個優(yōu)秀的系統(tǒng)。人工智能技術(shù)對于推薦系統(tǒng)的影響是巨大的。從人工推薦到深度學(xué)習(xí)模型,在日新月異的技術(shù)浪潮中,推薦系統(tǒng)已經(jīng)成為了諸多互聯(lián)網(wǎng)應(yīng)用的基石。過去十多年的研究和開發(fā),使得這個領(lǐng)域迅猛發(fā)展,推動了人工智能很多方向的前進(jìn)。從現(xiàn)實(shí)來看,推薦系統(tǒng)要成為智能系統(tǒng),還有很長的路要走。我們需要站在更高的維度來看待和思考推薦系統(tǒng),提出更加具有挑戰(zhàn)的問題,基于這些問題才能引領(lǐng)我們?nèi)ジ镄路椒ㄕ?,?chuàng)新出一整套能夠大幅度豐富用戶體驗(yàn)與提高產(chǎn)品價值的推薦系統(tǒng)理論與實(shí)踐。參考文獻(xiàn)[1] 王志梅,楊帆.基于Hebbian—致性學(xué)習(xí)的P2P推薦算法[J].計算機(jī)研究與應(yīng)用,2006,42(36):110-113.[2] 吳顏,沈潔,顧天竺等.協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決[J].計算機(jī)應(yīng)用研究,2007,24(06):94-97.[3] PeterHarrington.MachineLearninginAction[M]北京:人民郵電出版社,2015.[4] 陳剛,劉發(fā)升.基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法[J].計算機(jī)與現(xiàn)代,2006(10).王衛(wèi)平,劉穎.基于客戶行為序列的推薦算法J].計機(jī)系統(tǒng)應(yīng),2007,17(05):35-38.周詩龍,徐俊剛.基于分析特征與動態(tài)步長的微博排序?qū)W習(xí)算法.軟件學(xué)報,2013,24:150-161.丁宇新,燕澤權(quán),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年第12課從明朝建立到清軍人關(guān)-勤徑學(xué)升高中歷史必修上同步練測(統(tǒng)編版2019)
- 園林養(yǎng)護(hù)人員雇傭合同范文2025年
- 2025年伙伴合同終止協(xié)議
- 2025年企業(yè)辦公用品綜合供需合同
- 2025年官方物流配送協(xié)議書高清
- 2025年企業(yè)設(shè)備抵押擔(dān)保貸款合同
- 2025年動物收養(yǎng)協(xié)議版式
- 2025年糧食供需雙方合同策劃大綱
- 2025年智能交通項目提案報告模式
- 2025年企業(yè)維修保養(yǎng)年合作協(xié)議
- 價格法價格違法行為和明碼標(biāo)價法律法規(guī)價格欺詐知識
- 中外歷史綱要上大事年表
- 高標(biāo)準(zhǔn)農(nóng)田建設(shè)項目監(jiān)理計劃
- 小學(xué)二年級(上冊)-乘法口訣-練習(xí)題-A4直接打印
- 采購行業(yè)的swot分析
- 二級公立醫(yī)院績效考核三級手術(shù)目錄(2020版)
- 振蕩指標(biāo)MACD(波段操作精解)
- 兒科常見病的病例討論和診斷思維培訓(xùn)課件
- 越野車改裝方案
- 無線電監(jiān)測系統(tǒng)設(shè)備采購?fù)稑?biāo)方案(技術(shù)標(biāo))
- 鑄造熔煉爐安全檢查表
評論
0/150
提交評論