用戶畫像及推薦系統(tǒng)課件_第1頁
用戶畫像及推薦系統(tǒng)課件_第2頁
用戶畫像及推薦系統(tǒng)課件_第3頁
用戶畫像及推薦系統(tǒng)課件_第4頁
用戶畫像及推薦系統(tǒng)課件_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第7章 用戶畫像及 推薦系統(tǒng)商業(yè)智能:方法與應用目 錄ONTENTSC7.1 用戶畫像7.2 推薦系統(tǒng)用戶畫像基本概念單個用戶畫像流程群體用戶畫像流程用戶畫像評估用戶畫像應用推薦系統(tǒng)基本概念相似度度量方法及最近鄰確定基于用戶的最近鄰推薦基于物品的最近鄰推薦基于用戶與基于物品的方法的比較基于模型的協(xié)同過濾7.1 用戶畫像用戶畫像基本概念單個用戶畫像流程群體用戶畫像流程用戶畫像評估用戶畫像應用用戶畫像基本概念定義特點 分類單個用戶畫像 研究對象:某一特定場景下的具體用戶 目標:對不同用戶做出個體區(qū)分,深入了解用戶需求群體用戶畫像 研究對象:某一特定情境下的特定用戶群體 目標:將具有相似特征的用戶聚

2、類,方便進一步識別用戶群體真實性標簽化動態(tài)性領(lǐng)域性 用戶角色(User Persona)傾向于從不同群體中抽象出不同類型的用戶角色用戶畫像(User Profile)用戶信息的標簽化;側(cè)重于從不同維度對同一類用戶進行刻畫,從而進一步細分某一類用戶第五章 異性交往第一節(jié) 金星遇上火星男女有別成年男女心理與行為差異1.女性喜歡逛街購物,男性喜歡打游戲、看球賽2.女性比男性更容易迷路3.女性比男性更喜歡聊天4.女性更易表達情感,男性喜歡隱藏情感5.男性女性對待壓力的方式不同6.女性愛嘮叨,男性愛沉默 第二節(jié) 異性交往與戀愛“喜歡量表”&“愛情量表” 愛情量表1.他(她)情緒低落時,我首要的職責是讓他

3、(她)快樂起來。 2.在所有的事情上我都可以信賴他(她)。 3.我覺得不計較他(她)的過失是一件容易的事。4.我?guī)缀踉敢鉃樗ㄋ┳鋈魏问隆?5.我對他(她)有獨占欲。 6.若不能永遠跟他(她)在一起,我會覺得非常痛苦。 7.寂寞時我首先想到的就是去找他(她)。 8.他(她)的幸福屬于我最關(guān)切的事。9.我愿意原諒他(她)的任何過錯。 10.我覺得他(她)的幸福安康是我的責任。 11.同他(她)在一起的大部分時光,我就這樣看著他(她)。12.我非常享受他(她)對我的信賴。 13.沒有他(她)的日子,對我來說很難過。 喜歡量表 1.我們在一起時的心情總是一樣的。2.我認為他(她)環(huán)境適應能力很強。

4、3.我強烈推薦他(她)做一項責任重大的工作。4.以我看來,他(她)特別成熟。5.我相信他(她)有良好的判斷力。 6.即使同他(她)短暫相處,人們大多都會有很好的印象。7.我覺得他(她)跟我很相似。 8.我愿意在班級或群體選舉中投他(她)一票。 9.我覺得他(她)是一個能很快博得尊重的人。 10.我覺得他(她)絕頂聰明。11.在我認識的人當中,他(她)是非??蓯鄣?。 12.他(她)是我很想學習的那種人。 13.我覺得他(她)非常容易贏得人們的欽佩。 正確理解愛情內(nèi)涵愛情的真正意義就在于幫助對方提高,同時也提高自己。車爾尼雪夫斯基愛情可能事恒久的,那是一份堅貞和執(zhí)著;但也可能是脆弱的,那是當你存有

5、太多幻想,而又不肯忍受現(xiàn)實的缺點的時候。能維持長遠的感情,其中定有很多的寬容和諒解。羅蘭愛是我們對所愛者的生命與成長的主動關(guān)切,沒有這種關(guān)切就沒有愛。弗洛姆愛情三個特點:愛需要彼此的理解、關(guān)心、寬容、擁有共同的志趣愛情是催人上進的愛情是需要不斷追求和培養(yǎng)的,不是一旦擁有就永遠擁有的愛情三原素理論斯騰伯格:愛情關(guān)系由三種元素組成,親情、戀情、承諾浪漫型組合(無承諾)、親情型組合(喜歡)、虛幻型組合(一見鐘情、閃電式結(jié)婚)、熱戀型組合(只有性愛,一夜情)、伴侶型組合(性愛缺乏)、承諾型組合(包辦婚姻)、完滿型組合大學生戀愛的特點1、理想化“美貌等于美德”經(jīng)濟上依靠父母,缺乏對現(xiàn)實社會真實、深入的了

6、解;對未來生活的設(shè)計過于樂觀,對將要面臨的困境、挫折沒有充分的心理準備。2、純真且熱烈奔放生理發(fā)展的旺盛時期,情緒易沖動。熱情有余,含蓄不足。感性的成分太多,分手的可能性大大增加。真正的愛情是表現(xiàn)在對所愛的人采取含蓄、謙恭,甚至羞澀的態(tài)度,而決不是表現(xiàn)在隨意流露熱情和過早的親昵。馬克思3、盲目性內(nèi)部的需求(心理斷乳期)和外部濃郁的戀愛氛圍(風氣),使一些學生覺得戀愛是大學所要追求的另一個目標。4、波動性來得快,散得快。心理的不成熟,價值觀人生觀的不完善,缺乏主見,盲從等?!斑M入愛時要慢一點;提出分手時,也要慢一點”畢業(yè)分配,現(xiàn)實的考驗第三節(jié) 戀愛溝通技巧一、戀愛交往中男女心理需要 1.女性需要

7、關(guān)心,男性需要信任2.女性需要了解,男性需要接受 3.女性需要尊重,男性需要感激 4.女性需要專注,男性需要贊美 5.女性需要認同,男性需要肯定 6.女性需要安慰,男性需要鼓勵 二、男女溝通差異1.男性常說結(jié)果,女性常說過程2.女性活在感覺中,男性則是行動派3.女性喜歡暗示,男性需要直接4.女性需要宣泄,男性需要沉默 第四節(jié) 愛和性一、戀愛與性行為建立科學的性觀念 性不等于愛性本能是人的自然屬性,但是人的這種本能要受到道德和法律的制約三、婚前性行為心理及其危害1.婚前性行為會帶來劇烈的心理沖突。2.婚前性行為會導致感情變味3.婚前性行為會使婚后生活質(zhì)量下降4.婚前性行為給女生造成巨大的身心傷害

8、5.婚前性行為也會帶來性疾病的傳播男生怎樣調(diào)適自己的性沖動1、破除對“性”的神秘感2、加強意志鍛煉3、和女生相處時,應適當減少綿綿的情話和過分親昵的動作4、適當運用自慰行為。單個用戶畫像基本流程03 特征提取興趣屬性標簽單個用戶畫像基本流程圖單個用戶畫像基本流程01 數(shù)據(jù)收集數(shù)據(jù)類型某電商網(wǎng)站數(shù)據(jù)分類圖行為類型搜索瀏覽購買發(fā)表點贊接觸點帆布鞋匡威雙十一大促頁用戶數(shù)據(jù) 靜態(tài)信息數(shù)據(jù)商業(yè)屬性職業(yè)動態(tài)信息數(shù)據(jù)人口基本屬性性別年齡地域婚姻狀況消費等級消費周期行為數(shù)據(jù) 消費數(shù)據(jù)消費商品消費總額單個用戶畫像基本流程01 數(shù)據(jù)收集數(shù)據(jù)收集方法123社會調(diào)查通過訪談、觀察、調(diào)研等社會調(diào)查的方法,直接收集獲取用

9、戶畫像所需要的數(shù)據(jù)平臺數(shù)據(jù)庫直接從企業(yè)數(shù)據(jù)庫采集用戶數(shù)據(jù)或購買接口獲得數(shù)據(jù) 網(wǎng)絡數(shù)據(jù)采集使用網(wǎng)絡采集方法獲取用戶公開數(shù)據(jù),如:網(wǎng)絡爬蟲等單個用戶畫像基本流程02 數(shù)據(jù)清洗01去除/補全有缺失的數(shù)據(jù)去除/修改格式和內(nèi)容錯誤的數(shù)據(jù)去除非必需數(shù)據(jù)02030504去除/修改邏輯錯誤的數(shù)據(jù)不同來源數(shù)據(jù)關(guān)聯(lián)性驗證03 特征提取人口屬性標簽單個用戶畫像基本流程人口屬性標簽內(nèi)容 性別、年齡、職業(yè)、收入等個人信息人口屬性標簽特點 比較穩(wěn)定,且在實際應用中不是全部用戶提供人口基本屬性數(shù)據(jù)構(gòu)建人口屬性標簽方法 標簽擴散模型用填寫信息的用戶作為樣本,對無標簽用戶進行屬性預測有信息的用戶行為特征模型無信息的用戶提取訓練

10、預測人口屬性標簽建立過程示意圖03 特征提取興趣屬性標簽單個用戶畫像基本流程 活躍用戶用戶畫像構(gòu)建方法 分析用戶發(fā)表文章生成相應興趣畫像獲取文章關(guān)鍵詞構(gòu)建興趣偏好詞典賦予不同興趣偏好權(quán)重得到活躍用戶興趣愛好標簽 非活躍用戶用戶畫像構(gòu)建方法 分析用戶關(guān)注賬戶或點贊文章計算用戶所關(guān)注賬戶信息或所點贊文章信息中每個實體概念所屬網(wǎng)站類別的權(quán)重得到由網(wǎng)站類別構(gòu)成的興趣愛好得到非活躍用戶的興趣愛好03 特征提取地理位置屬性標簽單個用戶畫像基本流程常駐地屬性標簽 基于用戶的IP地址信息,對用戶的IP地址進行接續(xù),得到常駐城市標簽GPS軌跡數(shù)據(jù) 從手機基于位置的服務(LBS)進行收集導航類APP獲取LBS日志

11、數(shù)據(jù)清洗與匯總LBS位置與POI匹配用戶POI場景判斷POI類型到訪次數(shù)時間段分布天數(shù)分布居住工作購物就餐GPS地理位置畫像流程單個用戶畫像基本流程03 特征提取興趣屬性標簽用戶畫像標簽體系群體用戶畫像流程01單個用戶畫像獲取 數(shù)據(jù)收集、數(shù)據(jù)清洗和特征提取方法獲取用戶畫像數(shù)據(jù) 推薦系統(tǒng)的數(shù)據(jù)統(tǒng)計模塊獲得用戶畫像數(shù)據(jù)02用戶畫像相似度計算(1)定量標簽相似度計算 計算公式: 不同定量標簽數(shù)據(jù)歸一化處理方法:線性函數(shù)轉(zhuǎn)換、對數(shù)函數(shù)轉(zhuǎn)化、反正切函數(shù) 轉(zhuǎn)化等 定量標簽距離計算方法:歐式距離、曼哈頓距離、余弦相似度、Jacard系數(shù)等(2)定性標簽相似度計算 將定性標簽映射為定量標簽,采用定量標簽相似度

12、計算方法 基于概念的相似度計算方法群體用戶畫像流程03用戶畫像聚類及群體用戶畫像生成 用戶畫像聚類:對單個用畫像根據(jù)相似度計算結(jié)果進行分類 聚類原則:使類別內(nèi)差異最小,類別間差異最大 聚類目標:發(fā)現(xiàn)用戶畫像建隱含關(guān)系,提取核心用戶畫像 群體用戶畫像生成:根據(jù)聚類結(jié)果,抽象出每個聚類群體的典型用戶畫像用戶畫像評估010203定義:被打上正確標簽的用戶比例計算公式:準確率定義:被打上標簽的用戶占全量用戶的比例計算公式:覆蓋率不同特征標簽時效性要求不同,需要建立合理的更新機制,以保證標簽時間上的時效性時效性用戶畫像應用應用二應用一應用三基礎(chǔ)信息查詢構(gòu)建用戶畫像的基礎(chǔ)上建立用戶標簽庫及用戶關(guān)系庫,實現(xiàn)

13、基礎(chǔ)信息查詢,便于企業(yè)深入了解用戶需求精準營銷依托用戶畫像,分析用戶的行為習慣及消費習慣,為用戶的消費行為打上專屬標簽,進而實現(xiàn)精準推送產(chǎn)品或服務優(yōu)化用戶畫像實現(xiàn)對不同特征的用戶進行路徑分析,發(fā)現(xiàn)用戶從新用戶到流失用戶的隱含原因,進而實現(xiàn)公司運營優(yōu)化用戶畫像應用應用四應用五個性化業(yè)務定制主要包括個性化推薦、個性化支持和個性化信用評級,同時根據(jù)用戶實時行為,不斷調(diào)整用戶畫像,對定制內(nèi)容實時反饋調(diào)整企業(yè)戰(zhàn)略制定用戶畫像在宏觀層面的重要意義主要體現(xiàn)在市場走向判斷、用戶群體劃分和產(chǎn)品定位三個方面7.2 推薦系統(tǒng)推薦系統(tǒng)基本概念相似度度量方法及最近鄰確定基于用戶的最近鄰推薦基于物品的最近鄰推薦基于用戶與

14、基于物品的方法的比較基于模型的最近鄰推薦7.2.1.1 推薦系統(tǒng)基本概念定義推薦系統(tǒng)是為滿足電子商務發(fā)展和解決網(wǎng)絡信息超載而產(chǎn)生的。比如基于內(nèi)容的推薦算法、基于協(xié)同過濾的推薦算法、基于知識的推薦算法、基于社交網(wǎng)絡的推薦算法等。協(xié)同過濾推薦算法 :推薦系統(tǒng)中最早、最成熟的技術(shù)。7.2.1.2 協(xié)同過濾推薦定義協(xié)同過濾推薦算法即根據(jù)用戶過往對物品或信息的偏好,發(fā)現(xiàn)物品或內(nèi)容本身的相關(guān)性,或者用戶間的相關(guān)性,基于這些相關(guān)性預測出當前用戶對其它物品或信息的喜好程度,以決定是否進行推薦。從評分的角度可以解釋為,用已知的評分去估計未知的評分。分類 基于記憶(memory-based)的基于模型(model

15、-based)的基于用戶(user-based)的最近鄰推薦基于物品(item-based)的最近鄰推薦7.2.2 相似度度量方法及最近鄰確定歐幾里得距離(Euclidean Distance)皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient)余弦相似度(Cosine Similarity)相似度度量方法0102037.2.2 相似度度量方法及最近鄰確定確定鄰居用戶/物品通常有以下兩種方法:給定鄰居數(shù)量來確定最近鄰(K-neighborhoods),如圖1.1左。以達到相似度門檻的鄰居作為最近鄰(Fix-size neighborhoods),如圖1.1右。圖7.

16、4 最近鄰居的選擇7.2.3 基于用戶的最近鄰推薦定義基于用戶的最近鄰推薦算法是利用這些相似或同類用戶對商品評分的加權(quán)平均值,來預測目標用戶對特定商品的喜好程度,從而根據(jù)這一喜好程度對目標用戶進行推薦。算法過程 :(1)收集用戶的偏好(2)確定最近鄰居用戶(3)評分預測7.2.3 基于用戶的最近鄰推薦(1)收集用戶的偏好 評分大體上可分為顯示評分(explicit feedback)和隱式評分(implicit feedback)兩種。評分是由用戶對物品的喜愛程度所決定的,可能是連續(xù)的值,也可以是離散的值。用戶行為類型特征作用打分連續(xù)分值離散分值順序分值通常為整數(shù)量化的偏好,可能的取值是0,n

17、, n為正整數(shù)通過用戶對物品的打分,精確得到用戶的偏好投票二元評分布爾量化的偏好,取值是0或1通過用戶對物品的投票,可以較精確得到用戶的偏好轉(zhuǎn)發(fā)一元評分布爾量化的偏好,取值是0或1通過用戶對物品的轉(zhuǎn)發(fā),可以精確得到用戶的偏好;同時可以推理得到被轉(zhuǎn)發(fā)人的偏好(不精確)點贊/收藏一元評分布爾量化的偏好,取值是0或1通過用戶對物品的點贊或收藏,可以精確得到用戶的偏好標記標簽文本一些詞語,需要對文本進行分析,得到偏好通過分析用戶的標簽,可以得到用戶對內(nèi)容的理解,同時可以分析出用戶的情感:喜歡還是厭惡評論文本一段文字,需要進行文本分析,得到偏好通過分析用戶的評論,可以得到用戶的情感:喜歡或是厭惡(2)確

18、定最近鄰居用戶 利用用戶的歷史喜好信息,通過上述相似度度量公式等計算相似度,計算出用戶之間的距離,即用戶之間的“近鄰”關(guān)系。下表是用戶Tom和其他兩名用戶對物品AD的評分數(shù)據(jù)。分值從1到5分別表示“非常討厭”“討厭”“中立”“喜歡”和非常喜歡。通過找出用戶1和用戶2中誰是與Tom更相似的用戶,進而根據(jù)該鄰居用戶對物品D的評分去判斷是否應該給Tom推薦物品D。用戶/物品物品A物品B物品C物品DTom524推薦?用戶14153用戶224317.2.3 基于用戶的最近鄰推薦 設(shè)U=u1,un代表用戶集,P=p1,pm代表物品集。nm的評分矩陣R=rij,其中i1n,j1m。用Pearson相關(guān)系數(shù)來

19、衡量兩用戶之間評分向量的相似度Sim(u1,u2),確定鄰居用戶集。相關(guān)系數(shù)的取值為-1,1,代表從強負相關(guān)到強正相關(guān)。7.2.3 基于用戶的最近鄰推薦首先,計算每位用戶的平均評分u: 其次,計算Tom與用戶1的相似度: 同理可得到Tom與用戶2的相似度為-0.84。綜上,我們得出Tom的最近鄰用戶是用戶1,相似度為0.84,意味著用戶1 的評分行為與目標用戶更為相似。7.2.3 基于用戶的最近鄰推薦首先,用戶的評分需要按行進行均值中心化(mean-centered): 即以每個用戶對每一件物品的評分減去該用戶的平均評分得到均值中心化的矩陣,如下表:(3)評分預測用戶/物品物品A物品B物品C物

20、品DTom1.33-1.670.33推薦?用戶10.75-2.251.75-0.25用戶2-0.51.50.5-1.57.2.3 基于用戶的最近鄰推薦其次,令V表示目標用戶u的k個近鄰的集合,故預測用戶對某一物品的評分,可使用如下預測函數(shù): 示例中,Tom的鄰居用戶只有用戶1,故得到: 由此預測出Tom對物品D的評分為3.42,故不建議推薦。7.2.4 基于物品的最近鄰推薦定義基于物品的最近鄰推薦算法是利用“物品”而非“用戶”的相似度來預測目標用戶還可能喜歡哪些物品或內(nèi)容。簡單來講,基于用戶是計算評分矩陣的行之間的相似度,而基于物品是計算列之間的相似度。算法過程 :(1)收集用戶的偏好(同上)

21、(2)確定最近鄰居物品(3)評分預測(2)確定最近鄰居物品 利用用戶的歷史喜好信息,通過上述相似度度量公式等計算相似度,計算出用戶之間的距離,即用戶之間的“近鄰”關(guān)系。仍是以上述例子來說明。由余弦相似度公式,得到物品A與物品D的相似度(注意這里選擇的必須是對相同物品都做出評價的用戶):7.2.4 基于物品的最近鄰推薦(3)評分預測 同理,物品B與物品D的相似度: 物品C與物品D的相似度:預測用戶對某一物品的評分,依然可使用如下預測函數(shù):7.2.4 基于物品的最近鄰推薦通過比較,顯然物品A是與物品D最相似的,物品B、C比較相近(余弦相似度均大于零)。故由所有鄰居物品的加權(quán)平均總和得到Tom對物品D的預測評分:4.16高于Tom的平均評分3.67,故可以選擇推薦?;谟脩艉突谖锲穬煞N算法共同存在的問題:數(shù)據(jù)稀疏與冷啟動長尾效應當物品的數(shù)量龐大而可用的評分數(shù)據(jù)太小時,得到的評分矩陣一般都非常稀疏,被稱為冷啟動問題。此時傳統(tǒng)的協(xié)同過濾模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論