版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于文本挖掘的互聯(lián)網(wǎng)微博信息轉(zhuǎn)發(fā)行為預(yù)測(cè)
1微博參與網(wǎng)絡(luò)傳播的總體情況隨著互聯(lián)網(wǎng)技術(shù)的普及,更多的人享受互聯(lián)網(wǎng)帶來的樂趣。尤其是近年來,基于網(wǎng)絡(luò)社交網(wǎng)絡(luò)的快速發(fā)展,人們?cè)絹碓蕉嗟貐⑴c互聯(lián)網(wǎng)的廣泛社交活動(dòng)。以中國最大的微博網(wǎng)站——官方微博為例,微博用戶已經(jīng)超過5億人了。每天產(chǎn)生超過1億微博內(nèi)容。事實(shí)上,以微博為代表的社交網(wǎng)絡(luò)已經(jīng)成為當(dāng)前的主要媒體之一。因此,對(duì)用戶行為和信息傳播規(guī)律的研究有助于互聯(lián)網(wǎng)公司更準(zhǔn)確地了解每個(gè)用戶的偏好,并將最喜歡的話題信息推薦給用戶。政府部門可以通過預(yù)測(cè)新聞傳播范圍以及用戶的觀點(diǎn)和態(tài)度,正確評(píng)估輿論的熱點(diǎn)問題,并及時(shí)采用科學(xué)的控制和指導(dǎo)。2基于特征量化的信息傳播路徑在線社交網(wǎng)絡(luò)的信息傳播行為已經(jīng)成為當(dāng)前的研究熱點(diǎn).Boyd等人[2-3]以Twitter[2]為研究對(duì)象,對(duì)Twitter上人們Retweet的方式(類似國內(nèi)微博網(wǎng)站上的“轉(zhuǎn)發(fā)”)、Retweet的動(dòng)機(jī)以及被Retweet信息的內(nèi)容主題傾向進(jìn)行了分析.Suh等人[4]選取了URL、標(biāo)簽、關(guān)注人數(shù)等因素,使用主成份分析方法(PCA)分析了影響用戶轉(zhuǎn)發(fā)的主要因素,最后結(jié)合所選因素應(yīng)用廣義線性模型分析影響因素與轉(zhuǎn)發(fā)行為之間的關(guān)系.但這些研究?jī)H僅是對(duì)轉(zhuǎn)發(fā)行為的統(tǒng)計(jì)分析,缺少對(duì)用戶行為的預(yù)測(cè).文獻(xiàn)采用了基于概率的協(xié)同過濾模型,稱為Matchbox[6],作者選取了用戶名、關(guān)注人數(shù)、微博包含的單詞個(gè)數(shù)等特征對(duì)用戶的轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè),雖然這些特征在一定程度上反映了用戶行為特點(diǎn),但并不是最主要的影響因子.文獻(xiàn)中作者選取了22個(gè)影響因素,并采用因子圖模型進(jìn)行預(yù)測(cè)分析,對(duì)于用戶轉(zhuǎn)發(fā)行為預(yù)測(cè)取得了較高的精度,但由于對(duì)所選特征的量化處理過于簡(jiǎn)單,信息傳播路徑預(yù)測(cè)的精度較低.Liben-Nowell等人[9]較為全面地討論了信息在真實(shí)社會(huì)網(wǎng)絡(luò)中傳播的特征及與之相關(guān)的一系列問題,并且指出:精確的預(yù)測(cè)信息傳播路徑是非常困難的;使用簡(jiǎn)單的預(yù)測(cè)模型往往與真實(shí)情況相距甚遠(yuǎn),比如Email的實(shí)際傳播模式與小世界傳播模型不同,小世界模型人們之間的距離都比較短,但實(shí)際上電子郵件傳播有的要經(jīng)過數(shù)百個(gè)中間節(jié)點(diǎn).在Kossinets等人[10]的工作中,作者首先對(duì)社會(huì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)聚類,之后生成特征結(jié)構(gòu)傳播樹并得到異步響應(yīng)時(shí)間,最終提出并描述了一個(gè)概率模型.也有不少研究采用SIR、SIS等經(jīng)典傳播模型[11]對(duì)信息傳播擴(kuò)散進(jìn)行分析研究.研究者對(duì)不同類型的多種在線社交網(wǎng)絡(luò)進(jìn)行了研究,包括Flickr[12]、Blogs[13]、Digg[14]以及YouTube[15]等,這些研究揭示了信息在社交網(wǎng)絡(luò)上傳播所表現(xiàn)出來的規(guī)律.Fan等人[16]對(duì)新浪微博的拓?fù)浼靶畔U(kuò)散進(jìn)行了研究,發(fā)現(xiàn)新浪微博的拓?fù)浣Y(jié)構(gòu)具有小世界及無標(biāo)度特性,度分布服從冪律分布,熱門事件的擴(kuò)散拓?fù)涑尸F(xiàn)星形或兩級(jí)結(jié)構(gòu).Webberley等人[17]對(duì)信息在Twitter上傳播的深度、產(chǎn)生影響的廣度以及轉(zhuǎn)發(fā)延遲進(jìn)行了研究,作為對(duì)用戶行為模式和轉(zhuǎn)發(fā)規(guī)律的初步研究對(duì)本文的研究工作具有很好的借鑒意義.Galuba等人[18]對(duì)Twitter上URL信息在用戶之間傳播規(guī)律進(jìn)行了研究,提出了一個(gè)預(yù)測(cè)URL轉(zhuǎn)發(fā)路徑預(yù)測(cè)模型.Yang等人[19]發(fā)現(xiàn)在Twitter上信息內(nèi)容對(duì)相關(guān)用戶的提及率是影響該信息傳播速度、規(guī)模及范圍的重要因素.以上針對(duì)在線社交網(wǎng)絡(luò)中信息傳播路徑和影響范圍的分析預(yù)測(cè)大多得到的是信息在特定網(wǎng)絡(luò)上傳播所呈現(xiàn)的統(tǒng)計(jì)規(guī)律,例如文獻(xiàn)的研究結(jié)果說明Email網(wǎng)絡(luò)的傳播樹呈現(xiàn)傳播廣度小、傳播深度大的特性,但是并沒有針對(duì)特定信息預(yù)測(cè)其傳播可能經(jīng)過的路徑.同時(shí)部分研究將網(wǎng)絡(luò)中的節(jié)點(diǎn)視作具有相同或相近的行為模式[18],這顯然是不合理的,因?yàn)榫W(wǎng)絡(luò)中的每個(gè)個(gè)體具有各自獨(dú)立的行為特征.另外,目前大多數(shù)研究工作是針對(duì)國外的社交網(wǎng)絡(luò),如Twitter、Facebook、Flickr等,針對(duì)國內(nèi)在線社交網(wǎng)絡(luò)的研究還比較少.隨著我國經(jīng)濟(jì)的發(fā)展,互聯(lián)網(wǎng)普及率大大提高,我國的網(wǎng)民數(shù)量比例已超過國內(nèi)人口總數(shù)三分之一,僅新浪微博的注冊(cè)人數(shù)就超過了5億,地域性也是在線社交網(wǎng)絡(luò)的一個(gè)主要特性,不同國家的社交網(wǎng)絡(luò)在用戶行為、信息傳播上可能呈現(xiàn)出不同的特性,因此,針對(duì)國內(nèi)在線社交網(wǎng)絡(luò)的研究更為迫切.針對(duì)以上存在的問題及不足,本文首先根據(jù)實(shí)際社交網(wǎng)絡(luò)新浪微博在線數(shù)據(jù),對(duì)各種可能影響用戶轉(zhuǎn)發(fā)行為的因素進(jìn)行統(tǒng)計(jì)分析,獲得各種因素對(duì)用戶轉(zhuǎn)發(fā)行為的影響關(guān)系,然后重點(diǎn)研究微博類社交網(wǎng)絡(luò)上用戶的轉(zhuǎn)發(fā)行為模式,給出用戶轉(zhuǎn)發(fā)預(yù)測(cè)模型,并以此建立信息傳播路徑級(jí)聯(lián)概率模型,實(shí)現(xiàn)對(duì)用戶行為及信息傳播影響趨勢(shì)的預(yù)測(cè).3通過轉(zhuǎn)發(fā)微博獲取數(shù)據(jù)密集我們基于新浪微博的開放接口1開發(fā)了爬蟲程序來抓取需要的數(shù)據(jù).程序依照廣度優(yōu)先的策略,從一個(gè)特定的用戶開始,爬取該用戶最近發(fā)表的100條微博,對(duì)于其中的每條微博,再爬取該微博的轉(zhuǎn)發(fā)微博以及轉(zhuǎn)發(fā)該微博的用戶,將這些用戶添加至待爬取隊(duì)列.結(jié)束對(duì)一個(gè)用戶的處理之后,再取出待爬取用戶隊(duì)列中的第一個(gè)用戶,繼續(xù)同樣的處理,循環(huán)往復(fù).爬取程序不間斷運(yùn)行了一周時(shí)間,通過這種方式,最終從1935391個(gè)用戶中獲得了10785921條微博消息.經(jīng)過初步統(tǒng)計(jì),我們發(fā)現(xiàn)其中28.98%的微博是原創(chuàng)的,71.02%的微博是轉(zhuǎn)發(fā)產(chǎn)生的.由于我們的目標(biāo)是發(fā)現(xiàn)轉(zhuǎn)發(fā)模式,通過該方法抓取的轉(zhuǎn)發(fā)樣本要比其他方法得到的數(shù)據(jù)集比例更大.3.1微博關(guān)注網(wǎng)絡(luò)聚類系統(tǒng)和轉(zhuǎn)發(fā)樹拓?fù)浣Y(jié)構(gòu)我們按照廣度優(yōu)先的次序?qū)D(zhuǎn)發(fā)網(wǎng)絡(luò)進(jìn)行遍歷能夠獲得較為完整的子圖.同時(shí)在抓取過程中過濾掉活躍度過低的用戶,這些用戶的行為比較隨機(jī),歷史行為也比較少,不具有代表性.隨后我們又抓取了所有用戶之間的137284538條關(guān)注關(guān)系,得到了完整的關(guān)注拓?fù)?通過對(duì)關(guān)注網(wǎng)絡(luò)拓?fù)溥M(jìn)行分析,發(fā)現(xiàn)入度分布近似滿足冪律分布,如圖1所示;出度分布滿足150定律2,如圖2所示,由于新浪微博對(duì)普通用戶關(guān)注人數(shù)的限制為最多2000人,因此在橫軸2000的位置附近出現(xiàn)了一個(gè)人數(shù)高峰.我們對(duì)關(guān)注網(wǎng)絡(luò)進(jìn)行采樣,并計(jì)算出樣本網(wǎng)絡(luò)的聚類系數(shù)為0.168,直徑為7,平均距離為3.068,可以看出新浪微博關(guān)注網(wǎng)絡(luò)具有較高的聚類系數(shù)和較小的平均距離,符合小世界特征.但是節(jié)點(diǎn)之間平均距離與我們的常識(shí)不太一致,不同于人人網(wǎng)、Facebook等網(wǎng)絡(luò),微博關(guān)注網(wǎng)絡(luò)是有向的,而平均距離卻更小(Facebook上用戶之間的平均距離為4.743),這是一個(gè)有趣的現(xiàn)象.說明微博上人與人之間的聯(lián)系更為緊密,也就是說消息往往只需要經(jīng)過很少的跳數(shù)就能傳播到網(wǎng)絡(luò)上的其他人.我們對(duì)轉(zhuǎn)發(fā)樹的拓?fù)湟策M(jìn)行了分析,列舉出了幾種常見模式,圖3是4條微博的轉(zhuǎn)發(fā)樹拓?fù)?可以看出轉(zhuǎn)發(fā)樹的拓?fù)浣Y(jié)構(gòu)主要分為兩類:星形結(jié)構(gòu)和多極結(jié)構(gòu).星形結(jié)構(gòu)往往是以微博原創(chuàng)者為中心,其第一層轉(zhuǎn)發(fā)者絕大部分都是他的粉絲,再向外則只有少量轉(zhuǎn)發(fā);多極結(jié)構(gòu)的形成往往是因?yàn)橛卸鄠€(gè)入度較大的節(jié)點(diǎn)參與轉(zhuǎn)發(fā),高入度節(jié)點(diǎn)的每次轉(zhuǎn)發(fā)都會(huì)引起一次轉(zhuǎn)發(fā)高峰,因此可以認(rèn)為推動(dòng)微博在網(wǎng)絡(luò)上擴(kuò)散的原因不僅僅在于微博內(nèi)容,更在于是否有高入度的節(jié)點(diǎn)參與轉(zhuǎn)發(fā).分析顯示,不管何種傳播模式都有一個(gè)共同的特點(diǎn),即傳播樹在深度上都比較小,廣度卻比較大.圖4反映轉(zhuǎn)發(fā)樹最大深度分布近似符合冪律分布,也就是說大多數(shù)的傳播路徑都比較短.這也在一定程度上解釋了消息為什么能在微博網(wǎng)絡(luò)上迅速傳播.3.2微博轉(zhuǎn)發(fā)樣本生成轉(zhuǎn)發(fā)樣本比較容易識(shí)別.以新浪微博為例,用戶點(diǎn)擊轉(zhuǎn)發(fā)按鈕后會(huì)彈出轉(zhuǎn)發(fā)對(duì)話框,如圖5所示.用戶可以添加一段評(píng)論,點(diǎn)擊發(fā)布后,產(chǎn)生一條新的微博,該微博的格式形如://@UserScreenName:PreviousHopWeiboText.因此如果微博中出現(xiàn)了“//@UserScreenName:”這樣的模式,說明該微博是通過轉(zhuǎn)發(fā)UserScreenName用戶的微博產(chǎn)生的.新浪微博相應(yīng)的API也會(huì)返回轉(zhuǎn)發(fā)微博的源微博標(biāo)志(ORIMID,對(duì)于原創(chuàng)微博返回0),因此通過該方法能夠識(shí)別轉(zhuǎn)發(fā)樣本.3.3微博忽略樣本識(shí)別算法為了研究微博如何在網(wǎng)絡(luò)上傳播,我們需要知道在何種情況下,人們?cè)敢鈱⑽⒉┓窒斫o自己的關(guān)注者.因此需要判定用戶看到微博時(shí)的兩種行為:轉(zhuǎn)發(fā)行為和忽略行為.我們將轉(zhuǎn)發(fā)樣本作為正例,將忽略樣本作為負(fù)例.定義1.若用戶u轉(zhuǎn)發(fā)了在t時(shí)刻發(fā)表的微博,則將他關(guān)注的用戶在[t-Δt,t+Δt]時(shí)間區(qū)間內(nèi)發(fā)表的且未被u轉(zhuǎn)發(fā)的微博稱為忽略樣本.相比于轉(zhuǎn)發(fā)樣本識(shí)別,忽略樣本的識(shí)別較為困難,原因在于用戶忽略動(dòng)作行為無法顯式地體現(xiàn)在數(shù)據(jù)集中.用戶沒有轉(zhuǎn)發(fā)微博可能并不是用戶主觀忽略微博行為,也可能是由于用戶不在線而錯(cuò)過的消息.為了解決這個(gè)問題,我們通過用戶的轉(zhuǎn)發(fā)動(dòng)作來識(shí)別忽略行為,以提高樣本的準(zhǔn)確度.算法描述如下:算法1.微博忽略樣本識(shí)別算法.輸入:用戶ui關(guān)注的用戶發(fā)表的微博集合Pi;以新浪微博為例,當(dāng)用戶登錄微博后,他所關(guān)注的用戶最近發(fā)表的微博會(huì)按照時(shí)間的倒序展現(xiàn)在頁面上.用戶通常從上至下順序閱讀,再通過點(diǎn)擊“下一頁”按鈕閱讀更早的微博.當(dāng)用戶遇到感興趣并認(rèn)為值得轉(zhuǎn)發(fā)的微博(假設(shè)該微博發(fā)表時(shí)間戳為t1),他們會(huì)點(diǎn)擊轉(zhuǎn)發(fā)按鈕,并最終在時(shí)間t2生成新的微博,如圖6所示.因此,我們認(rèn)為其關(guān)注的用戶在t1前后一小段時(shí)間內(nèi)[t1-Δt,t1+Δt]發(fā)表的微博已經(jīng)被該用戶閱讀,如果沒有轉(zhuǎn)發(fā)則是該用戶主觀忽略的微博.Δt越小,忽略動(dòng)作的識(shí)別越準(zhǔn)確.在本文中,Δt取15min.4影響用戶記錄操作的因素分析在本小節(jié)中,通過歸一化處理,我們將分析對(duì)比可能促進(jìn)或者制約用戶轉(zhuǎn)發(fā)行為的若干影響因素,并歸納其各自特征.4.1用戶轉(zhuǎn)發(fā)特征:粉絲人數(shù)和粉絲轉(zhuǎn)發(fā)在眾多影響用戶轉(zhuǎn)發(fā)行為的特征中,微博原創(chuàng)者的影響力可能會(huì)對(duì)下游用戶的行為產(chǎn)生影響.而直接衡量一個(gè)用戶的影響力比較困難,采用原創(chuàng)者的粉絲數(shù)(關(guān)注他的人數(shù))可以在一定程度上體現(xiàn)一個(gè)用戶的影響力.從圖7可以看出,當(dāng)用戶粉絲數(shù)處于一個(gè)比較小的量級(jí)時(shí),隨著用戶粉絲數(shù)的增加,轉(zhuǎn)發(fā)可能性反而降低.這個(gè)與我們直觀上的認(rèn)識(shí)不太一致,分析原因可能是:結(jié)合之后的特征分析,我們發(fā)現(xiàn)用戶之間的交互特征才是影響用戶轉(zhuǎn)發(fā)行為最主要的特征,而微博上絕大多數(shù)的用戶都是“草根”,和名人交互的機(jī)會(huì)不多,所以平時(shí)轉(zhuǎn)發(fā)的往往都是身邊朋友的微博,而這些人的關(guān)注人數(shù)都是比較少的,因此導(dǎo)致粉絲數(shù)較少的用戶微博被轉(zhuǎn)發(fā)的可能性反而高.我們可以觀察用戶微博的轉(zhuǎn)發(fā)次數(shù)和粉絲人數(shù)的比值(在之后的分析中我們也考慮了這個(gè)因素),名人雖然粉絲數(shù)多,但是轉(zhuǎn)發(fā)數(shù)與粉絲數(shù)的比值往往比不上普通用戶,這也說明用戶粉絲多少與微博被轉(zhuǎn)發(fā)的可能性不一定成正比關(guān)系.而粉絲人數(shù)與微博被轉(zhuǎn)發(fā)次數(shù)是正相關(guān)的,我們隨機(jī)抽取了11978條原創(chuàng)微博,圖8展示了微博發(fā)布者粉絲數(shù)與該微博被轉(zhuǎn)發(fā)次數(shù)之間的關(guān)系,從圖上可以看出粉絲人數(shù)和轉(zhuǎn)發(fā)次數(shù)成正相關(guān).我們使用CDF(CumulativeDistributionFunction,累積概率分布函數(shù))圖描述一個(gè)特征對(duì)于用戶不同行為的區(qū)分度,圖9描述了用戶粉絲數(shù)這個(gè)特征在被轉(zhuǎn)發(fā)微博和被忽略微博上的累積分布函數(shù),從圖上可以看出用戶粉絲數(shù)這個(gè)特征在轉(zhuǎn)發(fā)和忽略上的分布較一致,因此僅僅使用該特征還不能很好地預(yù)測(cè)用戶的轉(zhuǎn)發(fā)行為.粉絲人數(shù)在一定程度上表征了用戶在微博網(wǎng)絡(luò)上的影響力(粉絲越多,微博的受眾也越多),然而微博上也有不少的僵尸用戶,因此衡量一個(gè)用戶的影響力,僅僅依賴粉絲數(shù)量是不全面的.4.2用戶節(jié)點(diǎn)東北部生成與其他社交網(wǎng)絡(luò)如人人網(wǎng)、Facebook不同,微博的關(guān)注網(wǎng)絡(luò)是有方向性的.一個(gè)用戶的影響力也可以通過他的粉絲質(zhì)量來體現(xiàn),即如果一個(gè)用戶的粉絲影響力越大,那么說明該用戶也具有較大的影響力.基于以上的考慮,本文采用PageRank算法[20]計(jì)算用戶在關(guān)注網(wǎng)絡(luò)中的PageRank值,作為用戶影響力的度量指標(biāo)之一.用戶節(jié)點(diǎn)PageRank值計(jì)算公式如下:其中,pri代表用戶i的PageRank值,Follower(i)代表用戶i的粉絲集合,Friend(j)代表用戶j關(guān)注的用戶集合,q為阻尼系數(shù),N為用戶總數(shù).通過新浪微博開放接口,我們獲得了數(shù)據(jù)集中193萬用戶之間的137284538條關(guān)注關(guān)系.使用Graphchi程序包1計(jì)算用戶的PageRank值.從圖10可以看出,微博原創(chuàng)者的PageRank值與轉(zhuǎn)發(fā)之間的關(guān)系呈現(xiàn)出的趨勢(shì)與用戶粉絲數(shù)特征相同,從CDF圖(圖11)也可以看出PageRank也不能很好地預(yù)測(cè)用戶的轉(zhuǎn)發(fā)行為.4.3發(fā)微博的數(shù)量我們按如下方式定義單個(gè)用戶的轉(zhuǎn)發(fā)活躍度frr:其中,nrepost代表用戶最近發(fā)布的微博中轉(zhuǎn)發(fā)微博的數(shù)量,npost代表用戶最近發(fā)布微博的數(shù)量.這個(gè)值越大說明用戶在微博上轉(zhuǎn)發(fā)的頻率越高,高轉(zhuǎn)發(fā)頻率的用戶對(duì)于微博的擴(kuò)散起了比較大的推動(dòng)作用.從圖12和圖13可以看出用戶轉(zhuǎn)發(fā)活躍度與轉(zhuǎn)發(fā)行為之間存在著較強(qiáng)的關(guān)系,整體上隨著用戶轉(zhuǎn)發(fā)活躍度的上升,微博被轉(zhuǎn)發(fā)的概率也隨之上升.4.4用戶與上游接入量v之間的交互強(qiáng)度用戶之間的歷史交互頻率可能會(huì)影響用戶的轉(zhuǎn)發(fā)行為,因此本文分析被預(yù)測(cè)用戶和上游傳遞者之間的交互強(qiáng)度與轉(zhuǎn)發(fā)似然之間的關(guān)系.我們按如下方式定義用戶u與上游傳遞者v之間的交互強(qiáng)度fuv:其中,nuv表示v的微博出現(xiàn)在u的轉(zhuǎn)發(fā)微博中的次數(shù),nu表示u轉(zhuǎn)發(fā)微博的總次數(shù).該值越大說明用戶與上游用戶之間的交互強(qiáng)度越大.用戶和上游傳遞者之間的交互強(qiáng)度與轉(zhuǎn)發(fā)似然之間的關(guān)系如圖14所示.從圖14可以看出,如果用戶與上游用戶之間的交互強(qiáng)度越大,那么該用戶轉(zhuǎn)發(fā)上游用戶微博的可能性也越大,與我們的直觀認(rèn)識(shí)一致,而且從圖15可以看出用戶交互強(qiáng)度在轉(zhuǎn)發(fā)和忽略上的區(qū)分度較大,因此該特征可以很好地用于用戶轉(zhuǎn)發(fā)行為的預(yù)測(cè).4.5微博內(nèi)容相似度該特征考慮微博內(nèi)容與用戶興趣偏好的相近程度,用戶的興趣偏好可以通過分析用戶的歷史轉(zhuǎn)發(fā)記錄得出.我們直觀地認(rèn)為微博內(nèi)容越符合用戶的興趣愛好,它被該用戶轉(zhuǎn)發(fā)的可能性也就越大.由于用戶的興趣偏好具有時(shí)效性,用戶最近一段時(shí)間轉(zhuǎn)發(fā)的微博最能代表用戶近期的興趣偏好,因此本文僅將用戶最近轉(zhuǎn)發(fā)的信息集合作為歷史記錄.既保證了預(yù)測(cè)精度,又降低了計(jì)算代價(jià).首先對(duì)待預(yù)測(cè)微博和待預(yù)測(cè)用戶的文本進(jìn)行分詞,并將這兩段語料表示成向量空間模型(VSM)[21],向量中的每個(gè)元素為對(duì)應(yīng)詞的TF-IDF值1,將兩者的余弦值作為當(dāng)前信息與該用戶興趣偏好的相關(guān)性度量.余弦值越大,說明文本之間的夾角就越小,兩段語料也就相似.信息Ccontent和用戶歷史轉(zhuǎn)發(fā)記錄集合Chistory的向量空間計(jì)算過程如下:(1)采用ICTCLAS漢語分詞系統(tǒng)2對(duì)C=Ccontent∪Chistory進(jìn)行分詞,得到詞匯字典D={w1,w2,…,wn},其中wi為C出現(xiàn)過的詞語(不包括“是”、“的”等停止詞),n為出現(xiàn)過的單詞個(gè)數(shù).(2)對(duì)D中的每個(gè)詞語計(jì)算其TF-IDF(TermFrequency-InverseDocumentFrequency)值,作為單詞的權(quán)重,記為ti其中ni代表詞語wi在文本中的詞頻,k表示文本中出現(xiàn)過的不同單詞總數(shù).為詞wi的逆文檔頻率(IDF),是詞語重要性的度量,這里由微博總數(shù)除以包含該詞語的微博數(shù)目,再將商取對(duì)數(shù)得到.(3)生成向量空間表示用當(dāng)前信息和用戶歷史轉(zhuǎn)發(fā)記錄的向量空間模型的余弦值作為內(nèi)容相關(guān)性的度量值:在給定相似度數(shù)值度量方法之后,似然分布如圖16和圖17所示.從圖中可以看出如果微博內(nèi)容與用戶興趣相似度越高(相似度大于0.3),那么用戶越有可能轉(zhuǎn)發(fā)該微博;如果相似度很小甚至為0,用戶仍然有一定的概率轉(zhuǎn)發(fā)該微博.因此,我們可以認(rèn)為微博內(nèi)容與用戶興趣偏好的相似度能夠用于預(yù)測(cè)他們的轉(zhuǎn)發(fā)行為.4.6密度作為用戶特征的微博轉(zhuǎn)發(fā)概率考慮到用戶的行為也受到具有相同興趣的傳遞者的影響,我們分析了用戶與相鄰傳遞者、微博原創(chuàng)者之間的興趣相似度對(duì)轉(zhuǎn)發(fā)的影響.從圖18和圖19可以看出,用戶間興趣相似度與轉(zhuǎn)發(fā)似然之間的關(guān)系和微博內(nèi)容相似度與轉(zhuǎn)發(fā)似然之間的關(guān)系較為相似,用戶之間的興趣相似度越高,轉(zhuǎn)發(fā)概率也就越大.特別的,當(dāng)用戶之間的興趣相似度比較小時(shí),仍然有一定的概率轉(zhuǎn)發(fā).這也比較符合人們的獵奇心態(tài),當(dāng)看到比較新奇的內(nèi)容時(shí),往往傾向于轉(zhuǎn)發(fā),分享給自己的粉絲.除了以上這些特征,我們還考慮了其他一些特征,例如原創(chuàng)微博的發(fā)布時(shí)間,用戶每條微博的平均轉(zhuǎn)發(fā)率,原創(chuàng)以及上游用戶是否是認(rèn)證用戶,原創(chuàng)微博的文本長(zhǎng)度等.我們將所有的特征分為3類:(1)用戶特征.該類特征只與用戶個(gè)體相關(guān),可獨(dú)立計(jì)算.例如用戶粉絲數(shù)、用戶PageRank值、是否是認(rèn)證用戶等.(2)社交特征.該類特征主要體現(xiàn)兩個(gè)用戶之間的社交特性,例如交互強(qiáng)度、用戶之間的興趣相似度等.(3)微博特征.該類特征從微博文本中提取,包括內(nèi)容相似度、發(fā)表時(shí)間等.表1給出了所有的特征以及其說明,其中1~7為用戶特征、8~11為社交特征、12~15為微博特征.5用戶身份驗(yàn)證在本節(jié)中,我們將通過監(jiān)督學(xué)習(xí)框架刻畫本問題,并使用多種算法對(duì)用戶的轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè).5.1傳播路徑b:關(guān)注網(wǎng)絡(luò)下關(guān)注關(guān)系,轉(zhuǎn)發(fā)傳播用戶對(duì)于用戶轉(zhuǎn)發(fā)行為預(yù)測(cè)的問題描述如下:給定微博關(guān)注網(wǎng)絡(luò)G〈U,E〉,G是有向網(wǎng)絡(luò),U是網(wǎng)絡(luò)中所有用戶的集合,E是關(guān)注網(wǎng)絡(luò)中關(guān)注關(guān)系的集合.用戶uorigin在時(shí)刻t發(fā)布或者轉(zhuǎn)發(fā)一條微博m,該條微博經(jīng)過的傳播路徑記為P〈uorigin,u1,…,un〉,n為傳播路徑的長(zhǎng)度,若用戶u關(guān)注了傳播用戶un,預(yù)測(cè)用戶u是否會(huì)轉(zhuǎn)發(fā)該微博或者轉(zhuǎn)發(fā)該微博的概率p.5.2貝葉斯網(wǎng)絡(luò)的密度估計(jì)預(yù)測(cè)(1)數(shù)據(jù)集.對(duì)于轉(zhuǎn)發(fā)行為預(yù)測(cè)問題,我們從爬取的數(shù)據(jù)中共提取出439607個(gè)轉(zhuǎn)發(fā)樣本,203156個(gè)忽略樣本.在預(yù)測(cè)過程中,采用十折交叉驗(yàn)證,將全部數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集.對(duì)于傳播路徑預(yù)測(cè)問題,我們從數(shù)據(jù)集中共提取了12284條轉(zhuǎn)發(fā)路徑作為測(cè)試集.(2)預(yù)測(cè)方法.我們選擇邏輯回歸、樸素貝葉斯以及貝葉斯網(wǎng)絡(luò)等方法對(duì)該問題進(jìn)行求解.在貝葉斯方法中,需要估算每個(gè)因子的類條件概率密度.圖20和圖21是與上游用戶話題相似度特征在轉(zhuǎn)發(fā)和忽略行為中的類條件概率密度分布,從圖上我們無法判斷它們的類條件概率密度函數(shù)形式,因此采用ParzonWindow進(jìn)行非參數(shù)估計(jì).非參數(shù)方法的優(yōu)勢(shì)在于能夠處理任意形式的密度函數(shù),不必假設(shè)密度函數(shù)的參數(shù)形式,但是需要的樣本數(shù)量要遠(yuǎn)多于參數(shù)方法.由于我們擁有足夠多的樣本,因此采用非參數(shù)方法能夠很好地利用已知樣本對(duì)總體分布密度函數(shù)進(jìn)行估計(jì).具體計(jì)算方法如下:其中p(x|C)是所要估計(jì)的因子f在轉(zhuǎn)發(fā)或忽略類C∈{repost,ignore}中的條件概率密度,n為相應(yīng)類中的樣本個(gè)數(shù),h是窗口寬度,φ是窗口函數(shù),我們采用標(biāo)準(zhǔn)正態(tài)分布作為窗口函數(shù).在貝葉斯網(wǎng)絡(luò)中,我們使用K2方法學(xué)習(xí)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu).6結(jié)果與分析6.1預(yù)測(cè)率與其他指標(biāo)的roc曲線對(duì)比預(yù)測(cè)結(jié)果以混淆矩陣的形式表示(圖22).為了評(píng)價(jià)預(yù)測(cè)模型的效果,我們選用信息檢索的評(píng)價(jià)指標(biāo),包括查準(zhǔn)率、查全率和F1度量.查準(zhǔn)率指一類中被正確預(yù)測(cè)的微博占預(yù)測(cè)為該類微博的比例,例如,被轉(zhuǎn)發(fā)的微博這一類中,準(zhǔn)確率為a/(a+c),查全率為一類中被正確預(yù)測(cè)的微博占該類實(shí)際的全部微博的比例,例如還是被轉(zhuǎn)發(fā)的微博這一類中,查全率為a/(a+b),F1度量是一個(gè)綜合指標(biāo),可以用來同時(shí)描述查準(zhǔn)率和查全率,計(jì)算方式如式(8)所示.我們還分析了各類特征對(duì)于預(yù)測(cè)的結(jié)果的影響程度,評(píng)價(jià)指標(biāo)采用ROC(ReceiverOperatingCharacteristic,受試者工作特征曲線,又稱感受曲線).ROC以真正類率為縱坐標(biāo),以負(fù)正類率為橫坐標(biāo).傳統(tǒng)的評(píng)價(jià)方法有一個(gè)共同特點(diǎn),必須將預(yù)測(cè)結(jié)果分為兩類,再進(jìn)行統(tǒng)計(jì).ROC曲線的評(píng)價(jià)方法與傳統(tǒng)的評(píng)價(jià)方法不同,沒有這個(gè)限制,而是根據(jù)實(shí)際情況,允許有中間狀態(tài),可以把結(jié)果劃分為多個(gè)有序分類.ROC曲線越靠近左上角代表預(yù)測(cè)方法的效果越好,也可通過ROC曲線下方的面積(AUC)大小進(jìn)行比較,AUC越大,說明預(yù)測(cè)方法的效果越好.6.2相關(guān)系數(shù)的計(jì)算轉(zhuǎn)發(fā)行為預(yù)測(cè)結(jié)果如表2所示.從表2可以看出,使用貝葉斯網(wǎng)絡(luò)方法進(jìn)行預(yù)測(cè)的效果最好.樸素貝葉斯是基于因子互相獨(dú)立的假設(shè),而實(shí)際上影響因子之間往往存在著一定的聯(lián)系,圖23展示了微博原創(chuàng)者PageRank值與用戶粉絲數(shù)之間的關(guān)系.為了定量計(jì)算用戶PageRank值和粉絲數(shù)之間的相關(guān)性,我們使用式(9)來計(jì)算二者的相關(guān)系數(shù).其中,Cov(X,Y)是兩個(gè)特征的協(xié)方差,定義如下:R(X,Y)是介于0和1之間的數(shù),值越大則兩個(gè)特征越相關(guān).若為0,則說明X,Y不相關(guān);為1,則說明X,Y線性相關(guān).我們抽取了部分用戶作為樣本,提取出他們的PageRank值和規(guī)格化后的粉絲數(shù),計(jì)算出兩者的相關(guān)系數(shù)為0.575,說明用戶PageRank值與粉絲數(shù)這兩個(gè)特征存在著較強(qiáng)的相關(guān)性.如圖23所示,一些特征之間存在著某些聯(lián)系,由于這種特征之間的相關(guān)性,研究某種類型的特征而不是每一個(gè)具體的特征對(duì)于用戶轉(zhuǎn)發(fā)行為的影響更有意義.因此,本文分別利用三類特征對(duì)轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè),以比較不同類別特征在轉(zhuǎn)發(fā)預(yù)測(cè)中的影響.預(yù)測(cè)結(jié)果如表3~表5所示.圖24畫出分別使用三類因子預(yù)測(cè)用戶轉(zhuǎn)發(fā)行為的ROC曲線.從圖中我們可以看出,對(duì)用戶轉(zhuǎn)發(fā)行為影響最大的是社交類特征,而微博本身的特征對(duì)于轉(zhuǎn)發(fā)行為的影響在三個(gè)類中是最小的.這充分說明了微博是一個(gè)社
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年個(gè)人股份轉(zhuǎn)讓與清算服務(wù)協(xié)議范本4篇
- 2025年離婚手續(xù)辦理與婚姻解除后財(cái)產(chǎn)清算及分配合同3篇
- 2025年度個(gè)人與銀行消費(fèi)貸款合同(二零二五版)4篇
- 建設(shè)工程勘察設(shè)計(jì)合同(2篇)
- 初三學(xué)習(xí)策略講解模板
- 二零二五年度智能設(shè)備模具定制加工合同范本4篇
- 音樂核心素養(yǎng)課程設(shè)計(jì)
- 二零二五年度門診藥品銷售權(quán)承包合作協(xié)議3篇
- 配電柜拆除施工方案
- 造價(jià)管理課程設(shè)計(jì)
- 小學(xué)數(shù)學(xué)六年級(jí)解方程練習(xí)300題及答案
- 電抗器噪聲控制與減振技術(shù)
- 中醫(yī)健康宣教手冊(cè)
- 2024年江蘇揚(yáng)州市高郵市國有企業(yè)招聘筆試參考題庫附帶答案詳解
- 消費(fèi)醫(yī)療行業(yè)報(bào)告
- 品學(xué)課堂新范式
- GB/T 1196-2023重熔用鋁錠
- 運(yùn)輸行業(yè)員工崗前安全培訓(xùn)
- 公路工程安全風(fēng)險(xiǎn)辨識(shí)與防控手冊(cè)
- 幼兒園教師培訓(xùn):計(jì)數(shù)(數(shù)數(shù))的核心經(jīng)驗(yàn)
- 如何撰寫和發(fā)表高水平的科研論文-good ppt
評(píng)論
0/150
提交評(píng)論