微博題名指數(shù)的構(gòu)建與名人效應(yīng)研究_第1頁
微博題名指數(shù)的構(gòu)建與名人效應(yīng)研究_第2頁
微博題名指數(shù)的構(gòu)建與名人效應(yīng)研究_第3頁
微博題名指數(shù)的構(gòu)建與名人效應(yīng)研究_第4頁
微博題名指數(shù)的構(gòu)建與名人效應(yīng)研究_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

微博題名指數(shù)的構(gòu)建與名人效應(yīng)研究

0相關(guān)研究現(xiàn)狀微博是一個基于用戶關(guān)系的信息交換、傳播和接收平臺。用戶可以通過web、wap和其他客戶端組件添加信息,并立即添加。近兩三年來,微博的發(fā)展得到了國內(nèi)國外學(xué)術(shù)界的關(guān)注。國外對于名人用戶專門性的研究相對較少,大部分文章都只是將其作為研究對象之一。如BorgsChristian,ChayesJennifer等介紹了簡單的博弈論模型,得到了名人在社交網(wǎng)絡(luò)中更新的競爭率。ChaMeeyoung,BenevenutoFabrício等收集了大量來自Twitter的名人等用戶數(shù)據(jù)以比較不同類型的用戶在信息流動中所發(fā)揮的相對作用。LautmanRóisín,CurranKevin等人在文獻(xiàn)中提及到英國的名人,以其在Twitter上公開展示的樣品案件為例,討論了在互聯(lián)網(wǎng)上管轄權(quán)的相關(guān)問題。對于名人效應(yīng)的研究較少,而基于用戶影響力的研究大多是建立了相關(guān)的模型。如Yung-MingLi等人提出了MIV(市場有影響力的值)模型來評估影響力的強度。國內(nèi)研究微博客的相關(guān)文獻(xiàn)中,對于用戶特征的研究只有幾篇。如:趙文兵、朱慶華等人以國內(nèi)財經(jīng)網(wǎng)站和訊微博為例,使用計量學(xué)方法,對用戶特性進(jìn)行統(tǒng)計分析。王曉光以新浪微博為研究樣本,考察了微博客用戶基本行為特征和關(guān)系特征。何黎等人通過對微博用戶的信息和關(guān)系數(shù)據(jù)進(jìn)行決策樹分析、相關(guān)性分析和關(guān)聯(lián)規(guī)則挖掘來發(fā)掘用戶特征。對名人用戶特征研究的也只有一篇而且偏定性,如羅藝漫對世界杯期間體育名人微博的特征進(jìn)行了分析。國內(nèi)對微博中名人用戶的研究主要集中于名人微博影響、名人微博戰(zhàn)略的研究。這些研究大多是定性的。因此,論文應(yīng)用統(tǒng)計分析、相關(guān)分析、Apriori模型,以新浪微博中名人用戶數(shù)據(jù)為基礎(chǔ),建立名氣指數(shù),分析名人用戶的一般特征,以及創(chuàng)建轉(zhuǎn)發(fā)影響力指數(shù),定量分析名人效應(yīng)。1研究設(shè)計1.1用戶微博維護(hù)時間論文基于C#語言自行編寫的爬蟲程序抓取和收集新浪微博上的所有用戶的信息,包括用戶ID、用戶昵稱、職業(yè)、地址、用戶粉絲數(shù)、用戶關(guān)注數(shù)、用戶博文數(shù),用戶微博創(chuàng)建時間及其是否認(rèn)證等,從2012年4月4日持續(xù)到4月10日為期一周的時間。最后收集到的用戶個人信息總數(shù)為13357條。1.2spearman相關(guān)關(guān)系相關(guān)分析(correlationanalysis)是研究現(xiàn)象之間是否存在某種依存關(guān)系,并對具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度,是研究隨機變量之間的相關(guān)關(guān)系的一種統(tǒng)計方法。相關(guān)系數(shù)r用來表示兩個變量之間線性關(guān)系的程度,主要有Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù)和Kendall相關(guān)系數(shù)三種。當(dāng)研究數(shù)據(jù)總體分布未知、總體呈現(xiàn)非正態(tài)分布以及數(shù)據(jù)為順序級變量時,可應(yīng)用基于秩次的Spearman相關(guān)系數(shù)。Spearman相關(guān)系數(shù)的一般計算公式為:其中,Rj和Qj分別是兩個變量的第j個值的秩次。一般認(rèn)為,|r|越接近于1,線性相關(guān)程度越高;|r|越接近于0,線性相關(guān)程度越低。r>0,表示兩個變量呈正相關(guān);r<0,表示兩個變量呈負(fù)相關(guān);r=0,表示兩個變量不相關(guān)。根據(jù)r的大小,一般可劃分為四級:當(dāng)|r|≥0.8時,表示兩個變量高度相關(guān);當(dāng)0.5≤|r|<0.8時,表示兩個變量中度相關(guān);當(dāng)0.3≤|r|<0.5時,表示兩個變量低度相關(guān);當(dāng)|r|<0.3時,表示兩個變量微弱相關(guān)。此外,偏相關(guān)分析是研究兩個變量之間的線性相關(guān)關(guān)系時,控制可能對其產(chǎn)生影響的變量。1.3用戶支持度閾值提取關(guān)聯(lián)規(guī)則是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián),并以規(guī)則的形式表達(dá)出來。它是形如“Aue03cB”的蘊含式,它包括兩個部分:左部A稱為前項,右部B稱為后項。在進(jìn)行關(guān)聯(lián)規(guī)則挖掘之前,用戶要先定義最小支持度閾值和最小置信度閾值。Agrawal等在1993年設(shè)計了關(guān)聯(lián)規(guī)則挖掘的基本算法Apriori,將關(guān)聯(lián)規(guī)則的挖掘分解成兩個子問題:a.找到所有支持度大于最小支持度的項集(itemset),這些項集稱為頻繁集(frequentitemset);b.使用a找到的頻繁項集產(chǎn)生期望的規(guī)則。對于每個頻繁項集L,產(chǎn)生L的所有非空子集。對于L的每一個非空子集s,如果置信度大于最小置信度閾值,因為頻繁項集自動大于最小支持度閾值,就可以輸出規(guī)則“s→(L-s)”。2確認(rèn)研究2.1名指數(shù)2.1.1處理投訴2.1.2用戶登記用戶分析結(jié)果其中,Fri_C表示用戶關(guān)注數(shù),Fol_C表示用戶粉絲數(shù),N表示研究樣本總量。用戶關(guān)注數(shù)越小,而粉絲數(shù)多,粉絲數(shù)與關(guān)注數(shù)比例大,同時粉絲數(shù)占據(jù)研究樣本總量比例大,即RI值大,表明用戶在研究樣本群中更易引起別人的興趣,所以名氣更大。相反,用戶關(guān)注數(shù)大,而粉絲數(shù)少,粉絲數(shù)與關(guān)注數(shù)比例小,同時粉絲數(shù)與研究樣本總量比例大,即RI值小,表明用戶在研究樣本群眾不易引起別人的興趣,所以名氣更小。對用戶信息由式(2)計算名氣指數(shù),通過名氣指數(shù)的排名,發(fā)現(xiàn)相對于粉絲數(shù)其排名有了微小變化,排名前10位的用戶如表1所示。同時根據(jù)計算的名氣指數(shù)值,選擇名氣指數(shù)大于10的用戶分析,得到987位用戶并進(jìn)行了分類,如表2所示。論文將這些用戶進(jìn)行了分類,分別分為超具名氣名人、頗具名氣名人、一般名氣名人、略具名氣名人。由表2可知超具名氣名人的名氣指數(shù)相當(dāng)小,這部分名人所占比例不及2%,這符合現(xiàn)實中超級巨星很少的事實。同時,由表可見在所有用戶類型中,具有一般名氣的名人所占比例最高。2.2微齡和粉絲微齡論文從987位名人用戶的粉絲中隨機抽取了1000位用戶,以分析其微齡。微齡即微博年齡,是指微博用戶存在的時間,這里以月來計算。如某位用戶微博創(chuàng)建時間是2009年8月,這時該用戶自注冊賬號開始到筆者抓取數(shù)據(jù)當(dāng)月初為止(4月)經(jīng)歷了32個月,就說該用戶微齡為32。文章統(tǒng)計了987位名人用戶的微齡以及1000位粉絲微齡,并且進(jìn)行了探索分析,如圖1和圖2所示。由圖1中可見,名人用戶粉絲的微齡近似為正態(tài)分布,微博最初問世時期,普通用戶注冊數(shù)少,而隨著微博的火熱,普通用戶注冊量出現(xiàn)了高峰,而后注冊量開始慢慢減少,其平均微齡為14.7。而在圖2中,圖中的最高點對應(yīng)的值為32,新浪微博2009年8月開啟了測試版,說明在這期間,名人是其主要的注冊用戶,名人平均微齡為22.64個月,可見相對于普通用戶,名人更快的參與到了微博使用中。2.3有明顯的模擬特征博文數(shù)是指用戶發(fā)布微博次數(shù)的數(shù)量特征。論文利用SPSS軟件對其進(jìn)行探索分析,得到其頻率分布,如圖3所示。由圖可見,不管是名人還是其粉絲,隨著微博數(shù)量區(qū)間不斷增大,對應(yīng)的發(fā)博用戶數(shù)不斷減小,整體呈現(xiàn)出比較明顯的冪律特征。由圖3可以看出,所有名人用戶博文數(shù)的平均值是4498.58條,其中53.5%的名人用戶創(chuàng)造的博文數(shù)在2500條以下,很少的一部分名人創(chuàng)造了總博文數(shù)的大多數(shù)。名人用戶平均微齡為22.64,所以名人用戶每月發(fā)博文數(shù)平均為198.7條,即平均每天發(fā)博文數(shù)為6.6條,這是一個不錯的發(fā)博量。而圖4中可見名人用戶跟隨者的博文平均數(shù)為729.08,超過50%的跟隨者博文數(shù)不足500條。粉絲平均微齡為14.7,可見其每月平均博文數(shù)49.6條,平均每天發(fā)博數(shù)為1.6條。博文數(shù)是體現(xiàn)用戶使用微博的活躍度指標(biāo)之一,名人用戶發(fā)博數(shù)比普通用戶多了一個量級,可見名人用戶是微博使用者中信息創(chuàng)造和共享的主要群體。2.4三變量關(guān)系的特征分析2.4.1微齡與文獻(xiàn)檢驗的相關(guān)分析從表3可以看出,去除名氣指數(shù)影響時,微齡與博文數(shù)之間P=0.000<0.01,即微齡與博文數(shù)不相關(guān)的假設(shè)檢驗值為0.000,否定假設(shè),也就是說微齡與博文數(shù)存在相關(guān)關(guān)系,而r=0.197,表明這種相關(guān)程度較弱。在表4中,去除博文數(shù)影響,微齡和名氣指數(shù)之間P=0.000和r=0.165,表明微齡與名氣指數(shù)之間存在相關(guān)關(guān)系,同時相關(guān)程度也不大。2.4.2最佳位置的確定表5中可見,博文數(shù)與微齡不相關(guān)的假設(shè)檢驗為0.000<0.01,相關(guān)系數(shù)值為0.267,否定假設(shè),表明二者之間存在一定的相關(guān)性。結(jié)合表3分析,在去除名氣指數(shù)的影響,二者的相關(guān)系數(shù)為0.197,說明在受到名氣指數(shù)的影響時,博文數(shù)與微齡相關(guān)性程度有所提高,即名氣越大的用戶,其微齡越大時,博文數(shù)相對較多,相反如果名氣小的用戶,即使微齡大,博文數(shù)也較少。博文數(shù)與名氣指數(shù)間不相關(guān)的假設(shè)檢驗為0.264>0.01,接受原假設(shè),即表明名氣指數(shù)與博文數(shù)沒有直接的關(guān)系。名氣指數(shù)與微齡間不相關(guān)的假設(shè)檢驗值為0.000<0.01,否定原假設(shè),即名氣指數(shù)與微齡是相關(guān)的,而r=0.168,表明二者之間是較弱的相關(guān)性。結(jié)合表4分析表明,不管受不受到博文數(shù)影響,名氣指數(shù)與微齡間相關(guān)程度幾乎沒變。所以可見較早使用微博對名人名氣雖然有影響,但是這種影響并不大。2.5微博興起及其原因為了了解名人微博用戶的行為特征,論文利用Apriori模型,對用戶信息中的用戶名、性別、地址、粉絲數(shù)、關(guān)注數(shù)、博文數(shù)、是否認(rèn)證、職業(yè)以及創(chuàng)建微博時間等屬性進(jìn)行支持度為60%,置信度為90%的關(guān)聯(lián)規(guī)則分析,結(jié)果如表6所示。分析結(jié)果表明:a.愿意填寫自己真實姓名的用戶,有90%以上的可能性愿意在描述中公開自己的職業(yè),愿意認(rèn)證成為V用戶。b.不論用戶愿不愿意公布自己的真實名字,有90%以上的可能性都愿意公布自己的地址。c.愿意公布職業(yè)以及愿意認(rèn)證的用戶,有90%以上的可能性有更多的粉絲。d.創(chuàng)建微博較早、擁有粉絲較少的用戶,有90%以上的可能性都更愿意關(guān)注他人。e.創(chuàng)建微博較早,有90%以上的可能性發(fā)布了較多博文??梢娒擞脩粼谖⒉┲衅毓舛容^高,他們希望通過公開自己的真實資料,得到更多其他用戶的信賴,提高自己的名氣。少數(shù)的用戶,不愿意公開自己的真實姓名等相關(guān)信息,但是通過其公布的其他信息均可以推斷出該用戶。2.6從不同角度顯示了用戶之間的互補率互惠率即是相互關(guān)注的比率。名人用戶的粉絲的粉絲數(shù)量偏小,而名人用戶的粉絲數(shù)卻是超高的。可見粉絲跟隨名人用戶,但是他們大多不反過來關(guān)注他們的粉絲。新浪微博顯示了一個低水平的互惠。在抽取的1000位粉絲和987位名人用戶中,93.7%的粉絲和名人用戶之間連接是單向的,只有6.3%的用戶,它們之間的關(guān)系是互惠的。而在這987位名人用戶之間,有74.8%的用戶是相互關(guān)注的,而只有25.2%的用戶之間是單向連接或者無連接。可見,雖然名人與粉絲的互惠率較低,但名人與名人之間卻有一個較高的互惠率。這樣高的互惠率,再加之各個名人比較大的影響力,致使名人發(fā)微博或者轉(zhuǎn)發(fā)博文的影響更大。所以更高的互惠能使微博營銷事半功倍。2.7微博轉(zhuǎn)發(fā)影響力指數(shù)fii名人微博擁有眾多粉絲,其一言一行都會引起關(guān)注者的“騷動”。當(dāng)他們發(fā)布信息時,通過多層級的幾何式傳播,其效果不可小視,這樣企業(yè)信息的傳播可實現(xiàn)倍數(shù)放大。新浪微博的轉(zhuǎn)發(fā)榜中名人的微博條目最多,即便是當(dāng)中的內(nèi)容對他人沒有任何意義,也沒有鏈接。此外有很多獲得大量轉(zhuǎn)載的條目是一些冷笑話,語錄,名言。在收集的博文中,篩選出由作者轉(zhuǎn)發(fā)的博文。為了解名人的轉(zhuǎn)發(fā)影響力情況,創(chuàng)建了博文“轉(zhuǎn)發(fā)影響力指數(shù)”(Forwardimpactindex,FII)。公式如下:其中,a為該條博文在名人微博中產(chǎn)生的轉(zhuǎn)發(fā)量,b為原創(chuàng)者產(chǎn)生的轉(zhuǎn)發(fā)量,c為該條博文在名人微博中產(chǎn)生的評論數(shù),d為在原創(chuàng)者產(chǎn)生的評論數(shù),表示所有k值的幾何平均,同理表示所有g(shù)值的幾何平均。α為轉(zhuǎn)發(fā)所占權(quán)重,β為評論所占權(quán)重。由于微博轉(zhuǎn)發(fā)可以讓更多人看到這條博文,而評論卻沒有這個效果,認(rèn)為轉(zhuǎn)發(fā)的影響較評論更大,所以在此給α取值為0.7,β取值為0.3。FII值越高,表示轉(zhuǎn)發(fā)影響力越大,反之,則表示轉(zhuǎn)發(fā)影響力越小。通過計算得到前10位用戶的轉(zhuǎn)發(fā)影響力指數(shù),如表7所示。由表7與表1比較分析發(fā)現(xiàn)排名有了變動,前者是基于用戶跟隨者和關(guān)注者進(jìn)行的用戶關(guān)系的排名,而后者則是基于微文影響力進(jìn)行的排名。根據(jù)排名的變化情況,可以知道用戶的名氣與其博文轉(zhuǎn)發(fā)影響力有一定的相關(guān)性,但是并不大。3用戶信息與名人效應(yīng)文章基于新浪微博的名人用戶特征挖掘過程中主要完成了以下幾個工作。首先對名人用戶的總體特征進(jìn)行了分析。其次,使用相關(guān)分析方法對用戶名氣指數(shù)、微文數(shù)、微齡等變量做了兩兩相關(guān)分析。再次,利用Apriori模型,對用戶信息中的用戶名、性別、地址、粉絲數(shù)、關(guān)注數(shù)、博文數(shù)、是否認(rèn)證、職業(yè)以及創(chuàng)建微博時間等屬性進(jìn)行關(guān)聯(lián)規(guī)則分析。最后,分析了名人用戶的影響力,主要創(chuàng)建了轉(zhuǎn)發(fā)影響力指數(shù)。論文的創(chuàng)新點主要在于:a.研究對象有針對性,即名人。在對于用戶特征的挖掘中,大部分作者都是對微博中的所有用戶進(jìn)行特征挖掘,而且這類文獻(xiàn)較多,得出的結(jié)論也大同小異。而名人用戶掌握了微博中的絕對話語權(quán),因此論文特別挑選出名人用戶進(jìn)行特征挖掘,這便于一些企業(yè)進(jìn)行廣告宣傳策略的決策。b.自主構(gòu)建名氣指數(shù)定義研究對象。新浪微博中有名人堂,里面聚集了很多名人,但其多是以粉絲數(shù)這個單一的變量而篩選的。因此論文構(gòu)建了名氣指數(shù),從關(guān)注數(shù)和粉絲數(shù)的角度來定量定義名人,更顯合理。c.定量研究名人效應(yīng)。大多數(shù)文獻(xiàn)對名人效應(yīng)的研究屬于文字類的敘述,而論文創(chuàng)新性的提出了博文轉(zhuǎn)發(fā)影響指數(shù)公式,以用戶博文影響力的角度體現(xiàn)了名人效應(yīng)。但論文只研究了博文轉(zhuǎn)發(fā)影響力,未來可以從用戶信息與博文信息兩種角度深入研究名人效應(yīng)。在用戶信息中,有部分用戶博文數(shù)或者關(guān)注數(shù)為0。例如,最近影視明星舒淇卷入“甄趙事件”,她刪掉了所有博文和關(guān)注者。為了排除突發(fā)事件的影響,同時微

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論