Reddit的評論排序新算法_第1頁
Reddit的評論排序新算法_第2頁
Reddit的評論排序新算法_第3頁
Reddit的評論排序新算法_第4頁
Reddit的評論排序新算法_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Reddit的評論排序新算法#Voldemort 投遞:這篇翻譯自 Redditblog,除了投稿之外我更希望煎蛋能夠采用這個(gè)算法。解決長久以來文章置頂評論基本上被前十樓占領(lǐng)的問題。 Reddit置頂評論的質(zhì)量可以說是我見過的網(wǎng)站中最高的,原因就在于 Reddit的帖子和評論的排序算法一直以來都是業(yè)界領(lǐng)先。這個(gè)算法是xkcd的作者Randall神牛推薦給Reddit的,我的觀察是效果相當(dāng)岀眾。其實(shí)算法極其簡單,就是把原來排序的公式 (JavaScript為例)score=oo-xx;改成一個(gè)稍微復(fù)雜點(diǎn)的公式n=oo+xx;if(n==0){score=0;}else{z=1.96;phat=oo/n;score=(phat+z*z/(2*n)-z*Math.sqrt((phat*(1-phat)+z*z/(4*n))/n))/(1+z*z/n);嗨!我是xkcd的作者Randall,今天來為大家解釋下 Reddit的新的評論排序系統(tǒng)。這個(gè)系統(tǒng)是我當(dāng)時(shí)極力推薦的。一般呢,我會給我的博客文章配些手繪圖, 但是今天這篇文章內(nèi)容沒什么圖可配, 所以可能會混進(jìn)些亂七八糟的東西,你們湊合看吧 ?Reddit現(xiàn)在采用了一個(gè)新的算法: “Bes排序(之前有Top/Hot/New/Controversial/Old)。注意這個(gè)算法僅僅用在評論排序中,沒有用在文章排序中。 Davean(xkcd系統(tǒng)管理員)之前寫過一個(gè)補(bǔ)丁,試用了這個(gè)新算法大概一周。今天早上,它正式成為了我們評論區(qū)的默認(rèn)排序方法。本人認(rèn)為這個(gè)算法相當(dāng)給力。 其實(shí)大多數(shù)人都不會注意到有什么變化, 它并不影響評論層級等其它東西,但是會極大改善置頂 (最高oo)評論的質(zhì)量。

算法的具體細(xì)節(jié)可以猛擊這篇來自 EvanMiller的文章。作者認(rèn)為常見的根據(jù)投票來排序的體系都存在各自的問題,他解釋了算法的具體細(xì)節(jié)并給岀了例子。如果你想看看新系統(tǒng)在 Reddit中運(yùn)用的實(shí)戰(zhàn)效果可以直達(dá)本文最后附上的截圖。但是廣大 geek們可能更想知道新算法究竟為什么能改善Reddit評論質(zhì)量。Reddit評論排序一個(gè)最嚴(yán)重的問題是極其偏袒比較早發(fā)表的評論。如果有人在文章發(fā)布一小時(shí)內(nèi)回復(fù)一個(gè)很一般的吐槽,只要這個(gè)吐槽有那么一點(diǎn)點(diǎn)好笑, 這條評論將一定會被頂為最佳評論。順便說下之所以我很了解這個(gè)現(xiàn)象,是因?yàn)槲矣幸欢?Reddit馬甲,我用它們發(fā)過無數(shù)不是很好笑的吐槽。這是因?yàn)橐坏┮粋€(gè)評論在文章剛剛發(fā)表的時(shí)候得到一些 oo,它會被頂?shù)阶钌厦?。而評論排名越前,它被后來的網(wǎng)友讀到的概率就越大, 所以會形成一個(gè)良性循環(huán)從而鎖定了這評論置頂?shù)奈恢谩6恼掳l(fā)表一小時(shí)后的優(yōu)秀評論,就算讀過它們的網(wǎng)友中給 oo的比例遠(yuǎn)遠(yuǎn)高岀置頂評論,也很難撼動(dòng)置頂評論的地位。每隔一段時(shí)間總有些帖子的話題是類似于 你最喜歡的笑話/最有用的建議/最尷尬的秘密/最古怪的癖好”等等。幾周前,我找了一個(gè)這樣的帖子。當(dāng)時(shí)這個(gè)帖子剛發(fā)表 8個(gè)多小時(shí)。我數(shù)了數(shù)排在最上面的10條評論,不是發(fā)表于7小時(shí)前”就是發(fā)表于8小時(shí)前”也就是說它們都發(fā)表于的帖子誕生后的兩個(gè)小時(shí)內(nèi)。所謂 置頂”評論實(shí)際上已經(jīng)成了一個(gè) 一小時(shí)速回笑話排行榜”在之后的六個(gè)小時(shí)之中沒有一個(gè)評論能擠進(jìn)排行榜。要知道這個(gè)時(shí)間段才是評論發(fā)表的高峰期。這些后發(fā)表的評論完全沒有競爭的機(jī)會。 隨著帖子慢慢被刷出首頁,之后評論的票數(shù)就不怎么增長了?;蛟S后來的網(wǎng)友中有人會碰巧看到,給個(gè) oo,但是這并不會幫助它們追上置頂評論。一個(gè)典型的例子,就是有時(shí)候你會看到有人特意回復(fù)置頂評論 抱歉擠進(jìn)您的評論,但是我要鏈接一個(gè)重要確鑿的事實(shí)來駁斥樓主的觀點(diǎn) ”因?yàn)樗麄冎?,無論他們提供的信息有多寶貴,也成為不了置頂評論。我碓了.管理員們試圖通過一種拙劣的 hack來解決這個(gè)問題: “hot排序(給評論加上時(shí)間限制,一段時(shí)間后原有置頂評論會被撤銷置頂)。但是這個(gè)排序會不分青紅皂白地把真正優(yōu)秀的評論也踢下去。而且文章發(fā)表一兩天后,評論區(qū)的排序會完全一片混亂。有一個(gè)解決方案,這就是新的“Best排序。大概思路是這樣的,當(dāng)有少量的人給一條評論投票后,我們對這條評論的質(zhì)量會有一個(gè)大概的印象。終的正確排名。通過這個(gè)算法,我們把這種出評論的真實(shí)質(zhì)量。對某一條評論來說,如果每個(gè)人都能看到它,我們對這條評論的質(zhì)量會有一個(gè)大概的印象。終的正確排名。通過這個(gè)算法,我們把這種出評論的真實(shí)質(zhì)量。對某一條評論來說,如果每個(gè)人都能看到它,評論的人越多,我們就越能精確地評價(jià)這條評論最精確程度”進(jìn)行量化,從有限的投票中盡可能的推測并且給它投票,它最終會得到一定比例的 00和XX新算法把已經(jīng)投岀的00和XX看作是所有可能投岀的oo/xx的統(tǒng)計(jì)抽樣,并計(jì)算得到95%置信區(qū)間。我們第一步對這些區(qū)間進(jìn)行排名,這個(gè)暫時(shí)排名比較的是這些評論最終排名 100在一百次統(tǒng)計(jì)中95次可能落在的區(qū)間。如果一條評論得到了 1個(gè)oo和0個(gè)xx,那它的優(yōu)評比就會是100%。但是我們的抽樣數(shù)據(jù)太少了,系統(tǒng)還是會把它排在最低。但是如果它已經(jīng)得到了 10個(gè)oo但只有1個(gè)xx,我們應(yīng)當(dāng)有足夠的自信把它排在一條 40oo/20xx的評論前面,因?yàn)槲覀兛梢栽O(shè)想當(dāng)這條評論有機(jī)會得到 40oo的時(shí)候,它的xx數(shù)幾乎可以肯定少于 20,精確地說是95%以上的概率少于20。不僅如此,最妙的地方在于就算我們錯(cuò)了 (5%概率),這條評論會迅速得到大量新的抽樣數(shù)據(jù),從而將它快速糾正到正確的位置。 也就是說在這個(gè)這個(gè)新算法下, 真正優(yōu)秀的評論會迅速置頂并停留在最高位置,而欠佳的評論則只能漂浮在排行榜的最底部。 細(xì)心的網(wǎng)友可能會注意到有些評論就是會得到更多的投票(不是指更多oo或更多xx,而是讀了這些評論的人會更傾向于投上一票),這個(gè)現(xiàn)象我們的新算法并沒有明確考慮到,然而這個(gè)現(xiàn)象產(chǎn)生的偏袒比起發(fā)表時(shí)間產(chǎn)生的偏袒要微小得多。而且總票數(shù)少的評論本來就更難估計(jì)質(zhì)量。在實(shí)際運(yùn)行中,這個(gè)新的排序系統(tǒng)效果可謂拔群。下面是一個(gè)我今天看到的帖子 (就在我寫這篇文章的時(shí)候)。一個(gè)Redditor想人肉搜索一個(gè)酒吧中曾經(jīng)給他拍照的妹子:上周未哪個(gè)網(wǎng)友在我醉得昏天地暗的時(shí)候給我拍了張照片?($倉;斗賢上g■它dTit〉subrri止1jjy jadepanther拍照的妹子相當(dāng)長一段時(shí)間后才發(fā)現(xiàn)了這個(gè)帖子, 回復(fù)并提供了照片。在那之前,網(wǎng)友們各種吐槽,幾個(gè)小時(shí)后才有人回答他的問題, 找到了那張照片。 雖然妹子本人的回復(fù)被網(wǎng)友怒頂, 但是在老的排序系統(tǒng)下,她的回復(fù)根本頂不到置頂區(qū)去savesavetorrnattinghelpcallmejeremy35Hpornts1dayagu[-]込科^發(fā)越崗真快期,愛達(dá)荷州也通上互聯(lián)網(wǎng)了.permalinkreportreplyPeppermint_Twist98points1dayago卜]也們當(dāng)然羽的起二豆電悅你難眉殳間劉朋菜很的味逍軒?mrnd順慢說下扛良童荷斜1的「有酬g會混著成耋達(dá)荷或害舷臨狗門愛荷華的因忖網(wǎng)足阿門宗的人開的?—permalinkparentreportreplyP9rkman472Cponts1{iaya^c-卜]/spud/8小時(shí)后,這個(gè)妹子的8小時(shí)后,這個(gè)妹子的好的,咱們看下面新算法的排序結(jié)果,我想不用我多說了commarrt^vf: ▼)200▼CIx—ronnsplateSfi2C 3hwe旳。卜]這出肱張圖片:http://imgijrxom)gKJTojpgptirmalimlkreportreplyfadep^rntherS)9&pcur-Tj*Bhours洛口(-]*映S蟻!I存丹我那天見到泊貫力網(wǎng)灰嗎?permalinkparentreportrep

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論