




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、無論2016年科技圈熱門的噱頭有多少,對數(shù)據(jù)基礎(chǔ)設(shè)施方面的耕耘仍然是決定實力的關(guān)鍵。阿里之 類電商數(shù)據(jù)帝國自不待言,今日頭條、一點資訊等在資訊數(shù)據(jù)領(lǐng)域的開拓更加值得注目。比起電商的 物流數(shù)據(jù),資訊算法驅(qū)動與用戶數(shù)據(jù)分析是更加“觸及靈魂”的事情。1月15日,在頭條主辦的“珠海未來媒體峰會”上,技術(shù)出身的CEO張一鳴走到臺前,向臺下 一眾媒體人發(fā)表演講:我眼中的未來媒體。他縱橫媒體發(fā)展史、國內(nèi)外現(xiàn)狀,從古騰堡到貝索斯, 從App Store到Instant Articles,看似雄辯地證明媒體人把內(nèi)容輸送到算法推薦平臺是大勢所趨。一點資訊緊跟其后。1月20日,在其與鳳凰博報聯(lián)合舉辦“鳳凰一點通”年
2、度影響力自媒體盛 典上,一點資訊宣布打通兩家平臺,資源共享。一點資訊副總裁吳晨光面對臺下上百位自媒體人, 也在極力渲染一點資訊的讀者畫像等算法技術(shù)。鷸蚌相爭剛剛白熱化,已有一只黃雀在身后一一騰訊 的同類產(chǎn)品“天天快 報”已經(jīng)低調(diào)運營了一段日子,不知道在憋什么大招。人們應(yīng)該記得,2014年多家傳統(tǒng)媒體因版權(quán)問題對今日頭條發(fā)起聲勢浩大的訴訟。2015年11 月也有媒體發(fā)起對一點資訊的版權(quán)訴訟,但反響很小。再到如今,媒體人坐在臺下為張一鳴鼓掌捧場。 也許真是時勢變化,技術(shù)的發(fā)展已經(jīng)讓內(nèi)容生產(chǎn)者從驚恐到不得不適應(yīng)。頭條不是百度,推薦引擎有別于搜索引擎。其實頭條所自豪的算法推薦也不是這幾年才出現(xiàn), 谷歌
3、、百度都是前輩,為什么是頭條讓算法成了頗具神秘感的明星?頭條出名以來,一直有人吐槽推薦算法不準(zhǔn)確、制造信息繭房,一些評論者宣稱裝了就卸載。我 也有同感。不過就像帝吧遠征之人力洪流帶來的震撼,今日頭條巨大的流量也促使我重新審視算法洪 流。別忘了頭條招聘啟事上寫著:“對用機器學(xué)習(xí)算法解決現(xiàn)實問題有強烈的渴望和堅定的信仰?!鄙酗@粗糙的算法,正在成長的生命我先拋出對算法的總體觀點,有三個層面:首先,算法是一種類似金融資本的東西,是方法。就像財務(wù)投資者不必追求理解公司具體產(chǎn)品本 身,只在乎能否增值。算法不管內(nèi)容實質(zhì)是什么,只管能否數(shù)字化、分類集合、反饋優(yōu)化,是處理海 量信息的方法。與資本一樣,它能提升效
4、率,也與個體有矛盾。第二,張一鳴在演講中說Facebook把技術(shù)支持變成了一項接近水、電、煤氣這樣公共服務(wù)的事 情。再進一步,當(dāng)算法深入生活的方方面面,積累的智能本身將成為基礎(chǔ)設(shè)施。KK (凱文凱利) 在新書必然里說到,未來的人工智能網(wǎng)絡(luò)(主要包含算法)將會成為“如同電力一樣無處不在、 暗藏不現(xiàn)的低水平持續(xù)存在”。比如辦公室的桌椅和電腦都會識別你,記錄你喜歡的姿勢,在你一走 進辦公室就調(diào)整好姿態(tài),打開你常用的軟件、網(wǎng)站等等。但對于資訊內(nèi)容傳播來說,這還不夠。內(nèi)容不是桌椅,桌椅只要伺候我們,內(nèi)容卻是裝載了他人 靈魂的存在,要和我們互動、砥礪。這就是第三層,算法要想觸及靈魂,還得努力。頭條到底是什
5、么?有人已經(jīng)說了它不是新聞客戶端,而是信息分發(fā)平臺。僅此而已?張一鳴演講稱:“將對媒體在今日頭條平臺上的用戶數(shù)據(jù)進行更詳盡的統(tǒng)計分析。除了性別、終端、年齡、地域 分布等用戶屬性基本分析外,還將提供用戶的興趣和情感傾向分析。通過這一功能媒體可以知曉受 眾喜歡哪些分類的文章、用戶最喜歡文章里的哪些關(guān)鍵詞、關(guān)注你的人還喜歡哪些內(nèi)容等等?!边@話本意是針對微信,微信公眾平臺目前恰好只能提供受眾的“性別、終端、年齡、地域分布” 分析。興趣和情感,這是算法更高的追求。頭條的銷售人員在推銷自家產(chǎn)品時,可以告訴一家汽車制造商:用戶的閱讀行為數(shù)據(jù)能夠展現(xiàn)出 哪個地方的人最喜歡你們的哪一款車,我們將把你們的廣告推送
6、給合適的讀者。今日頭條的同類產(chǎn) 品“一點資訊”也在做同樣的事情。創(chuàng)始人鄭朝暉曾對內(nèi)容總監(jiān)吳晨光強調(diào):“比閱讀重要的是閱讀 者的行為?!彼灶^條們在做什么?今日頭條是偽裝成新聞客戶端的用戶行為數(shù)據(jù)收集器和分析器!(這感 覺就像有位美國政治學(xué)者說的,現(xiàn)代中國是一個偽裝成民族國家的文明帝國。)每一篇新聞都應(yīng)該 被看作一道對用戶的測試題,用戶的每一次點擊、評論都是一種回答,都被系統(tǒng)記錄,和關(guān)鍵詞、 Dom標(biāo)簽、作者、閱讀時間、網(wǎng)絡(luò)環(huán)境(wif i還是4g?)等等一起構(gòu)成多維數(shù)據(jù)矩陣,刻畫出這個 讀者的特征。每道“測試題”都很粗糙,但是就像KK的“蜂巢思維”所言,海量資訊一起測試出的 用戶特征就比較準(zhǔn)確
7、。而且用戶因為是在無意識中完成測試的,答案比較真實。這就是頭條們的技 術(shù)和商業(yè)模式核心所在。讀者難免會質(zhì)疑,你倒是收集好數(shù)據(jù)了,可是給了我們什么?讀者也不需要流量,要的是信息的 準(zhǔn)確和善解人意。我們不妨把算法看作一個正在成長的生命。普通讀者這些年對算法推薦的直觀感受并不佳:瀏覽了某個淘寶頁面之后再去其他網(wǎng)站,頁面也 會浮現(xiàn)同類產(chǎn)品的廣告,如果瀏覽的是情趣用品呢在頭條看新聞也很容易遇到這種情況一一相似 資訊不斷涌來。(可參見虎嗅上這個批評:我為什么看衰內(nèi)容的個性化推薦?)粗解今日頭條的算法經(jīng)常被頭條員工拿出來說的簡單算法是AB測試和 雙盲檢驗。算法架構(gòu)師曹歡歡和增長團隊的張楠都公開講解過,如何用
8、AB測試來判定一個產(chǎn)品修改的效果。 比如一個按鈕是用紅色好還是用藍色號,那么就各向1%的用戶發(fā)布兩種顏色產(chǎn)品,哪個下載得好就 推哪個。如果用在新聞上,就是同一條新聞由編輯給兩種標(biāo)題,測試哪個標(biāo)題點擊好。雙盲檢驗,是先讓算法判斷一個新聞的分類和推薦對象,然后讓兩個編輯分別檢驗,如果結(jié)果一 樣,就通過,不一樣就請第三人判斷并匯報程序員,重新調(diào)整算法。在我看,這背后是一個類似神 經(jīng)算法的“刺激-反應(yīng)”模式一一根據(jù)算法反應(yīng)對錯調(diào)整某個參數(shù)(權(quán)重),也是一種人工智能里常 見的“半監(jiān)督式學(xué)習(xí)”。這大概也是張一鳴口中人機結(jié)合、發(fā)揮人的智慧的證據(jù)之一。不過在這個例子中,編輯的角色比較被動,像工廠流水線上的螺絲
9、。我注意到今日頭條在拉勾網(wǎng)打出一個百萬美元年薪的廣告,招募算法架構(gòu)師,要求擅長:貝葉 斯學(xué)派相關(guān)算法,超大規(guī)模離散LR,深度神經(jīng)網(wǎng)絡(luò),各種tree-based的算法等。其他算法工程師崗 位要求大同小異。!99k-100k今日頭條招聘百萬年薪-今日一百萬年薪今日頭條CEO直招資深算法構(gòu) 99k- 00k的北京的全職凸不限切本科莊吐上耽值誘朝;白片羊彝今日頭奈移幼瓦卷國,歆據(jù)腮/ C&2 / 5D(J-2D0D職位描述I蚌裝百萬莢金今日頭荒全醺招鼻諼爆鼻注柄梨郎我們?yōu)橹X濡工卷曲到譴淵梁柄師,提俱的重斯橋準(zhǔn)為mlCH萬梁元 作為-街檢其更視機找學(xué)習(xí)的稼動互時俱忙司.我們正式面向全球招舜頊眼機器學(xué)習(xí)人
10、K.即采你是:華人,拉啪辱天的匯掣.誼是20萬人民甫:如壯你來目都很.這成11況元;如里你來曰活驀,諸是&3故方蘆tt ;如寇儷來日來荒,諾猊1衛(wèi)億日元:如果你來ESEX驥,ii83TJ5克明;即具飾來崗巴我利亞,注是辨萬砥元.松M的回掘.罰極崖含理.茹們程筮你就笛5?了 :至W三年用皺聃發(fā)機構(gòu)的工作蠟?zāi)樚戤a(chǎn)品何SE保持?jǐn)馗叨染碒L拂有時一切向昵理摸的 g 慰維.時以下耳活有漏A的評解一并誑門公式柜導(dǎo)祁Sfl洛圾放謎;貝葉斯學(xué)海格共S(在,超K娘段菌散瑚,濯屋薛攻網(wǎng)垸,苻辟1弛-買(1灼諄法嚏這些在技術(shù)人士眼中并不特別,很多IT公司必備,多和概率統(tǒng)計學(xué)有關(guān)。比如貝葉斯算法,常 用的郵件客戶端上
11、就有出現(xiàn)。H虛用員葉瓶過渤逃夠件 過溶強亶:O低中0宣P已學(xué)習(xí)信息日睨圾瞄件.:398?垃垠蛔牛;13日睨坂洵;;:3953&M垃圾詞; 10B99更耕時間:5016/1/i.O 1:27:01 學(xué)習(xí)狀態(tài):學(xué)習(xí)完成Foxmail 截圖我想盡我所能簡單介紹一下這位百萬年薪工程師具備的算法知識,不從數(shù)學(xué)專業(yè)角度(專業(yè)角度 我也不懂,否則我就去應(yīng)聘了),而是從用戶角度思考“算法想要什么”。以招聘啟事中的tree-based算法為例。為了處理信息,算法的初始訴求往往是對海量信息做分 類聚合。人類眼中的詞匯在它眼里都是參數(shù)(維度),一千個不同詞匯組成的一篇文章就是一千個 維度組成的一個向量。然后機器在代
12、數(shù)世界里衡量不同向量的相似度一一簡單向量距離分類法、貝葉 斯算法、KNN(K最近鄰居)算法、線性回歸、邏輯回歸維度太多,于是算法進化了,不再把每個詞當(dāng)作維度,而是把html代碼里的節(jié)點標(biāo)記(DOM)作 為維度,這樣就大大減少了維度個數(shù)。人類看見的標(biāo)題、文字、圖片,被代碼放在不同的DOM節(jié)點 里,比如head,比如body,比如TR、TD (表示表格的代碼),構(gòu)成樹狀結(jié)構(gòu)。算法以這些節(jié)點為維 度,用各種算法對比不同的文檔異同k means (硬聚類)算法,minimax (極小化極大算法)再進一步,引入圖論范疇的模式樹,就有了更高級的tree-based算法。下圖是個常見的html dom展示,
13、不需要看懂,只要了解機器眼中的文章是什么樣子。(機器眼中,各種標(biāo)記最重要,然后通過各種公式來處理。圖片來自愛范兒,公式來自酷勤網(wǎng))算法五花八門,我說的也不準(zhǔn),主要看氣質(zhì)一一算法這個孩子不知道新聞?wù)f了什么,只知道哪些 新聞是同類,哪些是熱點(點的人多當(dāng)然就是熱點,機器可以通過一種“組合”算法來判斷,可以 參見南京大學(xué)新聞傳播學(xué)院助理研究員、奧美數(shù)據(jù)科學(xué)實驗室主任王成軍的文章“今日頭條”怎么 計算:“網(wǎng)絡(luò)爬蟲+相似矩陣”技術(shù)運作流程)。文章標(biāo)簽、關(guān)鍵詞等也起到作用。算法的行為很有趣,好像在努力用各種辦法躲避對內(nèi)容靈魂本身的認知,只通過外表的形式特 征去猜內(nèi)容的相關(guān)度。讀者身上沒有關(guān)鍵詞,沒有標(biāo)簽,
14、算法如何把握?數(shù)學(xué)家們有辦法,貝葉斯算法就是一種。經(jīng)典的貝葉斯問題在小學(xué)奧數(shù)里就有(美劇生活大爆炸里也出現(xiàn)過):假如分別有A、B兩 個口袋,口袋A里有7個紅球和3個白球,口袋B里有1個紅球和9個白球,現(xiàn)從這兩個口袋里任意 抽出了一個球,且是紅球,問這個紅球是來自口袋A的概率是多少?讓我們換一個更具新聞性的表達方式:假如已知韓國每5年發(fā)射一次衛(wèi)星且每次爆炸失敗率是 60%,朝鮮每2年發(fā)射一次衛(wèi)星且每次爆炸失敗率是40%?,F(xiàn)在從朝鮮半島傳來一聲衛(wèi)星發(fā)射失敗爆 炸的巨響,請問這枚火箭來自朝鮮的概率是多少?根據(jù)貝葉斯公式【P(B|E) = P(B) X P(E|B) / P(E)】就可以推導(dǎo)出這個概率
15、來,也就是逆向 計算概率。恰好頭條自己提供了一個范例:2015年10月,在中國傳媒大學(xué)新媒體研究院和今日頭條聯(lián)合舉辦的“洞見數(shù)據(jù)的力量一一電視 媒體高峰論壇”上,一位叫做安娜的女士說:頭條有個獨特的算法能推算用戶的年齡,即使你沒在頭條訂閱。系統(tǒng)根據(jù)已確定年齡人群的動作、 特點和興趣做了一個模型,由協(xié)同原則判斷讀者是否符合這個模型,這時機器先預(yù)判是否為該年齡段 的用戶,同時機器再根據(jù)你的閱讀動作最終確定年齡段。這個獨特的算法可能就是貝葉斯算法(當(dāng)然也許不止一種算法,比如也可能存在專門用于挖掘不 同數(shù)據(jù)集合間關(guān)聯(lián)性的Apriori算法等)。我猜想算法架構(gòu)師會預(yù)先根據(jù)心理學(xué)、社會學(xué)統(tǒng)計數(shù)據(jù) 以及以往
16、讀者點擊數(shù)據(jù),構(gòu)建一個用概率來描述的人格特征模型,比如男性模型的特征之一是在閱讀 新聞時點擊軍事 新聞的概率是40%,而女性模型是4%。一旦一個讀者點擊了軍事新聞,算法就開始 逆推TA的性別,加上TA點擊其他新聞的行為數(shù)據(jù),綜合計算,就能比較準(zhǔn)確地判斷TA的性別。綜 合IP地址(地理信息)、點擊時間、評論參與、點贊行為這些明確的信息,就能區(qū)分出不同讀者的 取向、興趣。原理不難理解,但做起來考驗智慧和耐心。但是,算法并不像它自己吹噓得那么神,它有很大的困境困境1:它并不能區(qū)別風(fēng)格,也無法產(chǎn)生風(fēng)格算法團隊本身是較難產(chǎn)生風(fēng)格的。頭條、一點資訊和天天快報究竟有多少區(qū)別呢?風(fēng)格既人,風(fēng)格即靈魂。雞蛋個個
17、不同但那不是風(fēng)格,只是原始特征。風(fēng)格是一種需要積極建構(gòu) 的氣質(zhì),是生氣灌注的行動。傳統(tǒng)媒體都是有風(fēng)格的,沒風(fēng)格的不是死了,就是僵尸媒體。下面這個微博截圖體現(xiàn)了風(fēng)格:森質(zhì)素質(zhì)r同行盡量不勘L #:財經(jīng):呼可r談捂調(diào)r景報小漏也囹?.礦既磚求E芒房晏網(wǎng) 七 小編達兩天接連兩條關(guān)于黃安的微博r 一朝出黃安扣簍蘭前1常白灣旗的嗽另 Y 則是斷宣取迓對黃安的采訪?;蛟S是網(wǎng)小漏是不展黃安的冥些做法?但這么做r搭訴有(氐 U您時睡網(wǎng)V 4國星安:一竟最好,最適合口國”七】一臺灣這處B .春或兩個廄一竟最好.最適合口國人 T9眄年帽禁時r我N狎r竟得*3抒了 .末棒了,然若舌悔了“有些東西真的K能羥易云嘗就
18、我現(xiàn)在竟得戒嚴(yán)(一成嚴(yán)指1駝6年M兩落犯裁統(tǒng)時期;片總.黃盅:一克最召.黃安:一黨晶好r最適合中國人文I王抿超槃輯I周至美】-臺獨都是慫包, 密種,就的 觀年5穿的吉灣磨手整 朝君:財經(jīng)網(wǎng)馬:1月15日侶:57來自UC嵐覽器電腦版轉(zhuǎn)發(fā)8190 評論W355(5780美國的紐約時報和赫芬頓郵報同一個“美國夢”,也具有顯著不同的氣質(zhì)。有自己相信并追求 的價值觀,追求新聞事實時候有非如此不可的沖動,寫作時有難平之意化為不休的訴歌,這才是風(fēng) 格。風(fēng)格是原創(chuàng),是觀點交鋒,是議程設(shè)置,是話語創(chuàng)新。算法還沒學(xué)會這些,因為設(shè)計算法的技 術(shù)人可能還不太懂這些。這還不只是差異化競爭問題,更重要的是產(chǎn)品的內(nèi)在矛盾。
19、頭條們不止是平臺,因為偽裝不是 白裝的,新聞客戶端的表象與算法機器的矛盾是無法擺脫的“原罪”。形式不是內(nèi)容之外可有可無 的事物,形式就是內(nèi)容。頭條們注定不可像沒有首頁推薦的微信公號平臺一樣,真的只做完全中立, 沒有一點情感和立場的平臺。人們都認為你是資訊客戶端,你就要做資訊媒體的事情,哪怕和算法 的性格有矛盾。但矛盾不是缺陷,矛盾是推動自身進化的動力所在。他們想有風(fēng)格。起步較晚的“一點資訊”在努力表現(xiàn)自己的風(fēng)格,比如宣稱自己是做興趣搜索,有別于頭條的算 法推薦。吳晨光宣稱一點資訊是“百度+頭條”:“正如一點資訊董事長劉爽所說,如果頭條是造紙術(shù)和印刷術(shù),那么一點資訊就是火藥和指南針。 這兩個AP
20、P都以千人千面為核心競爭力,因為確 實像造紙術(shù)一樣改變了傳播。但一點比頭條更 近一步:所謂火藥,是通過搜索喚醒了沉睡在APP里的信息,你可以通過搜索、訂閱,兩步完成你對 任何你感興趣內(nèi)容的定制。至于指南針,我這樣理解:因為一點后臺有非常精準(zhǔn)的用戶畫像,所以 可以把最符合你興趣的內(nèi)容分發(fā)給你。用我們內(nèi)部的一句話說:大事件作出共鳴,個性化要像蛔蟲?!笨梢钥闯鰜?,作為后起者,一點資訊一方面不得不通過頭條來定義自己,同時又必須有所區(qū)別, 特別強調(diào)搜索。不過從用戶直觀感受來講,這種區(qū)別是很難看出來的。頭條一樣有搜索功能,也會記 錄讀者的搜索行為。可能,鄭朝暉有雅虎的經(jīng)歷,在搜索上會有獨到經(jīng)驗。至于“指南
21、針”,只是一個更生動的比喻。所描述的“用戶畫像”,可以猜想也是和貝葉斯算法 之類大同小異的方法。看拉勾網(wǎng)上“一點資訊”的招聘,唯一的算法師招聘廣告要求:“文本分類和語義理解,社交網(wǎng)絡(luò)分析,網(wǎng)頁搜索,推薦系統(tǒng)等領(lǐng)域的特定算法,理解自然語言 處理、機器學(xué)習(xí)、網(wǎng)頁搜索,推薦系統(tǒng),用戶數(shù)據(jù)分析和建模的基本概念和常用方法。”應(yīng)該說,所謂“特定算法”大家都類似。具體的公式和策略五花八門,但那只是雞蛋的不同,最 多在比拼誰的算法最state of the art。能區(qū)別風(fēng)格的還是操作者的思想理念、媒體情懷和輿論場 的洞察判斷力。同樣的算法,具體開發(fā)時候也要看悟性、靈性。谷歌與百度在用戶看來,最直觀的區(qū) 別也
22、還是理念和情懷的不同。相比之下,吳晨光強調(diào)一點資訊在提高自媒體門檻的做法,這種篩選是由媒體人團隊做到的,我 認為更重要。“最近兩個月,一點資訊封掉了大概7000多個號。古玩、健康、財經(jīng)等,都是重災(zāi)區(qū)。我們的 競爭對手,在放寬入駐條件,但我們相反一一高標(biāo)準(zhǔn),并且實行嚴(yán)格的分級制度。從一級到六級,級 別越高標(biāo)志著你的內(nèi)容越優(yōu)質(zhì),這樣你得到的展示量就越大?!边@是在用人的智力為算法提供可貴的參數(shù)。頭條大舉招募媒體人入駐平臺,并加大對自媒體平臺的投入,這是 有意識地搶占底盤,獲得內(nèi) 容版權(quán),也是 無意識地要讓自己更生動??墒撬惴ㄉ胁荒芾斫膺@種風(fēng)格化的努力。困境2:引導(dǎo)讀者走進信息的繭房,沉淪于本我我試著
23、用社會心理學(xué)的語言來描述算法獨尊主義帶來的信息繭房問題。算法和讀者一起,沉淪于本我的漩渦。本我的欲望讓你去點擊了一條驚悚的社會新聞,但本我不 是人性,對本我的自省和超越才是人性。反復(fù)涌來的社會新聞會讓讀者生厭。這個一直被人質(zhì)疑的問 題似乎沒有得到透徹的說明和改善。求證過員工自己對這個問題的看法,他們會告訴你不喜歡這樣的信息就用手指劃掉,系統(tǒng)就會減 少此類信息推送。我在虎嗅上也看到類似的回答,如下圖:你這文意只能說明你用嚀那款軟件的捷璋引孕落后r云能有必臥磐阿出葡想要的四卷掛淳食貌r再晚i多恐孑言跖,儂僅茂使毛了一個月f就因為熱門掛薦卻翱亙了 ,承空忘花時同r嘰器怎乞的rm王保 的輕趣愛好屈r真
24、正的了解一個頊也不有紙憑一面之緣吧如親你猝趣差妤空了,3陸t換個關(guān)注序,煤慶硒去關(guān)注,矢注些你卷知道的不蕓,機器不御道了名,佝麗以 把嘰翌當(dāng)成一4工與M要依字時器主翎缽應(yīng)依屋于你大脂的患者過程,逮個就有點奈至了關(guān)于你否想看握樂*聞F但是娛樂新聞嘗在彌面商住去看 就好毒明明鈕道吸煙荏身惠F防勺是拽削不住 奔,彌不宜團陛煙招本身r只有縫好不能好肝利用底小美好的三旦抓莊一個人的習(xí)慎扁萼壬久的觀察r投與長e寸向的用原r機器不可能揖到一你復(fù)薈的答窒r幣且瓠囂的選每相對于懷 的主兩觀點總是落后一步r但必須先甕苣你的圖垓變了 ,再去國魚你的想氏 殖易他克亍1邱而做去王茹的選挎. 肥也不是磯露,你是芍流、算法
25、只計算異同關(guān)系,只機械地問你要還是不要,而沒有計算諸如相對關(guān)系、主從關(guān)系等等復(fù) 雜的關(guān)系。就像一個不太會戀愛的直男,聽到對方說no的時候,并不善解對方真正的意思。我同意虎嗅上這個讀者的說法:作為用戶r我不關(guān)/城件的真法是怎樣的。我只關(guān)尤厥外能言到我想 有的東西 同時不要用我不關(guān)心的東西來打擾我。我不關(guān)心我要用多久軟件才會 學(xué)習(xí)我的愛好r我希耍我篁一次己開時r軟件勰盹我喜歡的東西.你的評論 說明你是一個有力的技術(shù)人員r但做用戶習(xí)慣分析需要的是產(chǎn)命艙理的曰方七算法能否采用更好的策略,除了數(shù)學(xué)思維本身,還在于算法對人性的理解。非線性思維才能貼 近人性一一哪怕是庸常之輩,也會渴望有一只手能托起自己的頭
26、顱。假如用戶多點擊了幾次驚悚社會 新聞,算法可以繼續(xù)推送同類資訊,但是一定要顯出一種“我猜你其實也是個有高尚趣味的人”的 姿態(tài)一一可以于驚悚新聞信息流里突然插入一條洗眼資訊,可以是正能量,可以是對立面,可以是新 聞分析。既然瀑布流里面可以插入廣告,為什么不能插入和用戶點擊趣味相反的文章?我不了解具體算法設(shè)計問題,也許需要更復(fù)雜的集合算法。每條資訊有自己對應(yīng)的鏡像,就像本 我對應(yīng)的超我,就像西斯武士對應(yīng)的絕地武士。不甘做機器保姆的小編可以參與打造這樣的集合, 提升機器靈魂的同時提升自己,共同進化。彼此是對方的啟蒙者,而不是做一個被動的仆人。也許 會有偏差,會有博弈,但魅力就在這里。在失控看來,人
27、機之間要有一定的對抗才能共同進化。 也許算法在等待讀者自己走出沉淪,但對抗就要求算法更彈性一點,更搶先一點,主動試探讀者是 否想要逆風(fēng)而行。用資訊測試讀者,是把讀者看作巳完成的人格。而人性是永遠在路上的未完成之物。人性和人 類的創(chuàng)造物,需要彼此激發(fā),螺旋上升。分類聚合算法只是把自己看作一個置身事外的觀察者,正如 科學(xué)試驗里的觀察者,以為自己不在事件之中。但這是不可能的,算法己然在參與人性的構(gòu)建,只是 采取了消極的方式一一人以群分,每個人沉淪在自己的趣味里。后果是讀者的極化,老死不相往來, 像黑客帝國里的人繭。人繭衰弱的同時,系統(tǒng)的活性也在衰減。極端分化的人群與極端分化的信息一樣,缺少活性。而搜
28、索引擎則沒有那么主動地去極化人群。 人在搜索時候主動性更強,我倒希望一點資訊是在利用搜索引擎收集讀者的主動性方面有所建樹,以 此刺激算法。我們可以用貝葉斯算法本身的問題來解釋這個危險:研究者John Horgan在科學(xué)美國人上發(fā)表了一篇文章被追捧和被歪曲的貝葉斯理論,究竟 有什么大不了?(由“機器之心”網(wǎng)站提供中文翻譯),講述了貝葉斯算法自身的一個矛盾(具體 論證過程此處免去,可參見上面的文章鏈接):“貝葉斯理論沒什么神奇的。歸根結(jié)底,它就是在說,你的信念只和它的證據(jù)一樣有效。如果你 有好的證據(jù),貝葉斯理論就能得到好結(jié)果。如果你的證據(jù)不足為信,貝葉斯理論也就沒什么用。進入 的是垃圾,出來的也是垃圾。”對貝葉斯算法來說,初始確定的概率很重要,比如前面提到“ 40%的成年男性喜歡閱讀軍事新聞”, 這個概率判斷就是初始確定的概率,能通過社會統(tǒng)計獲得比較接近現(xiàn)實的數(shù)字,一般也比較符合常 識。但是對于很多事情,比如“上帝存在”,初始概率就難說了,有人會定為百分百,有人會定為零, 于是最終結(jié)果不過反映了給出初始條件者自己的主觀愿望。即
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 水泥沙子采購合同
- 授權(quán)經(jīng)銷合同協(xié)議
- 農(nóng)業(yè)科技園區(qū)綜合開發(fā)合同
- 短期租賃服務(wù)意外免責(zé)協(xié)議
- 網(wǎng)絡(luò)信息技術(shù)支持協(xié)議
- 商場裝修合同與商場裝修合同
- 打井承包合同
- 手房轉(zhuǎn)讓買賣協(xié)議
- 新版不定期勞動合同書(33篇)
- 瓦工貼磚施工合同
- 城市綠化與生態(tài)環(huán)境改善
- 2024-2025學(xué)年中小學(xué)校第二學(xué)期師德師風(fēng)工作計劃:必看!新學(xué)期師德師風(fēng)建設(shè)秘籍大公開(附2月-7月工作安排表)
- 《急性心力衰竭的急救處理》課件
- 2025年高壓電工作業(yè)考試國家總局題庫及答案(共280題)
- 2024年中國養(yǎng)老產(chǎn)業(yè)商學(xué)研究報告-銀發(fā)經(jīng)濟專題
- 印刷公司生產(chǎn)部2025年年度工作總結(jié)及2025年工作計劃
- 2025年中考語文一輪復(fù)習(xí):八年級下冊知識點梳理
- 小班孵雞蛋課程設(shè)計
- 糖尿病的麻醉管理
- 高教版2023年中職教科書《語文》(基礎(chǔ)模塊)下冊教案全冊
- word上機操作題
評論
0/150
提交評論