版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
搜索的未來:沖破數(shù)字圍城
多年以后,已經(jīng)是谷歌搜索算法首席科學(xué)家兼谷歌高級副總裁的辛格哈爾從語言學(xué)研究生畢業(yè)之后才發(fā)現(xiàn):一直以來《星際迷航》在他的腦海中完全等同于那伴隨著雜音的黑白電視畫面,這種印象根深蒂固,而實際上,在更多美國人心中,《星際迷航》其實是一本科幻小說。“對于擁有智慧的人來說,窮盡一個詞語背后所代表的豐富而不同的語義都是一件不容易的事情,可見,要教會計算機理解人類的語言,這真的是一個難題?!卑⒚滋亍ば粮窆柛锌?。但是對于辛格哈爾的團隊和千千萬萬的搜索工程師們來說,讓計算機更加智能地進行識別是一件迫在眉睫的事情,因為無時無刻不在產(chǎn)生的海量數(shù)據(jù)正在形成一座數(shù)字圍城,它讓搜索變得困難,讓有價值的信息越來越難以被尋找。今天,谷歌獨立URL索引數(shù)量超過了驚人的1萬億,而用戶獲得一次滿意搜索的時間卻不能超過1秒;淘寶商品數(shù)高達8億,每天有6000萬用戶登錄淘寶尋找商品,最終每天要促成800萬包裹量的交易;美國最大的招聘網(wǎng)站Monster的招聘網(wǎng)絡(luò)遍及55個國家和地區(qū),每天新增簡歷高達2-3萬、同時卻要實現(xiàn)數(shù)量龐大的職位和求職者精準匹配……如果說,在5年之前這些企業(yè)完全有理由僅僅為這些漂亮的數(shù)據(jù)而盡情歡呼的話,那么在今天,他們就需要多一份憂慮——多年前,他們走進數(shù)據(jù)構(gòu)建的圍城,靠著先進的算法在這些數(shù)據(jù)面前游刃有余;如今每時每刻不斷增加的海量數(shù)據(jù)卻開始讓他們感到窒息,越來越高的數(shù)據(jù)之墻讓他們開始感到了低效和無奈,他們必須想辦法尋求突圍。傳統(tǒng)搜索的瓶頸對于Monster軟件工程經(jīng)理駱鋆來說,每天置身于數(shù)據(jù)圍城讓它深有感觸。曾幾何時,關(guān)鍵字搜索是Monster在網(wǎng)絡(luò)招聘領(lǐng)域所向披靡的利器,但是近些年來,當初的技術(shù)帶來的高效和便捷仿佛變了味道?!皞鹘y(tǒng)的搜索一般是關(guān)鍵詞搜索,對于語義的了解不足,他不能對每個關(guān)鍵詞的權(quán)重做出區(qū)別處理;在搜索結(jié)果上,也無法區(qū)分過去的經(jīng)驗和最近的經(jīng)驗,這將直接影響搜索結(jié)果排序的準確性。比如說,一個人在兩年之前曾經(jīng)做過銷售,互聯(lián)網(wǎng)上留下了他曾經(jīng)的痕跡,現(xiàn)在也許早已轉(zhuǎn)行不干了,但傳統(tǒng)的關(guān)鍵詞搜索很容易認為他現(xiàn)在仍在做著銷售?!瘪樹]說。另一方面,駱鋆認為,網(wǎng)絡(luò)招聘的一個基礎(chǔ)就是要能夠理解用戶的核心意圖,但是由于應(yīng)聘者文化和知識背景的不同,同樣的職位他們可能會用不同的詞語來表達。比如說,同樣是指“軟件工程師”,有的人把它叫做程序員,而在港臺甚至?xí)Q呼他為“軟體工程師”,這樣的話,如果還是按照字面的關(guān)鍵詞搜索,招聘方和應(yīng)聘者的需求就很難契合。同樣對現(xiàn)有搜索技術(shù)感到不滿足的還有淘寶。據(jù)淘寶搜索高級技術(shù)專家,一淘推薦算法負責人孫健介紹,淘寶平臺上大概有8億商品,5億注冊用戶,包裹交易量達800萬,相當于全中國每日快遞包裹數(shù)量的一半?!叭绻烟詫毱脚_設(shè)想成為一個巨大的搜索引擎,面對這么海量的實時變化的商品交易信息,也是會傻眼的?!睂O健說?!澳敲疵鎸@么海量的信息處理問題,我們就需要著力去做兩件事情,一個是構(gòu)建一個大規(guī)模的電子商務(wù)產(chǎn)品庫,另一個則是構(gòu)建一個大規(guī)模的語義知識庫,在傳統(tǒng)的關(guān)鍵詞之外,我們需要重新為每一個詞語構(gòu)建屬于他們的關(guān)系。比如,圓明園和海淀在物理上是從屬關(guān)系,本田和寶馬同時屬于汽車品牌下的子集,在淘寶的平臺上,我們挖掘了800多萬的語義關(guān)系,這種知識庫的構(gòu)建是我們打造智能搜索技術(shù)的基礎(chǔ),否則單單是靠原來的那種關(guān)鍵字搜索,是無法勝任淘寶平臺上每天產(chǎn)生的海量商品和交易信息的。”孫健說道。即便是現(xiàn)在被人認為有可能會取代關(guān)鍵字搜索的智能推薦,在技術(shù)上仍然存在不完善的地方。目前在電子商務(wù)領(lǐng)域做推薦的通用做法是先去構(gòu)建商品庫,對各類信息歸類整理,但是其中有一個解決的并不好的問題就是信息的實時性。“首先智能推薦的前提是必須有實時的最新的數(shù)據(jù),如果是拿3年前的數(shù)據(jù)來給用戶做推薦可能就會出問題。最近微博上有人抱怨亞馬遜的推薦不準,明明幾個月前剛剛買了手機,當他再去購物的時候還會被推薦手機,這就會破壞用戶體驗?!睂W⒂跒殡娮由虅?wù)企業(yè)提供第三方興趣推薦服務(wù)的百分點科技副總裁張韶峰說。正如FacebookCOO雪莉·桑德伯格早在2010年就曾預(yù)言道,未來所有的網(wǎng)站必將實現(xiàn)個性化,否則就會在5年之內(nèi)被淘汰,而其中的關(guān)鍵就是網(wǎng)站要能夠智能地匹配用戶的偏好信息。傳統(tǒng)的關(guān)鍵字搜索顯然無法做到這一點。搜索的智能進化幾個世紀前,人類社會還是數(shù)據(jù)為王的時代,一個人如果識字,會閱讀,知道比別人更多的事實,那么他在他的時代中就擁有巨大的優(yōu)勢,然而現(xiàn)在,這些門檻正在被技術(shù)逐漸抹平:一個人,只要輕敲幾下鍵盤,就能夠得到他想要了解的一切數(shù)據(jù)。“這是偉大的進步,但是這并不夠,如何將片段化的數(shù)據(jù)集中起來轉(zhuǎn)化成有用的信息,如何將有用的信息轉(zhuǎn)化成知識,這些知識如何在最終轉(zhuǎn)化成智慧,這些才是搜索應(yīng)該做的事情?!惫雀韪呒壐笨偛眯粮窆栒f。在谷歌看來,從數(shù)據(jù)到信息到知識再到最終的智慧是一個漫長而偉大的愿景,如今的搜索技術(shù)所能達到的只是將片段化的數(shù)據(jù)轉(zhuǎn)化成有用的信息這一階段,若想讓信息能夠直接通向知識,搜索技術(shù)必須繼續(xù)進化?!氨热纾绻阍儐柟雀桀愃啤蹏髲B有多高?’的問題,谷歌將提供搜索結(jié)果頁面上的最佳猜想答案,將您鏈接到該知識點。在未來,你問谷歌一個問題,我們會直接提供答案,而不只是僅僅給你相關(guān)的鏈接?!毙粮窆柦忉尩?。對于谷歌的搜索團隊來說,這就是他們目前正在嘗試的方向,將搜索引擎變成一個知識引擎——未來的某一天實現(xiàn)智慧引擎。讓搜索更加聰明,這也意味這搜索引擎除了能夠?qū)ξ谋具M行語義分析之外,還要能夠處理音頻,圖片甚至視頻這些更加復(fù)雜的信息載體。比如,當你在旅游中見到一種不知名的花,你很難用語言去描述它,但你似乎又在哪里見過,這個時候你無法通過輸入文字的方式去搜尋你想要的結(jié)果;當你看到一輛路邊疾馳而過令你心儀的汽車,你被它的外觀深深吸引卻無法想起有關(guān)它從品牌到型號的任何線索,傳統(tǒng)的搜索看起來就有點捉襟見肘了。不過在今天,這些情況并非沒有解決的可能。谷歌就曾推出過按圖搜索的功能,當用戶看到似曾相識的圖片時不需要絞盡腦汁去想如何描述它,而是可以直接用圖片進行搜索。在搜狗跨媒體搜索研發(fā)部高級經(jīng)理佟子健看來,搜索技術(shù)的出現(xiàn),讓用戶可以通過主動描述自己的需求獲取信息,但是這并不符合用戶“懶”的天性,最好的搜索應(yīng)該是能夠理解用戶潛在的需求,讓它在搜索時做的動作越少越好,最理想的狀態(tài)就是推薦。比如,當瀏覽到一篇感興趣的新聞時,用戶無需考慮如何提煉新聞事件的搜索詞,而是由推薦引擎向用戶推薦這篇新聞事件的來龍去脈、最新進展和新聞圖片,直接滿足用戶潛在的延伸閱讀需求。除此之外,語音識別技術(shù)的成熟在與語義分析技術(shù)更好地融合之后,未來對音頻的搜索也會變得更加高效,不僅是音頻,即便是信息量無比龐大的視頻依然可以通過技術(shù)實現(xiàn)更加精準的搜索。例如,YouTube就已經(jīng)開始嘗試對視頻中的信息進行更加精準的搜索和甄別。比如一個用戶上傳的視頻中如果包含一首歌,這個歌如果是唱片公司的產(chǎn)權(quán),系統(tǒng)就會識別出來,禁止視頻的上傳,防止盜版現(xiàn)象的發(fā)生。盡管這些嘗試只是一個開始,但我們已經(jīng)可以看見能夠解決當前海量信息搜索的人工智能萌芽了。“這意味著搜索需要超越網(wǎng)頁上的文字,真正地了解人們的搜索意圖,地點和事物——以及它們之間的相互聯(lián)系。人類的大腦天生就能處理這些,但對于電腦,這就涉及到人工智能的問題?!惫雀韪呒壐笨偛眯粮窆栒f。沖破圍城之后當技術(shù)的進步?jīng)_破了海量數(shù)據(jù)構(gòu)建的圍城之后,搜索與人的關(guān)系將會是怎樣呢?如果按照谷歌定義的搜索從數(shù)據(jù)到信息到知識再到智慧的四個階段的話,如今在將數(shù)據(jù)轉(zhuǎn)化成信息的過程中,我們已經(jīng)取得了重大的進步,語義技術(shù)的進一步發(fā)展將會讓當今搜索技術(shù)面對海量信息的窘境得到改善,當搜索技術(shù)與信息量的天平發(fā)生傾斜之后,理想中的知識引擎甚至智慧引擎將會逐漸到來。舉例來說,今天如果你想搜索“世界上最深的10個湖”,如果不是恰好有人已經(jīng)整理出了這個排名,你需要做非常大量的搜索工作才能把它們搜全。目前的搜索引擎智能程度還沒有達到那么高的程度,理解不了你關(guān)于湖的問題,比如明白湖是什么意思,湖是有深度的水域,然后把這些細節(jié)信息綜合成你需要的信息列表。但在未來,如果一款搜索引擎,它能夠理解有湖的含義,理解湖的其中一個屬性是深度,當有人想知道“10個最深的湖”時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版電商平臺客戶數(shù)據(jù)保密及隱私保護合同3篇
- 二零二五版農(nóng)業(yè)產(chǎn)業(yè)化合同管理與農(nóng)產(chǎn)品質(zhì)量安全協(xié)議3篇
- 二零二五版智能廣告終端設(shè)備投放與維護合同3篇
- 二零二五年綠色環(huán)保抵押貸款合同范本分享3篇
- 二零二五版一期臨床試驗統(tǒng)計分析合同3篇
- 二零二五年度辣椒種植與冷鏈物流運輸合同3篇
- 二零二五版餐廳智能點餐系統(tǒng)維護與升級合同3篇
- 二零二五年度餐飲企業(yè)承包經(jīng)營與品牌升級合同3篇
- 二零二五版智能簽約二手房購房合同范本2篇
- 二零二五版新能源汽車電池購銷合同樣本3篇
- 冬春季呼吸道傳染病防控
- 中介費合同范本(2025年)
- 《kdigo專家共識:補體系統(tǒng)在腎臟疾病的作用》解讀
- 生產(chǎn)調(diào)度員崗位面試題及答案(經(jīng)典版)
- 【物 理】2024-2025學(xué)年八年級上冊物理寒假作業(yè)人教版
- 交通運輸安全生產(chǎn)管理規(guī)范
- 電力行業(yè) 電力施工組織設(shè)計(施工方案)
- 《法制宣傳之盜竊罪》課件
- 通信工程單位勞動合同
- 查對制度 課件
- 2024-2030年中國豬肉市場銷售規(guī)模及競爭前景預(yù)測報告~
評論
0/150
提交評論