版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
搜索引擎的終極使命關(guān)鍵詞云端之旅
當(dāng)你向互聯(lián)網(wǎng)上傳一個頁面,來自世界各地的無數(shù)“蜘蛛”便會蜂擁而至。它們抓取并復(fù)制你的網(wǎng)頁,跟蹤著網(wǎng)頁中的鏈接,悄悄地爬上更多的頁面,用觸角將它們納入索引數(shù)據(jù)庫。數(shù)據(jù)庫像轟鳴的機器,拆解網(wǎng)頁上的文字內(nèi)容、標(biāo)記關(guān)鍵詞的位置、字體和顏色,并生成龐大的表格。這時,你輸入一個單詞,點擊Google或百度上的“搜索”按鈕,它會在0.2秒內(nèi)得到響應(yīng),帶著單詞奔向索引數(shù)據(jù)庫的每個神經(jīng)末梢,檢索到所有包含搜索詞的網(wǎng)頁,依據(jù)它們的瀏覽次數(shù)與關(guān)聯(lián)性等一系列算法確定網(wǎng)頁級別、排列出順序,最終按你期望的格式呈現(xiàn)在網(wǎng)頁上。這就是一個“關(guān)鍵詞”的云端之旅。在過去的10多年里,類似的旅程總共進(jìn)行過數(shù)十萬億次。它催生了搜索引擎的先驅(qū)Overture,成就了本世紀(jì)最早期的創(chuàng)新明星Google,還有Yandex、Navar和百度等來自全球各地的Google效仿者。它讓搜索引擎成為人們最依賴的互聯(lián)網(wǎng)工具,以及推動人類信息自由流動的傳福音者……但現(xiàn)在,這一切可能都不再重要了。設(shè)想一下,當(dāng)你同時打開RSS訂閱工具、Twitter(新浪微博)和Facebook(開心網(wǎng))坐在電腦前的時候,你更傾向于用哪種方式獲得信息?那些通過社交工具推送到你面前的內(nèi)容,是不是通常比你主動搜索的信息更有價值?你搜索“美洲豹最便宜的價格,”得到的結(jié)果是車還是棒球桿?如果你對騰訊與360的戰(zhàn)爭完全沒興趣的話,在你搜索“周鴻祎”的時候,真的一定希望“馬化騰”跳出來嗎?這就是當(dāng)下的搜索引擎在幾何級網(wǎng)頁數(shù)量爆炸時面臨的困境:即便搜索引擎優(yōu)化(SEO)工具越來越普遍地被網(wǎng)頁設(shè)計者們純熟地應(yīng)用,但它仍然不能確保人們在第一時間搜索到他們需要的信息——甚至,成功幾率越來越低?!澳壳吧先f億的網(wǎng)頁,其中大約有250億的頁面可被檢索,有可能出現(xiàn)在用戶搜索結(jié)果里的頁面,最多占5%,未來幾年這個數(shù)字甚至?xí)档偷?%以下,”微軟亞洲研究院常務(wù)副院長馬維英說。當(dāng)下的搜索引擎技術(shù)就像圖書館檢索那樣為所有的書建立檢索碼,但最后有可能帶給用戶的價值越來越少——它被持續(xù)膨脹的網(wǎng)頁數(shù)量稀釋了。那么,未來人們需要什么樣的搜索引擎?Google試圖提供最新的解決方案是:超快速的自動搜索。Google首席執(zhí)行官施密特在最近的一次演講中提醒人們永遠(yuǎn)不要低估速度對搜索的重要性。他還認(rèn)為,搜索最終將不僅僅是搜索網(wǎng)頁,而是個人的幾乎所有信息——包括電子郵件、音樂和你關(guān)注的話題。在得到你的允許后,它將成為你專屬你個人的搜索。這似乎解決了搜索引擎的個性化需求和匹配問題,但Google未曾真正提及的是:與任何一類以“你”為中心的媒介相同,“你搜索”需要建立在社交網(wǎng)絡(luò)化的基礎(chǔ)之上——例如你搜索到的內(nèi)容被你的朋友推薦,它會在搜索結(jié)果中得到提升,從而進(jìn)入你個人搜索的優(yōu)先級。在這個過程中,朋友的“頂”就進(jìn)入了搜索引擎,成為整個搜索的一部分。但奉邏輯學(xué)與數(shù)學(xué)為宗教的Google卻并不擅長社交網(wǎng)絡(luò)領(lǐng)域——它甚至站在全球最大社交網(wǎng)站Facebook的對立面。讓搜索“社交化”意味著賦予搜索引擎社會學(xué)和心理學(xué)的屬性,而這會改變Google的基本邏輯。事實上,搜索引擎領(lǐng)域邏輯更替的核心是:搜索引擎將越來越通曉人類的語言和意圖,為用戶抓取他們最想知道的網(wǎng)頁內(nèi)容,甚至能識別語音、圖像及表情等非文本材料——不但返回更精確的文本結(jié)果,還包括大量的多媒體內(nèi)容。越來越多中小型公司試圖沿著這條道路證明Google代表的當(dāng)下“客觀主義”搜索技術(shù)的簡陋:當(dāng)你在一家名為Powerset的搜索引擎網(wǎng)站搜索“誰曾打敗過安德烈·阿加西(AndreAgassi,美國著名職業(yè)網(wǎng)球運動員)”的時候,呈現(xiàn)在第一位的搜索結(jié)果是另一位網(wǎng)球運動員皮特·桑普拉斯(PeteSampras)的頁面。而在Google上,最前面的結(jié)果仍然是阿加西的個人信息。如果在另一家搜索引擎Cognition的頁面上輸入相關(guān)的法律和訴訟問題,也能得到相關(guān)條款的精確回應(yīng)。這就是人們通常所謂的“語義搜索”,但割據(jù)的小型語義搜索網(wǎng)站采集的信息量有限,并不足以在全面抗衡Google這樣的巨頭。但它們被召集在一面旗幟下,意義就完全不同了。這個“召集者”不是別人,正是在互聯(lián)網(wǎng)時代落寞許久的巨頭微軟。在收購雅虎的交易失敗后,微軟對互聯(lián)網(wǎng)和搜索引擎的布局走向了一條隱蔽但頗具技巧的道路。2008年7月,微軟宣布收購上文中提到的語義搜索引擎Powerset。緊接著又推出了購物比較引擎LiveCashback、旅游搜索引擎Farecast以及健康搜索引擎等基于語義的搜索分支。2009年6月微軟發(fā)布全新搜索品牌Bing之后,它們又被整合進(jìn)入Bing的框架體系。但它們尚未構(gòu)成一個完整的搜索產(chǎn)品。這是因為語義搜索技術(shù)的處理能力和速度仍是主要缺點,有時甚至需要長達(dá)20秒才能分析完一個頁面。但微軟的不同在于,它有能力投資更大型的服務(wù)器集群,這使語義搜索成為微軟在搜索引擎領(lǐng)域樹立的壁——當(dāng)然,你也可以把它看作微軟搜索引擎計劃的PlanB。不容忽視的是,支持微軟在語義搜索領(lǐng)域有望搶先獲得一席之地的,是它背后的基礎(chǔ)研究力量。在基礎(chǔ)的計算科學(xué)領(lǐng)域,語義搜索并非一個嶄新的話題。至少在微軟內(nèi)部,圍繞它的研究至少已經(jīng)有10多年的歷史。而現(xiàn)在,是它們集中爆發(fā)并轉(zhuǎn)化為現(xiàn)實產(chǎn)品的時候了?!氨M管人們不該讓科學(xué)家預(yù)測一項研究計劃轉(zhuǎn)化為現(xiàn)實產(chǎn)品的周期有多長,但是我們在搜索引擎領(lǐng)域的多年基礎(chǔ)研究,正好到了收獲果實的時候,因為人們對搜索的需求正在發(fā)生變化,這就是你現(xiàn)在看到的一切?!蔽④浫蚋呒壐笨偛美锟恕だ姿固?RickRashid)對《環(huán)球企業(yè)家》說。【感知搜索】至少在目前,微軟相信它能在語義搜索上扳回一局的原因,是因為搜索引擎技術(shù)的門檻并非輕易地能被任何玩家企及。在雷斯特看來,搜索引擎的技術(shù)至少在四個方面設(shè)置了門檻,并把大量試圖覬覦這一領(lǐng)域的玩家過濾在了最終的游戲之外:其一是服務(wù)器抓取數(shù)據(jù)的能力,它將不僅僅來自普通網(wǎng)頁,還將來自各類垂直的數(shù)據(jù)庫與社交網(wǎng)站中的關(guān)鍵信息;其二是在幾何級增長的互聯(lián)網(wǎng)數(shù)據(jù)和信息爆炸面前維系處理它們的速度;其三是巨額投資在全球各地建設(shè)大規(guī)模的服務(wù)器集群;最后一點,是能追蹤分析用戶的行為與心理,通曉用戶的意圖和心理?!岸@也恰恰是語義搜索的基礎(chǔ),”雷斯特對本刊說。而有了龐大的服務(wù)器集群,也能夠保證處理幾何級增長信息的速度,這種能感知人們輸入語言意圖的“智慧搜索”,又將如何實現(xiàn)?微軟給出的答案是:重新制定搜索引擎的規(guī)則。“搜索引擎必須了解到底需要在網(wǎng)上完成什么樣的任務(wù),我們現(xiàn)在需要看到的是一個任務(wù),然后幫助用戶做出決策并采取行動,而不是給用戶十個鏈接再讓他們逐個打開去尋找信息是否有用,”微軟亞洲研究院常務(wù)副院長馬維英對《環(huán)球企業(yè)家》說,“這有機會對搜索的格局產(chǎn)生顛覆式的創(chuàng)新。”這意味著當(dāng)下搜索引擎的原理從一開始就被打破了——搜索的起點將不再是關(guān)鍵詞,而是一個包含著關(guān)鍵詞的短文本和信息群,機器需要通過對它的分析和判斷,再排列出相應(yīng)的文本和網(wǎng)頁順序,推送到用戶的瀏覽器上。也就是說,必應(yīng)(Bing)將更像是一個路由器:它了解用戶的搜索目的,把目的與任務(wù)結(jié)合起來,以更多的搜索表現(xiàn)形式,理解搜索目的,抽取出所有的知識,把知識按照目的組織起來,甚至提供一個新的搜索生態(tài)系統(tǒng)。它對研究人員來說是完全不同的工作流程。傳統(tǒng)互聯(lián)網(wǎng)搜索的最小排序單元是網(wǎng)頁,但當(dāng)搜索的對象(entity)從網(wǎng)頁轉(zhuǎn)移到某一個人、事物和現(xiàn)象的時候,盡管搜索出結(jié)果仍然是網(wǎng)頁,但它需要機器對相關(guān)的內(nèi)容進(jìn)行知識抽取、整合并總結(jié),以一套完整的框架性結(jié)構(gòu)的呈現(xiàn)在網(wǎng)頁上。其中,搜索與社交網(wǎng)絡(luò)的結(jié)合,以及專業(yè)問答類社區(qū)可能會發(fā)揮更重要的價值。至少在微軟內(nèi)部,實現(xiàn)這一切并不容易。搜索團隊必須滲透到微軟研究院的基礎(chǔ)架構(gòu)、機器學(xué)習(xí)、自然語言等領(lǐng)域的大量核心資源當(dāng)中。至少,它得允許研究員和工程師輕松地修改代碼,這是在微軟第一代搜索引擎的架構(gòu)中難以實現(xiàn)的。以微軟即將發(fā)布的“學(xué)術(shù)搜索”為例:它旨在幫助用戶快速找到某個學(xué)術(shù)研究領(lǐng)域內(nèi)的頂尖學(xué)者、學(xué)術(shù)會議和期刊,獲得一個學(xué)術(shù)領(lǐng)域的興趣與發(fā)展的詳細(xì)信息,發(fā)現(xiàn)某個研究領(lǐng)域的學(xué)術(shù)論文和學(xué)術(shù)新星。它是完全建立在“對象”基礎(chǔ)上的搜索,甚至可以搜索研究人員之間的關(guān)系、論文的共同作者,以及哪所院校在這某個領(lǐng)域研究最出色,過去五年哪些機構(gòu)排名上升等相當(dāng)“瑣碎”的信息——只要你向搜索引擎提出這些問題。更現(xiàn)實的應(yīng)用是微軟的中文旅游搜索——它沒有抓取浩如煙海的旅游網(wǎng)頁信息,而是將抓取的對象鎖定在社交網(wǎng)站和個人博客上的20多萬篇網(wǎng)友游記,從中提煉出超過3萬個熱門景點的旅游狀況。當(dāng)用戶提出針對某一景點的旅游問題時,它會自動抽取相應(yīng)的信息,組合答案呈現(xiàn)給用戶。它還與必應(yīng)(Bing)地圖相結(jié)合,鼓勵網(wǎng)友上傳旅游路線和圖片,創(chuàng)建旅行計劃,以期進(jìn)一步豐富旅游搜索的信息資源和語義庫?!八鼤峁┙o你最終的答案,直接找出答案的結(jié)果,而且完全不同于社區(qū)問答類產(chǎn)品,是搜索的結(jié)果,”微軟亞洲研究院院長洪小文對《環(huán)球企業(yè)家》說。而這種顛覆式的數(shù)據(jù)挖掘、知識提取與算法邏輯,甚至使人們對多媒體的感知也可以通過搜索的形式呈現(xiàn)。微軟研究院還開發(fā)了一個可擴展的解決方案,通過索引超過兩百萬張網(wǎng)頁圖片,建立了一個名為MindFinder的系統(tǒng),可以實現(xiàn)高效、基于素描的圖像尋回——這意味著你使用任何一種觸屏數(shù)字設(shè)備的時候,可以用簡單的手勢勾勒某個事物的草圖——它將被視為搜索的指令,然后在屏幕上呈現(xiàn)出你預(yù)期中的畫面。你一動念頭,搜索結(jié)果就會冒出來?!舅阉骷捶?wù)】盡管以語義搜索為代表的智能化未來充滿了想象力,但它卻并非下一代搜索引擎的終極使命。至少在微軟看來,搜索引擎并不一定局限在“必應(yīng)”(Bing)的搜索框當(dāng)中??纯此恼Z義搜索實驗?zāi)茉赥witter上發(fā)生些什么:在全球已有1.45億注冊用戶的Twitter每天承載著9000多萬次的更新和超過8億次的搜索——它已經(jīng)成為世界上全面的和鮮活的數(shù)據(jù)庫,也是政府、企業(yè)和公共機構(gòu)體察輿情的重要來源。但這些Tweets(指Twitter上的用戶言論)中有很大的比例是毫無意義的空話和垃圾內(nèi)容,且夾雜著各種縮寫和不規(guī)范語言,這導(dǎo)致傳統(tǒng)的關(guān)鍵字搜索所返回的內(nèi)容列表,其分析價值相當(dāng)有限。而語義搜索能對海量Tweets和大規(guī)模用戶之間的聯(lián)系進(jìn)行分析,提取關(guān)鍵信息。當(dāng)你輸入“BarackObama”(美國總統(tǒng)奧巴馬)的時候,它能自動統(tǒng)計出數(shù)十億條Twitter信息中對奧巴馬的“正面”(positive)和“負(fù)面”(negative)評價的比例,并列出諸如“聰明”、“善良”、“決斷”、“吝嗇”和“愚蠢”等一系列用戶形容奧巴馬的最頻繁的關(guān)鍵詞。這意味著搜索引擎本身不僅以搜索框的形式出現(xiàn),還可以化身成一種互聯(lián)網(wǎng)服務(wù)的工具。“只有當(dāng)搜索引擎能夠被開發(fā)出更多應(yīng)用的時候,萬維網(wǎng)才會被帶到下一個時代,”微軟全球高級副總裁雷斯特對《環(huán)球企業(yè)家》說。而社交網(wǎng)站的搜索開發(fā)顯然是其中的一個方向——它不僅可以提升搜索本身在當(dāng)下的重要性,也符合語義搜索的趨勢需要。維基百科創(chuàng)始人吉米·威爾斯(JimmyWales)曾試圖創(chuàng)建一個結(jié)合用戶意志和語義關(guān)聯(lián)的搜索引擎網(wǎng)站W(wǎng)ikiaSearch(請于參看《我愛維基》),但后來放棄了。他曾表示過未來的搜索形態(tài)可能分散在各種互聯(lián)網(wǎng)的角落里,而不是搜索框。而據(jù)稱Facebook也試圖將其龐大的數(shù)據(jù)源進(jìn)行全面探索,以結(jié)構(gòu)化的數(shù)據(jù)和開放圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 年度財務(wù)目標(biāo)達(dá)成計劃
- 廣告行業(yè)前臺工作總結(jié)
- IT行業(yè)安全管理工作總結(jié)
- 礦產(chǎn)資源行業(yè)會計的關(guān)鍵職責(zé)
- 醫(yī)學(xué)美容護(hù)士工作心得
- 2024年認(rèn)識小熊教案
- 2024年牧場之國教案
- 2024年計算機教室管理制度
- 分銷合同范本(2篇)
- 辦公室合同范本(2篇)
- 足球教練員素質(zhì)和角色
- 初中八年級語文課件 桃花源記【省一等獎】
- 名校長工作總結(jié)匯報
- 商務(wù)接待禮儀流程
- 護(hù)理不良事件用藥錯誤講課
- 新教材人教版高中英語選擇性必修第一冊全冊教學(xué)設(shè)計
- 2024北京大興區(qū)初三(上)期末化學(xué)試卷及答案
- 媒體與新聞法律法規(guī)法律意識與職業(yè)素養(yǎng)
- 推土機-推土機構(gòu)造與原理
- 九年級化學(xué)課程綱要
-
評論
0/150
提交評論