搜索也泄密?我們?cè)撛鯓右?guī)范搜索信息_第1頁(yè)
搜索也泄密?我們?cè)撛鯓右?guī)范搜索信息_第2頁(yè)
搜索也泄密?我們?cè)撛鯓右?guī)范搜索信息_第3頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

搜索也泄密?我們?cè)撛鯓右?guī)范搜索信息

周濤(電子科技大學(xué)教授,電子科技大學(xué)互聯(lián)網(wǎng)科學(xué)中心主任)劉奕群(清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系講師)對(duì)話(huà)背景韓媒報(bào)道稱(chēng),韓國(guó)政府8月11日表示將分階段廢除網(wǎng)絡(luò)實(shí)名制,完善同意搜集個(gè)人信息制度等對(duì)策來(lái)保護(hù)個(gè)人信息安全。韓國(guó)互聯(lián)網(wǎng)在2007年7月實(shí)施實(shí)名制后,網(wǎng)民個(gè)人信息在網(wǎng)絡(luò)上被大批量偷竊或泄露。同時(shí),嚴(yán)格管理用戶(hù)在自己使用過(guò)的電腦上留下的個(gè)人記錄,確保不被商業(yè)組織過(guò)多利用。網(wǎng)絡(luò)技術(shù)的進(jìn)步使得個(gè)人隱私成了問(wèn)題。但同時(shí),我們又面臨著海量信息,想找到自己的那款好像大海撈針,搜索出來(lái)的無(wú)數(shù)條結(jié)果猶如廢品。一邊是泄密,一邊是廢品,互聯(lián)網(wǎng)搜索到底是怎么了?為什么在搜索中我們不容易得到自己需要的信息?在上網(wǎng)或搜索過(guò)程中會(huì)不會(huì)造成信息泄露?如何保護(hù)個(gè)人信息?就此,記者采訪(fǎng)了有關(guān)專(zhuān)家。用戶(hù)使用習(xí)慣和算法直接關(guān)系到搜索質(zhì)量主持人:為什么在搜索中我們不容易得到自己需要的信息?周濤:首先,我認(rèn)為在大部分情況下,借助搜索引擎,用戶(hù)能夠比較容易找到自己需要的信息。當(dāng)然,有時(shí)候也會(huì)遇到困難,我認(rèn)為原因有以下幾點(diǎn):最本質(zhì)的原因是信息爆炸性的增長(zhǎng);其次是一些技術(shù)的問(wèn)題,譬如怎么樣判斷用戶(hù)輸入的搜索詞和網(wǎng)頁(yè)內(nèi)容的相關(guān)程度等,也是麻煩的問(wèn)題;再次,搜索引擎里面加入了很多商業(yè)因素,包括推廣鏈接,關(guān)鍵詞競(jìng)價(jià)排名等等,這些都會(huì)在一定程度上影響搜索的質(zhì)量。當(dāng)然,用戶(hù)自身關(guān)鍵詞選擇沒(méi)有經(jīng)驗(yàn),也會(huì)影響搜索結(jié)果的獲得。主持人:這種搜索的盲目是否是搜索引擎故意設(shè)置?與技術(shù)有沒(méi)有關(guān)系?周濤:搜索的質(zhì)量和搜索算法有直接的關(guān)系。當(dāng)然,一方面算法在不停改進(jìn),另一方面,搜索的范圍在不斷擴(kuò)大,用戶(hù)對(duì)信息準(zhǔn)確程度的要求越來(lái)越高,所以用戶(hù)對(duì)搜索質(zhì)量的評(píng)價(jià)不一定會(huì)提高。任何一個(gè)搜索引擎都希望用戶(hù)能夠盡快獲得所需要的信息,不會(huì)故意設(shè)置障礙!劉奕群:從我的角度來(lái)說(shuō),我很難設(shè)想搜索引擎會(huì)故意在用戶(hù)使用的過(guò)程中設(shè)置障礙。搜索引擎行業(yè)的競(jìng)爭(zhēng)是非常激烈的,所有的搜索引擎公司都希望能夠最快地、最好地滿(mǎn)足用戶(hù)的需求。當(dāng)然搜索引擎也和其他網(wǎng)站一樣,希望能夠盡量長(zhǎng)時(shí)間地讓用戶(hù)留在這個(gè)頁(yè)面上,因?yàn)殚L(zhǎng)時(shí)間的停留有可能會(huì)帶給它更多的利益,任何網(wǎng)站都是這樣。因此,搜索引擎肯定是想留住用戶(hù),但是我很難想象搜索引擎會(huì)用設(shè)置障礙的方式將用戶(hù)留在上面更長(zhǎng)時(shí)間,這也是不太現(xiàn)實(shí)的?,F(xiàn)在有一個(gè)比較明顯的誤區(qū),就是大家都認(rèn)為只要把廣告放在搜索頁(yè)面上,就可以賺錢(qián)。這是完全不對(duì)的。因?yàn)樗械乃阉饕娑疾皇峭ㄟ^(guò)“展現(xiàn)給用戶(hù)”的模式來(lái)計(jì)費(fèi)的,搜索引擎都是采用點(diǎn)擊收費(fèi)的模式。所以,如果在某次查詢(xún)時(shí),搜索引擎給了用戶(hù)一個(gè)明顯不相關(guān)的廣告,這對(duì)搜索引擎來(lái)說(shuō)也是一件很不劃算的事情。因?yàn)楫?dāng)用戶(hù)發(fā)現(xiàn)這是一個(gè)明顯的無(wú)關(guān)的欺詐行為的話(huà),用戶(hù)可以選擇不點(diǎn)擊它,搜索引擎一樣賺不到錢(qián)。所以從這個(gè)意義上說(shuō),搜索引擎和用戶(hù)之間是共贏的:搜索引擎希望用戶(hù)找到自己最想要的東西,從而保持自己的競(jìng)爭(zhēng)力;而另一方面,用戶(hù)也想通過(guò)搜索引擎找到最想要的。搜索引擎很難對(duì)所有信息都公平主持人:搜索引擎是不是應(yīng)該對(duì)所有網(wǎng)站和信息都公平?周濤:世界上沒(méi)有絕對(duì)的公平,互聯(lián)網(wǎng)也一樣,但至少互聯(lián)網(wǎng)要比現(xiàn)實(shí)社會(huì)更公平。任何一個(gè)搜索算法本身肯定是具有傾向性的,譬如會(huì)傾向于有很多鏈接鏈入的網(wǎng)頁(yè),會(huì)傾向呈現(xiàn)新近出現(xiàn)或新近活躍的網(wǎng)頁(yè)等等。但是這個(gè)算法給定之后,對(duì)于所有的網(wǎng)頁(yè),它們的排序是嚴(yán)格按照算法來(lái)的,從這個(gè)意義上講,這是公平的。當(dāng)然,百度開(kāi)創(chuàng)性地把經(jīng)濟(jì)作為一個(gè)維度放入到搜索算法中,允許網(wǎng)頁(yè)的所有人通過(guò)付費(fèi)的形式,提高網(wǎng)頁(yè)排名。從算法的角度來(lái)看,這應(yīng)該是一種不公平的行為。不過(guò),用戶(hù)不應(yīng)該對(duì)此有太多的批評(píng),我們首先要感謝這些搜索引擎對(duì)數(shù)千億網(wǎng)頁(yè)進(jìn)行抓取分析。我們肯定也經(jīng)常通過(guò)這些搜索引擎獲得有價(jià)值的信息,因此允許它們引入一些“不公平”因素而很好活下去,對(duì)用戶(hù)自己也是有好處的。譬如,在沒(méi)有百度和必須繞過(guò)百度6個(gè)推廣鏈接之間,我覺(jué)得用戶(hù)肯定會(huì)選擇后者。從另一個(gè)角度講,如果百度賺到足夠多的錢(qián)并且開(kāi)拓了很多新的商業(yè)模式后,能夠逐步減輕甚至放棄競(jìng)價(jià)排名機(jī)制,用戶(hù)肯定是樂(lè)于看到的。劉奕群:搜索引擎很難做到對(duì)所有的信息是公平的。比如說(shuō),我是一個(gè)個(gè)人網(wǎng)站主,并開(kāi)設(shè)了一個(gè)自己的網(wǎng)站,并不能說(shuō)搜索引擎對(duì)我的網(wǎng)站的內(nèi)容和對(duì)門(mén)戶(hù)網(wǎng)站的內(nèi)容就是公平的。因?yàn)槲业耐度胍膊粔?,盡管我的內(nèi)容可能在某一個(gè)方面是非常漂亮的,但是很難為人所知,所以搜索引擎也很難抓取到。因此,完全的公平是很難做到的。從另一個(gè)角度講,搜索引擎并不是一個(gè)公益行業(yè),要完全地公平地呈現(xiàn)信息也是不太可能的?,F(xiàn)在搜索引擎會(huì)通過(guò)一些自己支持的項(xiàng)目使互聯(lián)網(wǎng)上的信息獲取盡量平等些。通過(guò)分析歷史和喜好呈現(xiàn)用戶(hù)自己的搜索結(jié)果主持人:有哪些技術(shù)或方法能讓用戶(hù)更快捷地找到對(duì)自己有用的信息?周濤:除了搜索中用到的切詞技術(shù)、語(yǔ)義分析、排序算法等等,我覺(jué)得在經(jīng)典搜索算法之外,最有可能改變搜索體驗(yàn)的技術(shù),就是所謂的個(gè)性化技術(shù)。簡(jiǎn)而言之,是通過(guò)用戶(hù)以前搜索的結(jié)果和點(diǎn)擊的歷史,分析用戶(hù)的喜好,從而為每一個(gè)用戶(hù)呈現(xiàn)個(gè)性化的搜索結(jié)果。事實(shí)上,百度已經(jīng)推出了個(gè)性化搜索的服務(wù),國(guó)內(nèi)也有專(zhuān)門(mén)做個(gè)性化技術(shù)的公司,例如百分點(diǎn)科技。個(gè)性化搜索及其他互聯(lián)網(wǎng)的個(gè)性化服務(wù)會(huì)很快走入大多數(shù)互聯(lián)網(wǎng)用戶(hù)的生活。注意,個(gè)性化技術(shù)意味著用戶(hù)要損失一定的個(gè)人隱私。劉奕群:基于我們現(xiàn)有的搜索引擎應(yīng)用環(huán)境,我有兩個(gè)建議。第一個(gè)建議是,如果用戶(hù)要進(jìn)行一些商業(yè)意圖比較明顯的搜索的話(huà),并不一定要通過(guò)一般搜索引擎來(lái)進(jìn)行。當(dāng)然這個(gè)對(duì)用戶(hù)的要求就比較高了,用戶(hù)應(yīng)當(dāng)可以了解一些我們稱(chēng)之為“垂直搜索引擎”的資源。這個(gè)搜索引擎可能是面向某一個(gè)特殊的領(lǐng)域搜索。另一個(gè)建議是,因?yàn)樗阉饕婷鎸?duì)的是一個(gè)非常復(fù)雜的信息環(huán)境,這個(gè)信息環(huán)境中可能有很多的噪音,很多的垃圾,這個(gè)是很難避免的。所以用戶(hù)在使用搜索引擎的時(shí)候一定要意識(shí)到搜索不是萬(wàn)能的,是可能產(chǎn)生錯(cuò)誤的。因此用戶(hù)在使用搜索引擎時(shí),應(yīng)當(dāng)懷著一個(gè)“七分信任、三分懷疑”的心態(tài)去看網(wǎng)上的資源。個(gè)性化意味著要損失一定的個(gè)人隱私主持人:用戶(hù)有沒(méi)有什么方法能夠找到適合自己的信息?周濤:如果用戶(hù)希望主動(dòng)獲取,我個(gè)人覺(jué)得最好的途徑還是搜索引擎。其次,用戶(hù)可以把自己常用的網(wǎng)頁(yè)收藏起來(lái),譬如用Delicious提供的工具,并且用合適的標(biāo)簽進(jìn)行管理。以后,通過(guò)瀏覽興趣相投的其他用戶(hù)的收藏,或者同一組標(biāo)簽下的其他收藏,很容易找到感興趣的內(nèi)容。如果用戶(hù)希望被動(dòng)獲取,那么推薦引擎是一個(gè)很好的選擇。主持人:推薦搜索引擎會(huì)不會(huì)引起個(gè)人信息泄露呢?周濤:這是一個(gè)平衡的問(wèn)題,要想獲得更好的體驗(yàn),就需要犧牲一部分個(gè)人隱私。當(dāng)然,這部分隱私應(yīng)該只能被用于提高搜索的質(zhì)量,而不能被企業(yè)公開(kāi)或販賣(mài)或謀求其他利益。如果用戶(hù)擔(dān)心自己的隱私被泄露,但又想獲得更好的個(gè)性化的搜索體驗(yàn)。我建議用戶(hù)在平時(shí)工作或者娛樂(lè)的時(shí)候,可以登陸使用個(gè)性化搜索。在特定的一些隱私活動(dòng),譬如搜索自己的一些病癥,搜索可能的訴訟問(wèn)題,搜索色情網(wǎng)站等等的時(shí)候,就退出登錄。趣談《天龍八部》與推薦搜索找到你的那一款數(shù)千億計(jì)的網(wǎng)頁(yè),淘寶的上億件商品,Delicious的數(shù)億網(wǎng)頁(yè)收藏,Amazon的百萬(wàn)圖書(shū),Netflix的數(shù)萬(wàn)部電影……對(duì)于我們而言,僅僅是將這些瀏覽一遍也要窮盡若干人生,更不用提仔細(xì)思量比較,選擇最適合自己的產(chǎn)品。簡(jiǎn)而言之,一般互聯(lián)網(wǎng)用戶(hù)對(duì)于絕大多數(shù)名義上可以獲取的信息都是一無(wú)所知的。搜索引擎的出現(xiàn),是解決信息過(guò)載問(wèn)題的一個(gè)里程碑式的事件。搜索引擎的本質(zhì)是幫助用戶(hù)找到“他想要的東西”。用戶(hù)在使用搜索引擎的時(shí)候,需要輸入若干關(guān)鍵詞進(jìn)行查詢(xún),這就意味著用戶(hù)使用之前,對(duì)于查詢(xún)結(jié)果的內(nèi)容和形式存在著預(yù)設(shè)的期望。典型如查找某機(jī)構(gòu)地址和聯(lián)系方式,某網(wǎng)站主頁(yè),某八卦新聞詳情等。推薦引擎的本質(zhì)是幫助用戶(hù)找到“他喜歡的東西”。推薦引擎在沒(méi)有把用戶(hù)喜歡的東西呈現(xiàn)給用戶(hù)之前,用戶(hù)對(duì)這些東西很可能是一無(wú)所知的:既不知道其存在性,更談不上預(yù)先知道是否喜歡了。推薦引擎是通過(guò)用戶(hù)以前的訪(fǎng)問(wèn)記錄,猜到用戶(hù)喜歡什么,然后把用戶(hù)喜歡的東西找出來(lái),推送到用戶(hù)面前。以《天龍八部》為例,段譽(yù)在無(wú)量山山洞中見(jiàn)到神仙姐姐的時(shí)候,就植下了一生的情種。之后在燕子塢見(jiàn)到王夫人的時(shí)候,覺(jué)得有三四分相似;見(jiàn)到王語(yǔ)嫣的時(shí)候,覺(jué)得有七八分相似。從此,段譽(yù)對(duì)王語(yǔ)嫣的愛(ài)慕?jīng)]有變化過(guò)。對(duì)于這種需求,搜索引擎最合適不過(guò)了,想象段譽(yù)可以把神仙姐姐的特征轉(zhuǎn)化成關(guān)鍵詞輸入進(jìn)去,我們的任務(wù)就是在千千萬(wàn)萬(wàn)的候選人中找出最象神仙姐姐的那位!段正淳則不一樣,愛(ài)過(guò)的女人很多,刀白鳳、秦紅棉、甘寶寶、阮星竹、王夫人、馬夫人……可

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論