版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、這篇文章對(duì)seo的指導(dǎo)意義很強(qiáng),里面的內(nèi)容很多seo方面的解答,比如原創(chuàng),鏈接,等等需要細(xì)細(xì)的品味。搜索引擎每天處理著數(shù)以億計(jì)的查詢請(qǐng)求,每個(gè)查詢請(qǐng)求都代表了一個(gè)用戶對(duì)于某種資源的特定需求。多數(shù)時(shí)候,通過(guò)查詢返回的網(wǎng)頁(yè)結(jié)果,這些需求被滿足了,我們可以認(rèn)為結(jié)果中的某些頁(yè)面對(duì)特定用戶的特定需求產(chǎn)生了價(jià)值。那么對(duì)于搜索引擎而言,頁(yè)面的價(jià)值是指什么,我們?yōu)槭裁匆芯宽?yè)面價(jià)值,技術(shù)上怎樣判斷頁(yè)面的價(jià)值呢?本文將逐一回答這些問(wèn)題。一、什么是頁(yè)面價(jià)值前面我們說(shuō)了,某個(gè)頁(yè)面滿足了某一用戶的特定需求,就體現(xiàn)了這個(gè)頁(yè)面對(duì)用戶的價(jià)值。那么對(duì)搜索引擎而言,價(jià)值體現(xiàn)在哪些方面呢?一個(gè)簡(jiǎn)單的推論,所有可能會(huì)對(duì)用戶產(chǎn)生價(jià)值
2、的頁(yè)面都是對(duì)搜索引擎有價(jià)值的,將這些頁(yè)面建入搜索引擎的索引中能夠滿足最終檢索到它們用戶的需求,我們稱這種價(jià)值為檢索價(jià)值。只要是能解決某個(gè)用戶信息需求的,并且是可以通過(guò)某些正常檢索需求到達(dá)的,那么就是有檢索價(jià)值的。小學(xué)生張三喜歡在qzone上寫(xiě)日記,寫(xiě)他前天吃了什么,今天玩了什么。這些內(nèi)容,是有價(jià)值的。它們對(duì)張三的家長(zhǎng)、同學(xué)、老師,以及其他小學(xué)生,和對(duì)小學(xué)生日記感興趣的人來(lái)說(shuō),都是有價(jià)值的。對(duì)于這個(gè)信息體來(lái)說(shuō),“張三”這個(gè)名字是檢索的“key”。有一些信息單元,只有“瀏覽”價(jià)值,而沒(méi)有到達(dá)該信息的檢索途徑,那么該資源可能是有價(jià)值的,但檢索價(jià)值就很低。比如一張百度大廈附近的地圖,從瀏覽角度,是有價(jià)
3、值的;但是如果沒(méi)有任何周邊文字說(shuō)明(或者link的anchor text,只有一張光禿禿的地圖,就沒(méi)有檢索價(jià)值。當(dāng)然,如果圖片的內(nèi)容識(shí)別技術(shù),有朝一日能自動(dòng)識(shí)別出這個(gè)是“百度大廈附近地圖”,或者能夠自動(dòng)分析出地圖內(nèi)的各種大廈、街道、餐館等的名稱,那么這張圖一樣變得有檢索價(jià)值了。所以一個(gè)頁(yè)面是否有檢索價(jià)值,應(yīng)該取決于兩點(diǎn):是否能解決某個(gè)特定的需求(價(jià)值是否可以通過(guò)某個(gè)常規(guī)的搜索方式獲得該信息(檢索那么,沒(méi)有檢索價(jià)值的頁(yè)面,是否對(duì)搜索引擎就沒(méi)有價(jià)值了呢?仔細(xì)想想,答案是否定的。索引只是搜索引擎的一個(gè)環(huán)節(jié),對(duì)于其他環(huán)節(jié)而言,沒(méi)有檢索價(jià)值的頁(yè)面有可能對(duì)我們更好的收錄那些檢索價(jià)值高的頁(yè)面有幫助。比如對(duì)負(fù)
4、責(zé)抓取互聯(lián)網(wǎng)資源的spider而言,有一些頁(yè)面,本身沒(méi)有檢索價(jià)值,但通過(guò)這些頁(yè)面的抓取和分析,能夠更快的幫助我們掌握這一類頁(yè)面沒(méi)有檢索價(jià)值這一重要信息,從而節(jié)省更多的流量進(jìn)行更加有效的抓取。考慮到這種價(jià)值可以算作一種“間接的”檢索價(jià)值,最終還是立足于索引價(jià)值的,在本文中就不再展開(kāi)論述,我們只關(guān)注“檢索價(jià)值”這一根本問(wèn)題。下文中提到的“頁(yè)面價(jià)值”特指頁(yè)面的“檢索價(jià)值”。二、為什么要研究頁(yè)面價(jià)值首先,互聯(lián)網(wǎng)上的頁(yè)面是無(wú)窮盡的,而搜索引擎的硬件資源是有限的,想用有限的資源去覆蓋無(wú)窮盡的互聯(lián)網(wǎng),我們就需要對(duì)頁(yè)面價(jià)值做出判斷,不收錄那些無(wú)檢索價(jià)值的頁(yè)面,少收錄那些檢索價(jià)值低的頁(yè)面。這是頁(yè)面價(jià)值在收錄控制
5、方面的應(yīng)用。第二,搜索引擎spider的抓取能力是有限的,出于訪問(wèn)友好性的考慮,對(duì)于一個(gè)網(wǎng)站或一個(gè)IP抓取速率需要有一個(gè)抓取速率的上限。在這一限制下,抓取或頁(yè)面更新就需要有一個(gè)先后順序,而這一排序的主要參考依據(jù)就是頁(yè)面價(jià)值,或者說(shuō)對(duì)頁(yè)面價(jià)值的預(yù)測(cè)(未抓取時(shí)。這是頁(yè)面價(jià)值在spider調(diào)度方面的應(yīng)用。第三,對(duì)于某些頁(yè)面,頁(yè)面內(nèi)容發(fā)生變化,導(dǎo)致它的檢索價(jià)值從有到無(wú),典型的就是變?yōu)椤八梨湣?或者“被黑”。對(duì)于這些頁(yè)面,好的搜索引擎會(huì)在第一時(shí)間將其排除出索引,或在檢索時(shí)對(duì)其進(jìn)行屏蔽,以保證返回給用戶的結(jié)果是更多檢索價(jià)值高的“好頁(yè)面”。對(duì)于另一些頁(yè)面,它不僅具有很高的檢索價(jià)值,而且有很強(qiáng)的“時(shí)效性”,能
6、夠第一時(shí)間讓用戶檢索到這些頁(yè)面對(duì)搜索體驗(yàn)有很大的提升。對(duì)搜索引擎而言,越快的收錄和索引頁(yè)面意味著越多的額外資源開(kāi)銷,以多快的速度收錄和以多短的周期更新索引,需要通過(guò)頁(yè)面價(jià)值的分析來(lái)指導(dǎo)。這兩方面是頁(yè)面價(jià)值在死鏈率和時(shí)效性兩大搜索引擎指標(biāo)提升上的應(yīng)用。最后,普遍意義上的頁(yè)面價(jià)值高低對(duì)搜索引擎返回給用戶的結(jié)果排序上也存在著指導(dǎo)意義。理想情況下搜索引擎的結(jié)果是按照與查詢請(qǐng)求的相關(guān)性進(jìn)行排序的,在相關(guān)性大體相當(dāng)?shù)那闆r下,用戶更傾向與瀏覽普遍意義上頁(yè)面價(jià)值高的網(wǎng)頁(yè)。這是頁(yè)面價(jià)值在ranking方面的應(yīng)用??梢哉f(shuō),頁(yè)面檢索價(jià)值的研究是搜索引擎中的一項(xiàng)較為基礎(chǔ)的工作,對(duì)頁(yè)面價(jià)值的認(rèn)識(shí)和判斷的準(zhǔn)確程度直接影響
7、著搜索引擎的覆蓋率、死鏈率、時(shí)效性等幾大主要指標(biāo)。三、如何判斷頁(yè)面價(jià)值前文中提到過(guò)一個(gè)小學(xué)生張三qzone日記的例子。我們認(rèn)為這個(gè)頁(yè)面是有價(jià)值的,對(duì)張三的同學(xué),朋友,家人都有價(jià)值。與此類似的,百度CEO李彥宏在i貼吧上發(fā)表一條十幾個(gè)字的i貼,也是有價(jià)值的,對(duì)李彥宏的上千萬(wàn)粉絲都有價(jià)值。雖然李彥宏的i貼長(zhǎng)度可能遠(yuǎn)小于張三的日記,但就這兩個(gè)頁(yè)面的價(jià)值來(lái)說(shuō),我們都會(huì)有一個(gè)共同的認(rèn)識(shí),即從普遍意義上講,李彥宏的i貼價(jià)值遠(yuǎn)大于張三的日記。(當(dāng)然,對(duì)于張三的媽媽來(lái)說(shuō)很可能這個(gè)價(jià)值的關(guān)系是相反的再舉個(gè)例子,搜索某個(gè)人的手機(jī)號(hào)碼,搜索引擎返回了一個(gè)結(jié)果,是這個(gè)人在某個(gè)論壇上的一個(gè)回復(fù)。雖然這個(gè)手機(jī)號(hào)碼關(guān)心的人
8、不多,但因?yàn)橘Y源是絕對(duì)稀缺的,對(duì)于關(guān)心這個(gè)手機(jī)號(hào)碼的查詢需求,這個(gè)頁(yè)面是完全不可替代的,因此具有極高的價(jià)值。另外,頁(yè)面檢索價(jià)值,還受到頁(yè)面質(zhì)量的影響。相似的頁(yè)面,對(duì)于滿足用戶需求來(lái)說(shuō),往往會(huì)有很大差異,比如資源下載速度,頁(yè)面的布局,廣告的多寡。這類差異,姑且稱之為頁(yè)面質(zhì)量。最后,有些頁(yè)面具有明顯的公眾話題性質(zhì),且這些資源往往在剛剛產(chǎn)生時(shí)有非常高的關(guān)注度,隨著時(shí)間的推移熱度顯著下降,有著“新聞”的特征。典型的像各種“門(mén)”事件,地震、火災(zāi)等大型的自然災(zāi)害。我們認(rèn)為這類資源具有“時(shí)效性”特征。所以,一個(gè)頁(yè)面的檢索價(jià)值,大致受以下四個(gè)要素的影響:感興趣的受眾群大小該頁(yè)面的稀缺程度(可替代性該頁(yè)面的質(zhì)量
9、高低該頁(yè)面的時(shí)效性特征強(qiáng)弱這四種要素,簡(jiǎn)稱受眾,稀缺,質(zhì)量和時(shí)效性。1. 受眾受眾群體的大小,即代表了用戶檢索需求的大小。評(píng)價(jià)受眾的大小主要依據(jù)信息發(fā)布源的受眾和信息內(nèi)容本身受眾兩大方面。具體因素包括且不限于:網(wǎng)站忠實(shí)用戶群大小一般來(lái)說(shuō),擁有自己忠實(shí)用戶群的知名網(wǎng)站,他們的成功,在于他們的內(nèi)容和服務(wù),比別人更能吸引和滿足用戶。從這個(gè)角度來(lái)說(shuō),我們可以推論,擁有更多忠實(shí)用戶群的網(wǎng)站上的內(nèi)容,會(huì)比忠實(shí)用戶群較少的網(wǎng)站上的內(nèi)容,有更多的既有和潛在受眾群。這樣的話,忠實(shí)用戶群大小,就可以變成對(duì)站點(diǎn)內(nèi)資源檢索價(jià)值的一種衡量指標(biāo)。忠實(shí)用戶群的好處在于,它是變動(dòng)的。如果一個(gè)網(wǎng)站變差了,那么用戶就會(huì)用腳投票。
10、超鏈有過(guò)期問(wèn)題,作弊問(wèn)題,而虛假用戶群作弊很難。一般所謂的網(wǎng)站知名度,會(huì)和忠實(shí)用戶群數(shù)量密切相關(guān)。資源分布規(guī)律我們?cè)倏紤]一個(gè)網(wǎng)站內(nèi)部的資源分布所體現(xiàn)的受眾群大小問(wèn)題。比如新浪新聞首頁(yè)的那些推介內(nèi)容。新浪編輯為什么要推這些內(nèi)容?因?yàn)樗麄冋J(rèn)為這些是用戶最感興趣的。那么從索引價(jià)值角度而言,相當(dāng)于有一個(gè)龐大的編輯團(tuán)隊(duì),已經(jīng)對(duì)這些內(nèi)容打上了“符合大眾口味”的標(biāo)簽。搜索引擎只需要樂(lè)享其成就行了。這樣的話,資源相對(duì)于某些結(jié)構(gòu)性關(guān)鍵頁(yè)面(首頁(yè)、頻道頁(yè)等的鏈接深度,也可以成為衡量一個(gè)資源受眾群大小的指標(biāo)了。訪問(wèn)熱門(mén)度我們?cè)購(gòu)脑L問(wèn)熱門(mén)度角度來(lái)考慮受眾群大小問(wèn)題。這個(gè)是最直接的,當(dāng)然,它需要第三方的工具來(lái)獲取關(guān)鍵數(shù)
11、據(jù)。通過(guò)這個(gè)途徑,獲取的不應(yīng)僅僅是需要入庫(kù)的頁(yè)面,還有用戶訪問(wèn)一個(gè)網(wǎng)站的訪問(wèn)模式。超鏈超鏈某種程度上也是受眾群大小的反映。某個(gè)資源的質(zhì)量越高,接觸的受眾群越大,那么獲得正常鏈接的數(shù)量往往也越大。內(nèi)容特征A:我寫(xiě)博客:“傳言郭德綱要上春晚了?!盉:我寫(xiě)博客:“我今天吃早飯了?!蓖瑯拥膩?lái)源,前者的受眾必然高于后者。即:當(dāng)在發(fā)布源相同的情況下,具有公眾屬性的內(nèi)容分值會(huì)更高。2. 稀缺稀缺主要是描述頁(yè)面在互聯(lián)網(wǎng)中的獨(dú)特性。說(shuō)到稀缺往往會(huì)想到重復(fù),稀缺是否等同于無(wú)重復(fù),我們應(yīng)該怎樣解讀這一概念呢?可以看一個(gè)例子:某人發(fā)表了一篇針對(duì)某新聞事件的原創(chuàng)博客,隨后被新浪轉(zhuǎn)載到了新聞?lì)l道。從描述的內(nèi)容上講,這是一
12、種重復(fù)。但這種重復(fù)僅僅是主體內(nèi)容上的重復(fù),一方面它的轉(zhuǎn)載帶來(lái)了訪問(wèn)速度、穩(wěn)定性等方面的增益,并且之后的檢索用戶還有可能用“新聞事件+新浪”來(lái)檢索此新聞。這可以被稱之為站點(diǎn)增益。另一方面,它在轉(zhuǎn)載過(guò)程中可能會(huì)改變頁(yè)面的標(biāo)題,而且依托其受眾,在轉(zhuǎn)載頁(yè)面上,還有可能出現(xiàn)更多的有價(jià)值評(píng)論和回復(fù)等,還有可能存在指向其它相關(guān)事件的新聞鏈接。這些可以被稱之為內(nèi)容增益。因此即使主題內(nèi)容沒(méi)有任何變化,新浪的這次轉(zhuǎn)載也是有價(jià)值的,其稀缺度也是較高的。同樣,反過(guò)來(lái)說(shuō),如果轉(zhuǎn)載的網(wǎng)站相當(dāng)不知名,則其無(wú)法帶來(lái)站點(diǎn)名/穩(wěn)定性/速度的增益。更有甚者,轉(zhuǎn)載之后在頁(yè)面上加入大量廣告妨礙閱讀,或者只轉(zhuǎn)載了內(nèi)容中不完整的一部分,這
13、樣的轉(zhuǎn)載,或者說(shuō)采集,就是純重復(fù)的,與采集源相比,就是沒(méi)有檢索價(jià)值的了。綜上所述,對(duì)于主體內(nèi)容重復(fù)的頁(yè)面,我們應(yīng)該評(píng)價(jià)其是否存在站點(diǎn)增益和內(nèi)容增益,只有對(duì)于大量完全無(wú)增益的重復(fù)頁(yè)面,我們才應(yīng)該認(rèn)為其稀缺度較低。3. 質(zhì)量頁(yè)面的質(zhì)量是它對(duì)需求的滿足程度的一種體現(xiàn)。判斷頁(yè)面質(zhì)量的高低,應(yīng)該是從最基礎(chǔ)的需求依次遞進(jìn)的。首先,不能是死鏈、網(wǎng)站要有一定的穩(wěn)定性、訪問(wèn)速度要令人滿意。其次,主體內(nèi)容是否完整、版式和字體是否易讀、各類廣告會(huì)不會(huì)太多。最后,信息是否豐富、延伸出的次級(jí)需求是否滿足。典型的低質(zhì)量頁(yè)面存在以下一些特征:主需求無(wú)效/未滿足(過(guò)期分類廣告/軟件下載頁(yè)面,下載鏈接無(wú)效等死鏈虛假信息/詐騙等
14、空頁(yè)面站點(diǎn)不穩(wěn)定影響主需求的權(quán)限問(wèn)題(下載/瀏覽需要注冊(cè)會(huì)員/積分等信息不完整(轉(zhuǎn)載不全等瀏覽體驗(yàn)差(廣告/字體/頁(yè)面布局等典型的高質(zhì)量頁(yè)面存在以下一些特征:訪問(wèn)速度快(頁(yè)面加載快/資源下載速度快頁(yè)面整潔干凈,主體內(nèi)容在顯著位置。頁(yè)面信息完整。頁(yè)面元素豐富(文字、圖片、評(píng)論、相關(guān)推薦等4. 時(shí)效性“時(shí)效性”是頁(yè)面價(jià)值的一個(gè)屬性,它一般體現(xiàn)在兩個(gè)方面:一是頁(yè)面所描述的事物本身有著較強(qiáng)的公眾話題性,容易被傳播。這其實(shí)是受眾的一個(gè)體現(xiàn)。二是頁(yè)面所描述的事物僅在第一時(shí)間有較高熱度,隨著時(shí)間推移熱度顯著下降。這是一種“新聞”性。對(duì)于具有上述兩種屬性的頁(yè)面,如果搜索引擎spider發(fā)現(xiàn)頁(yè)面的時(shí)間正處于該事
15、物的“爆發(fā)期”或“爆發(fā)期”之前,我們認(rèn)為該頁(yè)面具有時(shí)效性。需要說(shuō)明的是,搜索引擎的廣義“時(shí)效性”是指對(duì)所有有價(jià)值新資源的及時(shí)收錄提供檢索,而所有的有價(jià)值新資源中,有一大部分其收錄速度的提升對(duì)用戶的搜索體驗(yàn)改善意義是不大的,比如介紹如何瘦身的知識(shí)性文章,張三的日記。頁(yè)面價(jià)值中的“時(shí)效性”指得是一種突發(fā)時(shí)效性,也就是所有有價(jià)值頁(yè)面中最需要及時(shí)收錄的那些。對(duì)頁(yè)面時(shí)效性的判斷是為了指導(dǎo)我們將搜索引擎有限的資源投入到最關(guān)鍵的地方,產(chǎn)生最好的性價(jià)比。判斷頁(yè)面的時(shí)效性價(jià)值,主要通過(guò)下面一些途徑:頁(yè)面本身受眾是否有短時(shí)間的突增,比如超鏈爆發(fā)。賈君鵬的帖子就是一個(gè)典型的例子。描述相同事物的互聯(lián)網(wǎng)頁(yè)面是否有段時(shí)間的突增。賈君鵬事件短時(shí)間內(nèi)爆發(fā)出大量相關(guān)討論、報(bào)道,和這一事件相關(guān)的所有內(nèi)容都具有了時(shí)效性屬性。根據(jù)一個(gè)集合內(nèi)的頁(yè)面是否具有上述兩種特征,推測(cè)該集合的時(shí)效性價(jià)值。比如魔獸世界吧經(jīng)常爆出一些熱門(mén)帖子,公眾話題,我們推測(cè)出自魔獸世界吧的帖子其時(shí)效性“潛在價(jià)值”比較高。四、頁(yè)面價(jià)值的研究重點(diǎn)前文已經(jīng)介紹了頁(yè)面價(jià)值的含義,研究的意義與價(jià)值判斷的方法。最后我們?cè)倏匆幌?從技術(shù)角度上,這一方向的研究中的重點(diǎn)方向
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑施工腳手架分包條件范本
- 企業(yè)禮品選購(gòu)合同
- 裝卸質(zhì)量信譽(yù)保證
- 專業(yè)單項(xiàng)勞務(wù)分包協(xié)議樣本
- 鋼鐵構(gòu)造工程協(xié)議
- 專業(yè)居間融資協(xié)議模板
- 存量房屋買(mǎi)賣(mài)合同模板
- 確保學(xué)費(fèi)按時(shí)繳納約束性保證書(shū)模板
- 課堂上我誓守靜悄悄
- 農(nóng)產(chǎn)品購(gòu)買(mǎi)合同的合同付款條件
- 電動(dòng)給水泵液力耦合器基礎(chǔ)知識(shí)ppt課件
- 樣品管理控制流程圖
- 超實(shí)用-組合房貸計(jì)算表
- 屋面細(xì)石混凝土保護(hù)層施工方案及方法
- 西方經(jīng)濟(jì)學(xué)考試題庫(kù)含答案
- 監(jiān)理公司各部門(mén)職責(zé)
- 論辛棄疾詞作的愁情主題及其審美價(jià)值
- 新形勢(shì)下我國(guó)保險(xiǎn)市場(chǎng)營(yíng)銷的現(xiàn)狀、問(wèn)題及對(duì)策
- 完整版焦慮抑郁自評(píng)量表SASSDS
- ISO14001內(nèi)審檢查表
- 新形勢(shì)下加強(qiáng)市場(chǎng)監(jiān)管局檔案管理工作的策略
評(píng)論
0/150
提交評(píng)論