![搜索引擎垃圾頁面檢測技術(shù)申報表_第1頁](http://file4.renrendoc.com/view/f755866c4d34f2aa829830b37dc15e8e/f755866c4d34f2aa829830b37dc15e8e1.gif)
![搜索引擎垃圾頁面檢測技術(shù)申報表_第2頁](http://file4.renrendoc.com/view/f755866c4d34f2aa829830b37dc15e8e/f755866c4d34f2aa829830b37dc15e8e2.gif)
![搜索引擎垃圾頁面檢測技術(shù)申報表_第3頁](http://file4.renrendoc.com/view/f755866c4d34f2aa829830b37dc15e8e/f755866c4d34f2aa829830b37dc15e8e3.gif)
![搜索引擎垃圾頁面檢測技術(shù)申報表_第4頁](http://file4.renrendoc.com/view/f755866c4d34f2aa829830b37dc15e8e/f755866c4d34f2aa829830b37dc15e8e4.gif)
![搜索引擎垃圾頁面檢測技術(shù)申報表_第5頁](http://file4.renrendoc.com/view/f755866c4d34f2aa829830b37dc15e8e/f755866c4d34f2aa829830b37dc15e8e5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
個人資料整理 僅限學習使用工程編號:衡陽師范學院大學生課外學術(shù)科技創(chuàng)新基金工程申報表工程名稱:搜索引擎垃圾頁面檢測技術(shù)研究申請者:系<院)專業(yè):計算機科學與技術(shù)<非師范)聯(lián)系電話:申請日期:工程類別:□自然科學類學術(shù)論文□哲學社會科學類社會調(diào)查報告和學術(shù)論文□科技發(fā)明制作共青團衡陽師范學院委員會制二○一三年三月一、 工程基本情況工程名稱 搜索引擎垃圾頁面檢測技術(shù)研究1/10個人資料整理 僅限學習使用工程類別科技發(fā)明研究期限1年申請經(jīng)費300元工程負責人姓名專業(yè)計算機科學與技術(shù)所屬系<院)計算機科學系姓名系<院)及專業(yè)主要合作人員姓名 工作單位及稱謂指導老師搜索引擎是現(xiàn)代人類在互聯(lián)網(wǎng)上獲取信息必不可少的手段。由于在主流搜索引擎上獲得較高的排名可以引起更多人的注意,從而帶來巨大的利益。因此很多網(wǎng)站,特別是內(nèi)容提供商,千方百計試圖通過非法的手段欺詐搜索引擎,從而提高自己的排名。這類欺詐網(wǎng)站或頁面被稱為垃圾頁面。垃圾頁面的存在給搜索引擎用戶帶來巨大麻煩,用戶不得不搜索結(jié)果中人工尋找有用項的信息。因此,如果一個搜索引擎對垃圾頁面處理不好,它的用戶滿意度將會迅速降低。垃圾頁面檢測技術(shù)被認為是現(xiàn)代搜索引擎所面臨的最的挑戰(zhàn)之目一。本文詳細描述了搜索引擎垃圾頁面的各種情況,討論了搜索引擎垃圾頁面的各種技術(shù),也介紹了國外的一些研究動態(tài)以及解決問題的方法,在簡實際應(yīng)用中及時準確地檢測并清理搜索引擎垃圾頁面仍然是個挑戰(zhàn),正如文中所強調(diào)的,只有準確地掌握了搜索引擎垃圾頁面的各種技術(shù)特征,才介能根據(jù)不同的特征有針對性的設(shè)計檢測算法,把搜索引擎垃圾頁面的檢測看成一個分類問題,并使用決策樹和支持向量機模型進行檢測,根據(jù)搜索引擎垃圾頁面的鏈接結(jié)構(gòu)設(shè)計出圖算法檢測鏈接工廠。我們將結(jié)合先進的計算機科學與技術(shù)學習,鏈接分析,頁面內(nèi)容分析等手段,提高垃圾頁面檢測的準確率,確保用戶搜索到滿意的結(jié)果,提高用戶的滿意率。2/10個人資料整理 僅限學習使用二、立論依據(jù)<工程的意義、現(xiàn)狀分析、參考文獻等)1.工程背景百度自稱是目前全球最大的中文搜索引擎,每天的搜索人次超過 1億。在其官方網(wǎng)站,競價排名被稱為一種按效果付費的網(wǎng)絡(luò)推廣方式,用少量的錢就可以提升企業(yè)的銷售額和品牌知名度。然而百度競價排名被指過多地人工干涉搜索結(jié)果,被指為“勒索營銷”,引發(fā)公眾質(zhì)疑,并引來谷歌等搜索巨頭的“圍攻”。 2008年15、16日,央視《新聞30分》連續(xù)兩天報道百度的競價排名黑幕,百度競價排名被指過多地人工干涉搜索結(jié)果,引發(fā)垃圾信息,涉及惡意屏蔽,被指為“勒索營銷”,并引發(fā)了公眾對其信息公平性與商業(yè)道德的質(zhì)疑。這是繼“三鹿門”之后再次將第一大中文搜索引擎推向風口浪尖。2.工程的意義索引擎與傳統(tǒng)媒體的贏利模式一樣,以人氣、用戶的數(shù)量和質(zhì)量為最終衡量手段,因此增加用戶信賴度仍然是搜索引擎保持旺盛生命力的最重要前提。但是,由于搜索結(jié)果中摻雜了太多的利益因素而影響普通用戶搜尋合適信息。本工程通過搜索引擎垃圾頁面檢測技術(shù)來實現(xiàn)信息資源共享的目標,為網(wǎng)絡(luò)服務(wù)帶來合理的商業(yè)利益,同時又能最大程度地保護信息提供者的合法權(quán)益。從而促進網(wǎng)絡(luò)搜索業(yè)健康持續(xù)發(fā)展。3.現(xiàn)狀分析如何在海量的信息中查找用戶需要的信息,已成為這個時代的一個重要課題。在這種情況下,互聯(lián)網(wǎng)搜索引擎因應(yīng)而生,并且不斷發(fā)展壯大,形成了一個新興產(chǎn)業(yè)。隨著互聯(lián)網(wǎng)各種頁面數(shù)量爆炸式增長,用戶使用搜索引擎查找信息已經(jīng)成為了最近幾年信息檢索的主要方式.大多數(shù)網(wǎng)站管理者都希望他們的網(wǎng)站在搜索引擎的搜索結(jié)果中排名靠前,在同一查詢下排名靠前的頁面所在的站點會被更多的用戶點擊,很多的網(wǎng)站管理者會采取合理的搜索引擎優(yōu)化技術(shù)(SEO>,通過在頁面中提供給用戶更多、更有效的信息,以提升他們的網(wǎng)站在搜索引擎的搜索結(jié)果中的排名.而有些網(wǎng)站則通過一些"不道德"的方式來提升在搜索引擎的搜索結(jié)果中的排名.更有甚者,為了吸引訪問量,手動或自動地制造一些頁面,而這些頁面沒有提供給用戶任何有效信息.這些頁面是直接針對搜索引擎的,但是在搜索引擎的搜索結(jié)果中獲得了很高的排名,當用戶查詢某些關(guān)鍵詞的時候,就有可能訪問這些搜索引擎垃圾頁面。3/10個人資料整理 僅限學習使用搜索引擎檢索結(jié)果的排序會對相關(guān)的網(wǎng)站產(chǎn)生直接的影響 ,從而獲得更多的經(jīng)濟效益。因此,為了使自己的網(wǎng)站在搜索引擎的檢索結(jié)果中排名靠前,一些網(wǎng)站的所有者會采用各種各樣的手段來提高自己的排名,于是產(chǎn)生了專門為其他網(wǎng)站提供提高網(wǎng)站排名服務(wù)的盈利組織—SEO(搜索引擎優(yōu)化組織>。SEO采用的技術(shù)手段有些是合法有益的,能夠使對用戶有用的信息排名靠前。而有些技術(shù)則是利用一些非法手段來提高頁面的排名,這會造成大量垃圾信息。作為搜索引擎目前主要贏利模式的競價排名還是剛剛起步,其中仍然存在很多弊端,但是從目前來看,競價排名仍然能夠令搜索引擎保持高速增長的勢頭。雅虎子公司 Overture 于2000年首次開始使用競價排名的收費方式,這種收費方式推出以后很快被推廣,在國內(nèi)Baidu公司率先使用。競價排名的應(yīng)用原理,首先確定按照用戶的點擊率進行收費的收費模式,在用戶搜索的結(jié)果中,付費企業(yè)的推廣信息優(yōu)先顯示在用戶面前,如果顧客沒點擊該廣告,則不收取費用;若點擊該廣告信息則收取一次費用,最后根據(jù)點擊的次數(shù)來收取總的廣告費用。而廣告的位置排名,即出現(xiàn)在客戶搜尋信息的位置,取決于企業(yè)支付單次點擊費用的高低,為每次點擊支付價格最高的廣告會排在第一位,然后依次排列。目前,國內(nèi)主要有三家搜索引擎,基本處于壟斷地位。百度作為全球最大的中文搜索引擎,在國內(nèi)首創(chuàng)“競價排名”概念,并早在2001年10月申請了競價排名專利并推廣使用。Google作為世界上最大的搜索引擎公司曾說“我們的廣告業(yè)務(wù)絕不以任何方式影響我們的搜索”,“每一個搜索結(jié)果都是程序按規(guī)則自動排出,是純粹技術(shù)選擇的結(jié)果,這個結(jié)果神圣不可侵犯”。但其卻在2003年4月3日與電子商務(wù)網(wǎng)站弧馬遜簽署了一份搜索排名的服務(wù)協(xié)議,開始了競價排名服務(wù)。隨后,2004年11月22日Yahoo在中囝推出“雅虎中國”搜索競價,這預(yù)示著雅虎與老對手Google開始了正面交鋒。目前,搜索引擎對頁面的排名主要依靠內(nèi)容相關(guān)度和頁面重要程度兩方面來確定。內(nèi)容相關(guān)度可以由 tfidf等信息檢索的方法計算,而重要程度往往由 PageRank和HITS等基于鏈接分析的算法得出。相應(yīng)地,Spam技術(shù)也主要分為針內(nèi)容對相關(guān)度的Spam和針對頁面重要程度的Spam(或者稱為基于超級鏈接的Spam>兩大類。這些Spam技術(shù)往往會干擾搜索引擎的正常排名結(jié)果。綜上所述可知,搜索引擎垃圾頁面導致的主要后果為索引擎檢索結(jié)果質(zhì)量下降,搜索引擎公司的資源的消耗和用戶體驗的降低.為解決數(shù)量日益增長的垃圾頁面產(chǎn)生的各種問題,所以搜索引擎垃圾頁面檢測技術(shù)在搜索引擎優(yōu)化中顯得尤為重要,4/10個人資料整理 僅限學習使用4.參考文獻[1]王利剛.搜索引擎中的反 SEO作弊研究[J].2009,(06>[2]賈志洋.基于內(nèi)容的搜索引擎垃圾頁面檢測 [J].2009,(11>[3]徐啟華.一種新的軟間隔支持向量機分類算法 [J].2005,(09>[4]祝偉華.基于Lucene.Net具有用戶權(quán)限的全文檢索系統(tǒng)的應(yīng)用 [J].2009,(01>[5]譚龍江.基于搜索引擎優(yōu)化的網(wǎng)絡(luò)宣傳機模型 [J].2018,(08>[6]武磊.基于結(jié)構(gòu)信息和時域信息的垃圾頁面檢測技術(shù) [J].2008,(04>[7]劉瑋,王麗宏.基于統(tǒng)計特征的垃圾博客過濾 [J].2008,(06>[8]余慧佳,茹立云.基于目的分析的作弊頁面分類 [J].2009,(02>周平.Lucene全文檢索引擎技術(shù)及應(yīng)用[J].2007,(04>徐啟華.基于支持向量機的航空發(fā)動機故障診斷[J].2005,(02>祁亨年.支持向量機及其應(yīng)用研究綜述[J].2004,(10>歐陽柳波.專業(yè)搜索引擎搜索策略綜述[J].2004,(13>王曉丹.支持向量機研究與應(yīng)用[J].2004,(03>許建華.支持向量機的新發(fā)展[J].2004,(05>[15]管建和.基于Lucene全文檢索引擎的應(yīng)用研究與實現(xiàn) [J].007,(02>[16]肖冉.搜索引擎競價排名法律規(guī)制研究 [J].新學術(shù).2007,(5>黃武雙.搜索引擎服務(wù)商商標侵權(quán)責任的法理基礎(chǔ)[J].2008,(5>侯麗娟.競價排名——讓客戶主動找到你EJJ.2006,(4>李銀蓮.競價排名,您了解嗎[J].2006,(8>孫欽東,管曉宏,周亞東.網(wǎng)絡(luò)信息內(nèi)容審計研究的[J].2009,(8>程光,龔儉,丁偉等.面向IP流測量的哈希算法研究[J].軟件學報.2005,(5>李曉明,閆宏飛.搜索引擎-原理、技術(shù)與系統(tǒng)[M].北京:科學出版社.2005梁斌.走進搜索引擎.北京:電子工業(yè)出版社[M].2007郭軍.Web搜索.北京:高等教育出版社[M].20095/10個人資料整理 僅限學習使用三、研究方案a>研究目標、研究內(nèi)容和擬解決的關(guān)鍵問題研究目標:了解掌握搜索引擎垃圾頁面檢測技術(shù),分析當前,發(fā)表學術(shù)論文,為促進網(wǎng)絡(luò)搜索業(yè)健康發(fā)展提供科學的理論依據(jù)。2.研究內(nèi)容搜索引擎的基本工作原理(爬蟲、倒排表、查詢排序>搜索引擎算法,TrustRank算法,找出其中的缺陷不足識別垃圾頁面的識別特征查詢,關(guān)鍵字匹配與排序檢測算法與優(yōu)化擬解決的關(guān)鍵問題不良網(wǎng)絡(luò)內(nèi)容快速識別技術(shù)基于URL的不良頁面識別方法及處理辦法基于Web頁面文本信息的不良頁面識別方法及處理辦法算法的時間復(fù)雜度如何實現(xiàn)在搜索中過濾掉垃圾頁面b>擬采取的研究方法及可行性分析1.研究方法文獻分析法:對大量相關(guān)文獻資料進行閱讀分析,了解和掌握前人研究所取得的成果以及尚存的不足。數(shù)學論證方法:用數(shù)學的方法對搜索引擎檢測算法進行論證??茖W實驗對照法:對不同的搜索引擎的工作原理進行科學實驗對照,分析出優(yōu)勢和不足。2.可行性分析1)可以立即進行工程但技術(shù)研究開發(fā)周期長。2)網(wǎng)絡(luò)資源獲取方便,經(jīng)濟成本低。3)指導老師的專業(yè)知識提供了技術(shù)指導和支持。6/10個人資料整理 僅限學習使用c>本工程的特色與創(chuàng)新之處本工程是以現(xiàn)有搜索引擎的相關(guān)技術(shù)為基礎(chǔ),這樣在一定程度上提高了系統(tǒng)設(shè)計和開發(fā)的可行性。另一方面,本工程以垃圾頁面的檢測為研究對象,并結(jié)合目前比較流行的框計算、云計算等先進技術(shù),突破了如今搜索引擎搜索結(jié)果競價排名的局限性,在技術(shù)上具有很強的創(chuàng)新性。同時,此項垃圾頁面檢測技術(shù)從基于內(nèi)容的、基于鏈接結(jié)構(gòu)的、結(jié)合內(nèi)容特征和鏈接信息垃圾頁面三種模型出發(fā),為用戶提供最需要的信息和服務(wù),而且也改善了用戶體驗,因此垃圾頁面檢測技術(shù)在功能上具有很強的實用性。d>預(yù)期的研究進展和成果尋找這些垃圾頁面的識別特征,根據(jù)頁面的內(nèi)容特征識別,包括詞頻的分布情況<主關(guān)鍵詞、助詞、停用詞等詞頻分布)、輔助信息情況 <比如標點符號出現(xiàn)的規(guī)律)、頁面標題在內(nèi)容出現(xiàn)的比例等理解當前搜索算法 TrustRank 尋找到當前算法的不足,在此基礎(chǔ)上研究垃圾頁面檢測技術(shù),寫出1—2篇學術(shù)論文,發(fā)表到相關(guān)的刊物上,為搜索引擎垃圾頁面檢測技術(shù)的發(fā)展提供一定的理論依據(jù)。7/10個人資料整理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國PWM制氫電源行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 必殺03 第六單元 我們生活的大洲-亞洲(綜合題20題)(解析版)
- 講稿《教育強國建設(shè)規(guī)劃綱要(2024-2035年)》學習宣講
- 2025關(guān)于合同中的表見代理
- 商業(yè)物業(yè)租賃合同范本
- 試驗檢測未來的發(fā)展方向
- 天然氣購銷合同模板
- 2025機械加工合同
- 卷簾門電機售后合同范本
- 商鋪的買賣合同年
- 2024年審計局公務(wù)員招錄事業(yè)單位招聘考試招錄139人完整版附答案【研優(yōu)卷】
- 濰坊市人民醫(yī)院招聘真題
- 銷售人員薪資提成及獎勵制度
- 2017年江蘇南京中考滿分作文《無情歲月有味詩》5
- 2023年宏觀經(jīng)濟學考點難點
- 2024-2030年中國智慧水務(wù)行業(yè)應(yīng)用需求分析發(fā)展規(guī)劃研究報告
- 山體排險合同模板
- 特殊感染手術(shù)的配合與術(shù)后處理課件
- 檢驗科生物安全工作總結(jié)
- 《金屬與石材幕墻工程技術(shù)規(guī)范》jgj1332001-2021112401384
- 即時通訊系統(tǒng)建設(shè)方案
評論
0/150
提交評論