《智能搜索與引擎技術》課程教學大綱_第1頁
《智能搜索與引擎技術》課程教學大綱_第2頁
《智能搜索與引擎技術》課程教學大綱_第3頁
《智能搜索與引擎技術》課程教學大綱_第4頁
《智能搜索與引擎技術》課程教學大綱_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《智能搜索與引擎技術》教學大綱課程名稱:智能搜索與引擎技術課程編號:F062092402英文名稱:IntelligentSearchandEngineTechnology學時:40學時 學分:2.5學分開課學期:第7學期適用專業(yè):數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)課程類別:理論課+實驗課課程性質:專業(yè)方向與拓展課先修課程:程序設計基礎(C語言)、數(shù)據(jù)結構、數(shù)據(jù)挖掘與機器學習一、課程的性質及任務《智能搜索與引擎技術》課程是數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)學生的專業(yè)方向與拓展課,本課程主要研究學習搜索引擎的工作原理,實現(xiàn)技術,各種關鍵算法和系統(tǒng)構建方法。通過本課程的學習,學生應能掌握智能搜索引擎的基本原理和方法,通過實驗加深學生對搜索引擎的構建有全面的認識。同時向學生介紹該學科領域近年來取得的新成果、新發(fā)展和新技術,培養(yǎng)學生的獨立研究和思考的能力。依據(jù)河北工程大學數(shù)據(jù)科學與大數(shù)據(jù)技術專業(yè)培養(yǎng)計劃,本課程需要培養(yǎng)學生的能力是:能夠針對大數(shù)據(jù)特定的任務需求,完成大數(shù)據(jù)系統(tǒng)、模塊的設計與開發(fā)(畢業(yè)要求指標3.2)能夠針對智能信息系統(tǒng)設計、大數(shù)據(jù)技術應用等大數(shù)據(jù)應用領域的復雜工程問題設計實驗方案、構建實驗系統(tǒng)和測試平臺、獲得實驗結果(畢業(yè)要求指標4.2)掌握基本的大數(shù)據(jù)開發(fā)環(huán)境的配置和應用,熟練掌握軟件開發(fā)語言,并能夠運用集成開發(fā)環(huán)境進行復雜程序設計(畢業(yè)要求指標5.1)二、課程目標與要求2.1課程目標1.使

PAGE16PAGE152.2課程目標與畢業(yè)要求對應關系畢業(yè)要求1234畢業(yè)要求二級指標畢業(yè)要求●●3.2. 能夠針對大數(shù)據(jù)特定的任務需求,完成大數(shù)據(jù)系統(tǒng)、模塊的設計與開發(fā)。3.能夠設計出大數(shù)據(jù)應用領域的復雜工程問題的解決方案,具有數(shù)據(jù)采集、處理、分析、挖掘的能力,并能夠在設計環(huán)節(jié)中體現(xiàn)創(chuàng)新意識,考慮社會、健康、安全、法律、文化以及環(huán)境等多維度協(xié)同發(fā)展因素。●4.2能夠針對智能信息系統(tǒng)設計、大數(shù)據(jù)技術應用等大數(shù)據(jù)應用領域的復雜工程問題設計實驗方案、構建實驗系統(tǒng)和測試平臺、獲得實驗結果4.能夠基于數(shù)據(jù)科學與大數(shù)據(jù)技術原理并采用科學方法對大數(shù)據(jù)應用領域的復雜工程問題進行研究,包括設計實驗、分析與解釋數(shù)據(jù)、并通過信息綜合得到合理有效的結論。●5.1掌握基本的大數(shù)據(jù)開發(fā)環(huán)境的配置和應用,熟練掌握軟件開發(fā)語言,并能夠運用集成開發(fā)環(huán)境進行復雜程序設計5.能夠針對大數(shù)據(jù)應用領域的復雜工程問題,開發(fā)、選擇與使用恰當?shù)募夹g、資源、現(xiàn)代信息技術工具,包括對大數(shù)據(jù)應用領域的復雜工程問題的預測與仿真,并能夠理解其局限性。2.3課程目標與培養(yǎng)環(huán)節(jié)對應矩陣序號課程目標理論教學課內實驗課后作業(yè)1使學生了解智能搜索與引擎技術的基本概念、發(fā)展歷程和應用領域。HL2掌握搜索引擎的工作原理、關鍵技術和算法,包括網(wǎng)頁抓取、索引構建、查詢處理、排序算法等。HHM3培養(yǎng)學生運用所學知識設計和實現(xiàn)簡單搜索引擎系統(tǒng)的能力。HMM4提高學生分析和解決問題的能力,培養(yǎng)創(chuàng)新思維和實踐能力。MHL注:H表示該能力的在此環(huán)節(jié)重點培養(yǎng);M表示該能力在此環(huán)節(jié)有應用要求;L表示該能力在此環(huán)節(jié)有所涉及。數(shù)據(jù)挖掘與機器學習課程設計教學大綱PAGE2PAGE12.4目標達成度的評價課程目標1主要通過理論教學環(huán)節(jié)進行培養(yǎng),在課后作業(yè)有所涉及。主要通過課堂測試和期末考試中概念性、原理性題目進行考核。目標達成綜合以上內容進行評價。課程目標2主要通過理論教學環(huán)節(jié)和課內實驗進行培養(yǎng),在課后作業(yè)有應用要求。主要通過課堂測試,課后作業(yè)和期末考試中各種智能搜索題目進行考核,在實驗中體現(xiàn)為能搜索技術的基本理論和設計方法。目標達成綜合以上內容進行評價。課程目標3主要通過理論教學環(huán)節(jié)進行培養(yǎng),在和課內實驗和課后作業(yè)有應用要求。主要通過布置計算機領域復雜工程問題應用案例題目進行考核,在實驗報告中體現(xiàn)為能給出符合要求的智能搜索結論。在課后作業(yè)中體現(xiàn)為搜索引擎技術,綜合運用各種搜索引擎技術能力;目標達成綜合以上內容進行評價。課程目標4主要通過理論教學環(huán)節(jié)進行培養(yǎng),在課內實驗有應用要求,,課后作業(yè)有所涉及。目標達成綜合以上內容進行評價。三、教學方法及手段理論教學以課堂講授為主,上機實驗為輔并結合課堂討論、案例分析、師生互動等教學方法展開教學;理論教學強調將各種智能搜索引擎技術與實際項目案例的實際情況緊密聯(lián)系,面向知識的實際應用;本課程教材力求內容新穎,采用多樣化的方式進行教學,讓學生在理論與實踐相結合的基礎上,對課程所要求的實際操作能力有進一步的提高。充分利用多媒體等現(xiàn)代化教學手段,整體優(yōu)化教學過程和教學內容,調動學生學習積極性;布置實際操作任務給學生上機操作并及時指導。課程強調學生的自主學習,強調通過自學的方式消化、吸收課程的龐大知識量,并在此基礎上舉一反三、靈活應用。四、課程的基本內容與教學要求第一章搜索引擎及其技術架構[教學目的與要求]:了解搜索引擎技術發(fā)展史,搜索引擎的技術架構,掌握搜索引擎的三個目標和核心問題。[本章主要內容]:1.1搜索引擎的重要性1.2搜索引擎技術發(fā)展史1.3搜索引擎的技術架構[本章重點]:搜索引擎的三個目標。搜索引擎的核心問題。[本章難點]:搜索引擎的技術架構第二章網(wǎng)絡爬蟲[教學目的與要求]:了解通用爬蟲框架、優(yōu)秀爬蟲的特征、爬蟲質量的評價標準、暗網(wǎng)抓取、分布式爬蟲,掌握抓取策略、網(wǎng)頁更新策略。[本章主要內容]:通用爬蟲框架、優(yōu)秀爬蟲的特征、爬蟲質量的評價標準、抓取策略、網(wǎng)頁更新策略、暗網(wǎng)抓取、分布式爬蟲[本章重點]:抓取策略、網(wǎng)頁更新策略[本章難點]:暗網(wǎng)抓取、分布式爬蟲第三章搜索引擎索引[教學目的與要求]:掌握索引基礎、單詞詞典、倒排列表、建立索引:理解索引更新策略、查詢處理、多字段索引、擴展列表方式。[本章主要內容]:3.1索引基礎、單詞詞典、倒排列表3.2建立索引、動態(tài)索引、索引更新策略、查詢處理、多字段索引3.3擴展列表方式、短語查詢、分布式索引。[本章重點]:索引基礎、單詞詞典、倒排列表、建立索引。[本章難點]:索引更新策略。第四章檢索模型與搜索排序[教學目的與要求]:掌握布爾模型、向量空間模型、檢索質量評價標準:了解概率檢索模型、語言模型、機器學習排序。[本章主要內容]:布爾模型、向量空間模型、概率檢索模型、語言模型、機器學習排序、檢索質量評價標準[本章重點]:布爾模型、向量空間模型、檢索質量評價標準[本章難點]:概率檢索模型、語言模型、機器學習排序第五章鏈接分析[教學目的與要求]:掌握PageRank算法、HITS算法:理解SALSA算法、主題敏感PageRank算法、Hilliop算法。[本章主要內容]:Web圖、兩個概念模型及算法之間的關系、PageRank算法、HITS算法、SALSA算法、主題敏感PageRank算法、Hilltop算法、其他改進算法[本章重點]:PageRank算法、HITS算法。[本章難點]:PageRank算法、HITS算法第六章網(wǎng)頁反作弊[教學目的與要求]:掌握內容作弊、鏈接作弊、頁面隱含作弊、Web2.0作弊方法:掌握通用鏈接反作弊方法、專用鏈接反作弊技術、識別內容作弊:了解反隱含作弊、搜索引擎反作弊綜合框架。[本章主要內容]:內容作弊、鏈接作弊、頁面隱含作弊、Web2.0作弊方法、反作弊技術的整體思路、通用鏈接反作弊方法、專用鏈接反作弊技術、識別內容作弊、反隱含作弊、搜索引擎反作弊綜合框架[本章重點]:內容作弊、鏈接作弊、頁面隱含作弊、Web2.0作弊方法、搜索引擎反作弊綜合框架[本章難點]:搜索引擎反作弊綜合框架。第七章用戶查詢意圖分析[教學目的與要求]:理解搜索行為及其意圖,了解搜索日志挖掘、相關搜索、查詢糾錯。[本章主要內容]:搜索行為及其意圖、搜索日志挖掘、相關搜索、查詢糾錯。[本章重點]:搜索行為及其意圖。[本章難點]:日志挖掘。第八章網(wǎng)頁去重[教學目的與要求]:理解通用去重算法框架,了解Shingling算法、I-Match算法、SimHash算法。[本章主要內容]:通用去重算法框架、Shingling算法、I-Match算法、SimHash算法、SpotSig算法[本章重點]:通用去重算法框架[本章難點]:去重算法。五、課內實驗5.1本課程實驗教學的地位和作用智能搜索引擎技術實驗是鞏固和擴展課程理論知識的必要環(huán)節(jié)。通過實驗教學,使學生掌握搜索引擎技術的基本方法。了解搜索引擎的實際過程,并具有分析、整理實驗數(shù)據(jù)和編寫實驗報告的能力。5.2教學基本要求通過實驗預習及設計,理解智能搜索的基本原理,要求學生通過實驗環(huán)節(jié)運用專業(yè)理論知識與技能,通過實驗使學生掌握智能搜索的特點和處理的實際過程,并通過對實驗數(shù)據(jù)和結果的解析得到正確的結論,并具有分析、整理實驗數(shù)據(jù)和編寫實驗報告的能力,有助于提高學生的實際動手能力和分析解決問題的能力。5.3實驗內容及要求大綱基本內容包括四個實驗項目,在8個學時內完成。實驗一小型搜索引擎系統(tǒng)的開發(fā)實驗目的:(1)掌握搜索引擎工作原理和體系結構(2)搜索引擎的開發(fā)方法。實驗設備:要求計算機安裝有MicrosoftVisualStudio工具軟件實驗內容:(1)應用C++語言開發(fā)一個小型搜索引擎系統(tǒng)(2)記錄并分析實驗結果(3)編寫預加重函數(shù)。實驗二主題網(wǎng)頁的信息提取實驗目的:(1)理解網(wǎng)頁凈化與元數(shù)據(jù)提取的過程(2)了解網(wǎng)頁凈化與元數(shù)據(jù)提取的方法。(3)掌握網(wǎng)頁信息提取的方法實驗設備:要求計算機安裝有MicrosoftVisualStudio工具軟件實驗內容:編程實現(xiàn)有主題網(wǎng)頁的信息提取;記錄并分析實驗結果。實驗三混合索引的實現(xiàn)實驗目的:(1)了解檢索系統(tǒng)的基本技術。(2)掌握查詢的網(wǎng)頁索引結構的方法。實驗設備:要求計算機安裝有MicrosoftVisualStudio工具軟件實驗內容:(1)編程實現(xiàn)混合索引的未登錄詞識別、擴展詞典組織和分詞;(2)記錄并分析實驗結果。實驗四中文網(wǎng)頁自動分類器的實現(xiàn)實驗目的:(1)了解文檔自動分類算法(2)了解中文網(wǎng)頁自動分類的一般過程。(3)掌握實現(xiàn)中文網(wǎng)頁自動分類的方法。實驗設備:要求計算機安裝有MicrosoftVisualStudio工具軟件實驗內容:編程并實現(xiàn)中文網(wǎng)頁分類器5.4教學文件及教學形式教學文件:《信息檢索實現(xiàn)和評價搜索引擎》。教學形式主要包括:預習、課堂指導與實驗操作、撰寫實驗報告。實驗報告學生自擬。實驗報告包括:實驗目的、編程語言,描述方法原理,詳細敘述編程步驟,要有完整的數(shù)據(jù)和編程、圖表表示的實驗結果,以理論聯(lián)系實際為出發(fā)點,調整參數(shù)并分析與實際數(shù)據(jù)之間的誤差,總結實驗中出現(xiàn)的問題及解決方法。5.5實驗項目及學時分配序號實驗項目實驗學時實驗類型實驗類別實驗性質1小型搜索引擎系統(tǒng)的開發(fā)2驗證性專業(yè)必修2主題網(wǎng)頁的信息提取2驗證性專業(yè)必修3混合索引的實現(xiàn)2綜合性專業(yè)必修4中文網(wǎng)頁自動分類器的實現(xiàn)2綜合性專業(yè)必修5.6本課程實驗用到的場地和儀器大數(shù)據(jù)實驗中心機房、多功能多媒體設備、智慧黑板。六、課程學時分配教學課次教學內容教學環(huán)節(jié)與計劃時數(shù)教學環(huán)節(jié)計劃時數(shù)11搜索引擎及其技術架構理論課222.1通用爬蟲框架、優(yōu)秀爬蟲的特征理論課232.2爬蟲質量的評價標準、暗網(wǎng)抓取、分布式爬蟲理論課242.3抓取策略、網(wǎng)頁更新策略理論課253.1索引基礎、單詞詞典、倒排列表、建立索引理論課263.2索引更新策略、查詢處理、多字段索引、擴展列表方式理論課274.1布爾模型、向量空間模型、檢索質量評價標準理論課284.2概率檢索模型、語言模型、機器學習排序理論課295.1PageRank算法、HITS算法理論課2105.2SALSA算法、主題敏感PageRank算法、Hilliop算法理論課2116.1內容作弊、鏈接作弊、頁面隱含作弊、Web2.0作弊方法理論課2126.2通用鏈接反作弊方法、專用鏈接反作弊技術、識別內容作弊理論課2136.3反隱含作弊、搜索引擎反作弊綜合框架理論課2147搜索行為及其意圖、搜索日志挖掘、相關搜索、查詢糾錯理論課2158.1通用去重算法框架理論課2168.2Shingling算法、I-Match算法、SimHash算法理論課217實驗1小型搜索引擎系統(tǒng)的開發(fā)實驗課218實驗2主題網(wǎng)頁的信息提取實驗課219實驗3混合索引的實現(xiàn)實驗課220實驗4中文網(wǎng)頁自動分類器的實現(xiàn)實驗課2注:實驗課由任課教師負責協(xié)調安排時間。七、課程考核與成績評定7.1考核方式考核環(huán)節(jié)包括課程學習過程考核和期末考核,其中課程過程考核占總成績的40%,分別由課堂表現(xiàn)、課后作業(yè)、實驗情況進行評定;期末考核占總成績的60%。各環(huán)節(jié)的比重如下??己谁h(huán)節(jié)比重合計過程考核(平時成績)課堂表現(xiàn)10%40%作業(yè)10%實驗20%期末考核(課程論文)大作業(yè)的報告30%60%答辯30%總計100%100%7.2考核內容及要求本課程為考查課??己藘热菁胺种捣峙淙缦?。考核方式考核內容分值課程目標總分值期末考核60%搜索引擎及其技術架構2~5目標1100分網(wǎng)絡爬蟲5~10目標2搜索引擎索引10~15目標2檢索模型與搜索排序10~15目標2,3鏈接分析10~20目標2,3網(wǎng)頁反作弊10~15目標3,4用戶查詢意圖分析5~10目標3,4網(wǎng)頁去重5~10目標2,3過程考核40%課堂表現(xiàn)課堂測試、出勤情況10目標1,2,410分課后作業(yè)作業(yè)完成情況10目標1,210分實驗實驗出勤、實驗表現(xiàn)及實驗報告20目標2,320分7.3成績評定1.課堂表現(xiàn)課堂表現(xiàn)總分10分,由課堂測試與課堂出勤情況評定。其中,課堂測試滿分6分,以客觀題(填空、選擇、判斷)為主,每學期隨堂測試15~20次,每次測試1~2道題目,每答錯一道題目扣0.5分(直到扣滿6分為止);課堂出勤滿分4分,缺勤一次扣1分,遲到或請假扣0.5分。2.課后作業(yè)課后作業(yè)總分10分,由作業(yè)完成情況評定。每學期布置作業(yè)5次,每次作業(yè)占2分,評分標準如下;評分標準分值標準描述課后作業(yè)3能夠按時認真完成作業(yè)、作業(yè)態(tài)度認真、書寫清楚、分析計算正確。2能夠按時完成作業(yè)、作業(yè)態(tài)度較好、書寫較清楚、分析計算基本正確1能夠按時完成作業(yè)、作業(yè)態(tài)度一般、書寫不清楚、分析計算錯誤較多0不交作業(yè)或作業(yè)態(tài)度不認真、抄襲他人作業(yè)3.實驗成績實驗成績占所學課程的20%,即20分。根據(jù)學生的實驗表現(xiàn)及實驗報告結果,進行綜合評定。具體評分標準如下表所示。評分標準分值標準描述實驗表現(xiàn)(10)10無遲到、早退現(xiàn)象,態(tài)度端正,與同組同學配合認真完成編寫及調試程序,運行結束后,按要求整理實驗報告。8有遲到、早退現(xiàn)象或編程過程不夠認真。6有遲到、早退現(xiàn)象且編程過程不認真。4有遲到、早退現(xiàn)象,編程過程不動手,渾水摸魚。0曠課實驗報告(10)10有完整正確的程序,過程敘述內容完整,正確分析數(shù)據(jù),圖形繪制清晰合理,結論正確,書寫認真。8有相應程序,過程敘述內容較完整,正確分析實驗數(shù)據(jù),圖形繪制清晰較合理,結論正確,書寫較認真。6過程敘述內容較完整,分析數(shù)據(jù)有較少錯誤,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論