



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
《網(wǎng)絡爬蟲技術(shù)與應用》課程教學大綱一、課程基本信息課程編號:12188課程名稱:網(wǎng)絡爬蟲技術(shù)與應用英文名稱:WebcrawlertechnologyandApplication課程類型:專業(yè)課課程要求:選修學時/學分:48/3(講課學時:32實驗學時:16)先修課程:Python語言程序設計、面向?qū)ο蟪绦蛟O計(Java)、云計算與大數(shù)據(jù)后繼課程:大數(shù)據(jù)項目綜合實踐適用專業(yè):數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)二、課程描述《網(wǎng)絡爬蟲技術(shù)與應用》是數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)的選修課,主要講授網(wǎng)絡爬蟲技術(shù)的原理、開發(fā)方法和開發(fā)工具,包括Python爬蟲程序的編寫、Java的Jsoup等開源框架、互聯(lián)網(wǎng)數(shù)據(jù)抓取實戰(zhàn)等。通過本課程的學習,使學生能夠了解網(wǎng)絡爬蟲技術(shù)的應用領域,了解Python爬蟲程序和Java爬蟲程序的基本原理、技術(shù)和流程,以及基于第三方數(shù)據(jù)聚合平臺的使用,掌握主流的爬蟲程序技術(shù),并能夠應用其對互聯(lián)網(wǎng)數(shù)據(jù)的搜索和采集,為今后大數(shù)據(jù)領域的數(shù)據(jù)采集和大數(shù)據(jù)開發(fā)打下堅實的理論和技術(shù)基礎。三、課程教學目標1.了解網(wǎng)絡爬蟲技術(shù)的基本概念、方法和技術(shù),并能夠運用到復雜的綜合數(shù)據(jù)采集中,解決數(shù)據(jù)的采集和解析問題。(支持畢業(yè)能力要求3)2.熟悉網(wǎng)絡爬蟲技術(shù)的開發(fā)流程,掌握主流的Python和Java兩大語言的爬蟲技術(shù),綜合運用數(shù)據(jù)獲取、HTML內(nèi)容解析、數(shù)據(jù)存儲等技術(shù),進行數(shù)據(jù)采集和分析,進而分析綜合得到結(jié)論。(支持畢業(yè)能力要求5)3.能夠正確選擇和恰當使用網(wǎng)絡爬蟲技術(shù),滿足特定需求,并在設計中培養(yǎng)學生的創(chuàng)新態(tài)度和意識。(支持畢業(yè)能力要求3、5)四、教學內(nèi)容、安排及與教學目標的對應關(guān)系單元教學內(nèi)容單元教學目標學時教學方式對應課程教學目標1一、Python爬蟲入門1.1什么是網(wǎng)絡爬蟲1.2網(wǎng)絡爬蟲的目的1.3網(wǎng)絡爬蟲技術(shù)解決的實際問題(1)了解本課程研究的對象、內(nèi)容,明確本課程的地位;(2)能夠闡述網(wǎng)絡爬蟲技術(shù)的概念、目標和作用。4講授12二、Python爬蟲基礎2.1Python爬蟲開發(fā)環(huán)境配置2.2Urllib庫的基本使用2.3URLError異常處理(1)了解Python爬蟲工作原理,能夠針對數(shù)據(jù)采集進行合理的分析與評價;(2)能夠根據(jù)具體需求,配置Python爬蟲開發(fā)環(huán)境。4講授23三、Python爬蟲進階3.1Urllib庫的高級用法3.2Cookie的使用3.3正則表達式的使用(1)了解Urllib庫的高級用法,核心API調(diào)用,針對實際問題,能夠調(diào)用合理的API類庫;(2)能夠借助Urllib庫發(fā)出請求響應,設置Cookie模擬登陸。4講授24四、Python爬蟲數(shù)據(jù)采集示例4.1采集貓眼電影信息4.2采集淘寶商品圖片4.3采集百度貼吧帖子(1)了解數(shù)據(jù)采集以及分析的實現(xiàn);(2)能夠進行單頁面和多頁面的數(shù)據(jù)采集;(3)能夠?qū)z索的結(jié)果進行過濾;(4)理解Python爬蟲數(shù)據(jù)的指導思路和原則,針對實際問題,給出合理有效的解決方案。4講授25實驗1:Python爬蟲程序進行互聯(lián)網(wǎng)數(shù)據(jù)采集借助Python爬蟲程序?qū)崿F(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的信息采集,數(shù)據(jù)解析以及數(shù)據(jù)存儲,將解析的結(jié)果顯示在web網(wǎng)頁中。8實驗2、36五、基于Scrapy框架的大數(shù)據(jù)采集5.1Scrapy框架運行平臺及相關(guān)輔助工具5.2基于Scrapy框架的爬蟲程序5.3Scrapy模擬登陸(1)了解于Scrapy框架的大數(shù)據(jù)采集特點;(2)了解如何安裝部署Scrapy框架環(huán)境,實現(xiàn)基于Scrapy框架的爬蟲程序。4講授27六、第三方數(shù)據(jù)集合平臺使用6.1阿凡達數(shù)據(jù)平臺使用6.2阿凡達數(shù)據(jù)平臺接口API6.3基于阿凡達數(shù)據(jù)平臺的數(shù)據(jù)解析(1)熟悉阿凡達數(shù)據(jù)平臺使用;(2)了解阿凡達數(shù)據(jù)各個數(shù)據(jù)接口的API調(diào)用。4講授28七、基于Java的爬蟲程序7.1搭建Java開發(fā)環(huán)境7.2HttpClient請求和響應7.3Jsoup類庫的使用(1)了解HttpClient請求和響應的基本原理;(2)了解通過Jsoup類庫對html內(nèi)容進行解析和過濾。4講授29八、基于Java的爬蟲程序進階8.1RSS新聞數(shù)據(jù)爬取8.2多線程爬蟲程序8.3采集數(shù)據(jù)的存儲(1)熟悉RSS規(guī)范;(2)了解基于多線程機制的爬蟲程序開發(fā);(3)了解數(shù)據(jù)采集的存儲機制。4講授210實驗2:基于Java的互聯(lián)網(wǎng)商品信息采集(1)基于CentOS搭建Java爬蟲服務器;(2)掌握利用Java實現(xiàn)的互聯(lián)網(wǎng)商品信息采集。8實驗2、3五、其他教學環(huán)節(jié)(課外教學環(huán)節(jié)、要求、目標)1.實驗(課外16學時)(1)Python爬蟲技術(shù)的熟練使用。(6學時)(2)基于Scrapy框架開發(fā)爬蟲程序。(6學時)(3)爬蟲服務器在CentOS平臺下的搭建。(2學時)(4)Java爬蟲技術(shù)的實現(xiàn)。(2學時)2.大作業(yè)(課外8學時)基于網(wǎng)絡爬蟲技術(shù),完成一個不同于課內(nèi)實驗的某一類型的網(wǎng)絡爬蟲系統(tǒng)的設計開發(fā),熟悉網(wǎng)絡爬蟲的開發(fā)流程,掌握網(wǎng)絡爬蟲的設計方法,并撰寫開發(fā)文檔。六、教學方法本課程采用課堂教學、實驗教學并重的教學組織方式,結(jié)合課內(nèi)作業(yè)、課外實驗、基于網(wǎng)絡爬蟲技術(shù)的項目設計與開發(fā)大作業(yè)等教學手段和形式完成課程教學任務?;诎咐_展課堂教學,通過講授、提問、討論、演示等教學方法和手段讓學生理解網(wǎng)絡爬蟲技術(shù)的基本概念和理論。在課內(nèi)外實驗環(huán)節(jié),通過演示性、設計性、綜合性實驗使學生掌握網(wǎng)絡爬蟲技術(shù)的開發(fā)技術(shù)。在大作業(yè)教學環(huán)節(jié),通過實際項目的開發(fā),使學生掌握網(wǎng)絡爬蟲系統(tǒng)的設計和實現(xiàn)方法,并在設計中充分發(fā)揮學生的主觀能動性,培養(yǎng)學生的自主學習能力和創(chuàng)新能力。七、學習評量最終成績由平時作業(yè)成績、平時實驗成績、期末成績和大作業(yè)成績等組合而成。各部分考核內(nèi)容、所占比例如下:平時作業(yè)成績:10%。主要考核重要知識點的復習、理解和掌握程度。平時實驗成績:30%。主要考核學生的課內(nèi)實踐項目的完成情況。大作業(yè)成績:10%。主要考核課外大作業(yè)的完成情況。要求學生演示、講解所完成的網(wǎng)絡爬蟲系統(tǒng),提交軟件設計文檔,綜合演示、答辯、軟件文檔評定大作業(yè)成績。期末考試成績:50%。主要考核應用基本概念和方法分析和解決問題的能力和程度。書面考試形式。題型為選擇題、填空題、問答題、分析題、綜合設計題等。八、教學資源1.教材[1]
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學年高中數(shù)學課時分層作業(yè)14解三角形的實際應用舉例含解析北師大版必修5
- 2024-2025學年高中歷史課時作業(yè)16抗日戰(zhàn)爭新人教版必修1
- 昆曲在當代的繼承與發(fā)展
- 2024-2025學年高中生物課時分層作業(yè)2基因工程的基本操作程序含解析新人教版選修3
- 2025年杯口卷邊機項目投資可行性研究分析報告
- 2025年中國山地自行車市場競爭態(tài)勢及行業(yè)投資潛力預測報告
- 硬脂酸鎂項目可行性研究報告
- 2025年中國銀行中間業(yè)務行業(yè)發(fā)展監(jiān)測及投資規(guī)劃建議報告
- 2024山東建材批發(fā)市場前景及投資研究報告
- (新版)網(wǎng)絡攻防知識考試題庫(含答案)
- 建筑工程資料檔案盒側(cè)面標簽
- 工程設計變更工程量計算表
- 廣東粵教版第3冊上信息技術(shù)課件第5課神奇的變化-制作形狀補間動畫(課件)
- 動力工程及工程熱物理專業(yè)英語課件
- 幼兒系列故事繪本課件達芬奇想飛-
- (中職)中職生禮儀實用教材完整版PPT最全教程課件整套教程電子講義(最新)
- 出納收入支出日記賬Excel模板
- 給水排水用格柵除污機通用技術(shù)條件
- 一年級下冊綜合實踐活動課件-身邊的水果和蔬菜全國通用16張
- 市政工程主要施工機械設備
評論
0/150
提交評論