




已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
密級: 保密期限: 專業(yè)學位碩士學位論文 題目: 智能終端應用采集與分析 系統(tǒng)的設計與實現(xiàn) 學 號: 10 姓 名: 李一為 專業(yè) 領域 : 電子與通信工程 導 師: 孫娟娟 學 院: 電子工程學院 2011 年 1 月 10 日 獨創(chuàng)性(或創(chuàng)新性)聲明 本人聲明所呈交的論文是本人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得北京郵電大學或其他教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。 申請學位論文與資料若有不實之處,本人承擔一切相關責任。 本人簽名: 日期: 關于論文使用授權的說明 學位論文作者完全了解北京郵電大學有關保留和使用學位論文的規(guī)定,即:研究生在校攻讀學位期間論文工作的知識產(chǎn)權單位屬北京郵電大學。學校有權保留并向國家有關部門或機構送交論文的復印件和磁盤,允許學位論文被查閱和借閱;學??梢怨紝W位論文的全部或部分內(nèi)容,可以允許采用影印、縮印或其它復制手段保存、匯編學位論文。(保密的學位論文在解密后遵守此規(guī)定) 保密論文注釋:本學位論文屬于保密在 年解密后適用本授權書。非保密論文注釋:本學位論文不屬于保密范圍,適用本授權書。 本人簽名: 日期: 導師簽名: 日期: 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 摘 要 隨著移動互聯(lián)網(wǎng)的快速發(fā)展,移動智能終端也得到了人們更多的關注,而其快速發(fā)展的一個重要體現(xiàn)就是移動互聯(lián)網(wǎng)時代無窮無盡的各類應用,它們已經(jīng)滲入到我們生活的方方面面。而由于智能終端本身的開放性、靈活性,以及這些應用數(shù)量的龐雜,若想維護一個健康、穩(wěn)定的互聯(lián)網(wǎng) 環(huán)境,對于互聯(lián)網(wǎng)信息安全工作者或政府相關部門來說,對這些智能終端上的第三方應用進行統(tǒng)一的宏觀監(jiān)測和管理是十分有意義的。因此,針對以上需求,本文設計并實現(xiàn)了一個智能終端應用采集與分析系統(tǒng),對大量的應用提供多樣的監(jiān)測功能。系統(tǒng)的設計目標為將智能終端第三方應用監(jiān)測的基本操作(數(shù)據(jù)采集、存儲等),以及業(yè)務流程(查詢、配置、統(tǒng)計分析等)系統(tǒng)化、集成化、自動化。主要包括以下幾個方面的工作: 部分對目標網(wǎng)頁的頁面結構以及系統(tǒng)的需求進行分析后,設計了相應的采集步驟及具體 算法,使用非關系型數(shù)據(jù)庫進行存儲,并考慮了整個采集及存儲模塊的可擴展性。 用中科院計算所的情感分析工具 采集下來的應用評論信息進行情感分析實驗,從文本情感的角度對該問題起到了一定的“糾正”作用,并將該模塊融合進了系統(tǒng)的功能中。 計并開發(fā)了一個 B/S 架構的系統(tǒng)界面,實現(xiàn)了多角度的應用查詢、統(tǒng)計分析等功能;并通過跨語言接口用一個數(shù)據(jù)檢索服務來保證系統(tǒng)性能。 關鍵詞 : 智能終端應用, 集, 情感分析, 系統(tǒng)界面, 發(fā) F of an of is of of to s of of it is to a of or to a a of is to of , as as 1. of s on of of a 2. to of s we a “ to on to of of 3. On of we a , we a to s 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) I 目錄 第一章 緒論 . 1 . 1 . 2 . 3 第二章 . 5 . 5 . 5 發(fā)基礎 . 6 2.2 集 . 7 集簡介 . 7 用網(wǎng)頁采集策略 . 7 集包介紹 . 8 第三章 應用及開發(fā)商信息采集及存儲 . 10 . 10 面結構分析 . 10 集方法概述 . 11 用 地址( 集 . 13 用及開發(fā)商信息采集 . 14 集采集刷新關注應用 . 14 集自動化及拓展 . 15 據(jù)庫設計 . 16 介 . 17 其接口 . 17 結構設計 . 18 第四章 應用評論情感分析 . 21 用評論內(nèi)容與評分不符現(xiàn)象 . 21 本預處理 . 22 詞及詞性過濾 . 22 除停用詞 . 23 感分析 . 23 感分析工具 . 23 樣、分析及實驗結果 . 25 . 28 . 29 據(jù)檢索模塊 . 30 介及其架構 . 30 用 . 31 . 34 發(fā)環(huán)境搭建 . 34 能實現(xiàn)及效果展示 . 34 北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 頁面效果優(yōu)化 . 40 第六章 總結與展望 . 42 . 42 來工作的展望 . 42 參考文獻 . 43 附錄 . 44 致謝 . 50 北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 1 第一章 緒論 文研究背景及意義 在步入了 21 世紀之后,隨著社會的進步,移動通信在人們的生活中起著越來越重要的作用,人們對靈活、便捷的通信方式也要求 越來越高,這很大程度上推進了移動通信技術的發(fā)展。最近一段時間,移動通信技術成為了當前前景最誘人、發(fā)展最快的一項業(yè)務。然而隨著人們對通信的移動性及信息時效性的進一步需求,在移動的過程中高速接入互聯(lián)網(wǎng)并及時獲取信息已經(jīng)成為了很多人迫切的希望 1。伴隨著 3G 技術的發(fā)展,越來越多的傳統(tǒng)互聯(lián)網(wǎng)用戶甚至不使用互聯(lián)網(wǎng)的人都開始享用移動互聯(lián)網(wǎng)服務所帶來的便利,在這個信息時代,人們的生活方式也因為它的出現(xiàn)在極大的改變著。手機游戲、音樂、移動視頻、 位以及手機支付等豐富多彩的移動應用也在迅速地發(fā)展。 伴隨著移動互聯(lián)網(wǎng) 的快速發(fā)展,移動智能終端也得到了人們更多的關注。移動智能終端的發(fā)展,不僅體現(xiàn)在終端的性能、存儲能力等的大幅提升,更重要的是,移動互聯(lián)網(wǎng)時代的數(shù)不盡數(shù)的各類應用都是基于智能終端這個平臺來實現(xiàn)的。移動終端應用的快速發(fā)展,越來越多地滿足著用戶的個性化需求,無論是基于商務的、家居的,還是個人化的娛樂應用,它已經(jīng)滲入到我們生活的方方面面,并且有美好的用戶體驗。隨著成本的降低,移動智能終端軟件應用必然是未來通信終端的主要發(fā)展趨勢,而隨著 3G 產(chǎn)業(yè)的進一步發(fā)展,數(shù)十億智能手機用戶所帶來的應用軟件需求,也將遠遠超過以前計算 機時代對應用軟件的需求。 當前市場上主流的智能終端系統(tǒng)環(huán)境:蘋果公司的 統(tǒng)和谷歌公司的上的第三方應用軟件具有數(shù)量龐大、功能多樣的特點,經(jīng)前期實驗驗證:蘋果官方商城 共有 491,918 個應用, 方商城共找到 185,399條應用入口地址。智能終端使用數(shù)量的急劇增加,功能日益增強,不僅推動了移動互聯(lián)網(wǎng)的發(fā)展和相關業(yè)務的普及,與此同時,由于智能終端本身的開放性、靈活性,以及智能終端的廣泛應用,也可能給終端用戶、通信網(wǎng)絡乃至國家安全和社會穩(wěn)定在信息安全方面造成一定 影響,成為阻礙其健康發(fā)展的絆腳石 2。 因此,為了維護一個健康、穩(wěn)定的互聯(lián)網(wǎng)環(huán)境,對當前市場上這些龐雜的智能終端第三方應用進行統(tǒng)一的宏觀監(jiān)測、管理是十分有意義的。而當前為主流系統(tǒng) 供應用瀏覽、下載的官方或非官方網(wǎng)站雖然比較多,功能也比較豐富,但從應用監(jiān)測的角度來說,它們均存在以下的問題:( 1)有的會受到一些官方的限制而帶來監(jiān)測上的不便(如蘋果官網(wǎng)必須登錄 可以下載或查看評論、開發(fā)商信息等,同時未審批的應用無法在官網(wǎng)上架,自然也就監(jiān)測不到了);( 2)大多數(shù)并不具備(完 善的)個性化功能(如關注、定制查詢)以及宏觀統(tǒng)計數(shù)據(jù);( 3)它們畢竟面向的是應用瀏覽和下載的用戶,頁面效果炫麗但無法快速把握一個應用的所有重要信息,做到一目了然。因此,一個使用靈活方便、功能多樣、甚至能滿足個性化需求的,可以從多角度宏觀把握移動應用市場現(xiàn)狀及態(tài)勢的系統(tǒng),會給需要對以上問題提供解決方案的互聯(lián)網(wǎng)相關工作者,或者政府相關部門對互聯(lián)網(wǎng)信息安全的管理提供許多方便。 另一方面,伴隨著互聯(lián)網(wǎng)的發(fā)展,電子商務也在人們的生活中占著越來越多北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 2 的比重,網(wǎng)上到處都充斥著各種各樣的商品,而網(wǎng)民或消費者與之互動、或進行反 饋的一個重要部分就是對其進行評論以及評分,評分是最直觀的評價方式,相當于給一個商品貼上品質(zhì)標簽,而評論內(nèi)容則往往可以提供更為詳細的、更有說服力的信息。你可以看到其他用戶對某個商品或應用的評論信息,也可以提交評論,評論信息是人們對其進行了解的一個重要來源。但通過長時間觀察發(fā)現(xiàn),互聯(lián)網(wǎng)上普遍存在著一個比較令人費勁的現(xiàn)象:商品的用戶評論信息與其實際評分不符,即某個用戶對某商品給了很高的評分,而評論內(nèi)容卻表現(xiàn)出了較強的負面感情,或者相反。移動智能終端上的應用的評論信息也同樣有類似的現(xiàn)象,這無疑會對瀏覽者和消費者造成 一定的影響甚至誤導。 文主要研究內(nèi)容 如上所述,本文擬設計并實現(xiàn)一個智能終端應用采集與分析系統(tǒng),該系統(tǒng)的設計目標為將智能終端第三方應用監(jiān)測的基本操作(數(shù)據(jù)采集、存儲、分布式框架等),以及業(yè)務流程(查詢、配置、統(tǒng)計、分析等)系統(tǒng)化、集成化、自動化,主要包括兩方面內(nèi)容:第三方應用數(shù)據(jù)大規(guī)模獲取與歷史記錄保存,以及提供系列數(shù)據(jù)處理、統(tǒng)計、分析等機制。 為避免混淆,首先聲明,文中下面所提到的“系統(tǒng)用戶”均指使用本文所設計的采集與分析系統(tǒng)對應用進行監(jiān)測等操作的用戶,而“用戶”,除非特殊說明,均泛指智能終端 (面第三方應用開發(fā)商開發(fā)的應用的下載、使用者。 本文的主要研究內(nèi)容包括以下幾個部分:應用及開發(fā)商信息采集模塊,情感分析模塊以及系統(tǒng)前臺界面(提供一系列查詢、統(tǒng)計分析功能)。下面對其進行逐一說明。 據(jù)的采集是所有后續(xù)工作的基礎,因為要對應用信息提供相關查詢、統(tǒng)計分析等功能首先需要將數(shù)據(jù)采集下來并存儲到數(shù)據(jù)庫中,采集對象包括應用的所有重要信息,如名稱、類型、價格、內(nèi)容等等,還有所有應用開發(fā)商的信息,以及系統(tǒng)用戶重點關注應用的評論信息。采集及存儲模塊擬使用一個采集開發(fā)包 將特定網(wǎng)站上面智能終端應用( 信息爬取下來,經(jīng)過對信息的篩選、處理操作后按照統(tǒng)一的格式存儲到數(shù)據(jù)庫中。采集模塊中最關鍵的是采集的算法和步驟,要保證采集的覆蓋率和準確率以及穩(wěn)定性,同時還要考慮可擴展性,以為后面的系統(tǒng)功能提供強有力的支持。 移動智能終端上的應用來說,其傳播和發(fā)展主要依托于用戶的評論,對應用評論信息的監(jiān)測也是有一定必要性的,因此為了使系統(tǒng)用戶能夠?qū)ζ渲攸c關注應用的用戶輿論傾向有較好的把握,本文使用中科院計算所的情感分析工具對部分應用的評論信息進行 了情感分析,系統(tǒng)用戶可以由分析結果篩選出評論情感色彩在一定范圍內(nèi)的評論信息,文本情感分析首先需要對評論文本進行分詞等預處理;同時,鑒于當前網(wǎng)上評論信息與實際評分不符的現(xiàn)象,情感分析還能從純文本的角度,對部分應用或網(wǎng)上商品的評分起到一定的“修正”作用。 統(tǒng)的前臺界面的目的是為系統(tǒng)用戶提供一個方便的操作界 面,使其能進行所需要的查詢、統(tǒng)計分析等功能。為了滿足系統(tǒng)的性能需求,在前臺使用 口調(diào)用了一個數(shù)據(jù)檢索服務。同時,為了增強頁面效果以及系統(tǒng)與系統(tǒng)用戶的互動性、提升用戶體驗,使用 件制作北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 3 頁面的動態(tài)效果。本文最終實現(xiàn)的系統(tǒng)主要功能包含:全方位的數(shù)據(jù)監(jiān)測(查詢)、關注配置、熱點、評論分析及統(tǒng)計分析等,具體功能可分為以下幾類: ( 1)基于關鍵詞(詞組)的實時監(jiān)測:可通過設定的關鍵詞對應用或開發(fā)商進行監(jiān)測,對常用關鍵詞可進行存儲; ( 2)基于時間線的監(jiān)測:可返回一周以內(nèi)的新增應用,并將此功能融入到多個頁面中; ( 3)對特定關注應用 /開發(fā)商的監(jiān)測:可將應用或開發(fā)商設置為重點關注,即可對特定應用的包括評論在內(nèi)的相關信息進行密集的采集刷新,保證分鐘級,使系統(tǒng)用戶能隨時 了解其最新動態(tài),并可對該關注應用的評論內(nèi)容進行以下兩種分析:查找評論中包含用戶感興趣詞語的特定評論信息;可對該應用的評論進行情感傾向分析,如返回所有正面或負面的評論; ( 4)基于評分和下載量的熱點監(jiān)測:可從應用下載用戶角度推薦評論最熱或下載量最大的應用或開發(fā)商; ( 5)可追溯及展現(xiàn)應用歷史軌跡,顯示變化情況; ( 6)對各市場應用總量統(tǒng)計、日采集量、收費 /付費統(tǒng)計、周更新量 /新增量統(tǒng)計; 文組織結構 本文主要對 集、非關系型數(shù)據(jù)庫、情感分析、文本處理、 究或?qū)嵺`,并基于以上內(nèi)容設計并實現(xiàn)了一個功能靈活多樣的智能終端應用采集與分析系統(tǒng)。全文共由六章組成,其組織結構如下: 第一章為緒論,作為論文的課題背景,簡要闡述了移動互聯(lián)網(wǎng)及移動智能終端的發(fā)展現(xiàn)狀,以及在此背景下進行本課題研究及系統(tǒng)設計與實現(xiàn)的主要意義;然后對本文的三大模塊:采集、情感分析、前臺界面作為論文的主要研究內(nèi)容,作了簡要的介紹。 第二章介紹了本文所涉及到的一些相關技術基礎,主要是 集、網(wǎng)絡爬蟲、通用的采集策略等,本文的采集模塊及系統(tǒng)的開發(fā)是以這些知識為基礎的, 并對某些方法加以利用、調(diào)整;最后介紹了本文采集模塊中使用的 的特性及本文對這些特性的利用。 第三章詳細介紹了本文的采集及存儲模塊,從采集源的選定、目標網(wǎng)站結構分析、采集步驟確定到各個采集部分的詳細說明,以及基于此采集方法的可擴展性;數(shù)據(jù)存儲方面,沒有使用傳統(tǒng)的關系型數(shù)據(jù)庫,因此對 概念以及C+、 使用做了說明。 第四章首先討論了互聯(lián)網(wǎng)上存在的評論內(nèi)容與評分不符現(xiàn)象,并針對此問題使用中科院計算所的情感分析工具對從網(wǎng)上采集的一些評論信息進行 了分析,實驗結果證明該方法對于上述問題是有一定效果的,而在此之前,需要根據(jù)本文研究內(nèi)容的特點進行文本預處理、人工標注極性詞等操作;本文還將該評論情感分析的流程融入到了采集分析系統(tǒng)的實現(xiàn)中,以提供更多樣的功能。 第五章圍繞智能終端采集與分析系統(tǒng)的最終實現(xiàn)展開,包括系統(tǒng)整體的架構和性能,前臺界面開發(fā)環(huán)境的搭建、最終界面效果展示等;而系統(tǒng)中另外一個重要的部分是數(shù)據(jù)檢索服務(使用實驗室的檢索程序)的調(diào)用,這對系統(tǒng)的操作性能很重要,實現(xiàn)調(diào)用的方法是使用 口,因此對該技術進行了簡要的介北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 4 紹,并較詳細地闡述了本 文中對它的使用。 最后,第六章對本文的主要工作及創(chuàng)新之處進行了總結,并提出了可以進一步改進的地方。 北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 5 第二章 采集相關技術介紹 關技術 維網(wǎng)( 議 3 萬維網(wǎng)是 環(huán)球信息網(wǎng)的縮寫,它是一種軟件,它將因特網(wǎng)上支持相關協(xié)議( )的計算機及其包含的信息集合起來,形成一個包含大量資源的空間,而其中的計算機又可以分為客戶端和服務端。 當你想通過萬維網(wǎng)進入一個網(wǎng)頁或得到其他資源的時候,一般需要先在瀏覽器中輸入網(wǎng)址,即 在這之后將首先通過 個域名系統(tǒng)分布于全球的因特網(wǎng)數(shù)據(jù)庫,之后進入的 址取決于域名的解析結果。之后便會向 務器收到請求后通常會在本地做相應的操作,將 件、圖片等資源傳送給客戶端,客戶端的瀏覽器將這些文件進行解釋后通過一定的處理顯示在瀏覽器中,而這些就構成了我們看到的網(wǎng)頁。 超文本傳輸協(xié)議 (互聯(lián)網(wǎng)上最為廣泛應用的一種協(xié)議,我們每天在互聯(lián)網(wǎng)上瀏 覽、獲取各種信息都需要它的支持 ,它詳細規(guī)定了萬維網(wǎng)服務器和瀏覽器之間通信的規(guī)則,將超文本標記語言 (文檔從服務器傳送到瀏覽器 4。一般來講,當某個應用需要向服務端請求某種服務時,可以通過 程過程調(diào)用),但這種方式較為復雜,一般用于性能要求較高的場合,如本文中使用的 口就是一種 方式,后面章節(jié)中會詳細介紹;而 是更為通用的一種簡便、靈活的服務調(diào)用、信息傳送的方式。 常工作在 它不僅僅在 其他網(wǎng)絡 或者互聯(lián)網(wǎng)協(xié)議上 可以實現(xiàn),因為它只表示一個可靠的傳輸 5。 服務器,“請求” (“響應” (它包含的主要內(nèi)容。一個客戶端在發(fā)送請求時可以在請求的“頭部”攜帶許多有用信息,如請求方式、主機名、用戶代理、 務端返回響應時同樣會包含許多“狀態(tài)”信息??偟膩碚f, 信息的傳送主要包括以下特點: ( 1)簡單快速 客戶機發(fā)送請求時只需要向服務器傳遞請求方法和請求路徑,種,但較為常用的只有 ( 2)無狀態(tài) 一個 ( 3)無連接 即服務器在完成了一個傳輸請求后就會斷開連接。 在 要就是要與 利用 據(jù)返回狀態(tài)碼處理各類請求結果等。 北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 6 發(fā)基礎 使用 能夠存儲信息,以及運行腳本和程序。最簡單的情況就是當它收到一個 傳回一個響應( ,如 也可以把請求(通常是動態(tài)響應)委托給一些程序腳本,如 ,對數(shù)據(jù)庫執(zhí)行相應的操作后再生成文檔返回給客戶端。目前較為常用的大型 務器,在 有 要和 配),以及 世界上使用最多的 務器,通常和 及 近興起的一些小型 結構 B/服務器模式,這種模式將客戶端統(tǒng)一 為瀏覽器,這無疑為系統(tǒng)的開發(fā)和使用帶來了很大的方便;它將主要功能的實現(xiàn)工作放在服務器端,瀏覽器通過 比于 C/S( 式, B/成本低,易于實現(xiàn),維護和升級方式簡單等。本文所設計的智能終端采集與分析系統(tǒng)就是基于 B/ 原型為 是一種面向?qū)ο蟮?、事件?qū)動為主要特征的客戶端腳本語言,主要目的是為用戶提供更加流暢的瀏覽效果。雖然從問世到現(xiàn)在 于設計簡單存在一些缺陷而曾經(jīng)飽受爭議,但不得否認它現(xiàn)在幾乎已經(jīng)成為了網(wǎng)頁前端開發(fā)的一種標準,可以說是前端開發(fā)中的“ 連它的設計者也沒有想到 發(fā)展到今天這個地步。它可以和文檔對象模型( 密的結合,并且提供了許多相關的瀏覽器模塊供開發(fā)者使用,最主要的是,雖然與 C+等同樣為面向?qū)ο笳Z言,但復雜程度卻要小的多,非常易于學習和使用。雖然 經(jīng)不僅僅活躍在瀏覽器前端,在服務端同樣有它發(fā)揮的空間,如 務端的 經(jīng)有越來越多的人在使用,但目前 為止更多的人還是主要將其作為前端的開發(fā)語言。 正則表達式( 照一定的句法規(guī)則描述了一種匹配字符串的模式,許多的編程語言都支持使用正則表達式對字符串進行匹配操作。使用正則表達式,可以按照某種規(guī)則或格式查找指定的字符串,或?qū)o定的字符串進行“過濾”,看其是否符合指定的模式,例如驗證郵件地址等 6。 正則表達式具有非常強的邏輯性,用它可以匹配非常復雜的字符串格式,當熟練掌握后是非常有用的字符串處理工具,但正因為其強大的功能,想要快速掌握它的使用也是比較困難的 ,需要熟記各種晦澀、復雜的格式控制規(guī)則。正則表達式在 以用它來在網(wǎng)上找到具有某一類格式的字符串、匹配子串或進行替換。 北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 7 2.2 集 集簡介 在網(wǎng)絡技術快速發(fā)展的今天,萬維網(wǎng)已經(jīng)成為了信息的主要載體,一個十分 有意義而有挑戰(zhàn)的工作就是如何高效的提取并利用網(wǎng)上的這些信息。 集大量網(wǎng)頁并將其用作索引,這樣就可以為搜索引擎提供支持。其實對數(shù)據(jù)采集來說,它的整個流程就是搜索引擎的工作流程,主要包括: 1. 在網(wǎng)上發(fā)現(xiàn)并下載頁面 ,即使用網(wǎng)絡爬蟲程序獲取網(wǎng)頁信息; 2. 提取獲取到的網(wǎng)頁信息,對其組織并建立一個索引庫; 3. 使用檢索器根據(jù)查詢條件快速檢索出文檔、對結果進行評價、排序并將 結果返回給用戶 7。 而采集中最重要的工具,網(wǎng)絡爬蟲,即爬取網(wǎng)頁的程序,主要作用就是發(fā)現(xiàn)、收集網(wǎng)頁,提取其中的信息,主要是按照 工作的。在數(shù)據(jù)采集的過程中,爬蟲程序的性能很重要。網(wǎng)絡爬蟲的一個典型工作方式是,對于給定的或輸入的一個 看這個頁面的信息,然后根據(jù)這個頁面中包含的鏈接信息,再繼續(xù)尋找其他相關的信息,如此循環(huán)往復下去,它其實會瀏覽整個 互聯(lián)網(wǎng)。 總之, 的鏈接結構。 用網(wǎng)頁采集策略 對于一個網(wǎng)絡采集器來說,其采集的基本流程一般為:首先,對于給定的一個或者多個 其作為待采集的種子,從該集合中選擇一個種子 采集的該頁面中提取相關信息并進行分析,并獲取其中包含的鏈接和有效文本信息,對于得到的文本可以進行格式化存儲,而 接信息)則將其加入到待采集的種子 合中;最開始的時候全體種子集合就作為待采集 采集器不斷從中取 集的過程中,取出的 新發(fā)現(xiàn)的 任何時候這個種子隊列中存放的都是待采集的 在刷新式采集的過程中,一個采集完畢的 樣在下一輪采集到來時可以對其進行更新 8。 一個 ??梢詫⑵淇闯墒且粋€有向圖的遍歷過程,即每個帶采集的網(wǎng)頁作為一個有向圖中的 點),而頁面中包含的鏈接則是一個網(wǎng)頁到另一個網(wǎng)頁的一條有向邊。同圖的遍歷類似,采集策略也可以分為深度優(yōu)先采集和廣度優(yōu)先采集。 深度優(yōu)先采集與深度優(yōu)先遍歷類似 ,首先從一個源點 擇一條路徑(鏈接)到達下一個節(jié)點 v,對 時對該點進行標記,即已訪問過;再從 至到達盡頭,即最后一個節(jié)點不再有其它鏈接為止,然后返回上一層,從未標記的節(jié)點中選擇一個繼續(xù)深度遍歷,這樣逐層回溯直至從源點 的特點就是以深度為優(yōu)先,遇到一個新節(jié)點(路徑)就深入下去,用數(shù)據(jù)結構中棧的概念可以很好的理解它,遍歷的北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 8 過程就是不同層次節(jié)點出棧入棧的過程。但是由于網(wǎng)頁的龐雜和它們之間復雜的鏈接關系,這種深度優(yōu)先策略往往會導致陷入的問題。 而廣度優(yōu)先采集則相對而言更加合理,顧名思義,它以廣度為優(yōu)先,即當前“層次”的節(jié)點全部訪問完畢后才會選擇其中一條路徑深入到下一層,具體說就是,根據(jù)當前 部加入到 后再選擇其中一個鏈接繼續(xù)采集。但是同樣,由于互聯(lián)網(wǎng)上海量的數(shù)據(jù),一般需要限制采集的層數(shù)。 本文中設計的采集模塊,本來其種子 集合是相對確定的,因為采集的對象是確定的,就是一個網(wǎng)站上包含的所有應用的信息,只需要發(fā)現(xiàn)入口、找到這些應用的入口地址、將其依次加入到種子集合中即可,但由于其包含的應用數(shù)量也 是相對比較多的,僅按照以上這種簡單方法會使很多應用無法被發(fā)現(xiàn)而遺漏掉,無法保證采集覆蓋率,因此也需要基于以上的采集思想,從每個采集到的應用頁面出發(fā),根據(jù)發(fā)現(xiàn)的相關鏈接尋找其他應用,其思想類似于廣度優(yōu)先采集策略,具體步驟會在后面章節(jié)予以闡述。 集包介紹 一個 C+的庫,它基于 著名的下載庫)的口來進行并發(fā)、異步的 頁獲取,并封裝成 式的 口供二次開發(fā)。 賴于以下這些庫: 用 獲取網(wǎng)頁 來執(zhí)行異步 來進行對壓縮傳輸?shù)臄?shù)據(jù)進行解壓 它主要具有以下這些特性: 1. 由于是基于 開發(fā)出來的,凡是 持的特性,理論上 2. 對每個 集請求,可定制其 求頭中的 可設置其最大連接時間、下載時間 等。這在本文的采集模塊中很有用,因為蘋果官網(wǎng)的很多頁面都限制必須以 戶端登陸,所以在使用問某個 ,可以手動將 戶代理)由瀏覽器改為 而獲取其頁面信息。 3. 內(nèi)部自動增加 如果在一個請求中解析出了 么在后續(xù)的同一類請求中都將自動在 4. 支持將解析出的 動寫入文件中,便于下次啟動時可從該文件自動讀入 5. 自動重定向,自動的異步 用異步 7. 持對一組大量的 行異步并發(fā)的高效獲?。ㄊ褂谩?口,非阻塞 也可以采集單個 用“ 口,阻塞式 這兩類接口可用于應對不同的采集應用。在本文中,在進行應用地址( 集時,由于是使用拼接字符串的方法得到每個列表頁的地址,即一次只能對一個 以使用的是 在采集應用信息頁時,是根據(jù)數(shù)據(jù)庫中 大量的種子 此使用 線程高效采集。所謂異步,或非阻塞,簡單說就是在一個線程中提交多個請求,在進行一個 作時將其交給一個回調(diào)函數(shù),程序則繼續(xù)執(zhí)行下面的北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 9 請求, 此稱為非阻塞。 8. 使用 行壓縮傳輸,大幅提高采集效率。 9. “ 口支持在采集過程中動態(tài)加入新的 10. 支持請求分組,每組設定一個請求發(fā)送最小時間間隔,從而可以有效解決防刷新問題; 經(jīng)測試(實驗室機房),基于“ 口進行采集,采集速度大概 60頁 /秒左右。 北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 10 第三章 應用及開發(fā)商 信息采集及存儲 用及開發(fā)商信息采集 采集模塊的第一步工作就是要進行采集源的選定。經(jīng)過前期的調(diào)研發(fā)現(xiàn),當前國內(nèi)外主流移動應用市場為蘋果 (安卓 (其上的第三方應用軟件具有數(shù)量龐大、功能多樣的特點,而其應用發(fā)布來源又可以分為官方網(wǎng)站及其它網(wǎng)站,相關的非官方網(wǎng)站有很多,其中比較熱門、應用總量較大、分類較全的,有蘋果的“蘋果園”( ),“ 同 步 推 ”( ),“ ( ),安卓的“應用匯”( )等等,其上均有十萬級的應用數(shù)量,但數(shù)量最多、影響最廣泛的還是官方網(wǎng)站,因此采集的對象暫定為蘋果( ) 和谷歌( )的官網(wǎng),以后如果有更大覆蓋范圍需要可以增加其他應用商城為采集源。 選定采集源后就要分析其頁 面特點,設計相應的采集算法,以從中獲取到我們需要的應用及開發(fā)商信息。在進一步介紹采集系統(tǒng)之前,應該對目標頁面的特點及其結構劃分進行闡述,因為其頁面結構即對應著頁面的 代碼,而我們后面頁面信息的提取是在 基礎之上的,因此網(wǎng)頁的結構是數(shù)據(jù)采集的前提和基礎,也是算法和系統(tǒng)設計的根本出發(fā)點。下面以蘋果的官網(wǎng)為例,先對頁面的結構進行簡單的分析,然后詳細介紹采集方法。 面結構分析 互聯(lián)網(wǎng)頁面是一種半結構化的文本,它既要按一定結構、標準去組織,在局部上由于自然語言的組織又有很大自由性,同時包 含著大量的圖片、鏈接以及我們的工作中,蘋果官網(wǎng)上面的信息有兩部分是我們所關注的,其一是我們最終要提取、存儲的應用的詳細信息,包括名稱、內(nèi)容、發(fā)布日期甚至評論;另一個是頁面中包含的超鏈接,即 是我們信息提取的基礎。而超鏈接又分為兩種,一種是列表頁中的 表,它是我們采集開始時的索引;另一種是詳情頁中與正文內(nèi)容有關的相關鏈接。從意義上講它們是不同的,但在處理方式上并無太多區(qū)別。 很容易看出,我們要處理的網(wǎng)頁應該分為兩種:列表頁和詳情頁,下面分別分析一下它們的特點。 1. 列表頁 從列表 頁的結構特點來講,我們最關心的是其頁面中間部分的 加上翻頁鏈接等信息,其它部分都是噪聲。列表頁的結構相對是比較獨特和固定的,如蘋果官網(wǎng)的應用列表頁都是中間三個縱向列表。訪問列表頁的主要目的就是為了通過其中的超鏈接,為訪問詳情頁做準備。 2. 詳情頁 北京郵電大學碩士學位論文 智能終端應用采集與分析系統(tǒng)的設計與實現(xiàn) 11 詳情頁的主體部分可以說遍布了我們需要關注的內(nèi)容,對于重要的應用信 息,它們的分布也相對集中,另外一部分可選的信息就是用戶評論。在蘋果官網(wǎng)的詳情頁面上,還有一部分重要的內(nèi)容就是相關列表,如圖 3示,“用戶購買的還有”下面即為其提供的相關應用。這些鏈接同 樣要提取出來。 圖 3關列表 集方法概述 采集模塊 的實驗系統(tǒng)部署于一臺 上,操作系統(tǒng)為 用科院計算所自主開發(fā))采集開發(fā)包采集數(shù)據(jù), C/C+代碼實現(xiàn)。 實驗驗證:蘋果官方商城 91,918個應用, 方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 運動營養(yǎng)咨詢師崗位面試問題及答案
- 市場數(shù)據(jù)分析專家崗位面試問題及答案
- 江蘇省蘇州市第五中學校2025屆化學高二下期末質(zhì)量跟蹤監(jiān)視試題含解析
- 2025屆四川省成都實驗高級中學化學高一下期末統(tǒng)考模擬試題含解析
- 杭州禽類交易管理辦法
- 發(fā)票管理辦法開具發(fā)票
- 村鎮(zhèn)規(guī)劃果園管理辦法
- 區(qū)域醫(yī)師注冊管理辦法
- 核算崗位電價管理辦法
- 小區(qū)物業(yè)管理制度監(jiān)督考核方案
- 期末教師會議校長精彩講話:最后講了存在的問題
- 知名連鎖漢堡店食安QSC稽核表
- 攝影設備采購合同范例
- DB41T 1812-2019 蘋果簡約栽培技術規(guī)程
- 【《三只松鼠公司員工激勵現(xiàn)狀調(diào)查及優(yōu)化建議(附問卷)14000字》(論文)】
- 護理不良事件登記本及護理不良事件報告新規(guī)制度
- 農(nóng)業(yè)土壤檢測技術行業(yè)發(fā)展前景及投資風險預測分析報告
- 廣東省深圳市羅湖區(qū)2023-2024學年二年級下學期期末考試數(shù)學試題
- 長沙新華書店面試題目
- (中考試題)2024年浙江省湖州市中考數(shù)學真題-附解析
- QCSG1204009-2015電力監(jiān)控系統(tǒng)安全防護技術規(guī)范
評論
0/150
提交評論