電子游戲教學(xué)資源庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)模板_第1頁(yè)
電子游戲教學(xué)資源庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)模板_第2頁(yè)
電子游戲教學(xué)資源庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)模板_第3頁(yè)
電子游戲教學(xué)資源庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)模板_第4頁(yè)
電子游戲教學(xué)資源庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)模板_第5頁(yè)
已閱讀5頁(yè),還剩102頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

電子游戲教學(xué)資源庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)資料內(nèi)容僅供參考,如有不當(dāng)或者侵權(quán),請(qǐng)聯(lián)系本人改正或者刪除。索取號(hào):TP311/7.520密級(jí):公開碩士學(xué)位論文電子游戲教學(xué)資源庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)研究生:張輝指導(dǎo)教師:王蔚教授培養(yǎng)單位:教育科學(xué)學(xué)院一級(jí)學(xué)科:教育學(xué)二級(jí)學(xué)科:教育技術(shù)學(xué)完成時(shí)間:3月10日答辯時(shí)間:

學(xué)位論文獨(dú)創(chuàng)性聲明本人鄭重聲明:1、堅(jiān)持以”求實(shí)、創(chuàng)新”的科學(xué)精神從事研究工作。2、本論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作和取得的研究成果。3、本論文中除引文外,所有實(shí)驗(yàn)、數(shù)據(jù)和有關(guān)材料均是真實(shí)的。4、本論文中除引文和致謝的內(nèi)容外,不包含其它人或其它機(jī)構(gòu)已經(jīng)發(fā)表或撰寫過的研究成果。5、其它同志對(duì)本研究所做的貢獻(xiàn)均已在論文中作了聲明并表示了謝意。作者簽名:日期:學(xué)位論文使用授權(quán)聲明本人完全了解南京師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,學(xué)校有權(quán)保留學(xué)位論文并向國(guó)家主管部門或其指定機(jī)構(gòu)送交論文的電子版和紙質(zhì)版;有權(quán)將學(xué)位論文用于非贏利目的的少量復(fù)制并允許論文進(jìn)入學(xué)校圖書館被查閱;有權(quán)將學(xué)位論文的內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索;有權(quán)將學(xué)位論文的標(biāo)題和摘要匯編出版。保密的學(xué)位論文在解密后適用本規(guī)定。作者簽名:日期:目錄摘要 IAbstract II第一章前言 11.1論文研究背景及研究意義 11.1.1相關(guān)概念界定 11.1.2選題理由及研究意義 21.2研究現(xiàn)狀分析 41.2.1游戲式教育理論研究現(xiàn)狀 41.2.2主題式爬蟲技術(shù)研究現(xiàn)狀 51.2.3信息抽取技術(shù)研究現(xiàn)狀 61.3研究?jī)?nèi)容 61.4本文的組織結(jié)構(gòu) 7第二章電子游戲資源分析 92.1CELTS標(biāo)準(zhǔn) 92.1.1CELTS簡(jiǎn)介 92.1.2教學(xué)資源建設(shè)規(guī)范與元數(shù)據(jù)標(biāo)準(zhǔn) 102.2電子游戲教學(xué)資源庫(kù)概述 102.2.1電子游戲教學(xué)資源庫(kù) 102.2.2電子游戲資源 112.3電子游戲資源元數(shù)據(jù) 122.3.1頁(yè)面特征分析 122.3.2基于CELTS標(biāo)準(zhǔn)的電子游戲元數(shù)據(jù) 142.4本章小結(jié) 15第三章電子游戲資源自動(dòng)搜集的關(guān)鍵技術(shù)及改進(jìn) 163.1主題式爬蟲 163.1.1關(guān)鍵詞庫(kù)的設(shè)計(jì) 173.1.2種子庫(kù)設(shè)計(jì) 203.1.3相關(guān)度判定 203.1.4線程機(jī)制 233.2電子游戲主題信息抽取 243.2.1Web信息抽取綜述 243.2.2電子游戲主題信息抽取方法 273.3本章小節(jié) 31第四章電子游戲教學(xué)資源庫(kù)原型設(shè)計(jì) 324.1系統(tǒng)功能結(jié)構(gòu) 324.2系統(tǒng)設(shè)計(jì) 334.3數(shù)據(jù)庫(kù)設(shè)計(jì) 354.4本章小結(jié) 36第五章實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析 375.1實(shí)驗(yàn)設(shè)計(jì) 375.2實(shí)驗(yàn)結(jié)果分析 39總結(jié)與展望 40參考文獻(xiàn) 41致謝 44攻讀碩士學(xué)位期間論文發(fā)表及科研情況 43摘要”寓教于樂”的教育思想,已經(jīng)存在了千百年,在互聯(lián)網(wǎng)大行其道的今天,電子游戲?qū)η嗌倌戤a(chǎn)生的影響越來越大。因此,將一板一眼的教育活動(dòng)與生動(dòng)有趣的電子游戲有機(jī)的結(jié)合起來,實(shí)現(xiàn)”游戲者即學(xué)習(xí)者,學(xué)習(xí)者即游戲者”的目標(biāo),成了教育界新的研究熱點(diǎn)。電子游戲,經(jīng)歷了被教師、家長(zhǎng)從”堵”到”疏”的轉(zhuǎn)變,已越來越被教育者應(yīng)用于教育,電子游戲作為一種教學(xué)資源的口號(hào)也隨之而出?;ヂ?lián)網(wǎng)是一個(gè)信息量巨大的資源庫(kù),富含大量的電子游戲資源。越來越多的教育者期望從這個(gè)龐大的資源庫(kù)中搜集到自己所需要的電子游戲資源,然而,面對(duì)如此浩瀚的資源海洋,從中尋找游戲資源變成了一件頗為復(fù)雜的事情,在這種情況下,我們以主題式爬蟲技術(shù)、信息抽取技術(shù)為基礎(chǔ),提出了構(gòu)建電子游戲教學(xué)資源庫(kù)的設(shè)想,并付諸實(shí)現(xiàn),旨在使此類資源能夠充分被共享。本文經(jīng)過對(duì)電子游戲類網(wǎng)站特征的分析,結(jié)合CELTS標(biāo)準(zhǔn),定義了描述一個(gè)電子游戲具體信息的”元數(shù)據(jù)”,并構(gòu)建了教育資源的核心部分——電子游戲資源自動(dòng)搜集系統(tǒng),用來抓取互聯(lián)網(wǎng)上的電子游戲式頁(yè)面,同時(shí)按”元數(shù)據(jù)”的格式抽取出主題信息,結(jié)構(gòu)化存放在數(shù)據(jù)庫(kù)中組建資源庫(kù)。并提供一個(gè)用戶交互的前臺(tái)界面,同時(shí)設(shè)計(jì)兼容量表測(cè)試與多元智能標(biāo)注系統(tǒng)的接口模塊,為用戶提供查詢、推送服務(wù)。本課題的研究與開發(fā),為構(gòu)建電子游戲教學(xué)資源庫(kù)提供了一個(gè)新思路,并實(shí)現(xiàn)了一個(gè)系統(tǒng)原型,有利于將電子游戲這種新資源應(yīng)用于教學(xué)活動(dòng)。關(guān)鍵詞:電子游戲資源,主題爬蟲,信息抽取,元數(shù)據(jù)AbstractThethoughtoflearningthroughplayinghasexistedforthousandsofyears.ElectronicgamesareplayingmoreandmoreimportantroleinEducationthroughthepopularityoftheInternet.Inthenewsituation,thecombinationofthee-gamesandtheeducationwillbethefocalpointoftheresearch.Teachersandparentsneverregardthee-gamesasaterriblething.Andthesloganofelectronicgamesasateachingresourcecomesout.TheInternetisatremendousamountofinformationresourcedatabase,whichisrichine-gamesresource.Moreandmoreeducatorswanttofindtheseresourcesfromthe”big”database;however,itisdefinitelydifficult.Inthiscase,weproposedtobuildae-gamesteachingresourcedatabaseusingthefocuscrawlerandtheWEBinformationextractiontechnology.Itwillstrivetoorganizeeducationalgamesallovertheinternetandprovideanewwayofmakingsuchresourcescanbefullyshared.Onthebasisofsomeresearchworkonthee-gamesites,combinedwiththestandardCELTS,weintroduceanintelligentsystemforcollectinge-gameresourcesanddefineaconceptofe-game-metadata.Thesystemfindse-gamewebpagesanddefineswhetheritisthepagesweneedthroughtheInternet.Accordingtothe”metadata”format,thissystemalsoextractstheinformationthatthe”metadata”needsandstorestheminourdatabase.WealsobuildaWEBinterfaceforusersandprovideservicesforthem.Inthispaper,bothofthekeytechnologiesandthefunctionmodulesaredescribedindetail.Theresearchanddevelopmentofthisprojecthassuppliedauseablesolutiontobuildthee-gameteachingresourcedatabase.第一章前言1.1論文研究背景及研究意義互聯(lián)網(wǎng)是一個(gè)信息量巨大的資源庫(kù),根據(jù)互聯(lián)網(wǎng)調(diào)查公司Netcraft11月份調(diào)查顯示,當(dāng)前全球擁有正式網(wǎng)點(diǎn)總數(shù)(申請(qǐng)了域名而且有內(nèi)容的網(wǎng)點(diǎn))達(dá)到149,784,002個(gè),其中相當(dāng)一部分網(wǎng)站被頻繁訪問,而且一直保持更新[1]。這個(gè)龐大的資源庫(kù)所包含的資源無論從種類上還是數(shù)量上正在以幾何級(jí)增長(zhǎng)。電子游戲,經(jīng)歷了被教師、家長(zhǎng)從”堵”到”疏”的轉(zhuǎn)變,已越來越被教育者應(yīng)用于教育,將電子游戲作為一種教學(xué)資源的口號(hào)也隨之而出。近年來,國(guó)內(nèi)外出現(xiàn)了許多電子游戲作為教學(xué)資源使用的例子,美國(guó)國(guó)防部推出了一款名為《美國(guó)陸軍》的游戲,它強(qiáng)調(diào)”以團(tuán)隊(duì)精神、價(jià)值和責(zé)任感來完成目標(biāo)”,用以美軍的日常單兵訓(xùn)練;《文明》游戲曾經(jīng)作為美國(guó)中學(xué)的教學(xué)內(nèi)容之一;《模擬飛行》,多少飛行員的夢(mèng)想從這里開始。與此同時(shí),國(guó)內(nèi)的游戲教學(xué)市場(chǎng)也蓬勃發(fā)展起來,各種類型的游戲教學(xué)主題網(wǎng)站如雨后春筍般出現(xiàn)在互聯(lián)網(wǎng)上,像將學(xué)科學(xué)習(xí)、百科知識(shí)、智力開發(fā)、休閑娛樂等與網(wǎng)絡(luò)游戲相結(jié)合的中國(guó)第一款大型網(wǎng)絡(luò)教育游戲平臺(tái)--K12play快樂教育世界(),中國(guó)教育服務(wù)網(wǎng)主辦的、面向小學(xué)生的VCM教育游戲頻道(),還有以培養(yǎng)孩子英語學(xué)習(xí)樂趣為主的南天門英語樂園()等等都是反響不錯(cuò)的游戲類教學(xué)資源門戶網(wǎng),提供了大量的電子游戲式教學(xué)資源?!苯逃螒颉边@一名詞開始被提出并廣泛應(yīng)用,在國(guó)外,一般稱教育游戲?yàn)椤盓dutainment”或”EducationalGames”,國(guó)內(nèi)翻譯成教育游戲、教學(xué)游戲或?qū)W習(xí)型游戲。《教育游戲產(chǎn)業(yè)研究報(bào)告》把教育游戲定義為:能夠培養(yǎng)游戲使用者的知識(shí)、技能、智力、情感、態(tài)度、價(jià)值觀,并具有一定教育意義的計(jì)算機(jī)游戲類軟件[2]。當(dāng)前,網(wǎng)絡(luò)上的電子游戲資源種類齊全、數(shù)量繁多,而且由于互聯(lián)網(wǎng)即時(shí)更新的特性每天都在不斷擴(kuò)充。隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的教育者期望從這個(gè)龐大的資源庫(kù)中搜集到自己所需要的電子游戲資源,然而,面對(duì)如此浩瀚的資源海洋,從中尋找游戲資源變成了一件頗為復(fù)雜的事情,在這種情況下,我們以主題式爬蟲技術(shù)、信息抽取技術(shù)為基礎(chǔ),提出了構(gòu)建電子游戲教學(xué)資源庫(kù)的設(shè)想,并付諸實(shí)現(xiàn),旨在使此類資源能夠充分被共享。1.1.1相關(guān)概念界定本章節(jié)將對(duì)電子游戲、電子游戲教學(xué)資源庫(kù)及電子游戲資源作一個(gè)概念界定。自1971年第一臺(tái)街機(jī)游戲機(jī)誕生于麻省理工學(xué)院以來,在30年的時(shí)間內(nèi),以電子游戲?yàn)榇淼臄?shù)字娛樂業(yè)已經(jīng)從當(dāng)初的一種邊緣性的娛樂方式日益成為當(dāng)前全球(特別是發(fā)達(dá)國(guó)家)娛樂的一種主流方式。電子游戲概念的出現(xiàn)就是在這個(gè)時(shí)候。中國(guó)網(wǎng)頁(yè)游戲產(chǎn)業(yè)發(fā)展報(bào)告中對(duì)電子游戲的定義為:電子游戲是以電子媒介為載體的游戲程式[3]。當(dāng)前,電子游戲根據(jù)運(yùn)行的硬件平臺(tái),大致分為以下四類:電視游戲、電腦(PC)游戲、手機(jī)游戲和街機(jī)游戲(見圖1-1)。四類游戲之間,以PC游戲發(fā)展得最為完善豐富。隨著個(gè)人電腦的不斷更新?lián)Q代,PC游戲也分出了網(wǎng)絡(luò)游戲和單機(jī)游戲兩類。圖1-1電子游戲分類在這里,本文研究的電子游戲主要是指隨著電子科技發(fā)展而孕育產(chǎn)生的各種電子、電腦游戲與伴隨網(wǎng)絡(luò)產(chǎn)生的網(wǎng)絡(luò)游戲。教學(xué)資源庫(kù)是指按照統(tǒng)一的符合國(guó)際標(biāo)準(zhǔn)的技術(shù)規(guī)范和課程內(nèi)在邏輯關(guān)系構(gòu)建的,由全國(guó)優(yōu)秀的數(shù)字化媒體素材、知識(shí)點(diǎn)素材及示范性教學(xué)案例等教學(xué)基本素材構(gòu)成的,可不斷擴(kuò)充的開放式教學(xué)支持系統(tǒng)。文章中的電子游戲教學(xué)資源庫(kù)是為教學(xué)、科研提供豐富的、多元化的”游戲式教學(xué)素材和學(xué)習(xí)資源”描述信息,并以數(shù)據(jù)庫(kù)的方式組織、存儲(chǔ)、管理,以主題網(wǎng)站的形式向使用者提供查詢交互、資源推送等服務(wù)。用以引導(dǎo)電子游戲向健康的方向發(fā)展,推進(jìn)以資源庫(kù)為代表的信息技術(shù)與學(xué)科的深入整合,開拓教育領(lǐng)域新資源。資源庫(kù)中的電子游戲資源并不是具體的電子游戲,而是關(guān)于某個(gè)電子游戲資源的描述。對(duì)資源的描述信息主要來源于互聯(lián)網(wǎng)中的網(wǎng)頁(yè)資源,這些網(wǎng)頁(yè)包含了各種類型的電子游戲的描述信息,比如游戲名稱、游戲介紹等。電子游戲教學(xué)資源庫(kù)的核心功能是經(jīng)過一個(gè)自主開發(fā)的電子游戲資源自動(dòng)搜集系統(tǒng)完成的,系統(tǒng)借助主題式爬蟲技術(shù)從互聯(lián)網(wǎng)中抓取具體的電子游戲網(wǎng)頁(yè),借助信息抽取技術(shù)將抓取下來的網(wǎng)頁(yè)中的諸如游戲名稱、游戲介紹、原始URL等敏感信息抽取出來,結(jié)構(gòu)化存放在數(shù)據(jù)庫(kù)中并為用戶提供各種類型的服務(wù)。關(guān)于電子游戲資源的具體內(nèi)容,筆者將在第2章詳細(xì)介紹說明。1.1.2選題理由及研究意義”寓教于樂”的教育思想,已經(jīng)存在了千百年,在互聯(lián)網(wǎng)大行其道的今天,游戲特別是網(wǎng)絡(luò)游戲?qū)η嗌倌戤a(chǎn)生的影響越來越大。因此,將一板一眼的教育活動(dòng)與生動(dòng)有趣的電子游戲有機(jī)的結(jié)合起來,實(shí)現(xiàn)”游戲者即學(xué)習(xí)者,學(xué)習(xí)者即游戲者”的目標(biāo),成了教育界新的研究熱點(diǎn)。電子游戲,經(jīng)歷了被教師、家長(zhǎng)從”堵”到”疏”的轉(zhuǎn)變,已越來越被教育者應(yīng)用于教育,電子游戲作為一種教學(xué)資源的口號(hào)也隨之而出。由于電子游戲本身具有的教育潛質(zhì),使得它能夠作為一種教學(xué)資源、教學(xué)素材使用;當(dāng)今互聯(lián)網(wǎng)條件下,電子游戲種類繁多、信息過量但星羅棋布,迫切地需要一種系統(tǒng)使得此類資源被充分共享,因此建設(shè)電子游戲教學(xué)資源庫(kù)切實(shí)可行。1、電子游戲在教學(xué)中有著獨(dú)特的教育潛質(zhì),電子游戲能夠作為一種教學(xué)資源使用。電子游戲的教育潛質(zhì)表現(xiàn)在以下三個(gè)方面:(1)電子游戲提供了一種完善、互動(dòng)、虛擬的學(xué)習(xí)環(huán)境。與傳統(tǒng)的枯燥無味的教育活動(dòng)不同,數(shù)字化的今天,游戲能夠借助數(shù)字化虛擬手段為學(xué)習(xí)者創(chuàng)設(shè)一種游戲式的帶有會(huì)話協(xié)作性、競(jìng)爭(zhēng)挑戰(zhàn)性的學(xué)習(xí)環(huán)境,在這里,游戲者是絕正確中心,有利于培養(yǎng)她們迅速而有效的學(xué)習(xí)能力和自我解決問題的能力。(2)電子游戲能夠作為一種知識(shí)載體與認(rèn)知工具,具有教化作用。游戲本身也能夠作為一種知識(shí)載體,一種很好的認(rèn)知工具,有利于培養(yǎng)游戲使用者的知識(shí)、技能、智力、情感,鍛煉她們的思維能力和反應(yīng)能力,培養(yǎng)游戲使用者的態(tài)度和價(jià)值觀。例如《大航海時(shí)代》這款游戲中就包含了大量的地理、商業(yè)知識(shí),如果玩家沒有相關(guān)知識(shí)很難通關(guān)。還有就是比較著名的日本光榮公司的《三國(guó)志》系列游戲。這一款游戲一直擁有廣大的玩家群,特別是80年代后出生的年輕人,她們中的大多數(shù)對(duì)這段歷史都沒沒什么非常濃厚的興趣,甚至不愿意去看四大名著??墒恰度龂?guó)志》系列游戲卻讓許多年輕人捧起了《三國(guó)演義》,這不能不說是對(duì)玩家們起到了教育作用。電子游戲的教育潛質(zhì)不但僅能夠以比較直接的方式實(shí)現(xiàn)教育目的的實(shí)例,還能夠從更深層上實(shí)現(xiàn)了教育的目的,即經(jīng)過游戲改變玩家們的人生觀、世界觀??墒沁@類游戲需要借助人的引導(dǎo)才能真正的體現(xiàn)出它的教育意義。以經(jīng)典游戲《仙劍奇?zhèn)b傳》為例,其中主角李逍遙便是對(duì)”一諾千金”最好的解釋,不論對(duì)誰,只要做出承諾便從不反悔?;蛟S有些玩家會(huì)模仿游戲中人物的行為,但這種模仿是盲目的,我們顯然并不能奢望涉世未深的孩子們能夠從中領(lǐng)悟出人生觀的深刻道理,孩子們還需要家長(zhǎng)的引導(dǎo)或啟發(fā)。因此,優(yōu)秀的游戲從某種程度上來講可傳達(dá)一種人生觀、世界觀,實(shí)現(xiàn)教化作用。(3)游戲過程是一種創(chuàng)造的過程,它本身極具誘惑力,而且,它擁有廣闊的玩家范圍。電子游戲運(yùn)用技術(shù)手段來表現(xiàn)現(xiàn)實(shí)的情況,滿足人們的幻想,同時(shí),游戲過程即沒有固定的模式也沒有強(qiáng)制完成的結(jié)果,充滿了不確定性,一切都需要游戲者自己完成去創(chuàng)造與眾不同的游戲過程。因此有著廣闊的玩家范圍,大量的潛在群體,這些群體一般為兒童、學(xué)生居多。以上這些都顯示出游戲獨(dú)特的教育特質(zhì)。2、當(dāng)今互聯(lián)網(wǎng)條件下,游戲式教學(xué)資源種類繁多、信息過量但星羅棋布,不利于用戶查找具體游戲資源,建設(shè)電子游戲教學(xué)資源庫(kù)能夠有效的把它們聚合起來。近年來,隨著網(wǎng)絡(luò)信息的迅速膨脹,國(guó)內(nèi)外出現(xiàn)了許多游戲作為教學(xué)資源使用的例子,均提供了大量的電子游戲資源,迫切需要一種能把分散在各地的游戲式教學(xué)資源有效的聚合在一起的系統(tǒng),在這種情況下,我們提出了構(gòu)建電子游戲教學(xué)資源庫(kù)的設(shè)想,并付諸實(shí)現(xiàn),旨在使此類資源能夠充分被共享??傊?做好本課題有如下四個(gè)方面的意義:首先,建設(shè)電子游戲教學(xué)資源庫(kù)為教師教學(xué)、學(xué)生學(xué)習(xí)提供了一種新型資源庫(kù),有利于電子游戲資源的整合。該資源庫(kù)收集資源為游戲類教學(xué)資源,針對(duì)性強(qiáng)。力求把分散在各地的游戲式教學(xué)資源聚合組織起來,為教師教學(xué)和學(xué)生學(xué)習(xí)提供豐富、優(yōu)質(zhì)的教學(xué)素材,避免重復(fù)性勞動(dòng),提高教育教學(xué)效果。其次,資源庫(kù)收集信息豐富,為教學(xué)提供全面、準(zhǔn)確的電子游戲資源。采用主題式爬蟲技術(shù)(Focus-Crawler),查找相關(guān)電子游戲教學(xué)資源,查全率與查準(zhǔn)率高,為游戲式教學(xué)提供服務(wù)。第三,資源庫(kù)游戲信息羅列清晰,有利于用戶的檢索查詢。該資源庫(kù)經(jīng)過信息抽取技術(shù)對(duì)蜘蛛程序下載的網(wǎng)頁(yè)進(jìn)行處理,提取了電子游戲的游戲名稱、引用網(wǎng)址、游戲介紹、所屬類型等相關(guān)屬性,邏輯性強(qiáng),信息豐富,方便用戶查詢。同時(shí),它可擴(kuò)充性強(qiáng),支持用戶上傳游戲資源,推薦游戲站點(diǎn),支持玩家填寫游戲心得。第四,提供相關(guān)游戲推送,有利于提高游戲玩家(用戶)的智能。結(jié)合項(xiàng)目組開發(fā)的其它功能模塊——電子游戲多元智能標(biāo)注模塊與電子游戲多元智能量表評(píng)測(cè)模塊,對(duì)每個(gè)游戲添加多元智能標(biāo)簽,為用戶作多元智能測(cè)試,向某項(xiàng)智能有缺憾的玩家用戶作相關(guān)游戲推送,目的性強(qiáng)。1.2研究現(xiàn)狀分析電子游戲的教育意義很早就被一些國(guó)內(nèi)外學(xué)者、專家研究,她們普遍認(rèn)為游戲能夠用來幫助學(xué)生學(xué)習(xí),使學(xué)習(xí)過程變得生動(dòng)有趣,從而調(diào)動(dòng)學(xué)生的積極性。與此同時(shí),隨著Internet的爆炸性增長(zhǎng),WWW已經(jīng)發(fā)展成為包含多種信息資源、站點(diǎn)遍布全球的巨大信息庫(kù)。自從1991年誕生以來,它已經(jīng)發(fā)展為擁有上億用戶,上百億頁(yè)面的大型分布式式信息空間,而且這個(gè)數(shù)字仍以每4到6個(gè)月翻一倍的速度增加[4]。在互聯(lián)網(wǎng)教育資源不斷增長(zhǎng)的同時(shí),如何快速、準(zhǔn)確、方便的從中獲取自己需要的信息,是互聯(lián)網(wǎng)用戶面臨的一個(gè)重要問題。資源獲取的有效性和便捷性被提上日程。搜索引擎的出現(xiàn),整合了眾多站點(diǎn)信息,為快速查詢起到了信息導(dǎo)航的作用。信息的價(jià)值得到眾多商家的認(rèn)可,成為互聯(lián)網(wǎng)最有價(jià)值的領(lǐng)域。Google、百度等都是通用搜索引擎的杰出代表,為互聯(lián)網(wǎng)的發(fā)展做出了重要貢獻(xiàn)??墒?用戶使用這些搜索引擎的時(shí)候,輸入一個(gè)關(guān)鍵詞往往會(huì)出現(xiàn)幾萬甚至幾十萬的查詢頁(yè)面,其中不乏大量重復(fù)信息和垃圾信息,這使得用戶難以迅速找到符合她們要求的信息。因此,如何對(duì)現(xiàn)有的搜索引擎技術(shù)改進(jìn),并結(jié)合信息抽取技術(shù),使查詢的結(jié)果符合用戶的要求,成為信息處理領(lǐng)域近期的研究熱點(diǎn)。1.2.1游戲式教育理論研究現(xiàn)狀國(guó)外很早就有教育界學(xué)者著手研究如何利用游戲來幫助學(xué)生學(xué)習(xí)(Bowman1982;Amoryetal1999),她們認(rèn)為游戲能夠使得學(xué)習(xí)過程更有趣,調(diào)動(dòng)學(xué)生的主動(dòng)性,提高學(xué)習(xí)效率(Malone1980),并能夠使學(xué)生在”做”中”學(xué)”(Thiagarajan1998;Kirriemuir&McFarlane),從而提高學(xué)生解決問題的能力、協(xié)作學(xué)習(xí)能力和其它學(xué)習(xí)能力(Whitebread1987;Bruckman1998)。Kirriemuir和McFarlane提出能夠采用主流游戲的”清淡(Lite)”版本給課堂教學(xué)使用,也就是刪除游戲中所有與教學(xué)不相關(guān)的內(nèi)容。下面介紹一些具有代表性的游戲教學(xué)站點(diǎn):FUnbrain()網(wǎng)站為各個(gè)年齡階段的孩子提供按學(xué)科分類的在線交互小游戲;GameGOO()這是依據(jù)美國(guó)各州小學(xué)二年級(jí)語言課課程標(biāo)準(zhǔn)制作的語言學(xué)習(xí)教學(xué)游戲網(wǎng)站;Learningplanet()這是一個(gè)商業(yè)性網(wǎng)站,提供了很多從幼兒園到六年級(jí)的各科教學(xué)游戲等等。國(guó)內(nèi)研究比較晚,當(dāng)前相關(guān)理論研究與產(chǎn)品開發(fā)正步入了正軌。為解決”教育性”與”游戲性”的平衡問題,有關(guān)學(xué)者提出了”輕游戲”的概念。國(guó)家教育部”面向教育的電子游戲分級(jí)分類標(biāo)準(zhǔn)研究”項(xiàng)目,主要考證電子游戲中的教育性,建立電子游戲的教育評(píng)價(jià)體系并對(duì)游戲從教育角度進(jìn)行分級(jí)分類研究。1.2.2主題式爬蟲技術(shù)研究現(xiàn)狀本文研究的電子游戲教學(xué)資源庫(kù)主要采用主題式爬蟲技術(shù)和信息抽取技術(shù)。當(dāng)前,主題式爬蟲技術(shù)的研究發(fā)展迅速,已經(jīng)成為人們關(guān)注的熱點(diǎn)。同時(shí),利用它搜索的結(jié)果再經(jīng)過專業(yè)人士的加工而形成的面向某一學(xué)科、領(lǐng)域的垂直搜索引擎也己經(jīng)出現(xiàn)。面向主題的Web信息搜索策略主要有兩種:基于內(nèi)容的搜索與基于鏈接分析的搜索。前者工作方式是先建立一個(gè)針對(duì)主題的關(guān)鍵詞表,爬行程序根據(jù)主題與鏈接文本的相似度來評(píng)價(jià)鏈接價(jià)值的高低。后者考慮到Web頁(yè)面的半結(jié)構(gòu)特征,經(jīng)過對(duì)網(wǎng)頁(yè)之間的鏈接進(jìn)行分析,從而確定鏈接的重要性。下面介紹一些典型的主題式信息搜索系統(tǒng):1、Elsevier的Scirus系統(tǒng)Scirus科學(xué)搜索引擎是一種專為搜索高度相關(guān)的科學(xué)信息而設(shè)計(jì)的搜索引擎,獲得《搜索引擎觀察》授予的”最佳專業(yè)搜索引擎”獎(jiǎng)。Scirus是當(dāng)前互聯(lián)網(wǎng)上最全面、綜合性最強(qiáng)的科技文獻(xiàn)門戶網(wǎng)站之一。它只面向包含有科學(xué)內(nèi)容的網(wǎng)站,如大學(xué)和作者個(gè)人主頁(yè)以及Elsevier自己的數(shù)據(jù)庫(kù)。2、NEC研究院的CiteSeerCiteSeer是互聯(lián)網(wǎng)上使用最廣泛的針對(duì)計(jì)算機(jī)領(lǐng)域的科學(xué)論文檢索系統(tǒng)。CiteSeer能夠自動(dòng)地對(duì)網(wǎng)上的電子文件(Postscript和PDF等格式)進(jìn)行索引并分類。3、Berkeley的FocusedProject該系統(tǒng)經(jīng)過兩個(gè)程序來指導(dǎo)爬行器:一個(gè)分類器和一個(gè)凈化器。前者用來計(jì)算下載文檔與預(yù)訂主題的相關(guān)度;后者用來確定那些指向很多相關(guān)資源的頁(yè)面(在HITS算法中,稱之為中心網(wǎng)頁(yè))。在國(guó)內(nèi),主題搜索技術(shù)的研究剛剛起步,主要為一些大學(xué)的研究機(jī)構(gòu)和一些搜索引擎公司,比如北京化工大學(xué)就曾經(jīng)推出過化工方面的專業(yè)搜索引擎,還有像賽迪網(wǎng)(.com)推出的中文IT垂直搜索引擎”IT羅盤”,中國(guó)搜索(.com)推出的行業(yè)搜索等。一些大型的通用搜索引擎,百度、Google等推出的圖片搜索、MP3搜索都能夠看作是主題搜索技術(shù)的運(yùn)用。1.2.3信息抽取技術(shù)研究現(xiàn)狀主題式搜索引擎作為一種信息檢索系統(tǒng),它的輸出為與游戲相關(guān)的網(wǎng)頁(yè)信息,然而用戶關(guān)注的是更加準(zhǔn)確、更加詳細(xì)、更加深層的專業(yè)信息,而非僅僅是一些文檔列表,因此要進(jìn)行基于這些主題網(wǎng)頁(yè)的信息抽取。信息抽取(InformationExtraction,IE)是信息檢索的進(jìn)一步發(fā)展,是指從非結(jié)構(gòu)化和半結(jié)構(gòu)化的文本中抽取出用戶所感興趣的信息(本系統(tǒng)抽取的是游戲名稱與游戲內(nèi)容),形成結(jié)構(gòu)化的信息并存入數(shù)據(jù)庫(kù),供用戶查詢和使用的過程。國(guó)外的信息抽取技術(shù)研究始于20世紀(jì)60年代中期,主要從自然語言中獲取結(jié)構(gòu)化信息,它以美國(guó)紐約大學(xué)和耶魯大學(xué)的兩個(gè)長(zhǎng)期的、研究性的自然語言處理項(xiàng)目為代表。20世紀(jì)80年代末,由于消息理解系列會(huì)議(MUC,MessageUnderstandingConference)的推動(dòng),信息提取研究蓬勃開展起來。MUC系列會(huì)議使信息抽取發(fā)展成為自然語言處理領(lǐng)域一個(gè)重要分支,并一直推動(dòng)這一領(lǐng)域的研究向前發(fā)展。近幾年,信息抽取技術(shù)在研究方面,主要側(cè)重于以下幾個(gè)方面:利用機(jī)器學(xué)習(xí)技術(shù)增強(qiáng)系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語言文本處理能力、Web信息抽取(Wrapper)以及對(duì)時(shí)間信息的處理等等。在應(yīng)用方面,信息抽取應(yīng)用的領(lǐng)域更加廣泛,除自成系統(tǒng)以外,還往往與其它文檔處理技術(shù)結(jié)合建立功能強(qiáng)大的信息服務(wù)系統(tǒng)。國(guó)內(nèi)方面,中文信息抽取方面的研究起步較晚,主要的研究工作集中在對(duì)中文命名實(shí)體的識(shí)別方面,在設(shè)計(jì)實(shí)現(xiàn)完整的中文信息抽取系統(tǒng)方面還處在探索階段。近年來國(guó)內(nèi)外涌現(xiàn)了多種信息抽取方法,根據(jù)自動(dòng)化程度能夠分為人工方式的信息抽取、半自動(dòng)方式的信息抽取和全自動(dòng)方式的信息抽取三大類;根據(jù)抽取原理和抽取方式的不同能夠大致分為以下5類:基于自然語言處理方式的信息抽取、包裝器歸納方式的信息抽取、基于Ontology方式的信息抽取、基于HTML結(jié)構(gòu)的信息抽取和基于Web查詢的信息抽取。這些方法各有側(cè)重地解決了上述Web信息抽取中面臨的問題,總體上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷。因此,為了更好地解決從已有的游戲網(wǎng)頁(yè)上獲取游戲元數(shù)據(jù)信息,有必要對(duì)Web信息抽取問題作進(jìn)一步研究。1.3研究?jī)?nèi)容經(jīng)過本課題的研究,設(shè)計(jì)并實(shí)現(xiàn)電子游戲教學(xué)資源庫(kù)。電子游戲教學(xué)資源庫(kù)的核心實(shí)際上是一個(gè)電子游戲資源自動(dòng)搜集系統(tǒng),它包括前臺(tái)和后臺(tái)兩個(gè)部分。前臺(tái)部分方便與用戶交互,支持用戶查詢電子游戲、上傳游戲的功能。同時(shí),設(shè)計(jì)兼容由項(xiàng)目組自主開發(fā)的其它模塊——量表測(cè)試與多元智能標(biāo)注系統(tǒng)的接口模塊相關(guān)功能由全國(guó)教育科學(xué)相關(guān)功能由全國(guó)教育科學(xué)”十五”規(guī)劃教育部重點(diǎn)基金項(xiàng)目”面向教育的電子游戲分級(jí)分類標(biāo)準(zhǔn)研究”(項(xiàng)目編號(hào):DCA050056)項(xiàng)目組實(shí)現(xiàn)。后臺(tái)部分由網(wǎng)絡(luò)爬蟲模塊(eGameCrawler)與游戲主題信息抽取模塊組成。網(wǎng)絡(luò)爬蟲模塊下載電子游戲相關(guān)的網(wǎng)頁(yè),存入一級(jí)數(shù)據(jù)庫(kù)(DateBase1)保存,供游戲主題信息抽取模塊提取出敏感信息,主要包括游戲名稱、游戲介紹、游戲出處等,存入二級(jí)數(shù)據(jù)庫(kù)(DB2),然后再由我們項(xiàng)目組自主開發(fā)的電子游戲多元智能標(biāo)注系統(tǒng)對(duì)各個(gè)游戲打上多元智能標(biāo)簽,向某項(xiàng)智能有缺憾的玩家用戶作相關(guān)游戲推送[5],如圖1-2所示。圖1-2內(nèi)容構(gòu)架具體研究?jī)?nèi)容包括以下四個(gè)步驟:1、對(duì)游戲式樣本網(wǎng)頁(yè)的特征分析,摘錄部分關(guān)鍵詞,選擇種子url,制定規(guī)則集與定義游戲元數(shù)據(jù)結(jié)構(gòu)。2、基于主題爬蟲(focus-crawler)技術(shù)的網(wǎng)絡(luò)爬蟲模塊設(shè)計(jì),收集并下載游戲式教學(xué)資源原始網(wǎng)頁(yè)信息,入數(shù)據(jù)庫(kù)1(DB1)保存。包括三個(gè)方面:⑴定義關(guān)于游戲的原始數(shù)據(jù)結(jié)構(gòu),將游戲的名稱、簡(jiǎn)單介紹、源URL等作為描述一個(gè)具體游戲的元數(shù)據(jù);⑵主題詞庫(kù)與種子庫(kù)設(shè)計(jì);⑶文本網(wǎng)頁(yè)主題相關(guān)度計(jì)算等。3、游戲主題信息抽取模塊設(shè)計(jì),對(duì)DB1保存的原始網(wǎng)頁(yè)進(jìn)行處理,抽取主題信息,初步設(shè)計(jì)提取出游戲名稱、游戲介紹等,存入數(shù)據(jù)庫(kù)2(DB2)。⑴分析網(wǎng)頁(yè)特征,制定規(guī)則集,比如游戲名稱往往為頁(yè)面中最大的字號(hào)、粗體或帶書名號(hào);又如游戲介紹的文本一般前面都包含”游戲說明”、”游戲介紹”、”操作指南”等。⑵網(wǎng)頁(yè)預(yù)處理,DOM樹轉(zhuǎn)換、去除廣告等無關(guān)信息;⑶根據(jù)規(guī)則集對(duì)DB1中的網(wǎng)頁(yè)進(jìn)行基于游戲原始數(shù)據(jù)結(jié)構(gòu)的信息抽取。4、前臺(tái)用戶交互設(shè)計(jì)。以門戶網(wǎng)站形式建立,提供用戶接口,供用戶查詢檢索游戲資源。同時(shí)在前臺(tái)設(shè)計(jì)兼容多元智能標(biāo)注模塊與量表評(píng)測(cè)模塊的部分。1.4本文的組織結(jié)構(gòu)本文共分五章,文章的組織結(jié)構(gòu)如下:第一章”前言”部分主要介紹了論文研究背景及意義、電子游戲等相關(guān)概念的界定、國(guó)內(nèi)外研究現(xiàn)狀分析、電子游戲教學(xué)資源庫(kù)原型系統(tǒng)的基本架構(gòu)、本文的研究?jī)?nèi)容以及論文的組織結(jié)構(gòu)。第二章”電子游戲資源分析”部分,對(duì)資源庫(kù)中的電子游戲資源做了具體介紹,同時(shí)也介紹了建設(shè)資源庫(kù)時(shí)符合的標(biāo)準(zhǔn)。經(jīng)過對(duì)頁(yè)面特征的分析提出了電子游戲資源的元數(shù)據(jù)。第三章”電子游戲資源自動(dòng)搜集的關(guān)鍵技術(shù)及改進(jìn)”部分主要介紹了主題式爬蟲,信息抽取的關(guān)鍵技術(shù),以及對(duì)相關(guān)技術(shù)的改進(jìn)。第四章”電子游戲教學(xué)資源庫(kù)原型設(shè)計(jì)”,介紹了教學(xué)資源庫(kù)系統(tǒng)的結(jié)構(gòu)圖,并給出了系統(tǒng)中部分程序的運(yùn)行界面圖以及數(shù)據(jù)庫(kù)設(shè)計(jì)等。第五章”實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析”部分對(duì)系統(tǒng)的穩(wěn)定性、可用性、受壓力性進(jìn)行了測(cè)試,根據(jù)結(jié)果找出系統(tǒng)改進(jìn)的方向;經(jīng)過查全率與查準(zhǔn)率對(duì)系統(tǒng)提取的結(jié)果進(jìn)行實(shí)驗(yàn)分析。第二章電子游戲資源分析隨著互聯(lián)網(wǎng)技術(shù)向?qū)拵?、高速、多媒體方向的發(fā)展,網(wǎng)絡(luò)教育已經(jīng)完美地承繼了廣播、電視等教育方式的優(yōu)點(diǎn),同時(shí)又憑借其信息形式多樣性的特點(diǎn),把獲取信息的途徑由教室、實(shí)驗(yàn)室和圖書館,擴(kuò)展到因特網(wǎng)所覆蓋的任何場(chǎng)所,為渴望獲取知識(shí)的人們提供了更多的選擇。然而,網(wǎng)絡(luò)只是信息傳播的載體,信息資源的汲取和共享才是人們使用網(wǎng)絡(luò)的目的所在。要發(fā)揮網(wǎng)絡(luò)教育的優(yōu)勢(shì),就必須有豐富的教學(xué)信息資源支持。因此,發(fā)展網(wǎng)絡(luò)教育的核心應(yīng)是網(wǎng)絡(luò)化信息資源庫(kù)的建設(shè)[6]。自從AECT94定義傳到中國(guó),中國(guó)遼闊的土地上就揭開了建設(shè)教育教學(xué)資源庫(kù)的新篇章,近兩年更是掀起了建設(shè)的新高潮,從國(guó)家基礎(chǔ)教育資源庫(kù)到各省電教館開發(fā)的新課程教育資源庫(kù),從K12教育資源庫(kù)到浙大教育資源庫(kù)、科利華教育資源庫(kù),不下幾十家。教學(xué)資源建設(shè)是教育信息化的基礎(chǔ),是需要長(zhǎng)期建設(shè)與維護(hù)的系統(tǒng)工程。由于教學(xué)資源的復(fù)雜性和多樣性,使得人們對(duì)它的理解各不相同,會(huì)出現(xiàn)大量不同層次、不同屬性的教育資源,因而不易于管理和利用。為了更有效地建設(shè)好各級(jí)各類教育資源庫(kù),促進(jìn)各資源庫(kù)系統(tǒng)之間的數(shù)據(jù)共享,提高教育資源檢索的效率與準(zhǔn)確度,保證資源建設(shè)的質(zhì)量,資源庫(kù)對(duì)資源的描述必須遵循一定的標(biāo)準(zhǔn)與規(guī)范。我們對(duì)電子游戲資源庫(kù)的建設(shè)遵循CELTS標(biāo)準(zhǔn)體系,該標(biāo)準(zhǔn)體系是由中國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)教育技術(shù)分委員會(huì)研制的,相關(guān)標(biāo)準(zhǔn)內(nèi)容將會(huì)在2.1節(jié)詳細(xì)介紹。根據(jù)CELTS標(biāo)準(zhǔn)體系,我們對(duì)電子游戲資源進(jìn)行了仔細(xì)分析,確定了描述該資源的相關(guān)元素,制定了基于電子游戲資源的元數(shù)據(jù)結(jié)構(gòu)。本章2.1節(jié)主要介紹了資源庫(kù)中描述電子游戲資源應(yīng)遵循的標(biāo)準(zhǔn)——CELTS體系;2.2節(jié)介紹了電子游戲教學(xué)資源庫(kù),并對(duì)庫(kù)中的電子游戲資源進(jìn)行了分析;2.3節(jié)介紹了描述電子游戲資源的元數(shù)據(jù)結(jié)構(gòu)。2.1CELTS標(biāo)準(zhǔn)2.1.1CELTS簡(jiǎn)介CELTS(Chinesee-LearningTechnologyStandardization),即中國(guó)網(wǎng)絡(luò)教育技術(shù)標(biāo)準(zhǔn)體系,由5類標(biāo)準(zhǔn)項(xiàng)目組成:指導(dǎo)性標(biāo)準(zhǔn)、學(xué)習(xí)資源相關(guān)標(biāo)準(zhǔn)、學(xué)習(xí)環(huán)境相關(guān)標(biāo)準(zhǔn)、學(xué)習(xí)者相關(guān)標(biāo)準(zhǔn)、教育管理相關(guān)標(biāo)準(zhǔn)。到當(dāng)前為止,已立項(xiàng)的標(biāo)準(zhǔn)草案項(xiàng)目36項(xiàng),其中國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)立項(xiàng)18項(xiàng),已完成并發(fā)布的國(guó)家標(biāo)準(zhǔn)3項(xiàng)[7]。在這個(gè)標(biāo)準(zhǔn)體系里,通用規(guī)范(編號(hào)小于40)具有廣泛的適用面,給標(biāo)準(zhǔn)用戶留有較多的發(fā)展余地,允許她們?cè)谧駨慕y(tǒng)一的基本框架下選擇及改制一些數(shù)據(jù)項(xiàng)目;專用規(guī)范(編號(hào)為40以后)是針對(duì)某一特定領(lǐng)域的或給出特定的實(shí)現(xiàn)方法,具有更強(qiáng)的約束力。2.1.2教學(xué)資源建設(shè)規(guī)范與元數(shù)據(jù)標(biāo)準(zhǔn)CELTS標(biāo)準(zhǔn)體系中,我們教學(xué)資源庫(kù)建設(shè)參照的標(biāo)準(zhǔn)主要有教育資源建設(shè)規(guī)范(CELTS-41)、學(xué)習(xí)對(duì)象元數(shù)據(jù)(CELTS-3)和基礎(chǔ)教育資源元數(shù)據(jù)應(yīng)用規(guī)范(CELTS-42),它們同屬于學(xué)習(xí)資源類相關(guān)標(biāo)準(zhǔn)[8]。CELTS-41側(cè)重點(diǎn)在于統(tǒng)一資源開發(fā)者的開發(fā)行為、開發(fā)資源的制作要求、管理系統(tǒng)的功能要求等;CELTS-3和CELTS-42主要是規(guī)范資源對(duì)象的元數(shù)據(jù)標(biāo)準(zhǔn)?!苯逃Y源建設(shè)規(guī)范(CELTS-41)”規(guī)定,教育資源建設(shè)能夠有四個(gè)層次的含義,一是素材類教育資源建設(shè),主要分八大類:媒體素材、試題、試卷、文獻(xiàn)資料、課件、案例、常見問題解答和資源目錄索引;二是網(wǎng)絡(luò)課程建設(shè);三是資源建設(shè)的評(píng)價(jià);四是教育資源管理系統(tǒng)的開發(fā);在這四個(gè)層次中,網(wǎng)絡(luò)課程和素材類教育資源建設(shè)是基礎(chǔ),是需要規(guī)范的重點(diǎn)和核心?!睂W(xué)習(xí)對(duì)象元數(shù)據(jù)規(guī)范(CELTS-3)”是針對(duì)教育資源的元數(shù)據(jù)規(guī)范。所謂學(xué)習(xí)對(duì)象是指任何具有重用特性并用來支持學(xué)習(xí)的數(shù)字化資源[9]。元數(shù)據(jù)是指關(guān)于數(shù)據(jù)的數(shù)據(jù)(Datatodata),它的作用在于描述數(shù)據(jù)資源的關(guān)鍵屬性,以便于資源的檢索查詢。規(guī)范中定義了大量的項(xiàng)目,共9類80多項(xiàng),這些項(xiàng)目規(guī)定了該如何描述學(xué)習(xí)對(duì)象,即應(yīng)對(duì)資源的哪些屬性進(jìn)行描述,這些屬性該如何表示等等。為學(xué)習(xí)者和教育者等查找、評(píng)估、獲取和使用學(xué)習(xí)對(duì)象提供支持?!被A(chǔ)教育資源元數(shù)據(jù)應(yīng)用規(guī)范(CELTS-42)”是在CELTS-3的基礎(chǔ)上,結(jié)合中國(guó)基礎(chǔ)教育的實(shí)際,定義的一組面向基礎(chǔ)教育的教學(xué)資源元數(shù)據(jù)元素。其主要目的是為各單位開發(fā)網(wǎng)絡(luò)教育資源而制定開發(fā)的指導(dǎo)規(guī)范,使各學(xué)校開發(fā)的資源能夠在大范圍內(nèi)共享。同CELTS-3相比,CELTS-42更具體。CELTS-3定義的是一種概念上的數(shù)據(jù)模型,針對(duì)通用學(xué)習(xí)對(duì)象進(jìn)行定義,較為宏觀,指導(dǎo)面廣。CELTS-42)則針對(duì)中國(guó)基礎(chǔ)教育,具有本土化色彩,符合國(guó)內(nèi)資源建設(shè)的現(xiàn)狀,可操作性強(qiáng)。2.2電子游戲教學(xué)資源庫(kù)概述2.2.1電子游戲教學(xué)資源庫(kù)電子游戲的健康發(fā)展需要機(jī)制的支持,無論從其外部存在機(jī)制、還是內(nèi)部發(fā)展機(jī)制來說,電子游戲應(yīng)用于教育是信息技術(shù)發(fā)展的必然趨勢(shì),同時(shí)也需要各領(lǐng)域?qū)<也粩嗟呐Α1菊撐奶岢龅碾娮佑螒蚪虒W(xué)資源庫(kù)將致力于引導(dǎo)電子游戲向健康的方向發(fā)展,推進(jìn)游戲的產(chǎn)業(yè)發(fā)展,推進(jìn)以資源庫(kù)為代表的信息技術(shù)與學(xué)科的深入整合。本研究探索將電子游戲作為一種新型的課程資源,服務(wù)于教學(xué)活動(dòng)。當(dāng)然我們?cè)谶@里探討的并不是將完整的游戲單純地在課堂中使用,而是重點(diǎn)探討電子游戲在教學(xué)和學(xué)習(xí)中的應(yīng)用方式,在以信息技術(shù)教學(xué)為主線的情況下輔以游戲的某些特質(zhì)。根據(jù)CELTS標(biāo)準(zhǔn),教學(xué)資源庫(kù)包括了教育資源的建設(shè)及其組織管理。資源庫(kù)建設(shè)包括兩個(gè)層次:素材類教學(xué)資源的建設(shè)以及資源管理系統(tǒng)的開發(fā),即為用戶提供一個(gè)上傳、下載以及相互交流的平臺(tái)。我們的電子游戲資源庫(kù)建設(shè)中同樣包含兩個(gè)部分,后臺(tái)數(shù)據(jù)庫(kù)提供電子游戲資源信息,前臺(tái)負(fù)責(zé)與用戶交互,提供服務(wù)。根據(jù)CELTS標(biāo)準(zhǔn),教學(xué)資源庫(kù)的建設(shè)應(yīng)該以促進(jìn)各資源庫(kù)系統(tǒng)之間的數(shù)據(jù)共享,提高教育資源檢索的效率與準(zhǔn)確度,保證資源建設(shè)的質(zhì)量為前提,一般來講有下面三個(gè)特征:數(shù)字化、網(wǎng)絡(luò)化和規(guī)范化[10]。電子游戲教學(xué)資源庫(kù)中資源以數(shù)字化形式存儲(chǔ),包括文本、圖片等形式,采用統(tǒng)一的標(biāo)準(zhǔn)結(jié)構(gòu)化存儲(chǔ),以便于平臺(tái)之間的傳輸和共享;以網(wǎng)站的形式呈現(xiàn)給用戶,用戶能夠借助網(wǎng)絡(luò)平臺(tái)輕松獲得;基于CELTS標(biāo)準(zhǔn)的元數(shù)據(jù)模型描述電子游戲式資源,方便搜集系統(tǒng)的搜集,用戶對(duì)資源的查詢。同時(shí),在建設(shè)資源庫(kù)時(shí)要使用開放的數(shù)據(jù)庫(kù),以供多用戶訪問,如MicrosoftSQLServer、Oracle、MySQL等,而不能使用單用戶的Excel、Access等,以免限制多用戶并發(fā)訪問。2.2.2電子游戲資源經(jīng)過大量的研究調(diào)查,筆者認(rèn)為電子游戲以其獨(dú)特的教育品質(zhì)將是今后教育領(lǐng)域中學(xué)習(xí)資源的最好的補(bǔ)充。因此,我們構(gòu)建教學(xué)資源庫(kù)將以電子游戲作為資源。在這里,涉及到二個(gè)問題:①如何確定電子游戲資源對(duì)象;②如何對(duì)電子游戲資源對(duì)象進(jìn)行描述。電子游戲教學(xué)資源庫(kù)中的電子游戲資源并不是具體的以電腦為載體的游戲,而是關(guān)于某一具體的電子游戲的描述。當(dāng)用戶經(jīng)過前臺(tái)網(wǎng)站登錄我們的資源庫(kù)時(shí),能夠查看里面的電子游戲信息,結(jié)合項(xiàng)目組的其它系統(tǒng)進(jìn)行個(gè)性游戲推薦。我們知道,互聯(lián)網(wǎng)信息量巨大而且不斷更新,因此,數(shù)字化的資源庫(kù)中所羅列的電子游戲就擺脫了僅僅是電腦游戲的局限,它還包括了其它載體如電視、手機(jī)、街機(jī)等游戲資源的描述。在電子游戲資源到底是什么明確之后,接下來面臨的問題就是如何合理的對(duì)其進(jìn)行描述。描述主要來源于互聯(lián)網(wǎng)中的網(wǎng)頁(yè)資源,這些網(wǎng)頁(yè)包含了各種類型的電子游戲的描述信息,比如游戲名稱、游戲介紹、游戲類型以及原始URL等。實(shí)現(xiàn)資源庫(kù)核心功能的電子游戲自動(dòng)搜集系統(tǒng),借助主題式的網(wǎng)絡(luò)爬蟲技術(shù)與信息抽取技術(shù),從互聯(lián)網(wǎng)中抓取相關(guān)度高的電子游戲網(wǎng)頁(yè),并提取描述信息,結(jié)構(gòu)化存放在數(shù)據(jù)庫(kù)中并為用戶提供各種類型的服務(wù)。從研究的角度上講,若要準(zhǔn)備地描述一個(gè)研究對(duì)象,則需要一套合適的元數(shù)據(jù)描述方案。由于本文的研究目的是為教學(xué)服務(wù)的,屬于教育資源領(lǐng)域,因此需要對(duì)教育資源的標(biāo)準(zhǔn)體系進(jìn)行詳細(xì)的調(diào)查研究。筆者在仔細(xì)研究CELTS標(biāo)準(zhǔn)的基礎(chǔ)上,結(jié)合電子游戲類頁(yè)面自身的特點(diǎn),制定了電子游戲資源的元數(shù)據(jù),為每條電子游戲信息進(jìn)行多屬性標(biāo)注,規(guī)范了屬性的標(biāo)題、數(shù)據(jù)類型及內(nèi)容描述等,提高平臺(tái)之間信息交流與資源共享,方便用戶查詢使用。在下一節(jié)里,將對(duì)電子游戲資源的元數(shù)據(jù)進(jìn)行分析。2.3電子游戲資源元數(shù)據(jù)電子游戲資源自動(dòng)搜集系統(tǒng)面向的對(duì)象是互聯(lián)網(wǎng)上電子游戲類的網(wǎng)站,經(jīng)過主題式爬蟲[11,12],但它與普通的基于某個(gè)主題內(nèi)容的搜索引擎不同。在受限領(lǐng)域或者專業(yè)知識(shí)性非常強(qiáng)的領(lǐng)域(比如地震、醫(yī)學(xué)類網(wǎng)頁(yè)中)進(jìn)行的網(wǎng)頁(yè)抓取,主題式搜索引擎借助專業(yè)的關(guān)鍵詞庫(kù)與種子URL庫(kù),仍能取得良好的效果[13]。可是在電子游戲類站點(diǎn)中,各頁(yè)面相互之間鮮有相近的文本描述,或相似的結(jié)構(gòu)特點(diǎn),不太易于給定通用的決策一塊實(shí)施抓取?;谶@種原因,筆者經(jīng)過對(duì)大量典型的、具有代表性質(zhì)的樣本式電子游戲網(wǎng)頁(yè)的分析,制定了電子游戲的”核心元素”結(jié)構(gòu),同時(shí)歸納出一些利于網(wǎng)頁(yè)抓取與關(guān)鍵信息抽取的規(guī)則,用于自動(dòng)搜集系統(tǒng),在查全率和查準(zhǔn)率上都取得了明顯的改進(jìn)。然后,結(jié)合CELTS標(biāo)準(zhǔn),對(duì)該”核心元素”結(jié)構(gòu)作了改進(jìn),提出電子游戲資源的元數(shù)據(jù)。2.3.1頁(yè)面特征分析初期,筆者借助手工方式與自動(dòng)方式,在互聯(lián)網(wǎng)上搜索、下載了大量典型代表性質(zhì)的樣本式游戲網(wǎng)頁(yè),經(jīng)過對(duì)這些樣本網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行對(duì)比、歸納,得出了以下結(jié)論。根據(jù)分析,電子游戲類網(wǎng)頁(yè)能夠?yàn)槿N類型,資源類頁(yè)面、索引類頁(yè)面以及無序型頁(yè)面,其中,資源類頁(yè)面指那些包含具體游戲的頁(yè)面,包括游戲本身,游戲名稱、介紹等;索引類頁(yè)面是那些指向資源類頁(yè)面的頁(yè)面,二者是一對(duì)多關(guān)系,如圖2-1所示。還有一種是無序型頁(yè)面,之因此說它無序,是因?yàn)檫@些頁(yè)面包含的電子游戲信息沒有邏輯的結(jié)構(gòu),往往不規(guī)則得排布于整個(gè)頁(yè)面,像論壇、博客性質(zhì)的游戲介紹網(wǎng)頁(yè)。圖2-1頁(yè)面類型根據(jù)頁(yè)面的布局特征,筆者對(duì)頁(yè)面進(jìn)行了如下分類,并依據(jù)此建立了規(guī)則集,滿足某條規(guī)則的網(wǎng)站頁(yè)面即有可能被判定為相關(guān)頁(yè)面。一、整個(gè)頁(yè)面僅包含一個(gè)電子游戲資源,見圖2-2。這種網(wǎng)頁(yè)為資源類頁(yè)面。圖2-2二、一個(gè)頁(yè)面包含多個(gè)游戲資源,而且這種類型的頁(yè)面多個(gè)游戲間呈規(guī)則狀排列,見圖4。這種網(wǎng)頁(yè)一般為索引類頁(yè)面,當(dāng)然,它本身也提供了我們感興趣的資源,像游戲名稱、介紹等,也是我們要重點(diǎn)抓取的頁(yè)面。圖2-3三、論壇、博客性質(zhì)的游戲介紹網(wǎng)頁(yè),這種頁(yè)面為論壇上的帖子或博客上的文章,一般由多個(gè)游戲元數(shù)據(jù)結(jié)構(gòu)組成,之間排列不規(guī)則,一般從上到下依次排滿整個(gè)頁(yè)面。如圖2-4。本身也是資源類頁(yè)面。但這種頁(yè)面數(shù)量不多,提供信息一般由網(wǎng)絡(luò)用戶自己發(fā)表的帖子,準(zhǔn)確性不高,不屬于重點(diǎn)抓取對(duì)象。圖2-4經(jīng)過以上分析,絕大多數(shù)的電子游戲網(wǎng)頁(yè),關(guān)于游戲的具體構(gòu)成元素都至少包含以下三個(gè)部分,游戲名稱、游戲介紹和游戲截圖,我們把這三類元素稱為基于某一個(gè)游戲的”核心元素”,表1制定了一個(gè)規(guī)則集。經(jīng)過調(diào)研,一般在索引頁(yè)面中包括較多的核心元素,而資源頁(yè)面中由于是對(duì)某一游戲的詳細(xì)介紹,因此核心元素?cái)?shù)為2-1。表2-1電子游戲核心元素構(gòu)成元素特征格式標(biāo)題游戲名稱,大字體、粗體或帶書名號(hào)Txt介紹文本描述,包含游戲介紹、玩法等Txt多媒體游戲截圖或游戲本身jpg/gif/swf/exe/…經(jīng)過對(duì)頁(yè)面特征的分析,爬蟲模塊下載URL時(shí),是從超鏈接標(biāo)記<A>標(biāo)記中查找并獲得Href屬性,依次爬行其它網(wǎng)頁(yè)。但要注意的是,有些網(wǎng)頁(yè)存在的圖片本身也是熱點(diǎn)區(qū)域,因此模塊中應(yīng)添加圖像作用區(qū)域標(biāo)記<area>,把它的Href屬性也作為重要遍歷對(duì)象。所在,要同時(shí)考慮<A>與<area>兩種標(biāo)記,以提高抓取的準(zhǔn)確性。初期根據(jù)頁(yè)面特征分析得到的電子游戲核心元素結(jié)構(gòu),被廣泛用來本系統(tǒng)的核心部分——電子游戲自動(dòng)搜集系統(tǒng)的爬蟲模塊與游戲主題特征抽取模塊,在查全率和查準(zhǔn)率上有了明顯的提高。同時(shí),結(jié)合CELTS相關(guān)標(biāo)準(zhǔn),對(duì)該核心元素結(jié)構(gòu)進(jìn)行了改行,提出了電子游戲資源的元數(shù)據(jù)。2.3.2基于CELTS標(biāo)準(zhǔn)的電子游戲元數(shù)據(jù)為方便各個(gè)不同資源庫(kù)平臺(tái)之間的信息交流和資源共享,提高資源的可重用性,我們結(jié)合了”基礎(chǔ)教育資源元數(shù)據(jù)應(yīng)用規(guī)范(CELTS-42)”,制定了描述了電子游戲資源相關(guān)元素的元數(shù)據(jù)。CELTS-42對(duì)基礎(chǔ)教育資源元數(shù)據(jù)的制定提供了詳細(xì)的規(guī)范說明。該規(guī)范規(guī)定的描述基礎(chǔ)教育資源的數(shù)據(jù)元素集包括23個(gè)元素,其中必須元素11個(gè),可選元素12個(gè)。允許用戶根據(jù)各自需要擴(kuò)充元數(shù)據(jù)元素,但必須符合本規(guī)范元素定義格式和技術(shù)規(guī)范。該規(guī)范的核心元數(shù)據(jù)元素依據(jù)其描述的內(nèi)容和類別分為三類:資源內(nèi)容描述類,包括標(biāo)題、學(xué)科、關(guān)鍵詞、描述、來源、語種、關(guān)系、覆蓋范圍、適用對(duì)象、目錄項(xiàng)10個(gè)數(shù)據(jù)元素;知識(shí)產(chǎn)權(quán)信息類,包括作者、出版者、其它作者、權(quán)限管理、版本5個(gè)核心元素;外部屬性描述類,包括日期、類型、格式、標(biāo)識(shí)、評(píng)價(jià)、評(píng)價(jià)者、元元數(shù)據(jù)方案、目的8個(gè)核心元素。必須元素包括標(biāo)題、學(xué)科、關(guān)鍵詞、描述、標(biāo)識(shí)、格式、日期、語種、類型、作者、適用對(duì)象11個(gè)核心元素。本課題在此研究的基礎(chǔ)上,結(jié)合電子游戲網(wǎng)站的自身的特點(diǎn),改進(jìn)了初期由分析游戲類網(wǎng)站頁(yè)面特征得到的描述具體電子游戲的核心元素,制定了描述電子游戲資源的元數(shù)據(jù),詳見表2-2。表2-2改進(jìn)后的電子游戲資源元數(shù)據(jù)元素含義標(biāo)識(shí)(ID)惟一標(biāo)志該電子游戲資源,由系統(tǒng)自動(dòng)生成。標(biāo)題(Name)電子游戲名稱。內(nèi)容描述(G_Content)關(guān)于電子游戲的介紹。上傳者(upLoder)上傳者,若是系統(tǒng)自動(dòng)發(fā)現(xiàn),則默認(rèn)”CPU”。收錄時(shí)間(upTime)上傳時(shí)間,若系統(tǒng)自己發(fā)現(xiàn),則默認(rèn)為發(fā)現(xiàn)該游戲時(shí)間。類型(G_Sort)多元智能標(biāo)注系統(tǒng)對(duì)此電子游戲的標(biāo)注,以表明哪些游戲適合哪類智能不足的玩家使用。來源(URL)此游戲來源的網(wǎng)址。語種(Language)電子游戲中使用的語言。改進(jìn)之后的電子游戲元數(shù)據(jù),提高了電子游戲資源庫(kù)的共享性、可重用性,增加了用戶利用資源進(jìn)的便捷性。2.4本章小結(jié)本章首先介紹了電子游戲資源庫(kù)與具體資源建設(shè)時(shí)應(yīng)該遵循的標(biāo)準(zhǔn)——CELTS標(biāo)準(zhǔn),然后對(duì)資源庫(kù)和庫(kù)中游戲資源進(jìn)行介紹,指出資源庫(kù)中的電子游戲資源并不是具體的電子游戲,而是關(guān)于某個(gè)電子游戲資源的描述。同時(shí),根據(jù)對(duì)樣本頁(yè)面特征的分析,定義了電子游戲的核心元素結(jié)構(gòu),為以后的程序設(shè)計(jì)打下基礎(chǔ),然后根據(jù)CELTS標(biāo)準(zhǔn)將該結(jié)構(gòu)完善化,提出電子游戲資源的元數(shù)據(jù),建立資源庫(kù)。第三章電子游戲資源自動(dòng)搜集的關(guān)鍵技術(shù)及改進(jìn)電子游戲教學(xué)資源庫(kù)的核心是一個(gè)電子游戲資源自動(dòng)搜集系統(tǒng),基于電子游戲資源的自動(dòng)搜集主要是針對(duì)互聯(lián)網(wǎng)上豐富的電子游戲的描述信息,這些信息分布在不同的WEB站點(diǎn)中,內(nèi)容大多是關(guān)于其一類或一種游戲的描述,諸如游戲名稱、介紹等,而且結(jié)構(gòu)各不相同,這種信息為自動(dòng)搜集帶來了一定的困難。借鑒并運(yùn)用已有的計(jì)算機(jī)技術(shù)發(fā)現(xiàn)互聯(lián)網(wǎng)上的目標(biāo)頁(yè)面保存下來,并抽取出目標(biāo)頁(yè)面中的電子游戲描述信息是我們的研究出發(fā)點(diǎn)。因此,本章主要介紹了信息自動(dòng)搜集中涉及到的主題式爬蟲技術(shù)與信息抽取技術(shù),同時(shí)對(duì)主題爬蟲的關(guān)鍵部分——相關(guān)度判定進(jìn)行改進(jìn),在3.1.3小節(jié)作了介紹。3.1主題式爬蟲信息搜索技術(shù)在網(wǎng)絡(luò)信息資源查找中有著重要的作用,它能夠幫助用戶從數(shù)以億計(jì)的網(wǎng)絡(luò)信息中找到自己想要的信息。搜索引擎技術(shù)就屬于一種信息搜索技術(shù),本系統(tǒng)中關(guān)注的是搜索引擎中核心技術(shù)——爬蟲。爬蟲(Crawler,也能夠稱作Spider、Robot)從一個(gè)URL種子隊(duì)列出發(fā),經(jīng)過HTTP協(xié)議請(qǐng)求沿著超級(jí)鏈接在互聯(lián)網(wǎng)上爬行Web頁(yè)面,分析頁(yè)面并提取鏈接,加入U(xiǎn)RL隊(duì)列,同時(shí)將搜索到的網(wǎng)頁(yè)抓取下來存儲(chǔ)到數(shù)據(jù)庫(kù)中。當(dāng)前的爬蟲技術(shù)大多數(shù)是面向所有信息的,能夠稱之為綜合性爬蟲,比如通用搜索引擎——Google、百度、雅虎等,它不對(duì)隊(duì)列中的URL進(jìn)行分析,而是全部下載到本地?cái)?shù)據(jù)庫(kù)。但隨著信息多元化的增長(zhǎng),綜合性爬蟲已經(jīng)顯然不能滿足那些對(duì)信息的需求定位在受限領(lǐng)域和特定主題的用戶更深入的查詢檢查需求,而且,適用于所有信息的綜合性爬蟲的更新效率和爬行效率都很低。在這種形勢(shì)下,主題式爬蟲產(chǎn)生并發(fā)展起來。主題式爬蟲(Focus-Crawler)是近些年來興起的研究熱點(diǎn),最初的設(shè)計(jì)思想是考慮對(duì)頁(yè)面的過濾,不像普通爬蟲對(duì)所有頁(yè)面的鏈接進(jìn)行處理。它首先對(duì)頁(yè)面與受限領(lǐng)域的主題相關(guān)度進(jìn)行分析,只有當(dāng)某個(gè)頁(yè)面的主題相關(guān)度符合要求時(shí),該頁(yè)面中的鏈接才會(huì)被處理。這是基于這樣一種理念,如果該頁(yè)面和本事域比較相關(guān),它所包含的鏈接和領(lǐng)域相關(guān)的幾率也較大。與綜合性爬蟲相比,這樣做提高了爬行精度,雖然會(huì)遺漏部分頁(yè)面,但綜合效果是令人滿意的。一個(gè)設(shè)計(jì)優(yōu)良的主題爬蟲應(yīng)該包括主題的確立、種子庫(kù)、相關(guān)度分析等幾個(gè)模塊。如圖3-1所示。圖3-1主題爬蟲結(jié)構(gòu)圖其中,eGameCrawlar是抓取電子游戲類網(wǎng)頁(yè)的主題爬蟲,關(guān)鍵詞庫(kù)與種子庫(kù)是兩個(gè)輔助模塊,不參與數(shù)據(jù)流處理。eGameCrawlar從種子庫(kù)中提取URL作為爬行起點(diǎn),取回網(wǎng)頁(yè),調(diào)用相關(guān)度分析模塊,對(duì)網(wǎng)頁(yè)進(jìn)行相關(guān)度分析,如果符合主題,則進(jìn)入網(wǎng)頁(yè)數(shù)據(jù)庫(kù)保存,否則舍棄。種子庫(kù)會(huì)以某種策略保持更新,直至沒有新的URL時(shí),爬行結(jié)束。本文采用的是基于關(guān)鍵詞的主題相關(guān)度分析,因此,建立一個(gè)優(yōu)良的關(guān)鍵詞庫(kù),是本系統(tǒng)執(zhí)行效率的保證。因此本節(jié)將在3.1.1小節(jié)給出關(guān)鍵詞庫(kù)建立步驟,3.1.2小節(jié)將介紹種子庫(kù)的設(shè)計(jì),.1關(guān)鍵詞庫(kù)的設(shè)計(jì)電子游戲資源自動(dòng)搜索系統(tǒng)中完成數(shù)據(jù)采集工作的網(wǎng)絡(luò)爬蟲模塊(eGameCrawler)需要一個(gè)主題詞庫(kù)(TopicLib表,或稱之為關(guān)鍵詞庫(kù))和一個(gè)種子庫(kù)(CoreURL表),作為爬蟲工作的先決條件。主題詞庫(kù)的建立是該系統(tǒng)的核心技術(shù),同樣也是爬蟲的主題確定模塊,為此,下面詳細(xì)說明關(guān)鍵詞表的來源和確定的細(xì)節(jié)。爬蟲的主題確定模塊——關(guān)鍵詞庫(kù)在數(shù)據(jù)庫(kù)中以一張數(shù)據(jù)表的形式存在(TopicLib表),它包含”關(guān)鍵詞名”(word)與”權(quán)重值”(score)等幾個(gè)字段,關(guān)鍵詞名字段為電子游戲類網(wǎng)頁(yè)中出現(xiàn)的能夠代表這類網(wǎng)頁(yè)特征的詞,它能夠是字、詞、短語、詞組,也能夠是專業(yè)術(shù)語或別名。詞庫(kù)的設(shè)計(jì)直接關(guān)系到搜索的結(jié)果,因此要求這類詞能夠很好地體現(xiàn)網(wǎng)頁(yè)的特征,以提高系統(tǒng)查全率與查準(zhǔn)率。表3-1關(guān)鍵詞庫(kù)組成詞條類別專業(yè)類詞匯游戲名稱詞匯游戲類別詞匯頁(yè)面描述詞匯詞條數(shù)目650598371423舉例教育游戲、輕游戲字母迷城、堆方塊邏輯數(shù)學(xué)類、RPG游戲介紹、操作指南

手工摘錄要求我們仔細(xì)分析文獻(xiàn)資料、樣本網(wǎng)頁(yè),人工查找關(guān)鍵詞。它操作簡(jiǎn)單,但工作量大,權(quán)值的量化定義不夠精確,因此要結(jié)合機(jī)器自動(dòng)摘錄的方法來實(shí)現(xiàn)。機(jī)器自動(dòng)摘錄分為四個(gè)步驟:樣本網(wǎng)頁(yè)數(shù)據(jù)的預(yù)處理、中文分詞、關(guān)鍵詞提取與權(quán)重計(jì)算和后期整理。如圖3-2所示。圖3-2詞庫(kù)提取原理圖一、預(yù)處理由于人工收集的網(wǎng)頁(yè)文本中包含很多無關(guān)html標(biāo)記、亂碼等”噪聲”,因此需要一個(gè)預(yù)處理模塊將網(wǎng)頁(yè)內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)能夠理解的文本文檔。這一步可經(jīng)過構(gòu)造標(biāo)簽樹的方法實(shí)現(xiàn),系統(tǒng)輸出為文本文檔。經(jīng)過標(biāo)記預(yù)處理后,進(jìn)入分詞模塊對(duì)文本文檔進(jìn)行分詞。二、中文分詞近年來,語言學(xué)界、人工智能領(lǐng)域和情報(bào)檢索界的學(xué)者們?cè)谧詣?dòng)分詞上進(jìn)行了大量的研究,找到了許多種解決漢語分詞的方法。當(dāng)前經(jīng)常使用的中文分詞方法很多,比如:最大匹配法、逆向最大匹配法、逐詞遍歷法、設(shè)立切分標(biāo)志法、最佳匹配法、二次掃描法、高頻詞優(yōu)先分詞法、基于期望的分詞法、聯(lián)想——回溯法、雙向掃描法、鄰接約束法、語境相關(guān)法、全自動(dòng)詞典切詞法、最少分詞詞頻選擇法、專家系統(tǒng)法、基于神經(jīng)網(wǎng)絡(luò)的分詞法等22種。經(jīng)過以住的研究經(jīng)驗(yàn),筆者選擇了一種比較適合本系統(tǒng)實(shí)際情況的分詞方法――逆向最大匹配分詞法,實(shí)驗(yàn)結(jié)果表明該方法很好的對(duì)實(shí)驗(yàn)樣本進(jìn)行了分詞[6]。此部分輸出為帶有分詞結(jié)果文本文檔。三、權(quán)重計(jì)算在關(guān)鍵詞選擇與權(quán)重計(jì)算模塊,采取的策略是基于統(tǒng)計(jì)學(xué)的方法,根據(jù)關(guān)鍵詞出現(xiàn)的頻率來計(jì)算其權(quán)重??墒谴嬖谝粋€(gè)問題,關(guān)鍵詞不一定是統(tǒng)計(jì)詞頻最高的詞,像”聯(lián)系我們”、”email”等在任何一個(gè)網(wǎng)頁(yè)都會(huì)大量出現(xiàn),必須忽略這些的禁用詞。經(jīng)過分析,我們很容易發(fā)現(xiàn),如果一個(gè)關(guān)鍵詞只在很少的網(wǎng)頁(yè)中出現(xiàn),我們經(jīng)過它就容易鎖定搜索目標(biāo),它的權(quán)重也就應(yīng)該大。反之如果一個(gè)詞在大量網(wǎng)頁(yè)中出現(xiàn),我們看到它依然不很清楚要找什么內(nèi)容,因此它應(yīng)該小。一般來說一個(gè)關(guān)鍵詞在同一個(gè)頁(yè)面中出現(xiàn)的次數(shù)越多,權(quán)重越高,但如果在若干頁(yè)面均出現(xiàn),它的權(quán)重反而更低[14]。這種思想也符合香農(nóng)的信息學(xué)理論。我們采用文本檢索中最常見的向量權(quán)重計(jì)算機(jī)方法——TF-IDF。TF-IDF(termfrequency–inversedocumentfrequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常見的加權(quán)技術(shù)。它是一種統(tǒng)計(jì)方法,用于評(píng)估一個(gè)字詞對(duì)于一個(gè)文檔集或一個(gè)語料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文檔中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在文檔集中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)[15]。該方法有三個(gè)重要概念:(1)關(guān)鍵詞頻率TF(termfrequency):指的是特征項(xiàng)在文檔中出現(xiàn)的次數(shù),特征項(xiàng)能夠是字、詞、短語,不同類別的文檔在某些特征項(xiàng)的出現(xiàn)頻率上有很大的差異,因此頻率信息是文本分類的重要參考之一。這個(gè)次數(shù)一般要被標(biāo)準(zhǔn)化,以防止它偏向于長(zhǎng)文檔(同一詞語在長(zhǎng)文檔中可能會(huì)比短文檔有更高的詞頻,而不論該詞語重要與否)。對(duì)于一個(gè)文檔集中第j個(gè)文檔中第i個(gè)關(guān)鍵詞來說,它的詞頻表示為:其中,為該詞在文檔中的出現(xiàn)次數(shù),分母為該文檔所有關(guān)鍵詞出現(xiàn)次數(shù)之和。(2)逆向文件頻率IDF(inversedocumentfrequency):是一個(gè)關(guān)鍵詞普便重要性的度量,是關(guān)鍵詞在文檔集中分布情況的量化。單純使用TF會(huì)使文檔中的禁用詞干擾特征權(quán)重的計(jì)算,禁用詞在所有文檔中出現(xiàn)的頻率都比較高,對(duì)文檔意義的貢獻(xiàn)度卻很小,為了處理這類禁用詞以及接近禁用詞的高頻詞,采用IDF,常見的計(jì)算方法是:其中,樣本文檔集總數(shù)計(jì)為N,表示N中出現(xiàn)第i個(gè)關(guān)鍵詞的文檔數(shù)。(3)歸一化因子(Normalizationfactor):各個(gè)分量進(jìn)行標(biāo)準(zhǔn)化。根據(jù)上述三個(gè)因素,我們作如下約定:關(guān)鍵詞被表示成其中,為文檔中的關(guān)鍵詞條,為該詞條對(duì)應(yīng)的權(quán)重。權(quán)重是用以刻畫關(guān)鍵詞在描述文本內(nèi)容時(shí)所起作用的重要程度,權(quán)值越大,表示該關(guān)鍵詞在文本中的份量越大。然后給出TF-IDF的計(jì)算公式:其中,為詞i在文本中的權(quán)重,而為詞i在文本中的詞頻,分母為歸一化因子。經(jīng)過機(jī)器自動(dòng)摘錄的關(guān)鍵詞庫(kù),還要進(jìn)行人工整理并提交專家評(píng)判,最后存入TopicLib表。3.1.2種子庫(kù)設(shè)計(jì)由于主題爬蟲是面向選定主題的,因此初始種子的賦予應(yīng)該來自本事域,否則主題爬蟲無法展開爬行工作。種子庫(kù)(CoreURL表)的建立,能夠直接從樣本網(wǎng)頁(yè)中選取的面向電子游戲主題的質(zhì)量較高的種子URL作為初始爬行站點(diǎn)。這個(gè)過程一般由人工完成篩選,這樣得到的初始化種子的可信度會(huì)更高,從而保證爬蟲一開始就具有較高的主題相關(guān)性。程序在運(yùn)行過程中會(huì)隨時(shí)保持種子庫(kù)的更新。為了主題爬蟲所用到的種子庫(kù)不斷有新的種子加入,使之不斷能夠抓取到新的內(nèi)容,考慮采用以下三種方式:1、種子網(wǎng)站的友情鏈接。我們基于這樣一種假設(shè),如果一個(gè)網(wǎng)頁(yè)相關(guān)度很高,則由它鏈出的某些鏈接相關(guān)度也比較高,比如一個(gè)網(wǎng)站的友情鏈接。手工從樣本網(wǎng)頁(yè)中選取的質(zhì)量高的URL,提取它的友情鏈接(鏈出鏈接)存放到種子庫(kù)作為種子URL遍歷。2、在下載的網(wǎng)頁(yè)庫(kù)中,統(tǒng)計(jì)主機(jī)名相同的最多的網(wǎng)址作為種子網(wǎng)址。主題爬蟲在抓取網(wǎng)頁(yè)后會(huì)對(duì)之進(jìn)行相關(guān)度判定(相關(guān)則入庫(kù)保存,否則舍棄,具體內(nèi)容將在3.1.3小節(jié)介紹),對(duì)于數(shù)據(jù)庫(kù)中符合條件的站點(diǎn),統(tǒng)計(jì)主機(jī)名相同的最多的URL作為種子URL添加。比如,發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如”*.*”的URL地址數(shù)量排在前幾位,那它的主機(jī)名””就認(rèn)為是很重要,加入到種子庫(kù),作為種子URL遍歷。3、用戶的檢索詞,如果沒有相關(guān)內(nèi)容,則作為關(guān)鍵詞抓取相關(guān)內(nèi)容。前臺(tái)交互設(shè)計(jì)中,允許用戶輸入檢索詞,查詢相關(guān)游戲,如果在數(shù)據(jù)庫(kù)中找不到游戲名稱,則認(rèn)為此游戲根本不在資源庫(kù)中,則將其輸入的檢索詞放入關(guān)鍵詞庫(kù)抓取相關(guān)內(nèi)容。3.1.3相關(guān)度判定比起綜合性爬蟲,主題爬蟲加入了相關(guān)度判定模塊。主題相關(guān)度的分析是主題爬蟲設(shè)計(jì)基于內(nèi)容評(píng)價(jià)的策略是一種根據(jù)主題與頁(yè)面文本內(nèi)容的相似度來評(píng)價(jià)網(wǎng)頁(yè)價(jià)值高低的策略。但這種策略的不足之處在于沒有考慮到Web頁(yè)面之間的鏈接關(guān)系。相比之下,基于鏈接結(jié)構(gòu)的策略則考慮到了Web頁(yè)面的這種半結(jié)構(gòu)化的特征,該策略正是經(jīng)過對(duì)Web頁(yè)面之間的相互引用關(guān)系來確定鏈接的重要性,其代表性方法有Rank方法[16]與HITS方法[17]。一、基于文本內(nèi)容的判定在基于內(nèi)容評(píng)價(jià)的策略中,我們采用的是使用一個(gè)關(guān)鍵詞庫(kù)來分析?;陉P(guān)鍵詞的主題相關(guān)度分析,在主題爬蟲設(shè)計(jì)中取得了較好的效果,主要思路是:首先在領(lǐng)域?qū)<业膮⑴c下,經(jīng)過不同方法確定一組帶有權(quán)重的而且能夠代表受限領(lǐng)域的關(guān)鍵詞組成關(guān)鍵詞庫(kù),用它表示確定的主題;然后對(duì)頁(yè)面進(jìn)行關(guān)鍵詞提取,采用向量空間模型算法計(jì)算網(wǎng)頁(yè)的主題相關(guān)度決定頁(yè)面的取舍。前述的基于關(guān)鍵詞的方案是基于向量空間的算法(VSM),取得了較好的爬行精度,論證了VSM進(jìn)行主題相關(guān)度計(jì)算的可行性與有效性。在判定頁(yè)面相關(guān)度時(shí),本文采用了VSM算法。具體步驟如下:Step1:關(guān)鍵詞庫(kù)的個(gè)數(shù)n作為關(guān)鍵詞向量空間的維數(shù),用W表示關(guān)鍵詞的權(quán)重,W=(W1,W2,……,Wn),作為每一維分量的大小;Step2:關(guān)鍵詞向量空間為:;Step3:分析頁(yè)面,統(tǒng)計(jì)詞頻。以出現(xiàn)頻率最高的詞為基準(zhǔn),其頻率用表示,經(jīng)過頻率比,求出其它關(guān)鍵詞的;Step4:頁(yè)面主題用向量空間用表示,;Step5:用兩個(gè)向量夾角的余弦表示頁(yè)面的主題相關(guān)度x:Step6:指定一個(gè)閾值m,當(dāng)當(dāng)時(shí)就能夠認(rèn)為該頁(yè)面和主題是比較相關(guān)的,m的取值需要根據(jù)經(jīng)驗(yàn)和實(shí)際要求確定,如果想獲得較多的頁(yè)面,能夠把m設(shè)小一點(diǎn),要獲得較少的頁(yè)面能夠把m設(shè)的大一點(diǎn)。二、基于鏈接結(jié)構(gòu)的相關(guān)度判定我們知道,基于內(nèi)容評(píng)價(jià)的策略僅依靠關(guān)鍵詞頻進(jìn)行主題匹配,在對(duì)電子游戲式網(wǎng)站進(jìn)行抓取時(shí)查準(zhǔn)率低,執(zhí)行效果比較粗糙。如果在使用VSM進(jìn)行內(nèi)容匹配之前,能夠使用某種方法預(yù)先判定出此網(wǎng)頁(yè)相關(guān),那將會(huì)極大減少程序運(yùn)行時(shí)間,減小系統(tǒng)開銷,因此下面介紹一下基于鏈接結(jié)構(gòu)的策略。這種策略屬于Web結(jié)構(gòu)挖掘研究的范疇。Web結(jié)構(gòu)挖掘主要是從Web的半結(jié)構(gòu)化和鏈接關(guān)系中推導(dǎo)出有用的規(guī)則,用來指導(dǎo)網(wǎng)頁(yè)采集工作提高采集效率。根據(jù)科學(xué)引文分析理論,文檔之間的互聯(lián)數(shù)據(jù)中蘊(yùn)涵著豐富有用的信息,在一般的搜索引擎中由于考慮到結(jié)構(gòu)的復(fù)雜性,僅將Web看作是一個(gè)平面文檔的集合,忽略其結(jié)構(gòu)信息。挖掘頁(yè)面的結(jié)構(gòu)和Web結(jié)構(gòu),能夠用來提高檢索的性能。文獻(xiàn)[18]提出了一種鏈接分析方法,將頁(yè)面之間的鏈接關(guān)系分成五種類型:downward——下行鏈,目標(biāo)頁(yè)面是當(dāng)前頁(yè)面的下級(jí)頁(yè)面;upward——上行鏈,目標(biāo)頁(yè)面是當(dāng)前頁(yè)面的上級(jí)頁(yè)面;horizontal——水平鏈,目標(biāo)頁(yè)面和當(dāng)前頁(yè)面處于同一目錄;crosswise——交叉鏈,目標(biāo)頁(yè)面和當(dāng)前頁(yè)面不在同一路徑上;outward——外向鏈,目標(biāo)頁(yè)面和當(dāng)前頁(yè)面不在同一站點(diǎn)。一般情況下,下行鏈的目標(biāo)頁(yè)面是對(duì)當(dāng)前頁(yè)面的詳細(xì)描述,屬于2.3.1節(jié)提到的資源類頁(yè)面;上行鏈的目標(biāo)頁(yè)面是對(duì)當(dāng)前頁(yè)面的概括,類似索引類頁(yè)面;水平鏈的目標(biāo)頁(yè)面和當(dāng)前頁(yè)面屬于同一領(lǐng)域內(nèi)容;交叉鏈和外向鏈主要表示和錨點(diǎn)信息指向內(nèi)容相關(guān)。對(duì)于水平鏈接和下行鏈接,是重點(diǎn)取回的對(duì)象,而上行鏈接、交叉鏈接和外向鏈接則要根據(jù)具體情況進(jìn)行判定(比如對(duì)比<a></a>標(biāo)記之間的錨文本等)。此方法在相關(guān)應(yīng)用領(lǐng)域確實(shí)提高了爬行精度,但開銷相比來說比較大。根據(jù)本系統(tǒng)的實(shí)際情況,結(jié)合前面對(duì)電子游戲類樣本網(wǎng)頁(yè)的分析,我們發(fā)現(xiàn)絕大多數(shù)的網(wǎng)站所提供的結(jié)構(gòu)相似的水平鏈網(wǎng)頁(yè),它們的URL也是類似。仔細(xì)分析一下,產(chǎn)生這種特點(diǎn)的原因是由于結(jié)構(gòu)相似網(wǎng)頁(yè)是由一個(gè)程序自動(dòng)生成的。程序按查詢數(shù)據(jù)庫(kù)中相應(yīng)的信息并填寫到URL相應(yīng)的位置然后返回給用戶。因此我們看到的大部分網(wǎng)頁(yè)結(jié)構(gòu)是相似的,只是具體內(nèi)容上有區(qū)別。例如,””是云雪網(wǎng)提供的一類識(shí)字學(xué)字游戲,””與”/game.

php?action=down&bh=shizi-8”是兩款具體的游戲,因此我們得出以下兩點(diǎn)結(jié)論①該網(wǎng)站上關(guān)于識(shí)字學(xué)字類游戲資源頁(yè)面URL都滿足這樣一種模式:”\d+”。根據(jù)這一模板,在使用VSM算法比對(duì)頁(yè)面文本內(nèi)容前,直接判定些頁(yè)面為目標(biāo)頁(yè)面進(jìn)行抓取。這樣,處在水平鏈的資源類頁(yè)面僅從URL就能夠判別而與具體網(wǎng)頁(yè)的內(nèi)容無關(guān),利用這一點(diǎn)能夠使我們大大提高網(wǎng)頁(yè)分析的速度。②統(tǒng)計(jì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中此類鏈接的數(shù)量,如果大于一個(gè)給定的閾值,則將””作為種子URL添加種子庫(kù)。在這里需要一個(gè)函數(shù)來判定兩個(gè)URL的相同字符數(shù),因?yàn)橹挥袃蓚€(gè)URL相似字符數(shù)非常大時(shí)程序才會(huì)分析這種結(jié)構(gòu)。定義兩個(gè)URL相似度函數(shù)URL(i,j):其中,sim(i,j)表示兩個(gè)URL字符串前面順序共有的字符數(shù)量,len(i)與len(j)表示兩個(gè)URL的字符串長(zhǎng)度,a、b兩個(gè)是歸一化因子,將URL(i,j)在0、1之間取值,一般取a=b=0.5。人工定義一個(gè)閾值r,當(dāng)時(shí),兩個(gè)網(wǎng)頁(yè)被判定成相同頁(yè)面,入庫(kù)保存。根據(jù)需要,本系統(tǒng)設(shè)計(jì)的r=0.9,后期能夠根據(jù)實(shí)際情況修改此值。三、基于綜合策略的判定以上共介紹了二種相關(guān)度分析的策略,第一種對(duì)網(wǎng)頁(yè)文本內(nèi)容進(jìn)行關(guān)鍵詞匹配,開銷比較大;第二種基于鏈接結(jié)構(gòu)的分析,開銷較小。在系統(tǒng)建設(shè)過程中,當(dāng)抓取到一個(gè)頁(yè)面,首先看該頁(yè)面所在的域名是否具有模板,若有則應(yīng)用URL鏈接相似度分析方法分析該頁(yè)面的URL與該域名的模板URL的相似度是否大于設(shè)定的相似度閾值,若大于則認(rèn)為是一個(gè)主題頁(yè)面,反之則認(rèn)為該頁(yè)面不是主題頁(yè)面。若該域名沒有URL模板,則應(yīng)用VSM方法判斷該頁(yè)面是否是主題相關(guān)的頁(yè)面,若是,則把該頁(yè)面的URL作為該域名的模板并將該頁(yè)面加載入庫(kù),若不是則拋棄。這樣能夠有效地節(jié)省系統(tǒng)的開銷,提高系統(tǒng)的運(yùn)行效率。3.1.4線程機(jī)制主題爬蟲eGameCrawler采用多線程機(jī)制,并行下載提高收集效率,分擔(dān)服務(wù)器負(fù)擔(dān)[19]。其實(shí)從本質(zhì)上講,eGameCrawler程序是靠計(jì)算機(jī)在多個(gè)線程之間快速切換達(dá)到同時(shí)執(zhí)行多個(gè)操作的效果。它每發(fā)出一個(gè)URL請(qǐng)求,總是要等待頁(yè)面下載完畢,然后再請(qǐng)求下一個(gè)URL。eGameCrawler能夠同時(shí)請(qǐng)求多個(gè)URL,顯然能夠有效地減少總下載時(shí)間。為此,在設(shè)計(jì)程序的時(shí)候,我們用PageWorker類封裝下載單個(gè)URL的操作,每當(dāng)創(chuàng)立該類的一個(gè)實(shí)例,它就進(jìn)入循環(huán),等待URL隊(duì)列中下一個(gè)URL可用,這要由其它線程解析文檔查找鏈接才能獲得。PageWorker類利用ProcessBegin()和ProcessEnd()方法來確定整個(gè)下載操作的開始與終結(jié)。程序?qū)⒃O(shè)置線程數(shù)量的功能與程序本身分離開,以XML獨(dú)立文件控制,允許用戶自己確定要使用的線程數(shù)量。在實(shí)踐中,線程的最佳數(shù)量受許多因素影響,像機(jī)器配置,網(wǎng)絡(luò)帶寬等。如果你的機(jī)器性能較高,有兩個(gè)以上的處理器,能夠設(shè)置較多的線程數(shù)量;反之,如果普通PC機(jī)、網(wǎng)絡(luò)帶寬有限,設(shè)置太多的線程數(shù)量其實(shí)不一定能夠提高性能。3.2電子游戲主題信息抽取經(jīng)過主題爬蟲eGameCrawler抓取下來的游戲式主題網(wǎng)頁(yè)存放在一級(jí)數(shù)據(jù)庫(kù)中,作為原始信息。一級(jí)數(shù)據(jù)庫(kù)中的電子游戲信息以網(wǎng)頁(yè)形式存在,為半結(jié)構(gòu)化信息,需要對(duì)其進(jìn)行信息抽取,之后結(jié)構(gòu)化存放在二級(jí)數(shù)據(jù)庫(kù)中作為資源庫(kù)。所謂信息抽取(InformationExtraction,簡(jiǎn)稱IE),是指對(duì)原文檔信息內(nèi)容和結(jié)構(gòu)的分析,從中抽取指定的事件、事實(shí)等信息,形成結(jié)構(gòu)化的有價(jià)值的數(shù)據(jù)并存入數(shù)據(jù)庫(kù),供用戶查詢和使用的過程。也就是從文檔中抽取用戶感興趣的事件、實(shí)體和關(guān)系,被抽取出來的信息以結(jié)構(gòu)化的形式描述,然后存儲(chǔ)在數(shù)據(jù)庫(kù)中,為情報(bào)分析和檢測(cè)、比價(jià)購(gòu)物、自動(dòng)文摘、文本分類等各種應(yīng)用提供服務(wù)[20]。當(dāng)前,信息抽取技術(shù)在軍事、經(jīng)濟(jì)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域具有極大的應(yīng)用空間。電子游戲教學(xué)資源庫(kù)的信息來源于互聯(lián)網(wǎng)上的信息,是從半結(jié)構(gòu)化的Web文檔中得到電子游戲的描述信息,依次填入資源庫(kù)元數(shù)據(jù)要求的模塊內(nèi)。因此,3.2.1節(jié)首先對(duì)Web信息抽取作了介紹。在3.2.2對(duì)本系統(tǒng)用到的信息抽取技術(shù)作了具體介紹。3.2.1Web信息抽取綜述Web信息抽取(WebInformationExtraction,簡(jiǎn)稱為WebIE),是將互聯(lián)網(wǎng)作為信息源的一類信息抽取,就是從半結(jié)構(gòu)化的Web文檔中抽取數(shù)據(jù)。其核心是將分散Internet上的半結(jié)構(gòu)化的HTML頁(yè)面中的隱含的信息點(diǎn)抽取出來,并以更為結(jié)構(gòu)化、語義更為清晰的形式表示,為用戶在Web中查詢數(shù)據(jù)、應(yīng)用程序直接利用Web中的數(shù)據(jù)提供便利。抽取對(duì)象分析Web信息抽取技術(shù)的研究對(duì)象主要分為三種:①結(jié)構(gòu)化文本(StructuredText),它是指按照一定格式嚴(yán)格生成的文本如數(shù)據(jù)庫(kù)中的文本信息等。對(duì)此類文本的信息抽取非常容易準(zhǔn)確率也非常高。②自由文本(FreeText),它是指文本中文字合乎于自然語法規(guī)則的文本,如新聞報(bào)道、科技文獻(xiàn)、政府文件等。面向這類對(duì)象的抽取技術(shù)的現(xiàn)有水平不可與人的能力同日而語,但這并不意味著信息抽取技術(shù)不可行。當(dāng)前來說,其抽取規(guī)則的制定多是基于人工編制或使用機(jī)器學(xué)習(xí)技術(shù)。③半結(jié)構(gòu)化文本(Semi-structuredText),它是一種介于結(jié)構(gòu)化文本和自由文本化文本之間的數(shù)據(jù),文本不完全符合自然語法規(guī)則,而且一般比較簡(jiǎn)短,沒有固定格式,如電報(bào)報(bào)文、分析報(bào)表、簡(jiǎn)短廣告文等。隨著互聯(lián)網(wǎng)的普及,出現(xiàn)了大量的網(wǎng)頁(yè),其中絕大多數(shù)都屬于半結(jié)構(gòu)化文本。處理這類文本的信息抽取技術(shù)叫Web信息抽取技術(shù),當(dāng)前已經(jīng)成為了信息抽取技術(shù)的一個(gè)重要分支。本文中針對(duì)電子游戲信息用到的信息抽取技術(shù)主要是針對(duì)網(wǎng)頁(yè),因此屬于Web信息抽取的范疇。需要運(yùn)用NLP(自然語言處理)技術(shù)才能實(shí)現(xiàn)信息抽取的網(wǎng)頁(yè)文本屬于半結(jié)構(gòu)化文本??墒鞘褂肗LP技術(shù)并不一定有效,因?yàn)檫@種文本一般連完整的句子都沒有。因此,對(duì)于半結(jié)構(gòu)化文本不能使用傳統(tǒng)的IE技巧,同時(shí),用來處理結(jié)構(gòu)化文本的簡(jiǎn)單的規(guī)則處理方法也不能奏效。可是在半結(jié)構(gòu)化文本中也確實(shí)存在一些結(jié)構(gòu)化的信息,因此抽取模式一般依賴字符和像html標(biāo)記那樣的分隔標(biāo)志,句法和語義信息的作用則非常有限。抽取內(nèi)容分析從主題爬蟲抓取的半

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論