新聞傳播學(xué)論文-網(wǎng)絡(luò)傳播中的信息利用新技術(shù).doc_第1頁(yè)
新聞傳播學(xué)論文-網(wǎng)絡(luò)傳播中的信息利用新技術(shù).doc_第2頁(yè)
新聞傳播學(xué)論文-網(wǎng)絡(luò)傳播中的信息利用新技術(shù).doc_第3頁(yè)
新聞傳播學(xué)論文-網(wǎng)絡(luò)傳播中的信息利用新技術(shù).doc_第4頁(yè)
新聞傳播學(xué)論文-網(wǎng)絡(luò)傳播中的信息利用新技術(shù).doc_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

VIP免費(fèi)下載

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

新聞傳播學(xué)論文-網(wǎng)絡(luò)傳播中的信息利用新技術(shù)摘要:本文探討了網(wǎng)絡(luò)傳播中的信息開(kāi)發(fā)利用新技術(shù),包括數(shù)據(jù)采掘和知識(shí)發(fā)現(xiàn)技術(shù)、XML、自動(dòng)分類(lèi)與自動(dòng)摘要、智能搜索引擎技術(shù),并討論他們對(duì)新聞傳播工作的影響。關(guān)鍵詞:網(wǎng)絡(luò)傳播,數(shù)據(jù)采掘,知識(shí)發(fā)現(xiàn),XML,自動(dòng)分類(lèi),自動(dòng)摘要,智能搜索引擎NewTechnologyforInformationUtilizationofInternetCommunicationAbstract:ThethesisdiscussestheNewTechnologyforInformationUtilizationofInternetCommunication,includesDataMining,knowledgediscovery,Automaticclassificationandabstract,Intelligentsearchengine.Keywords:InternetCommunication,DataMining,knowledgediscovery,Automaticclassificationandabstract,Intelligentsearchengine.在網(wǎng)絡(luò)時(shí)代,廣大新聞傳播工作者和受眾面臨信息過(guò)載的難題。人們一方面被信息淹沒(méi),一方面卻饑餓于知識(shí)和有用信息。大量的信息不能進(jìn)行及時(shí)有效的開(kāi)發(fā)利用。面對(duì)信息爆炸,如何才能不被信息的汪洋大海所淹沒(méi),從中及時(shí)發(fā)現(xiàn)知識(shí)、有用的信息、新聞、或新聞線索,使信息真正成為資源,正在成為各國(guó)研究的熱點(diǎn)。從技術(shù)上看,目前主要有種解決方案。一數(shù)據(jù)采掘和知識(shí)發(fā)現(xiàn)技術(shù)在某種意義上說(shuō)目前我們不是缺少信息,而是被信息淹沒(méi)了。在因特網(wǎng)上有無(wú)窮的信息和數(shù)據(jù)。目前的數(shù)據(jù)庫(kù)系統(tǒng)和搜索引擎可以高效地實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)、查詢(xún)等功能,但是無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),缺乏挖掘數(shù)據(jù)背后隱藏的有用的信息、知識(shí)、新聞、或新聞線索的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。人們需要有新的、更有效的手段對(duì)各種大量數(shù)據(jù)進(jìn)行挖掘以發(fā)揮其潛能,數(shù)據(jù)挖掘正是在這樣的應(yīng)用需求環(huán)境下產(chǎn)生并迅速發(fā)展起來(lái)的,它的出現(xiàn)為自動(dòng)和智能地把海量的數(shù)據(jù)轉(zhuǎn)化為知識(shí)、有用的信息、新聞、或新聞線索提供了手段。數(shù)據(jù)采掘與知識(shí)發(fā)現(xiàn)(KDD)一詞首次出現(xiàn)在1989年8月舉行的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上。知識(shí)發(fā)現(xiàn)()研究的主要目標(biāo)是采用有效的算法,從大量現(xiàn)有或歷史數(shù)據(jù)集合中發(fā)現(xiàn)并找出最初未知、但最終可理解的有用知識(shí),并用簡(jiǎn)明的方式顯示出來(lái)。數(shù)據(jù)采掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中,提取隱含在其中的、先前未知的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)采掘在一些文獻(xiàn)中有些相近似的名稱(chēng),如數(shù)據(jù)開(kāi)采、發(fā)現(xiàn)知識(shí)(KDD)、知識(shí)采掘、知識(shí)抽取、知識(shí)考察、數(shù)據(jù)融合(DataFusion)等。知識(shí)發(fā)現(xiàn)是一個(gè)從數(shù)據(jù)中提取出有效的、新穎的、潛在有用的并能最終被人理解的知識(shí)、有用的信息、新聞、或新聞線索的過(guò)程。知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)庫(kù)和中發(fā)現(xiàn)知識(shí)的整個(gè)過(guò)程,而數(shù)據(jù)挖掘是整個(gè)過(guò)程中的一個(gè)步驟。因?yàn)閿?shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)整個(gè)過(guò)程中最重要的步驟,所以我們通常將知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘作為同義詞使用而不加區(qū)分。數(shù)據(jù)采掘的工具目前,國(guó)外有許多研究機(jī)構(gòu)、公司和學(xué)術(shù)組織從事數(shù)據(jù)采掘工具的研制和開(kāi)發(fā)。這些工具主要采用基于人工智能的技術(shù),包括決策樹(shù)、規(guī)則歸納、神經(jīng)元網(wǎng)絡(luò)、可視化、模糊建模、簇聚等,另外也采用了傳統(tǒng)的統(tǒng)計(jì)方法。知識(shí)發(fā)現(xiàn)技術(shù)可以幫助我們從網(wǎng)上大量的原始數(shù)據(jù)和信息海洋中,挖掘出能反映其中規(guī)律的知識(shí)提供新聞工作者和網(wǎng)民。在知識(shí)發(fā)現(xiàn)的基礎(chǔ)上可以構(gòu)成虛擬知識(shí)共享系統(tǒng)。虛擬團(tuán)體是一個(gè)分布式的組織,它的成員是一組在網(wǎng)絡(luò)上協(xié)同工作的同行,他們依靠網(wǎng)絡(luò)的支持相互合作、共享知識(shí),可以快速有效地解決問(wèn)題。新聞工作者之間、網(wǎng)民之間,新聞工作者與網(wǎng)民之間可以構(gòu)成虛擬團(tuán)體,進(jìn)行交互式信息傳播,進(jìn)行新聞、信息、知識(shí)的交流與共享。虛擬知識(shí)共享系統(tǒng)包括:(1)先進(jìn)的知識(shí)獲取技術(shù)。幫助成員搜索、處理知識(shí),從中提煉專(zhuān)家經(jīng)驗(yàn)。(2)支持多用戶(hù)的開(kāi)發(fā),以使成員定制自己的站點(diǎn)。(3)可以自適應(yīng)團(tuán)體需求的自組織式的新聞、信息、知識(shí)存儲(chǔ)。二XMLHTML是目前因特網(wǎng)上廣泛應(yīng)用的標(biāo)記語(yǔ)言。其優(yōu)點(diǎn)是非常簡(jiǎn)單;固定的樣式;簡(jiǎn)易且標(biāo)準(zhǔn)的連接;支持表格;編程簡(jiǎn)單。但是也存在難以擴(kuò)展;交互性差;語(yǔ)義性差;單向的超鏈接:鏈路丟失后不能自動(dòng)糾正;動(dòng)態(tài)內(nèi)容需要下載的部件太多;致使搜索引擎返回的結(jié)果過(guò)多;缺乏對(duì)雙字節(jié)或多國(guó)文字的支持等不足。尤其是目前基于HTML的搜索引擎存在著返回結(jié)果太多,檢索精度差的弊端。而XML可以有效地克服這些不足。XML句法可標(biāo)注出文檔的結(jié)構(gòu)和目的,這樣就可縮小檢索范圍,提高提高檢索精度。例如,用戶(hù)想購(gòu)買(mǎi)二手車(chē),就可將查詢(xún)限制為用于描述“汽車(chē)銷(xiāo)售”的標(biāo)識(shí)中。XM能幫助人們辨別模糊詞義。自然語(yǔ)言中的詞經(jīng)常多義、多指,網(wǎng)絡(luò)信息檢索系統(tǒng)不能分辨哪一種意思是查詢(xún)中的,哪一種是文檔中的。XML有助于解決詞義模糊問(wèn)題,提高檢索的準(zhǔn)確性。如,用戶(hù)使用“brown”作檢索詞,他有可能想查找由DonaldBrown所寫(xiě)的論文,由BrownUniversity出版的論文,或有關(guān)brownbear的論文。如果用戶(hù)明確想查詢(xún)authorBrown/author,universityBrown/university,還是subjectbrown/subject,就會(huì)提高檢索準(zhǔn)確性。XML使得能用結(jié)構(gòu)相鄰關(guān)系來(lái)替代物理相鄰關(guān)系進(jìn)行檢索結(jié)果相關(guān)性排序。XML可允許利用非文本數(shù)據(jù),如數(shù)值數(shù)據(jù)、地理位置、溫度值等進(jìn)行檢索。三智能搜索引擎技術(shù)目前,計(jì)算機(jī)信息檢索功能已經(jīng)從基本的布爾檢索、截詞檢索、鄰近檢索、短語(yǔ)檢索、字段檢索發(fā)展為高級(jí)的加權(quán)檢索、自然語(yǔ)言檢索、相關(guān)信息反饋檢索、模糊檢索和概念檢索。網(wǎng)絡(luò)信息檢索核心工具是搜索引擎。搜索引擎的目的是幫助新聞工作者和受眾尋找信息資源。在因特網(wǎng)環(huán)境下,其典型實(shí)現(xiàn)是基于關(guān)鍵詞匹配的信息檢索機(jī)制。搜索引擎主要由四部分組成:搜索器,索引器,檢索器,用戶(hù)接口。搜索器的功能是在互聯(lián)網(wǎng)中發(fā)現(xiàn)和搜索信息。它要盡可能快、盡可能多地搜集各種類(lèi)型的信息,同時(shí)還要定期更新已有信息,避免死連接和無(wú)效連接。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表,建立起自己的物理索引數(shù)據(jù)庫(kù)。一個(gè)搜索引擎的有效性在很大程度取決于索引的質(zhì)量。檢索器的功能是根據(jù)用戶(hù)的查詢(xún)?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢(xún)的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶(hù)相關(guān)性反饋機(jī)制。用戶(hù)接口的作用是輸入用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果,提供用戶(hù)相關(guān)性反饋機(jī)制。搜索引擎的工作原理搜索引擎起源于傳統(tǒng)的信息全文檢索理論,即計(jì)算機(jī)程序通過(guò)掃描每一篇文章中的每一個(gè)詞,建立以詞為單位的倒排文件,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個(gè)檢索詞在一篇文章中出現(xiàn)的概率,對(duì)包含這些檢索詞的文章進(jìn)行排序,最后輸出排序的結(jié)果。互聯(lián)網(wǎng)搜索引擎除了需要有全文檢索系統(tǒng)之外,還要有所謂的“蜘蛛”(SPIDER)系統(tǒng),即能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的數(shù)據(jù)搜集系統(tǒng)。蜘蛛將搜集所得的網(wǎng)頁(yè)內(nèi)容交給索引和檢索系統(tǒng)處理,就形成了我們常見(jiàn)的互聯(lián)網(wǎng)搜索引擎系統(tǒng)。當(dāng)然,一個(gè)完整的搜索引擎系統(tǒng)還需要有一個(gè)搜索結(jié)果的頁(yè)面生成系統(tǒng),也就是要把檢索結(jié)果高效地組裝成互聯(lián)網(wǎng)頁(yè)面。當(dāng)系統(tǒng)的訪問(wèn)量(PAGEVIEW)變大時(shí),頁(yè)面生成系統(tǒng)往往會(huì)成為整個(gè)系統(tǒng)的瓶頸。與傳統(tǒng)的信息檢索理論研究不同,搜索引擎的用戶(hù)看重的是系統(tǒng)的穩(wěn)定性、速度、易用性和返回的信息量及相關(guān)度。據(jù)專(zhuān)家評(píng)測(cè),目前主要的搜索引擎返回的相關(guān)結(jié)果的比率不足45%,其原因是現(xiàn)有的搜索引擎擁有極少量的知識(shí),并且是面向最一般的用戶(hù)模型。不劃分知識(shí)領(lǐng)域,不對(duì)用戶(hù)建立任何描述以及使用關(guān)鍵詞匹配的交互方式,都限制了搜索引擎的使用效率。由此提出了智能搜索引擎的概念。智能搜索引擎應(yīng)具有的特點(diǎn)新一代中文智能搜索引擎是一個(gè)基于漢語(yǔ)語(yǔ)法、詞的上下文和語(yǔ)義等中文信息處理技術(shù),自動(dòng)收集、識(shí)別Internet網(wǎng)上的WWW和News信息,智能化地提取摘要和關(guān)鍵詞、建立索引、提供查詢(xún)和對(duì)不良信息的監(jiān)控、報(bào)警功能和網(wǎng)絡(luò)信息自動(dòng)發(fā)現(xiàn)和查詢(xún)系統(tǒng)。它以加權(quán)的啟發(fā)式搜索算法控制信息資源的搜集,采用了一種加權(quán)的啟發(fā)式搜索算法,系統(tǒng)根據(jù)用戶(hù)配置的領(lǐng)域?qū)蛟~和資源服務(wù)器所在地域信息,以啟發(fā)式函數(shù)計(jì)算每個(gè)URL的權(quán)值,并選擇權(quán)值高的URL優(yōu)先訪問(wèn)。智能搜索引擎可以根據(jù)互聯(lián)網(wǎng)本身的鏈接結(jié)構(gòu)對(duì)相關(guān)網(wǎng)站用自動(dòng)方法進(jìn)行分類(lèi),再加上結(jié)構(gòu)嚴(yán)謹(jǐn),萃取精華的開(kāi)放式信息目錄,為每一個(gè)查詢(xún)迅速提供準(zhǔn)確的結(jié)果。智能搜索引擎可以預(yù)期用戶(hù)的需求,并可有效地抑制關(guān)鍵詞的多義性。如、都在嘗試在它們的中使用更加智能化、知識(shí)化和專(zhuān)業(yè)化的搜索引擎。目前比較成功的智能搜索引擎有,和。是一個(gè)類(lèi)似于元搜索引擎的產(chǎn)品,但支持自然語(yǔ)言、模糊檢索,可將結(jié)果自動(dòng)去重、聚類(lèi),并可返回對(duì)所有搜索引擎并發(fā)查詢(xún)的結(jié)果,其檢索結(jié)果根據(jù)分類(lèi)排列。芝加哥大學(xué)人工智能實(shí)驗(yàn)室開(kāi)發(fā)的。它是一個(gè)具有問(wèn)答式界面的智能搜索引擎。在獲知用戶(hù)問(wèn)題后,它查詢(xún)文件以給出比較合適的回答。的內(nèi)核由五個(gè)互聯(lián)聯(lián)系的技術(shù)環(huán)節(jié)構(gòu)成:(1)基于統(tǒng)計(jì)方法建立文件。這是由中的工具完成的。(2)用一個(gè)由簡(jiǎn)單名詞和動(dòng)詞短語(yǔ)構(gòu)成的文法樹(shù)分析用戶(hù)的查詢(xún),以得到一個(gè)用于支持內(nèi)容匹配的描述。(3)問(wèn)題識(shí)別者()操作文法樹(shù)以辨識(shí)問(wèn)題從屬的類(lèi)別。(4)使用語(yǔ)義網(wǎng)分析與概念匹配技術(shù),找出與用戶(hù)查詢(xún)最近似的問(wèn)題。(5)將得到的匹配返回給用戶(hù)。如果沒(méi)有近似的匹配,則將使用一個(gè)啟發(fā)式的策略。智能搜索引擎還可以采用協(xié)同式檢索方法。該方法一般用于一個(gè)特定的用戶(hù)(如一個(gè)或一組新聞工作者、一個(gè)新聞媒體、一個(gè)或一組受眾)。協(xié)同式方法有時(shí)又稱(chēng)為公眾學(xué)習(xí)方法,它將其他用戶(hù)的反應(yīng)反饋給當(dāng)前的用戶(hù)。系統(tǒng)不去計(jì)算分類(lèi)項(xiàng)目的相似程度,而是計(jì)算用戶(hù)之間的相似程度。協(xié)同式方法不分析分類(lèi)項(xiàng)目的內(nèi)容。協(xié)同式方法一般用于非文本化的數(shù)據(jù),如電影、音樂(lè)等,但是也有的系統(tǒng)將其用于文本數(shù)據(jù)的挖掘,如新聞過(guò)濾等。已有一些系統(tǒng)用于電子郵件處理、會(huì)議時(shí)序安排、電子新聞過(guò)濾和娛樂(lè)節(jié)目推薦。與智能搜索引擎技術(shù)相關(guān)的還有信息智能“推”技術(shù)和個(gè)性化檢索技術(shù)?;诰W(wǎng)民和新聞工作者訪問(wèn)互聯(lián)網(wǎng)的特點(diǎn),在用戶(hù)拉取信息的搜索過(guò)程中,根據(jù)其輸入的關(guān)鍵詞,通過(guò)機(jī)器學(xué)習(xí),可以識(shí)別和預(yù)測(cè)其興趣或偏好,從而有針對(duì)性、及時(shí)地向網(wǎng)民和新聞工作者主動(dòng)推送相關(guān)知識(shí)和最新信息、新聞和新聞線索。推送的形式可采用頻道式推送、郵件式推送、網(wǎng)頁(yè)式推送或?qū)S檬酵扑?。目前已有?gòu)造訪問(wèn)模式樹(shù)()的算法,可從大量信息訪問(wèn)日志中挖掘用戶(hù)訪問(wèn)信息的模式。也可從用戶(hù)訪問(wèn)文檔的超鏈接來(lái)預(yù)測(cè)用戶(hù)的訪問(wèn)偏好,其知識(shí)發(fā)現(xiàn)采用關(guān)聯(lián)性法則。個(gè)性化檢索要求能夠網(wǎng)絡(luò)信息檢索系統(tǒng)能夠?qū)W習(xí)網(wǎng)民和新聞工作者的興趣、適應(yīng)其興趣的變化并提出檢索建議。一般采用分布式Agent技術(shù),例如在客戶(hù)機(jī)上運(yùn)行用戶(hù)接口Agent,表示用戶(hù)個(gè)性化模式,在服務(wù)器上運(yùn)行信息檢索管理Agent,相當(dāng)于中介信息檢索代理服務(wù)器,實(shí)現(xiàn)與各引擎的交互,用戶(hù)Agent用戶(hù)開(kāi)始一項(xiàng)個(gè)性化查詢(xún)quest,通過(guò)與個(gè)性化模式庫(kù)中模式的類(lèi)比

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論