版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
人工智能
ArtificialIntelligence
第十一章互聯(lián)網(wǎng)智能WebIntelligence2024/2/271人工智能:互聯(lián)網(wǎng)智能2024/2/27人工智能:互聯(lián)網(wǎng)智能2內(nèi)容提要11.1概述 11.2語義Web 11.3本體知識管理 11.4Web技術(shù)的演化11.5Web挖掘 11.6搜索引擎 11.7集體智能 11.8小結(jié) 因特網(wǎng)(internet),是網(wǎng)絡(luò)與網(wǎng)絡(luò)之間以一組通用的協(xié)定相連,形成邏輯上單一龐大、覆蓋全世界的全球性互聯(lián)網(wǎng)絡(luò)。萬維網(wǎng)(WorldWideWeb),是基于超文本相互鏈接而成的全球性系統(tǒng),通過互聯(lián)網(wǎng)訪問。本章論述互聯(lián)網(wǎng)智能主要是指基于萬維網(wǎng)的智能技術(shù),即“Webintelligence”,人們經(jīng)常稱作互聯(lián)網(wǎng)智能。概述2024/2/273人工智能:互聯(lián)網(wǎng)智能1962年美國美國國防部高級研究計(jì)劃署的Licklider等提出通過網(wǎng)絡(luò)將計(jì)算機(jī)互聯(lián)起來的構(gòu)想。1969年12月ARPANET將美國西南部的加州大學(xué)洛杉磯分校、斯坦福大學(xué)研究學(xué)院、加州大學(xué)圣塔芭芭拉分校和猶他州大學(xué)的四臺主要的計(jì)算機(jī)連接起來。到1970年6月,麻省理工學(xué)院、哈佛大學(xué)、BBN和加州圣達(dá)莫尼卡系統(tǒng)發(fā)展公司加入進(jìn)來。1972年對公眾展示,并出現(xiàn)了email。1983年ARPANET完全轉(zhuǎn)移到TCP/IP協(xié)議。1995年美國國家科學(xué)基金會組建的NSFNET與全球50000多個(gè)網(wǎng)絡(luò)互聯(lián),互聯(lián)網(wǎng)已經(jīng)初具規(guī)模。概述2024/2/274人工智能:互聯(lián)網(wǎng)智能互聯(lián)網(wǎng)從誕生到現(xiàn)在的50多年發(fā)展中,可以分為四個(gè)階段,即計(jì)算機(jī)互聯(lián)、網(wǎng)頁互聯(lián)、用戶實(shí)時(shí)交互、語義互聯(lián)。2014年7月21日,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布了《第34次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》。截至2014年6月,我國網(wǎng)民規(guī)模達(dá)6.32億,手機(jī)網(wǎng)民規(guī)模達(dá)5.27億,域名總數(shù)為1915萬個(gè),網(wǎng)站總數(shù)為273萬個(gè)。中國互聯(lián)網(wǎng)已經(jīng)形成規(guī)模,互聯(lián)網(wǎng)應(yīng)用走向多元化。概述2024/2/275人工智能:互聯(lián)網(wǎng)智能隨著互聯(lián)網(wǎng)的大規(guī)模應(yīng)用,出現(xiàn)了各種各樣基于互聯(lián)網(wǎng)的計(jì)算模式。近幾年來云計(jì)算(cloudcomputing)引起廣泛的關(guān)注。云計(jì)算是分布式計(jì)算的一種范型,它強(qiáng)調(diào)在互聯(lián)網(wǎng)上建立大規(guī)模數(shù)據(jù)中心等信息技術(shù)基礎(chǔ)設(shè)施,通過面向服務(wù)的商業(yè)模式為各類用戶提供基礎(chǔ)設(shè)施能力。在用戶看來,云計(jì)算提供了一種大規(guī)模的資源池,資源池管理的資源包括計(jì)算、存儲、平臺和服務(wù)等各種資源,資源池中的資源經(jīng)過了抽象和虛擬化處理,并且是動態(tài)可擴(kuò)展的。概述2024/2/276人工智能:互聯(lián)網(wǎng)智能2024/2/27人工智能:互聯(lián)網(wǎng)智能7內(nèi)容提要11.1概述 11.2語義Web
11.3本體知識管理 11.4Web技術(shù)的演化11.5Web挖掘 11.6搜索引擎 11.7集體智能 11.8小結(jié) Berners-Lee于2000-12-18在XML2000的會議上正式提出了語義Web。語義Web的目標(biāo)是使得Web上的信息具有計(jì)算機(jī)可以理解的語義,滿足智能體(Agent)對WWW上異構(gòu)和分布信息的有效訪問和搜索。Berners-Lee為未來的Web發(fā)展提出了基于語義的體系結(jié)構(gòu)-語義Web體系結(jié)構(gòu)。該體系中從底層到高層分別為:UNICODE和URI、XML、RDF、Ontology、Logic、Proof、Trust語義Web2024/2/278人工智能:互聯(lián)網(wǎng)智能2024/2/27人工智能:互聯(lián)網(wǎng)智能9語義Web層次結(jié)構(gòu)第一層是UNICODE和URI,是整個(gè)語義WEB的基礎(chǔ),Unicode處理資源的編碼,實(shí)現(xiàn)網(wǎng)上信息的統(tǒng)一編碼,URI負(fù)責(zé)標(biāo)識資源,支持語義網(wǎng)上的對象和資源的精細(xì)標(biāo)識;第二層是XML+NameSpace+xmlschema,用于表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu);通過XML標(biāo)記語言將網(wǎng)上資源信息的結(jié)構(gòu)、內(nèi)容和數(shù)據(jù)的表現(xiàn)形式進(jìn)行分離;第三層是RDF+rdfschema,用于描述WEB上的資源及其類型、關(guān)系,為網(wǎng)上資源描述提供一種通用框架和實(shí)現(xiàn)數(shù)據(jù)集成的元數(shù)據(jù)解決方案;第四層是OntologyVocabulary,用于描述各種資源之間的聯(lián)系,揭示資源本身及資源之間更為復(fù)雜和豐富的語義聯(lián)系,明確定義描述屬性或類的術(shù)語語義及術(shù)語間關(guān)系;2024/2/2710人工智能:互聯(lián)網(wǎng)智能第五層是邏輯層。邏輯主要提供公理和推理規(guī)則,為智能推理提供基礎(chǔ)。該層用來產(chǎn)生規(guī)則。第六層是證明層,執(zhí)行邏輯層產(chǎn)生的規(guī)則,并結(jié)合信任層的應(yīng)用機(jī)制來評判是否能夠信賴給定的證明。第七層是信任層。頂層的信任注重于提供信任機(jī)制,以保證用戶代理Agent在網(wǎng)上進(jìn)行個(gè)性化服務(wù)和彼此間交互合作時(shí),更安全可靠。核心層為XML、RDF、ONTOLOGY,這3層用于表示W(wǎng)eb信息的語義。2024/2/2711人工智能:互聯(lián)網(wǎng)智能2024/2/27人工智能:互聯(lián)網(wǎng)智能12內(nèi)容提要11.1概述 11.2語義Web 11.3本體知識管理
11.4Web技術(shù)的演化11.5Web挖掘 11.6搜索引擎 11.7集體智能 11.8小結(jié) 2024/2/27人工智能:互聯(lián)網(wǎng)智能13KMSphereLayersEmailDocumentFileImageVideoWebOntologyAcquisitionKnowledgeorganizationKnowledgeDistributionKnowledgeApplication2024/2/27人工智能:互聯(lián)網(wǎng)智能14KMSphereArchitecture2024/2/27人工智能:互聯(lián)網(wǎng)智能15KMSphereWorkflow2024/2/27人工智能:互聯(lián)網(wǎng)智能16KMSphereDemoCreateontologybyhand2024/2/27人工智能:互聯(lián)網(wǎng)智能17KMSphereDemoOntologyacquisitionfromdatabases2024/2/27人工智能:互聯(lián)網(wǎng)智能18KMSphereDemoOntologyacquisitionfromtext2024/2/27人工智能:互聯(lián)網(wǎng)智能19KMSphereDemoEditontology2024/2/27人工智能:互聯(lián)網(wǎng)智能20KMSphereDemoOntologyconsistencycheck2024/2/27人工智能:互聯(lián)網(wǎng)智能21KMSphereDemoRDQL(RDFDataQueryLanguage)2024/2/27人工智能:互聯(lián)網(wǎng)智能22內(nèi)容提要11.1概述 11.2語義Web 11.3本體知識管理 11.4Web技術(shù)的演化11.5Web挖掘 11.6搜索引擎 11.7集體智能 11.8小結(jié) 2024/2/27人工智能:互聯(lián)網(wǎng)智能23互聯(lián)網(wǎng)發(fā)展路線圖Spivack20082024/2/27人工智能:互聯(lián)網(wǎng)智能24Web發(fā)展路線圖Spivack2008Web1.02024/2/27人工智能:互聯(lián)網(wǎng)智能25Web2.02024/2/27人工智能:互聯(lián)網(wǎng)智能26TimO’Reilly-Web2.02024/2/27人工智能:互聯(lián)網(wǎng)智能27
Web3.02024/2/27人工智能:互聯(lián)網(wǎng)智能28Web1.0–Web2.0–Web3.0文件網(wǎng)
Web1.0:Webofdocuments人際/社會網(wǎng)
Web2.0:Webofpersons數(shù)據(jù)網(wǎng)
Web3.0:Webofdata(semantics)2024/2/27人工智能:互聯(lián)網(wǎng)智能292024/2/27人工智能:互聯(lián)網(wǎng)智能30內(nèi)容提要11.1概述 11.2語義Web 11.3本體知識管理 11.4Web技術(shù)的演化11.5Web挖掘
11.6搜索引擎 11.7集體智能 11.8小結(jié) Web挖掘分類2024/2/27人工智能:互聯(lián)網(wǎng)智能31
Web挖掘類項(xiàng)目Web內(nèi)容挖掘Web結(jié)構(gòu)挖掘Web日志挖掘處理數(shù)據(jù)類型IR方法:無結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)Web結(jié)構(gòu)數(shù)據(jù)用戶訪問Web數(shù)據(jù)主要數(shù)據(jù)自由化文本、HTML標(biāo)記的超文本W(wǎng)eb文檔內(nèi)及文檔間的超鏈Serverlog,Proxyserverlog,Clientlog表示方法詞集、段落、概念、IR的三種經(jīng)典模型圖關(guān)系表、圖處理方法統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、自然語言理解機(jī)器學(xué)習(xí)、專有算法統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則主要應(yīng)用分類、聚類、模式發(fā)現(xiàn)頁面權(quán)重分類聚類模式發(fā)現(xiàn)Web站點(diǎn)重建,商業(yè)決策2024/2/27人工智能:互聯(lián)網(wǎng)智能32Web挖掘分類基于網(wǎng)頁內(nèi)容或其描述中抽取知識的過程。Web內(nèi)容挖掘主要包括文本挖掘和多媒體挖掘兩類,其挖掘?qū)ο蟀ㄎ谋尽D像、音頻、視頻和其他各種類型的數(shù)據(jù)。2024/2/27人工智能:互聯(lián)網(wǎng)智能33Web挖掘分類日志的預(yù)處理IPAddressTime/DateMethod/URIReferrerAgent15:30:01/2-Jan-01GETIndex.htm/link.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GET1.htm/index.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GETA.htm/index.htmMozilla/4.0(IE5.0W98)15:37:09/2-Jan-01GETE.htm/C.htmMozilla/4.0(IE5.0W98)15:33:04/2-Jan-01GETIndex.htm/res.phpMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GET1.htm/index.htmMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GETA.htm/index.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GETB.htm/A.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GETC.htm/A.htmMozilla/4.0(IE5.0W98)2024/2/27人工智能:互聯(lián)網(wǎng)智能34Web文本挖掘Web文本挖掘針對包括Web頁面內(nèi)容、頁面結(jié)構(gòu)和用戶訪問信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘方法發(fā)現(xiàn)有用的知識幫助人們從大量Web文檔集中發(fā)現(xiàn)隱藏的模式。2024/2/27人工智能:互聯(lián)網(wǎng)智能35Web文本挖掘的方法文本概括:從文本(集)中抽取關(guān)鍵信息,用簡潔的形式總結(jié)文本(集)的主題內(nèi)容。例如搜索引擎在向用戶返回查詢結(jié)果時(shí),通常需要給出文本摘要。文本分類:把一些被標(biāo)記的文本作為訓(xùn)練集,找到文本屬性和文本類別之間的關(guān)系模型,然后利用這種關(guān)系模型判斷新文本的類別。召回率和精度。文本聚類:根據(jù)文本的不同特征劃分為不同的類。從大量文檔中發(fā)現(xiàn)一對詞語出現(xiàn)模式的關(guān)聯(lián)分析以及特定數(shù)據(jù)在未來的情況預(yù)測。2024/2/27人工智能:互聯(lián)網(wǎng)智能36Web文本挖掘的應(yīng)用搜索引擎領(lǐng)域:利用Web文本挖掘可以更合理地組織搜索結(jié)果:按照頁面之間的相似程度分為若干簇。自然語言理解領(lǐng)域:結(jié)合自然語言處理技術(shù)和Web文本挖掘技術(shù)。2024/2/27人工智能:互聯(lián)網(wǎng)智能37文本挖掘在垃圾郵件過濾中的應(yīng)用2024/2/27人工智能:互聯(lián)網(wǎng)智能38Web結(jié)構(gòu)挖掘有用的知識不僅存在于Web頁面間的鏈接結(jié)構(gòu)和Web頁面內(nèi)部結(jié)構(gòu),而且也存在于URL中的目錄路徑結(jié)構(gòu)(頁面之間的目錄結(jié)構(gòu)關(guān)系)。Web結(jié)構(gòu)挖掘是指挖掘Web鏈接結(jié)構(gòu)模式,即通過分析頁面鏈接的數(shù)量和對象,從而建立Web的鏈接結(jié)構(gòu)模式。2024/2/27人工智能:互聯(lián)網(wǎng)智能39Web結(jié)構(gòu)挖掘Google查詢的全過程通常不超過半秒時(shí)間,但在這短短的時(shí)間內(nèi)需要完成多個(gè)步驟,然后才能將搜索結(jié)果交付給搜索信息的用戶。
PageRank算法?HITS(Hyperlink-InducedTopicSearch)算法?Google查詢過程2024/2/27人工智能:互聯(lián)網(wǎng)智能40Google的網(wǎng)頁排序如何度量網(wǎng)頁本身的重要性呢?互聯(lián)網(wǎng)上的每一篇html文檔除了包含文本、圖片、視頻等信息外,還包含了大量的鏈接關(guān)系,利用這些鏈接關(guān)系,能夠發(fā)現(xiàn)某些重要的網(wǎng)頁直觀地看,某網(wǎng)頁A鏈向網(wǎng)頁B,則可以認(rèn)為網(wǎng)頁A覺得網(wǎng)頁B有鏈接價(jià)值,是比較重要的網(wǎng)頁。某網(wǎng)頁被指向的次數(shù)越多,則它的重要性越高;越是重要的網(wǎng)頁,所鏈接的網(wǎng)頁的重要性也越高。AB網(wǎng)頁是節(jié)點(diǎn),網(wǎng)頁間的鏈接關(guān)系是邊2024/2/27人工智能:互聯(lián)網(wǎng)智能41Google的網(wǎng)頁排序如何度量網(wǎng)頁本身的重要性呢?比如,新華網(wǎng)體育在其首頁中對新浪體育做了鏈接,人民網(wǎng)體育同樣在其首頁中對新浪體育做了鏈接可見,新浪體育被鏈接的次數(shù)較多;同時(shí),人民網(wǎng)體育和新華網(wǎng)體育也都是比較“重要”的網(wǎng)頁,因此新浪體育也應(yīng)該是比較“重要”的網(wǎng)頁。新華網(wǎng)體育人民網(wǎng)體育2024/2/27人工智能:互聯(lián)網(wǎng)智能42Google的網(wǎng)頁排序一個(gè)更加形象的圖鏈向網(wǎng)頁E的鏈接遠(yuǎn)遠(yuǎn)大于鏈向網(wǎng)頁C的鏈接,但是網(wǎng)頁C的重要性卻大于網(wǎng)頁E。這是因?yàn)橐驗(yàn)榫W(wǎng)頁C被網(wǎng)頁B所鏈接,而網(wǎng)頁B有很高的重要性。2024/2/27人工智能:互聯(lián)網(wǎng)智能43Pagerank算法簡介創(chuàng)始人:拉里佩奇(LarryPage)—Google創(chuàng)始人之一應(yīng)用:是Google用來衡量一個(gè)網(wǎng)站的好壞的唯一標(biāo)準(zhǔn)。2024/2/27人工智能:互聯(lián)網(wǎng)智能44Google的網(wǎng)頁排序PageRank的提出Google的創(chuàng)始人之一LarryPage于1998年提出了PageRank,并應(yīng)用在Google搜索引擎的檢索結(jié)果排序上,該技術(shù)也是Google早期的核心技術(shù)之一LarryPage是Google的創(chuàng)始首席執(zhí)行官,2001年4月轉(zhuǎn)任現(xiàn)職產(chǎn)品總裁。他目前仍與EricSchmidt和SergeyBrin一起共同負(fù)責(zé)Google的日常運(yùn)作。他在斯坦福大學(xué)攻讀計(jì)算機(jī)科學(xué)博士學(xué)位期間,遇到了SergeyBrin,他們于1998年合伙創(chuàng)立Google。2024/2/27人工智能:互聯(lián)網(wǎng)智能45Pagerank算法相關(guān)概念PR值:用來評價(jià)網(wǎng)頁的重要性,PR值越大越重要,其級別從0到10級。一般PR值達(dá)到4,就算是一個(gè)不錯的網(wǎng)站了。Google把自己的網(wǎng)站的PR值定到10,這說明Google這個(gè)網(wǎng)站是非常受歡迎的,也可以說這個(gè)網(wǎng)站非常重要。阻尼因數(shù):(dampingfactor)其值為0.85
阻尼系數(shù)d定義為用戶不斷隨機(jī)點(diǎn)擊鏈接的概率,所以,它取決于點(diǎn)擊的次數(shù),被設(shè)定為0-1之間。d的值越高,繼續(xù)點(diǎn)擊鏈接的概率就越大。因此,用戶停止點(diǎn)擊并隨機(jī)沖浪至另一頁面的概率在式子中用常數(shù)(1-d)表示。無論入站鏈接如何,隨機(jī)沖浪至一個(gè)頁面的概率總是(1-d)。(1-d)本身也就是頁面本身所具有的PageRank值。
2024/2/27人工智能:互聯(lián)網(wǎng)智能46Pagerank核心思想
PageRank通過網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來確定一個(gè)頁面的等級。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源(甚至來源的來源,即鏈接到A頁面的頁面)和投票目標(biāo)的等級來決定新的等級。這樣,PageRank會根據(jù)網(wǎng)頁B所收到的投票數(shù)量來評估該網(wǎng)頁的重要性。此外,PageRank還會評估每個(gè)投票網(wǎng)頁的重要性,因?yàn)槟承┲匾W(wǎng)頁的投票被認(rèn)為具有較高的價(jià)值,這樣,它所鏈接的網(wǎng)頁就能獲得較高的價(jià)值。這就是PageRank的核心思想,當(dāng)然PageRank算法的實(shí)際實(shí)現(xiàn)上要復(fù)雜很多。
2024/2/27人工智能:互聯(lián)網(wǎng)智能47為什么要提出HITS算法?PageRank算法中對于向外鏈接的權(quán)值貢獻(xiàn)是平均的,也就是不考慮不同鏈接的重要性。而WEB的鏈接具有以下特征:
1.有些鏈接具有注釋性,也有些鏈接是起導(dǎo)航或廣告作用。有注釋性的鏈接才用于權(quán)威判斷。
2.基于商業(yè)或競爭因素考慮,很少有WEB網(wǎng)頁指向其競爭領(lǐng)域的權(quán)威網(wǎng)頁。
3.權(quán)威網(wǎng)頁很少具有顯式的描述,比如Google主頁不會明確給出WEB搜索引擎之類的描述信息。可見平均的分布權(quán)值不符合鏈接的實(shí)際情況
2024/2/27人工智能:互聯(lián)網(wǎng)智能48HITS算法相關(guān)知識權(quán)威網(wǎng)頁:一個(gè)網(wǎng)頁被多次引用,則它可能是很重要的;一個(gè)網(wǎng)頁雖然沒有被多次引用,但是被重要的網(wǎng)頁引用,則它也可能是很重要的;一個(gè)網(wǎng)頁的重要性被平均的傳遞到它所引用的網(wǎng)頁。這種網(wǎng)頁稱為權(quán)威(Authoritive)網(wǎng)頁。中心網(wǎng)頁:提供指向權(quán)威網(wǎng)頁的鏈接集合的WEB網(wǎng)頁,它本身可能并不重要,或者說沒有幾個(gè)網(wǎng)頁指向它,但是它提供了指向就某個(gè)主題而言最為重要的站點(diǎn)的鏈接集合,比如一個(gè)課程主頁上的推薦參考文獻(xiàn)列表。在HITS算法中,對每個(gè)網(wǎng)頁都要計(jì)算兩個(gè)值:權(quán)威值(authority)與中心值(hub)2024/2/27人工智能:互聯(lián)網(wǎng)智能49HITS算法介紹HITS(Hyperlink-InducedTopicSearch)是一種鏈接分析算法算法如下:將查詢q提交給傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎.搜索引擎返回很多網(wǎng)頁,從中取前n個(gè)網(wǎng)頁作為根集合S(rootset).把根集合中的頁面所指向的頁面都包括進(jìn)來,再把指向根集合中的頁面的頁面也包括進(jìn)來,這樣就擴(kuò)充成了基礎(chǔ)集合(baseset)T.2024/2/27人工智能:互聯(lián)網(wǎng)智能50HITS算法介紹對V1中的任一個(gè)頂點(diǎn)v,用h(v)表示網(wǎng)頁v的Hub值,對V2中的頂點(diǎn)u,用a(u)表示網(wǎng)頁的Authority值,開始時(shí)h(v)=a(u)=1
頂點(diǎn)集V1Hub網(wǎng)頁頂點(diǎn)集V2權(quán)威網(wǎng)頁邊集E超鏈接2024/2/27人工智能:互聯(lián)網(wǎng)智能51在V中的每個(gè)頁面p都有一對非負(fù)的權(quán)重值?ap,hp?,其中ap表示權(quán)威值,hp表示中心值設(shè)指向頁面p的頁面為q,ap的值則更新為所有hq的和:如果把頁面p所指向的頁面稱為q,則hp的值更新為所有aq之和:這兩步將被重復(fù)多次,最后按照得到的權(quán)威值和中心值對頁面進(jìn)行排序.HITS算法介紹2024/2/27人工智能:互聯(lián)網(wǎng)智能52HITS算法的評價(jià)若一個(gè)網(wǎng)頁由很多好的Hub指向,則其權(quán)威值會相應(yīng)增加(即權(quán)威值增加為所有指向它的網(wǎng)頁的現(xiàn)有Hub值之和)若一個(gè)網(wǎng)頁指向許多好的權(quán)威頁,則Hub值也會相應(yīng)增加(即Hub值增加為該網(wǎng)頁鏈接的所有網(wǎng)頁的權(quán)威值之和)HITS算法輸出一組具有較大Hub值的網(wǎng)頁和具有較大權(quán)威值的網(wǎng)頁。2024/2/27人工智能:互聯(lián)網(wǎng)智能53Web結(jié)構(gòu)挖掘的應(yīng)用信息檢索社區(qū)識別網(wǎng)站優(yōu)化2024/2/27人工智能:互聯(lián)網(wǎng)智能542024/2/27人工智能:互聯(lián)網(wǎng)智能55內(nèi)容提要11.1概述 11.2語義Web 11.3本體知識管理 11.4Web技術(shù)的演化11.5Web挖掘
11.6搜索引擎
11.7集體智能 11.8小結(jié) 2024/2/27人工智能:互聯(lián)網(wǎng)智能56搜索引擎大型互聯(lián)網(wǎng)搜索引擎的數(shù)據(jù)中心一般運(yùn)行數(shù)千臺甚至數(shù)十萬臺計(jì)算機(jī),而且每天向計(jì)算機(jī)集群里添加數(shù)十臺機(jī)器,以保持與網(wǎng)絡(luò)發(fā)展的同步。搜集機(jī)器自動搜集網(wǎng)頁信息,平均速度每秒數(shù)十個(gè)網(wǎng)頁,檢索機(jī)器則提供容錯的可縮放的體系架構(gòu)以應(yīng)對每天數(shù)千萬甚至數(shù)億的用戶查詢請求。企業(yè)搜索引擎可根據(jù)不同的應(yīng)用規(guī)模,從單臺計(jì)算機(jī)到計(jì)算機(jī)集群都可以進(jìn)行部署2024/2/27人工智能:互聯(lián)網(wǎng)智能57搜索引擎搜索引擎一般的工作過程是:首先對互聯(lián)網(wǎng)上的網(wǎng)頁進(jìn)行搜集,然后對搜集來的網(wǎng)頁進(jìn)行預(yù)處理,建立網(wǎng)頁索引庫,實(shí)時(shí)響應(yīng)用戶的查詢請求,并對查找到的結(jié)果按某種規(guī)則進(jìn)行排序后返回給用戶。搜索引擎的重要功能是能夠?qū)ヂ?lián)網(wǎng)上的文本信息提供全文檢索。2024/2/27人工智能:互聯(lián)網(wǎng)智能58搜索引擎的工作流程2024/2/27人工智能:互聯(lián)網(wǎng)智能59搜索引擎的系統(tǒng)架構(gòu)2024/2/27人工智能:互聯(lián)網(wǎng)智能60
知識圖譜圖譜:是一個(gè)圖像,以一定空間形式、在一定時(shí)間范圍中展現(xiàn)變化的系統(tǒng)概念。里程碑之一:2003年,美國科學(xué)院組織“知識圖譜測繪”大會,
標(biāo)志著專家們對知識圖譜繪制開始了大規(guī)模的深入研究。2024/2/27人工智能:互聯(lián)網(wǎng)智能61
知識圖譜2024/2/27人工智能:互聯(lián)網(wǎng)智能62
知識圖譜語義Web關(guān)聯(lián)數(shù)據(jù)2024/2/27人工智能:互聯(lián)網(wǎng)智能63BCThingtyped
linksADEtyped
linkstyped
linkstyped
linksThingThingThingThingThingThingThingThingThing
使用語義網(wǎng)技術(shù)。在來自一個(gè)數(shù)據(jù)源的數(shù)據(jù)與其他數(shù)據(jù)源的數(shù)據(jù)之間的
建立連接。2024/2/27人工智能:互聯(lián)網(wǎng)智能64基于知識圖譜的搜索引擎2024/2/27人工智能:互聯(lián)網(wǎng)智能65內(nèi)容提要11.1概述 11.2語義Web 11.3本體知識管理
11.4Web技術(shù)的演化11.5Web挖掘 11.6搜索引擎 11.7集體智能 11.8小結(jié)
集體智能
集體智能(collectiveintelligence),有的稱為集體智慧,有的稱為群體智能,是一種共享的或者集體的智能,它是從許多個(gè)體的合作與競爭中涌現(xiàn)出來的,并沒有集中的控制機(jī)制。集體智能在人類、計(jì)算機(jī)網(wǎng)絡(luò)中形成,并以多種形式的協(xié)商一致的決策模式出現(xiàn)。集體智能的規(guī)模有大有小,可能有個(gè)體集體智能、人際集體智能、成組集體智能、活動集體智能、組織集體智能、網(wǎng)絡(luò)集體智能、相鄰集體智能、社團(tuán)集體智能、城市集體智能、省級集體智能、國家集體智能、區(qū)域集體智能、國際組織集體智能、全人類集體智能等,這些都是在特定范圍內(nèi)的群體所反映出來的智慧。2024/2/2766人工智能:互聯(lián)網(wǎng)智能“Cloudcomputing”Createdin4Sept.20072024/2/2767人工智能:互聯(lián)網(wǎng)智能Versionin4Sept.20082024/2/2768人工智能:互聯(lián)網(wǎng)智能Versionin14Sept.20092024/2/2769人工智能:互聯(lián)網(wǎng)智能
社群智能
社群智能(socialandcommunityintelligence)是從社會感知中挖掘和理解個(gè)人和群體活動模式、大規(guī)模人類活動和城市動態(tài)規(guī)律,把這些信息用于各種創(chuàng)新性的服務(wù),包括社會關(guān)系管理、人類健康改善、公共安全維護(hù)、城市資源管理和環(huán)境資源保護(hù)等。社群智能是在社會計(jì)算、城市計(jì)算和現(xiàn)實(shí)世界挖掘等相關(guān)領(lǐng)域發(fā)展基礎(chǔ)上提出來的。從宏觀角度講,它隸屬于社會感知計(jì)算(socially-awarecomputing)范疇。社會感知計(jì)算是通過人類生活空間逐步大規(guī)模部署的多種類傳感設(shè)備,實(shí)時(shí)感知識別社會個(gè)體行為,分析挖掘群體社會交互特征和規(guī)律,輔助個(gè)體社會行為,支持社群的互動、溝通和協(xié)作。2024/2/2770人工智能:互聯(lián)網(wǎng)智能
社群智能
社群智能主要側(cè)重于智能信息挖掘,具體功能包括:
(1)多數(shù)據(jù)源融合即要實(shí)現(xiàn)多個(gè)多模態(tài)、異構(gòu)數(shù)據(jù)源的融合。綜合利用三類數(shù)據(jù)源:互聯(lián)網(wǎng)與萬維網(wǎng)應(yīng)用、靜態(tài)傳感設(shè)施、移動及可攜帶感知設(shè)備,來挖掘“智能”信息;
(2)分層次智能信息提取利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等技術(shù)從大規(guī)模感知數(shù)據(jù)中提取多層次的智能信息:在個(gè)體級別識別個(gè)人情境信息,在群體(Group)級別提取群體活動及人際交互信息,在社會級別挖掘人類行為模式、社會及城市動態(tài)變化規(guī)律等信息。2024/2/2771人工智能:互聯(lián)網(wǎng)智能
社群智能的體系架構(gòu)
2024/2/2772人工智能:互聯(lián)網(wǎng)智能
集體智能系統(tǒng)
2024/2/2773人工智能:互聯(lián)網(wǎng)智能集體智能系統(tǒng)一般是復(fù)雜的大系統(tǒng),甚至是復(fù)雜的巨系統(tǒng)。20世紀(jì)90年代錢學(xué)森提出了“開放的復(fù)雜巨系統(tǒng)(opencomplexgiantsystcn,OCGS)”的概念,并提出“從定性到定量的綜合集成法”作為處理開放的復(fù)雜巨系統(tǒng)的方法論,著眼于人的智慧與計(jì)算機(jī)的高性能兩者結(jié)合,以思維科學(xué)(認(rèn)知科學(xué))與人工智能為基礎(chǔ),用信息技術(shù)和網(wǎng)絡(luò)技術(shù)構(gòu)建“綜合集成研討廳(hallforworkshopofmetasyntheticengineering)的體系,以可操作平臺的方式處理與開放的復(fù)雜巨系統(tǒng)相聯(lián)系的復(fù)雜問題。隨著互聯(lián)網(wǎng)的廣泛普及,這種綜合集成研討廳就可以是以互聯(lián)網(wǎng)為基礎(chǔ)的集體智能系統(tǒng)。
綜合集成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 昆明城市學(xué)院《模擬電路設(shè)計(jì)含實(shí)驗(yàn)雙語》2023-2024學(xué)年第一學(xué)期期末試卷
- 江蘇聯(lián)合職業(yè)技術(shù)學(xué)院《小學(xué)數(shù)學(xué)教學(xué)設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 吉林工程技術(shù)師范學(xué)院《海洋油氣工程綜合課程設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南農(nóng)業(yè)大學(xué)東方科技學(xué)院《人工智能原理與技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 【物理】《滑輪》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教版(2024)初中物理八年級下冊
- 重慶文理學(xué)院《西方文論專題》2023-2024學(xué)年第一學(xué)期期末試卷
- 鄭州財(cái)稅金融職業(yè)學(xué)院《數(shù)字出版物創(chuàng)作實(shí)訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院《MySQL數(shù)據(jù)庫應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 董事會議事規(guī)則
- 浙江安防職業(yè)技術(shù)學(xué)院《嬰幼兒語言發(fā)展與教育》2023-2024學(xué)年第一學(xué)期期末試卷
- 《國有控股上市公司高管薪酬的管控研究》
- 餐飲業(yè)環(huán)境保護(hù)管理方案
- 食品安全分享
- 礦山機(jī)械設(shè)備安全管理制度
- 計(jì)算機(jī)等級考試二級WPS Office高級應(yīng)用與設(shè)計(jì)試題及答案指導(dǎo)(2025年)
- 造價(jià)框架協(xié)議合同范例
- 糖尿病肢端壞疽
- 《創(chuàng)傷失血性休克中國急診專家共識(2023)》解讀課件
- 小學(xué)六年級數(shù)學(xué)100道題解分?jǐn)?shù)方程
- YY 0838-2021 微波熱凝設(shè)備
- 病原細(xì)菌的分離培養(yǎng)
評論
0/150
提交評論