版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)庫(kù)新技術(shù)考題1、 云計(jì)算環(huán)境與分布式計(jì)算環(huán)境各提出了那些新的數(shù)據(jù)管理需求。云計(jì)算環(huán)境新的數(shù)據(jù)管理需求:與傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)相比,目前云數(shù)據(jù)管理系統(tǒng)提供的接口有很多限制,只提供簡(jiǎn)單的數(shù)據(jù)存取接口或者極小化的查詢(xún)語(yǔ)言,這增加了用戶(hù)使用的難度,也增加了開(kāi)發(fā)人員的負(fù)擔(dān).同時(shí),相比于傳統(tǒng)的分布式關(guān)系數(shù)據(jù)庫(kù),云數(shù)據(jù)管理系統(tǒng)的查詢(xún)性能也有很大的提升空間.如何在現(xiàn)有云計(jì)算平臺(tái)的基礎(chǔ)上,完善云數(shù)據(jù)管理系統(tǒng)的查詢(xún)功能并提高其數(shù)據(jù)處理的性能,是目前備受關(guān)注的挑戰(zhàn)性問(wèn)題用戶(hù)接口和查詢(xún)性能是目前云數(shù)據(jù)管理系統(tǒng)亟待提高的兩個(gè)方面。要求云數(shù)據(jù)管理系統(tǒng)中的查詢(xún)處理及優(yōu)化算法具備良好的擴(kuò)展性,不僅能夠擴(kuò)展到龐大規(guī)模的云平臺(tái)上,而且能夠?qū)崿F(xiàn)資源的可動(dòng)態(tài)增長(zhǎng)及其帶來(lái)的性能提升.云數(shù)據(jù)管理系統(tǒng)需要將軟硬件錯(cuò)誤看成系統(tǒng)運(yùn)行的常態(tài),錯(cuò)誤發(fā)生時(shí)既要保證數(shù)據(jù)不丟失,又要保證數(shù)據(jù)的讀寫(xiě)操作能夠正常進(jìn)行。云數(shù)據(jù)管理系統(tǒng)應(yīng)當(dāng)針對(duì)云數(shù)據(jù)的特點(diǎn)設(shè)計(jì)數(shù)據(jù)分布策略和查詢(xún)優(yōu)化相關(guān)算法,從而提高其管理海量數(shù)據(jù)的能力。云數(shù)據(jù)管理系統(tǒng)要提供SQL接口,這樣習(xí)慣于關(guān)系數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)言的用戶(hù)不必重新學(xué)習(xí)新的接口或者編程方法,云數(shù)據(jù)管理系統(tǒng)還要提供UDF(UserDefinedFunction)接口,用戶(hù)可以根據(jù)業(yè)務(wù)需求自己定義數(shù)據(jù)查詢(xún)操作。分布式計(jì)算環(huán)境新的數(shù)據(jù)管理需求在分布式環(huán)境下數(shù)據(jù)傳輸和數(shù)據(jù)傾斜等問(wèn)題的出現(xiàn)使得在MapReduce實(shí)現(xiàn)連接成為一個(gè)非常具有挑戰(zhàn)性的問(wèn)題。分布式計(jì)算系統(tǒng)沒(méi)有統(tǒng)一的控制手段,它的質(zhì)量和可用性難以保證,網(wǎng)絡(luò)是一個(gè)異構(gòu)的環(huán)境,分布式計(jì)算技術(shù)需要解決異構(gòu)環(huán)境的互操作問(wèn)題?,F(xiàn)有資源不可能以同一種方式描述,有沒(méi)有自動(dòng)識(shí)別資源的方法,所以分布式計(jì)算技術(shù)的使用具有范圍性。2、 簡(jiǎn)要敘述大數(shù)據(jù)可用性的概念及目前主要研究?jī)?nèi)容答:一個(gè)正確的大數(shù)據(jù)集合至少以滿(mǎn)足以下5個(gè)性質(zhì):1)一致性:數(shù)據(jù)集合中每個(gè)信息都不包含語(yǔ)義錯(cuò)誤或相互矛盾的數(shù)據(jù)。2)精確性:數(shù)據(jù)集合中每個(gè)數(shù)據(jù)都能準(zhǔn)確表述現(xiàn)實(shí)世界中的實(shí)體。3)完整性:數(shù)據(jù)集合中包含足夠的數(shù)據(jù)來(lái)回答各種查詢(xún)和支持各種計(jì)算。4)時(shí)效性:信息集合中每個(gè)信息都與時(shí)俱進(jìn),不陳舊過(guò)時(shí)。5)實(shí)體同一性:同一實(shí)體在各種數(shù)據(jù)源中的描述統(tǒng)一。一個(gè)數(shù)據(jù)集合滿(mǎn)足上述5個(gè)性質(zhì)的程度是該數(shù)據(jù)集合的可用性。研究?jī)?nèi)容:1) 高質(zhì)量大數(shù)據(jù)獲取與整合的理論和技術(shù);2) 完整的大數(shù)據(jù)可用性理論體系;3) 數(shù)據(jù)錯(cuò)誤自動(dòng)檢測(cè)與修復(fù)的理論和技術(shù);4) 弱可用數(shù)據(jù)上近似技術(shù)的理論和技術(shù);5) 弱可用數(shù)據(jù)上的知識(shí)發(fā)掘與演化的機(jī)理。3、 簡(jiǎn)述云存儲(chǔ)系統(tǒng)的主要安全需求有哪些?答:數(shù)據(jù)安全是云存儲(chǔ)系統(tǒng)中最重要的安全需求之一。云存儲(chǔ)系統(tǒng)中數(shù)據(jù)的安全性可分為存儲(chǔ)安全性和傳輸安全性?xún)刹糠?,每個(gè)部分又包含機(jī)密性、完整性和可用性。D數(shù)據(jù)的機(jī)密性云存儲(chǔ)系統(tǒng)中的數(shù)據(jù)機(jī)密性是指無(wú)論存儲(chǔ)還是傳輸過(guò)程中,只有數(shù)據(jù)擁有者和授權(quán)用戶(hù)能夠訪問(wèn)數(shù)據(jù)明文,其他任何用戶(hù)或云存儲(chǔ)服備提供商都大法得到數(shù)據(jù)明文,從理論上杜絕一切泄漏數(shù)據(jù)的可能性.2) 數(shù)據(jù)的完整性云存儲(chǔ)系統(tǒng)中數(shù)據(jù)的完整性包含數(shù)據(jù)存儲(chǔ)時(shí)和使用時(shí)的完整性?xún)刹糠?數(shù)據(jù)存儒時(shí)的完整性是指云存儲(chǔ)服務(wù)提供商是按照用戶(hù)的要求將數(shù)據(jù)完整地保存在云端,不能有絲毫的遺失或損壞.數(shù)據(jù)使用時(shí)的完整性是指當(dāng)用戶(hù)使用某個(gè)數(shù)據(jù)時(shí),此數(shù)據(jù)沒(méi)有被任何人偽造或規(guī)改.3) 數(shù)據(jù)的可用性云存儲(chǔ)的不可控制性滋生了云存儲(chǔ)系統(tǒng)的可用性研究.與以往不同的是云存儲(chǔ)中所有硬件均非用戶(hù)所能控制.因此,如何在存儲(chǔ)弁質(zhì)不可控的情況下提高數(shù)據(jù)的可用性是云存儲(chǔ)系統(tǒng)的安全需求之一.密鑰管理分發(fā)機(jī)制,一直以來(lái),數(shù)據(jù)加密存儲(chǔ)都是保證數(shù)據(jù)機(jī)密性的主流方法。數(shù)據(jù)加密需要密鑰,云存儲(chǔ)系統(tǒng)需要提供安全高效的密鑰管理分發(fā)機(jī)制保證數(shù)據(jù)在存儲(chǔ)與共享過(guò)程中的機(jī)密性。其他功能的需求,由于相同密文在不同的密匙或加密機(jī)制下生成的密文并不相同,數(shù)據(jù)加密存儲(chǔ)將會(huì)影響到云存儲(chǔ)系統(tǒng)中的一些其他共能,例如數(shù)據(jù)搜索,重復(fù)數(shù)據(jù)刪除等,云存儲(chǔ)系統(tǒng)對(duì)這些因數(shù)據(jù)加密而被影響的功能有著新的需求。4、 云環(huán)境下分布式緩存技術(shù)主要面臨的問(wèn)題與解決方案1) 緩存服務(wù)的性能隔離。改進(jìn)的全局緩存替換方法,兩種方案。通過(guò)為租戶(hù)動(dòng)態(tài)加權(quán)的方式確保訪問(wèn)頻率低的租戶(hù)內(nèi)容不會(huì)很快被替換出內(nèi)存;根據(jù)租戶(hù)當(dāng)前占用的內(nèi)存空間是否少于目標(biāo)空間,動(dòng)態(tài)選取該租戶(hù)或其他租戶(hù)數(shù)據(jù)替換出緩存。2) 虛擬環(huán)境下數(shù)據(jù)遷移的優(yōu)化?;诜答伩刂频姆椒?,周期性的求解滿(mǎn)足QoS約束下的最優(yōu)遷移速率;采用控制理論解決數(shù)據(jù)遷移中的開(kāi)銷(xiāo)優(yōu)化問(wèn)題.基于多元回歸法構(gòu)建遷移時(shí)間與性能衰減度的預(yù)測(cè)函數(shù),將二者線(xiàn)性加權(quán)得到遷移開(kāi)銷(xiāo)模型,最終實(shí)現(xiàn)以最小化開(kāi)銷(xiāo)為目標(biāo)的遷移速率控制。3)緩存策略的自適應(yīng)與自管理。使用跟蹤驅(qū)動(dòng)模擬(trace-drivensimulation)方法為每個(gè)Web文件選取最優(yōu)一致性策略;基于規(guī)則的方法,策略選取規(guī)則由帶寬、數(shù)據(jù)變化率以及用戶(hù)一致性需求要素組成;根據(jù)統(tǒng)計(jì)結(jié)果及識(shí)別規(guī)則(detectionrule)對(duì)當(dāng)前訪問(wèn)模式進(jìn)行分類(lèi),根據(jù)分類(lèi)結(jié)果采用相應(yīng)的最優(yōu)替換策略。5、 MongoDB的分片存儲(chǔ)與分布式數(shù)據(jù)庫(kù)有何不同?答:MongoDB提供了一種自動(dòng)分片的機(jī)制來(lái)實(shí)現(xiàn)系統(tǒng)的水平擴(kuò)展。雖然分片的概念源于關(guān)系型數(shù)據(jù)庫(kù)的分區(qū),但還是有一些差別。最大的差別是MongoDB自動(dòng)地完成所有的工作而不需要人工的介入,并且當(dāng)各個(gè)分片中的數(shù)據(jù)分布不均衡時(shí),自動(dòng)完成數(shù)據(jù)的重分布。MongoDB的自動(dòng)分片(Auto.Sharding)機(jī)制在設(shè)計(jì)時(shí)主要實(shí)現(xiàn)以下三個(gè)目標(biāo):1) 使集群“不可見(jiàn)”,應(yīng)用程序不必知道其所需要的數(shù)據(jù)存儲(chǔ)于哪個(gè)服務(wù)器上,也不必了解整個(gè)集群的架構(gòu)。2) 使集群可隨時(shí)讀寫(xiě),MongoDB通過(guò)幾種不同的方式來(lái)最大化系統(tǒng)的正常運(yùn)行時(shí)問(wèn)3) 使集群容易擴(kuò)展,當(dāng)一個(gè)系統(tǒng)需要更多的空f(shuō)剛和資源時(shí),必須能夠簡(jiǎn)單并且容易地進(jìn)行擴(kuò)展。MongoDB自動(dòng)分片機(jī)制的基本原理是將數(shù)據(jù)集合分成小塊(chunk),這些塊使用系統(tǒng)的均衡策略分散到若干個(gè)片(shard)qb,每個(gè)片包含數(shù)據(jù)集的一部分。當(dāng)各個(gè)片中的數(shù)據(jù)分布不均衡時(shí),均衡策略會(huì)自動(dòng)重新分布數(shù)據(jù),維持各個(gè)片中數(shù)據(jù)的均勻分布,不需人工干預(yù)。在MongoDB分片集群中,數(shù)據(jù)是按一定的順序組織在一起的,即片鍵相鄰的數(shù)據(jù)傾向于存儲(chǔ)在同一個(gè)服務(wù)器上。在MongoDB自動(dòng)分片集群中采用的方式是一個(gè)片中可以包含多個(gè)范圍的數(shù)據(jù)。這種方式有效地減少了需要遷移的數(shù)據(jù)總量,特別是當(dāng)集群中添加了新的片時(shí),每個(gè)片將自己的部分?jǐn)?shù)據(jù)移動(dòng)到新片中。這種方式將數(shù)據(jù)從包含數(shù)據(jù)最多的片直接移動(dòng)到目標(biāo)片中,而不必在其他的片中進(jìn)行中轉(zhuǎn),均衡效果最為有效且移動(dòng)的總數(shù)據(jù)量最小。MongoDB自動(dòng)分片集群中,數(shù)據(jù)遷移以塊為單位,當(dāng)一個(gè)特定片中含有過(guò)多的數(shù)據(jù)時(shí),這個(gè)片中的塊就會(huì)遷移到其他的片中MongoDB自動(dòng)分片機(jī)制引入了balancer負(fù)責(zé)數(shù)據(jù)遷移和負(fù)載均衡,balancer是一個(gè)后臺(tái)運(yùn)行的任務(wù),被集成在mongos中。均衡的操作對(duì)于客戶(hù)端是透明的,客戶(hù)端的應(yīng)用程序不必在意數(shù)據(jù)是否正在被移動(dòng)。6、 H-Store與VoltDB采用怎樣的技術(shù)方法解決大數(shù)據(jù)存儲(chǔ)、易擴(kuò)展及性能問(wèn)題?答:H-Store是第一個(gè)實(shí)現(xiàn)的新型并行數(shù)據(jù)庫(kù)管理系統(tǒng),稱(chēng)為NewSQL。這種數(shù)據(jù)庫(kù)系統(tǒng)提供了NoSQL系統(tǒng)所具有的高吞吐量和高可用性的,而且并沒(méi)有放棄傳統(tǒng)DBMS的事務(wù)處理的功能。這樣的系統(tǒng)能夠在多臺(tái)計(jì)算機(jī)上進(jìn)行并行計(jì)算,以提高吞吐量,而不是運(yùn)行在一個(gè)超強(qiáng)大,超昂貴的單節(jié)點(diǎn)計(jì)算機(jī)上。VoltDB提供了NoSQL數(shù)據(jù)庫(kù)的可伸縮性和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的ACID一致性,不同NoSQL的key-value儲(chǔ)存,VoltDB能使用SQL存取,支持傳統(tǒng)數(shù)據(jù)庫(kù)的ACID模型。VoltDB通過(guò)SQL引擎把數(shù)據(jù)分發(fā)給集群服務(wù)器的每個(gè)CPU進(jìn)行處理。每個(gè)單線(xiàn)程分區(qū)自主執(zhí)行,消除鎖定和閂鎖的需求。VoltDB可以通過(guò)簡(jiǎn)單的在集群中增加附加節(jié)點(diǎn)的方式實(shí)現(xiàn)性能的線(xiàn)性增加。7、 簡(jiǎn)述元搜索技術(shù)、數(shù)據(jù)空間以及跨媒體檢索的技術(shù)要點(diǎn)答:元搜索技術(shù):元搜索功能一般由可三個(gè)子功能組成,即數(shù)據(jù)源連接、自動(dòng)信息抽取、個(gè)性化與多樣化.數(shù)據(jù)源連接通過(guò)分析數(shù)據(jù)源的查詢(xún)接口,實(shí)現(xiàn)查詢(xún)請(qǐng)求的自動(dòng)提交.自動(dòng)信息抽取對(duì)數(shù)據(jù)源的返回結(jié)果以不同的數(shù)據(jù)粒度提取其中包含的有效數(shù)據(jù).個(gè)性化與多樣化提供了用戶(hù)對(duì)數(shù)據(jù)源的個(gè)性化選擇并且借助多種類(lèi)型的數(shù)據(jù)源為用戶(hù)帶來(lái)了多樣化的數(shù)據(jù)結(jié)果.數(shù)據(jù)空間:數(shù)據(jù)空間是由各種數(shù)據(jù)及其關(guān)聯(lián)共同組成的一個(gè)數(shù)據(jù)集合.與數(shù)據(jù)集成相比,數(shù)據(jù)空間更關(guān)注于數(shù)據(jù)間的相關(guān)性,即"先有數(shù)據(jù),后有模式",其數(shù)據(jù)關(guān)聯(lián)更加靈活、松散、滯后.靈活體現(xiàn)在中間模式和模式映射不再固定不變數(shù)據(jù)空間功能主要由四個(gè)子功能共同構(gòu)成,包括數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)建模、PAYGO數(shù)據(jù)查詢(xún)以及索引技術(shù).其中數(shù)據(jù)關(guān)聯(lián)是發(fā)現(xiàn)Web數(shù)據(jù)、數(shù)據(jù)模式間存在的各種關(guān)聯(lián);數(shù)據(jù)建模將設(shè)計(jì)合適的數(shù)據(jù)模型使其有能力依據(jù)數(shù)據(jù)空間的原則描述Web數(shù)據(jù)及其各種聯(lián)系;PAYGO數(shù)據(jù)查詢(xún)則利用這種自增的數(shù)據(jù)關(guān)聯(lián)在數(shù)據(jù)模型中進(jìn)行自增的數(shù)據(jù)查詢(xún);索引技術(shù)根據(jù)PAYGO的查詢(xún)模式,預(yù)先建立索引提高查詢(xún)效率??缑襟w搜索:跨媒體檢索功能通常由四個(gè)子功能構(gòu)成:語(yǔ)義關(guān)聯(lián)、語(yǔ)義建模、跨媒體檢索以及索引技術(shù).語(yǔ)義關(guān)聯(lián)從多個(gè)層面發(fā)現(xiàn)媒體間語(yǔ)義上的相關(guān)性;借助語(yǔ)義建模描述媒體間語(yǔ)義距離;根據(jù)用戶(hù)提交的檢索對(duì)象,計(jì)算數(shù)據(jù)空間中數(shù)據(jù)與檢索對(duì)象間的語(yǔ)義相似度,進(jìn)行跨媒體檢索;使用索引技術(shù)降低跨媒體檢索計(jì)算的時(shí)空開(kāi)銷(xiāo),提高檢索效率。8、 TwitterStorm,Yahoo!S4及RTMR(實(shí)時(shí)MapReduce)三個(gè)實(shí)時(shí)流處理方式的主要實(shí)現(xiàn)技術(shù)及性能分析答:1、TwitterStorm:主要實(shí)現(xiàn)技術(shù):在Storm中也有對(duì)于流stream的抽象,流是一個(gè)不問(wèn)斷的無(wú)界的連續(xù)tuple,注意Storm在建模事件流時(shí),把流中的事件抽象為tuple即元組。Storm認(rèn)為每個(gè)stream都有一個(gè)stream源,也就是原始元組的源頭,所以它將這個(gè)源頭抽象為spout,spout可能是連接twitterapi并不斷發(fā)出tweets,也可能是從某個(gè)隊(duì)列中不斷讀取隊(duì)列元素并裝配為tuple發(fā)射。有了源頭即spout也就是有了stream,那么該如何處理stream內(nèi)的tuple呢,同樣的思想twitter將流的中間狀態(tài)轉(zhuǎn)換抽象為Bolt,bolt可以消費(fèi)任意數(shù)量的輸入流,只要將流方向?qū)蛟揵olt,同時(shí)它也可以發(fā)送新的流給其他bolt使用,這樣一來(lái),只要打開(kāi)特定的spout(管口)再將spout中流出的tuple導(dǎo)向特定的bolt,又bolt對(duì)導(dǎo)入的流做處理后再導(dǎo)向其他bolt或者目的地。性能:1) 使用場(chǎng)景廣泛:storm可以用來(lái)處理消息和更新數(shù)據(jù)庫(kù)(消息流處理),對(duì)一個(gè)數(shù)據(jù)量進(jìn)行持續(xù)的查詢(xún)并返回客戶(hù)端(持續(xù)計(jì)算),對(duì)一個(gè)耗資源的查詢(xún)作實(shí)時(shí)并行化的處理(分布式方法調(diào)用),storm的這些基礎(chǔ)原語(yǔ)可以滿(mǎn)足大量的場(chǎng)景。2) 可伸縮性高::Storm的可伸縮性可以讓storm每秒可以處理的消息量達(dá)到很高3) 保證無(wú)數(shù)據(jù)丟失;實(shí)時(shí)系統(tǒng)必須保證所有的數(shù)據(jù)被成功的處理。那些會(huì)丟失數(shù)據(jù)的系統(tǒng)的適用場(chǎng)景非常窄,而storm保證每一條消息都會(huì)被處理,這一點(diǎn)和s4相比有巨大的反差。4) 異常健壯:storm集群非常容易管理。5) 容錯(cuò)性好:如果在消息處理過(guò)程中出了一些異常,storm會(huì)重新安排這個(gè)出問(wèn)題的處理邏輯。storm保證一個(gè)處理邏輯永遠(yuǎn)運(yùn)行,除非你顯式殺掉這個(gè)處理邏輯。6) 語(yǔ)音無(wú)關(guān)性:健壯性和可伸縮性不應(yīng)該局限于一個(gè)平臺(tái)。Storm的topology和消息處理組件可以用任何語(yǔ)言來(lái)定義,這一點(diǎn)使得任何人都可以使用storm。2、Yahoo!S4:主要實(shí)現(xiàn)技術(shù):1) 為了能在普通機(jī)型構(gòu)成的集群上進(jìn)行分布式處理,并且集群內(nèi)部不使用共享內(nèi)存,S4架構(gòu)采用了Actor模式,這種模式提供了封裝和地址透明語(yǔ)義,因此在允許應(yīng)用大規(guī)模并發(fā)的同時(shí),也提供了簡(jiǎn)單的編程接口。S4系統(tǒng)通過(guò)處理單元(ProcessingElements,PEs)進(jìn)行計(jì)算,消息在處理單元間以數(shù)據(jù)事件的形式傳送,PE消費(fèi)事件,發(fā)出一個(gè)或多個(gè)可能被其他PE處理的事件,或者直接發(fā)布結(jié)果。每個(gè)PE的狀態(tài)對(duì)于其他PE不可見(jiàn),PE之間唯一的交互模式就是發(fā)出事件和消費(fèi)事件??蚣芴峁┝寺酚墒录胶线m的PE和創(chuàng)建新PE實(shí)例的功能。S4的設(shè)計(jì)模式符合封裝和地址透明的特性。2) 除了遵循Actor模式,S4也參照了MapReduce模式。為了簡(jiǎn)化部署和運(yùn)維,從而達(dá)到更好地穩(wěn)定性和擴(kuò)展性,S4采用了對(duì)等架構(gòu),集群中的所有處理節(jié)點(diǎn)都是等同的,沒(méi)有中心控制。這種架構(gòu)將使得集群的擴(kuò)展性很好,處理節(jié)點(diǎn)的總數(shù)理論上無(wú)上限;同時(shí),S4將沒(méi)有單點(diǎn)容錯(cuò)的問(wèn)題。3) S4系統(tǒng)使用Java開(kāi)發(fā),采用了極富層次的模塊化編程,每個(gè)通用功能點(diǎn)都盡量抽象出來(lái)作為通用模塊,而且盡可能讓各模塊實(shí)現(xiàn)可定制化。4) 基于Zookeeper服務(wù)的集群管理層將會(huì)自動(dòng)路由事件從失效節(jié)點(diǎn)到其他節(jié)點(diǎn)。除非顯式保存到持久性存儲(chǔ),否則節(jié)點(diǎn)故障時(shí),節(jié)點(diǎn)上處理事件的狀態(tài)會(huì)丟失。5) 節(jié)點(diǎn)間通信采用“PlainOldJavaObjeCPOJOs)模式,應(yīng)用開(kāi)發(fā)者不需要寫(xiě)Schemas或用哈希表來(lái)在節(jié)點(diǎn)間發(fā)送Tupleso性能:S4是面向流式數(shù)據(jù)和實(shí)時(shí)處理的,所以針對(duì)實(shí)時(shí)性較高的業(yè)務(wù),可以很好地對(duì)數(shù)據(jù)做出高效的分析處理,而且系統(tǒng)一旦上線(xiàn),很少需要人工干預(yù),源源不斷的數(shù)據(jù)流會(huì)被自動(dòng)路由并分析。對(duì)于海量數(shù)據(jù),它和MapReduce類(lèi)似都可以應(yīng)對(duì),但它能比后者更快地處理數(shù)據(jù)。S4目前的缺點(diǎn)在于它的數(shù)據(jù)傳輸可靠性還不夠,可能丟失數(shù)據(jù),同時(shí)由于數(shù)據(jù)存放在內(nèi)存中,一旦節(jié)點(diǎn)出現(xiàn)故障,就會(huì)丟失該節(jié)點(diǎn)的所有數(shù)據(jù),這一點(diǎn)可以通過(guò)定期持久化來(lái)彌補(bǔ)(但是真的有必要嗎?】同時(shí)我認(rèn)為這和它面向的場(chǎng)景也有關(guān)系,實(shí)時(shí)數(shù)據(jù)分析通常都是針對(duì)一些非常離散、細(xì)小的數(shù)據(jù),從統(tǒng)計(jì)的角度來(lái)看,損失掉一部分?jǐn)?shù)據(jù)對(duì)最后的統(tǒng)計(jì)結(jié)果并沒(méi)有很大影響,而這部分犧牲卻可以換來(lái)吞吐率的大幅提升。所以就目前來(lái)看,S4還是更適合對(duì)那些不一定非得對(duì)每條數(shù)據(jù)都仔細(xì)分析的場(chǎng)景,只求最后一個(gè)統(tǒng)計(jì)的結(jié)果來(lái)對(duì)業(yè)務(wù)做出相應(yīng)的預(yù)計(jì)和調(diào)整。此外S4系統(tǒng)要求輸入的是事件流,這就涉及到事件的生成,所以在數(shù)據(jù)流入S4以前,必須有能將數(shù)據(jù)轉(zhuǎn)化為事件的系統(tǒng)進(jìn)行中間處理。從集群的擴(kuò)展性來(lái)看,理論上可以通過(guò)增加節(jié)點(diǎn)應(yīng)對(duì)更大的數(shù)據(jù)流,但是目前還無(wú)法在S4工作時(shí)動(dòng)態(tài)增加或減少節(jié)點(diǎn)。所以對(duì)節(jié)點(diǎn)進(jìn)行調(diào)整時(shí)很可能必須停下當(dāng)前的工作,做不到無(wú)縫調(diào)整。而且由于S4由ZooKeeper進(jìn)行集群管理,所以當(dāng)集群增加到一定規(guī)模時(shí),ZooKeeper的管理能力也有待考驗(yàn)。此外,仍然是因?yàn)镾4無(wú)法保證數(shù)據(jù)100%的可靠傳輸,所以集群規(guī)模增長(zhǎng)時(shí),數(shù)據(jù)錯(cuò)誤也會(huì)增長(zhǎng)得很快。目前沒(méi)有相關(guān)資料顯示S4集群的規(guī)模究竟可以做到多大,但是相信未來(lái)隨著數(shù)據(jù)傳輸可靠性的提升,會(huì)發(fā)揮很可觀的作用。在業(yè)務(wù)耦合度方面,S4完全隔離了平臺(tái)和業(yè)務(wù)邏輯,業(yè)務(wù)方只需要編寫(xiě)PE邏輯即可,這一點(diǎn)類(lèi)似于MapReduce中只需編寫(xiě)map和reduce函數(shù),業(yè)務(wù)和平臺(tái)的耦合度是非常低的。3、RTMR:主要技術(shù):MapReduce本身源自于函數(shù)式語(yǔ)言,主要通過(guò)Map(映射)和Reduce(化簡(jiǎn))這兩個(gè)步驟來(lái)并行處理大規(guī)模的數(shù)據(jù)集。首先,Map會(huì)先對(duì)由很多獨(dú)立元素組成的邏輯列表中的每一個(gè)元素進(jìn)行指定的操作,且原始列表不會(huì)被更改,會(huì)創(chuàng)建多個(gè)新的列表來(lái)保存Map的處理結(jié)果。也就意味著,Map操作是高度并行的。當(dāng)Map工作完成之后,系統(tǒng)會(huì)接著對(duì)新生成的多個(gè)列表進(jìn)行清理(Shuffle)和排序,之后,會(huì)這些新創(chuàng)建的列表進(jìn)行Reduce操作,也就是對(duì)一個(gè)列表中的元素根據(jù)Key值進(jìn)行適當(dāng)?shù)暮喜ⅰP阅埽赫劦組apReduce的優(yōu)點(diǎn),主要有兩個(gè)方面:其一,通過(guò)MapReduce這個(gè)分布式處理框架,不僅能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細(xì)節(jié)隱藏起來(lái),比如,自動(dòng)并行化、負(fù)載均衡和災(zāi)備管理等,這樣將極大地簡(jiǎn)化程序員的開(kāi)發(fā)工作;其二,MapReduce的伸縮性非常好,也就是說(shuō),每增加一臺(tái)服務(wù)器,其就能將差不多的計(jì)算能力接入到集群中,而過(guò)去的大多數(shù)分布式處理框架,在伸縮性方面都與MapReduce相差甚遠(yuǎn)。而MapReduce最大的不足則在于,其不適應(yīng)實(shí)時(shí)應(yīng)用的需求,所以在Google最新的實(shí)時(shí)性很強(qiáng)的Caffeine搜索引擎中,MapReduce的主導(dǎo)地位巳經(jīng)被可用于實(shí)時(shí)處理Percolator系統(tǒng)所代替。9、 要實(shí)現(xiàn)知識(shí)(智能數(shù)據(jù))管理需要在傳統(tǒng)數(shù)據(jù)管理基礎(chǔ)上擴(kuò)展哪些功能?答:知識(shí)管理就是對(duì)組織的各種來(lái)源的知識(shí)內(nèi)容進(jìn)行處理,實(shí)現(xiàn)知識(shí)的生產(chǎn)、共享、應(yīng)用以及創(chuàng)新,從而產(chǎn)生價(jià)值并形成知識(shí)優(yōu)勢(shì)。基于語(yǔ)義網(wǎng)的知識(shí)管理基本框架在該體系結(jié)構(gòu)中,本體知識(shí)庫(kù)是最核心的部分,它是實(shí)現(xiàn)知識(shí)的共享、重用(知識(shí)的訪問(wèn))和對(duì)組織知識(shí)進(jìn)行維護(hù)的基礎(chǔ)。因此,構(gòu)建基于本體的知識(shí)庫(kù)將成為整個(gè)知識(shí)管理活動(dòng)中最關(guān)鍵的任務(wù)。通常有兩種途徑來(lái)構(gòu)建組織的本體知識(shí)庫(kù)[6]:一是運(yùn)用本體描述語(yǔ)言對(duì)來(lái)自組織內(nèi)、外部的基于元數(shù)據(jù)的知識(shí)進(jìn)行表示,然后存儲(chǔ)在本體知識(shí)庫(kù)中,一般通過(guò)這種途徑來(lái)擴(kuò)大組織本體知識(shí)庫(kù)的容量;二是知識(shí)工作者直接通過(guò)本體編輯器實(shí)現(xiàn)對(duì)本體知識(shí)庫(kù)的修改,該途徑一般涉及到智能推理和維護(hù)等高級(jí)活動(dòng)。一旦構(gòu)建好了本體知識(shí)庫(kù),就可實(shí)現(xiàn)語(yǔ)義層上的知識(shí)訪問(wèn)。10、 普適數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年軟件許可使用合同的軟件范圍和許可期限
- 2024年物業(yè)清潔合同:保持環(huán)境共創(chuàng)綠色家園
- 品質(zhì)生活從時(shí)尚選擇開(kāi)始
- 立秋營(yíng)銷(xiāo)新篇章
- 2024私房舊房交易糾紛調(diào)解服務(wù)合同3篇
- 媒體新篇章模板
- 揭秘全球旅游新趨勢(shì)
- 大宗商品貨款質(zhì)押合同(2篇)
- 《煤礦職業(yè)病危害防治》培訓(xùn)課件2025
- 2024陶瓷杯團(tuán)購(gòu)采購(gòu)合同附帶市場(chǎng)調(diào)研與產(chǎn)品改進(jìn)服務(wù)3篇
- 功能材料課件-形狀記憶合金
- 山地光伏安全文明施工方案
- 中醫(yī)醫(yī)院運(yùn)營(yíng)方案
- 公務(wù)員報(bào)考指南
- 烏頭堿中毒急診科培訓(xùn)課件-
- 貴州茅臺(tái)2023審計(jì)報(bào)告
- 高速鐵路沉降觀測(cè)與評(píng)估
- 家長(zhǎng)要求學(xué)校換老師的申請(qǐng)書(shū)
- IT項(xiàng)目周報(bào)模板
- 鐵路工程主要建材碳排放因子、常用施工機(jī)械臺(tái)班能源用量、類(lèi)運(yùn)輸方式、能源碳排放因子、不同植栽方式綠化固碳量
- 藥品養(yǎng)護(hù)記錄表
評(píng)論
0/150
提交評(píng)論