第5章習題答案_第1頁
第5章習題答案_第2頁
第5章習題答案_第3頁
第5章習題答案_第4頁
第5章習題答案_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、習題5參考答案一、選擇題l.B 2.C 3.A 4.D 5.D 6.C 7.B &A二、簡答題1. 物聯(lián)網(wǎng)數(shù)據(jù)特點 海量Volume:物聯(lián)網(wǎng)部署了數(shù)量龐大的感知設備,這些設備的持續(xù)感知 以前所未有的速度產(chǎn)生數(shù)據(jù),導致數(shù)據(jù)規(guī)模急劇膨脹,形成海量數(shù)據(jù)。 多樣Variety:物聯(lián)網(wǎng)涉及的應用范圍廣泛,從智慧城市、智慧交通、智 慧物流、商品溯源,到智能家居、智慧醫(yī)療、安防監(jiān)控等,無一不是物聯(lián)網(wǎng)應用 范疇。 高速Velocity:物聯(lián)網(wǎng)與真實物理世界直接關聯(lián),很多情況下需要實時訪 問控制相應的節(jié)點和設備,需要更高的數(shù)據(jù)傳輸速率來支持相應的實時性。 價值Value:物聯(lián)網(wǎng)應用中存在采樣頻率過高以及不同的感

2、知設備對同一 個物體同時感知等情況,這類情況導致了大量的冗余數(shù)據(jù),所以相對來說數(shù)據(jù)的 價值密度較低,但是只要合理利用并準確分析,將會帶來很高的價值回報。物聯(lián)網(wǎng)數(shù)據(jù)的類型 從存儲角度劃分:從存儲角度看,物聯(lián)網(wǎng)數(shù)據(jù)分為結構型和非結構型數(shù)據(jù)。 從編程角度劃分:在編程語言中,常見的數(shù)據(jù)類型包括原始類型(如:整 數(shù)、浮點數(shù)或字元等)、多元組、記錄單元、代數(shù)數(shù)據(jù)類型、抽象數(shù)據(jù)類型、參 考類型、類別以及函數(shù)等。 從分析角度劃分:為了滿足數(shù)據(jù)挖掘的需要,從數(shù)據(jù)分析的角度,數(shù)據(jù)分 為記錄型數(shù)據(jù)、基于圖的數(shù)據(jù)和序列數(shù)據(jù)等。記錄型數(shù)據(jù)通常釆用交易型、數(shù)據(jù) 矩陣、文檔術語矩陣等形式表示。2. 物聯(lián)網(wǎng)數(shù)據(jù)存儲系統(tǒng)的評價

3、指標 開放性(openness),指系統(tǒng)具有開放性質(zhì)的措施和形式,其他系統(tǒng)能夠方 便地接人,可以通過約定的規(guī)則或協(xié)議交換數(shù)據(jù)、協(xié)同工作、共享資源。 擴展性(scalability),指在通過增加設備等手段提升存儲能力的同時,系 統(tǒng)整體性能不會受到顯著的消極影響。 靈活性(flexibility),指存儲系統(tǒng)可應對異構的數(shù)據(jù),靈活調(diào)整數(shù)據(jù)結構。 可靠性(reliability),指系統(tǒng)在一定時間內(nèi)無故障地完成指定任務的可能 性,通??梢杂闷骄鶡o故障時衡量。 高效性(efficiency),指系統(tǒng)在完成特定任務時占用較少的時間和資源。 安全性(security),指系統(tǒng)可以通過如訪問控制、加密等安

4、全手段確保數(shù) 據(jù)的私密性。 可用性(usability),指系統(tǒng)易用程度,是否可輕松高效地完成特定范圍的 任務。 實時性(real-time),指系統(tǒng)中數(shù)據(jù)的產(chǎn)生到獲取經(jīng)歷的時延小于限定時間。 其中,開放性對應于開放兼容的需求,擴展性、靈活性對應于動態(tài)擴展的需求,可靠性、高效性對應于可鼎高效的需求,安全性對應于安全可信的需求,可 用性對應于系統(tǒng)普適需求,實時性對應于有實時性要求的應用需求。3. 物聯(lián)網(wǎng)的數(shù)據(jù)存儲中,文件存儲的優(yōu)點 只需簡單地配置即可輕松地將集群擴展到數(shù)萬節(jié)點,適用于存儲物聯(lián)網(wǎng)海 量數(shù)據(jù); 提供并發(fā)訪問控制,并可以根據(jù)數(shù)據(jù)分布優(yōu)化訪問,提高多任務環(huán)境下物 聯(lián)網(wǎng)應用效率; 將節(jié)點失

5、效視為常態(tài),容錯性高,提供了健全的數(shù)據(jù)備份及恢復機制,確 保數(shù)據(jù)的可靠性; 吞量大,適合大規(guī)模數(shù)據(jù)應用; 一次寫,多次讀,與物聯(lián)網(wǎng)數(shù)據(jù)讀寫模式一致; 一些分布式文件系統(tǒng)還支持上層海量數(shù)據(jù)處理工具,如Hadoop中的 MapReduce,有助于挖掘物聯(lián)網(wǎng)數(shù)據(jù)潛在信息。4. 辨別SaaS是否安全的方法 傳輸協(xié)議加密。首先,要看SaaS產(chǎn)品提供使用的協(xié)議,是https:還是一 般的http:/,其次,傳輸協(xié)議加密還要看是否全程加密,即軟件的各個部分都是 https:/協(xié)議訪問的,比如Salesforce. XToolsCRM都是采取全程加密的。 服務器安全證書。服務器安全證書是用戶識別服務器身份的重

6、要標示,有 些不正規(guī)的服務廠商并沒有使用全球認證的服務器安全證書。 URL數(shù)據(jù)訪問安全碼技術。URL中的字符串中可能隱藏著一些有關于數(shù) 據(jù)訪問的秘密,通過修改URL,很多黑客可以通過諸如SQL注入等方式攻入系 統(tǒng),獲取用戶數(shù)據(jù)。 數(shù)據(jù)的管理和備份機制。SaaS服務商的數(shù)據(jù)備份應該是完善的,用戶必須 了解自己服務商為您提供了什么樣的數(shù)據(jù)備份機制,一旦出現(xiàn)重大問題,如何恢 復數(shù)據(jù)等。服務商在內(nèi)部管理上如何保證用戶數(shù)據(jù)不被服務商所泄露,也是需要 用戶和服務商溝通的。 運營服務系統(tǒng)的安全。在評佔SaaS產(chǎn)品安全度的時候,最重要的是看公 司對于服務器格局的設置。一個優(yōu)秀的軟件SaaS運營商,運營服務器和

7、網(wǎng)站服 務器應該完全隔離的,甚至域名也應該分開。5. SaaS實現(xiàn)中涉及到的安全問題:與SaaS安全相關的問題存在于SaaS服務平臺開發(fā)、運維的各個方面:1)安全管理團隊:制定正式的章程;2)安全監(jiān)管:成立安全指導委員會;3)風險管理:包括技術資產(chǎn)的識別,數(shù)據(jù)及鏈接的業(yè)務流程、應用的識別, 數(shù)據(jù)存儲的識別,所有權的分配和管理者的責任等;4)風險評估:自動的定期或按需評估信息安全風險;5)安全資料管理:保證信息安全高效執(zhí)行的基礎;6)安全意識:提高安全防范意識;7)教育培訓:提高安全和風險管理技能和知識;8)制定政策、標準、指南:定期對政策、標準、指南進行評估和修改;9)安全的軟件開發(fā)生命周期:

8、調(diào)查、分析、邏輯設計、物理設計、實現(xiàn)、 維護;10)安全監(jiān)控和應急響應:安全操作中心通過安全信息管理、安全事件管理、 安全信息事件管理系統(tǒng)進行24/7/365監(jiān)控;11)第三方風險管理:缺少第三方風險管理可能導致聲譽受損、稅收流失和 因未盡職調(diào)查而受法律制裁;12)支持信息請求:對頻繁請求的信息有標準的處理過程;13)取證:計算機取證用于數(shù)據(jù)分析和檢索,網(wǎng)絡取證包括記錄分析網(wǎng)絡事 件;14)安全架構設計:安全架構包括安全處理(認證、授權、保密性、完整性、 不可抵賴性、安全管理等),操作方法,技術規(guī)范,人員組織管理等;最基本的 安全處理包括認證、授權、可用性、保密性、完整性、不可抵賴性和隱私保護

9、;15)漏洞評估:漏洞管理應該和漏洞發(fā)現(xiàn)、補丁管理和升級管理相結合;16)密碼確認測試:利用云計算可以縮短破解的時間并降低費用;17)安全日志:用云計算可以增強日志功能;18)安全模板:云計算提供建立Gold imaged建立普通服務配置的模板)虛 擬機的能力;19)數(shù)據(jù)隱私:建立隱私指導委員會;20)數(shù)據(jù)監(jiān)管:數(shù)據(jù)監(jiān)管部分包括數(shù)據(jù)清單,數(shù)據(jù)分類,數(shù)據(jù)分析,數(shù)據(jù)保 護,數(shù)據(jù)保持,數(shù)據(jù)恢復等;21)數(shù)據(jù)安全:數(shù)據(jù)級安全是云計算最重要的安全,敬感數(shù)據(jù)屬于企業(yè)范疇而不是云計算提供商范疇;22)應用安全:SaaS供應商通過Web和用戶聯(lián)系,供應商要遵守OWASP (Open Web Applicati

10、on Security Project)規(guī)程;23)虛擬機安全:虛擬機安全機制包括防火墻、入侵檢測和預防、完整性檢 測、日志檢查,其中完整性檢測和日志檢查可以以軟件形式部署,但必須應用于 虛擬機級;24)存取管理:最少特權原則;25)變更管理:產(chǎn)品變更不應導致安全隱患;26)物理安全:物理安全是任何安全的基礎,主要包括物理存取控制.24/7/365 現(xiàn)場安全監(jiān)控、防彈墻、混凝土護柱、閉路電視綜合視頻監(jiān)控、后備電源、最適 溫濕度等;27)業(yè)務連續(xù)性和災難恢復:虛擬化技術起到作用;28)業(yè)務連續(xù)性計劃:分析、方案設計、實施、測試、維護五步,非技術方 面包括主要人員、設備、應急通信、信譽保護等,技術

11、方面參考災難恢復計劃的 基礎設施恢復部分。6. 數(shù)據(jù)預處理的目的為提高數(shù)據(jù)應用質(zhì)量和數(shù)據(jù)處理提供一個良好的基礎;數(shù)據(jù)預處理常用的方法數(shù)據(jù)清洗(data cleaning)、數(shù)據(jù)集成(data integration) 數(shù)據(jù)轉換(data transformation)和數(shù)據(jù)歸約(data reduction)等。7. 常用的分類方法決策樹、基于規(guī)則的分類、最近鄰分類、神經(jīng)網(wǎng)絡、支持向量機、貝葉斯分 類等決策樹的優(yōu)點:1)速度快:計算量相對較小,且容易轉化成分類規(guī)則。只 要沿著樹根向下一直走到葉,沿途的分裂條件就能夠唯一確定一條分類的謂 詞;2)準確性高:挖掘?qū)绲姆诸愐?guī)則準確性高,便于理解,決策

12、樹可以清晰的 顯示哪些字段比較重要。缺點在于:1)由于進行深度優(yōu)先搜索,所以算法受內(nèi)存大小限制,難于處 理大訓練集,缺乏伸縮性。2)為了處理大數(shù)據(jù)集或連續(xù)量的種種改進算法(離 散化、取樣)不僅增加了分類算法的額外開銷,而且降低了分類的準確性,對連 續(xù)性的字段比較難預測,當類別太多時,錯誤可能就會增加的比較快,對有時間 順序的數(shù)據(jù),需要很多預處理的工作。3)常用的基于分類挖掘的決策樹算法沒 有考慮噪聲問題,生成的決策樹很完美,這只不過是理論上的。在實際應用過程 中,大量的現(xiàn)實世界中的數(shù)據(jù)都不是以的意愿來定的,可能某些字段上缺值 (missing values ):可能數(shù)據(jù)不準確含有噪聲或者是錯誤

13、的;可能是缺少必須 的數(shù)據(jù)造成了數(shù)據(jù)的不完整。4)決策樹技術本身也存在一些不足的地方,例如 當類別很多的時候,它的錯誤就可能出現(xiàn)棋至很多。而且它對連續(xù)性的字段比較 難作出準確的預測。5)決策樹技術也可能產(chǎn)生子樹復制和碎片問題。最近鄰分類的優(yōu)點是:不僅可以用于分類,還可以用于回歸;缺點是:當樣本不平衡時(如一個類的樣本容量很大,而其他類樣本容量很 小),有可能導致當輸入一個新樣本時,該樣本的K個鄰居中大容量類的樣本占 多數(shù)。另外一個缺點是計算量巨大。人工神經(jīng)網(wǎng)絡的特點如下:1)非線性。非線性關系是自然界的普遍特性。 大腦的智慧就是一種非線性現(xiàn)象。人工神經(jīng)元處于激活或抑制二種不同的狀態(tài), 這種行為

14、在數(shù)學上表現(xiàn)為一種非線性關系。具有閾值的神經(jīng)元構成的網(wǎng)絡具有更 好地性能,可以提高容錯性和存儲容量。2)非局限性。一個神經(jīng)網(wǎng)絡通常由多 個神經(jīng)元廣泛連接而成。一個系統(tǒng)的整體行為不僅取決于單個神經(jīng)元的特征,而 且可能主要山單元之間的相互作用、相互連接所決定。通過單元之間的大量連接 模擬大腦的非局限性。3)非常定性。人工神經(jīng)網(wǎng)絡具有自適應、自組織、自學 習能力。神經(jīng)網(wǎng)絡不但處理的信息可以有各種變化,而且在處理信息的同時,非 線性動力系統(tǒng)本身也在不斷變化。經(jīng)常采用迭代過程描寫動力系統(tǒng)的演化過程。 4)非凸性。一個系統(tǒng)的演化方向,在一定條件下將取決于某個特定的狀態(tài)函數(shù)。 例如能量函數(shù),它的極值相應于系

15、統(tǒng)比較穩(wěn)定的狀態(tài)。非凸性是指這種函數(shù)有多 個極值,故系統(tǒng)具有多個較穩(wěn)定的平衡態(tài),這將導致系統(tǒng)演化的多樣性。支持向量機的特點如下:1)SVM學習問題可以表示為凸優(yōu)化問題,因此可 以利用已知的有效算法發(fā)現(xiàn)LI標函數(shù)的全局最小值。而其他的分類方法(如基于 規(guī)則的分類器和人工神經(jīng)網(wǎng)絡)都釆用一種基于貪心學習的策略來搜索假設空 間,這種方法一般只能獲得局部最優(yōu)。2) SVM通過最大化決策邊界的邊緣來控 制模型的能力。盡管如此,用戶必須提供其他參數(shù),如使用的核函數(shù)類型、為了 引入松弛變量所需的代價函數(shù)C等。3)通過對數(shù)據(jù)中每個分類屬性值引入一個 啞變量,SVM可以應用于分類數(shù)據(jù)。樸素貝葉斯分類器的特點:1

16、)面對孤立的噪聲點,樸素貝葉斯分類器是健 壯的。2)面對無關屬性,該分類是健壯的。3)相關屬性會降低貝葉斯分類器的 性能。貝葉斯信念網(wǎng)絡(BBN)的特點:1) BBN提供了一種用圖形模型來捕獲特 定領域的先驗知識的方法。網(wǎng)絡還可以用來對變量間的因果依賴關系進行編碼。 2)構造網(wǎng)絡可能既費時乂費力。然而,一旦網(wǎng)絡結構確定下來,添加新變量就 十分容易。3)貝葉斯網(wǎng)絡很適合處理不完整的數(shù)據(jù)。對有屬性遺漏的實例可以 通過對該屬性的所有可能取值的概率求和或求積分來加以處理。4)因為數(shù)據(jù)和 先驗知識以概率的方式結合起來了,所以該方法對模型的過分擬合問題是非常魯 棒的。8. 異常檢測一種數(shù)據(jù)挖掘方法,指通過

17、數(shù)據(jù)檢測獲知LI標數(shù)據(jù)的活動或規(guī)律是否異于數(shù) 據(jù)主體的活動或規(guī)律。異常檢測的目的發(fā)現(xiàn)不同于大多數(shù)對象的異常對象(離群值)三、編程題1.文件的上傳與下載package linlintest;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import .URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDatalnputStream;import org.apache

18、.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;public class HdfsFileSystem public static void main(StringJ args) throws Exception /String uri=nhdfs:/LL-167:8020/; /lidfs 地址/ String remote=uhdfs:/LL- 167:8020/lin/in 1/

19、1 .txt,r; /lidfs 上的路徑String uri=Hhdfs:/l51:8020/n: /hdfs 地址String local=,C:/Users/Administrator/Desktop/a.txt,; 本地路徑String remote=nhdfs:/51:8020/Workspace/lioulinlinH; Configuration conf = new ConfigurationO;/cat(conf ,uri/,hdfs:/LL-167:8020/lin/inl/l .txtH);/download(conf ,uri.

20、remotejocal);/ delete(conf .uri/hdfs:/!73:8020/Workspace/lioulinlinM);/markDir(conf ,uri,Mhdfs:/l926&0.151:8020AVorkspace/lioulinlin/file/apply/2014/8a8380c7459d d8b90145alfafb500235H):/ checkDir(uri/,d:/filen);/ getFile(conf ,uri,”Thdfs:l 51:8020/Workspace/houlinlin/a.txt);copyF

21、ile(conf,uri/,C:/Users/Adininistrator/Desktop/8a8380c745d05d370145d06719aa3c89.txt,h dfs:/5 l:8020/Workspace/lioulinliii/file/apply/2014/8a8380c7459dd8b90145alfafb500 235M);/ ls(conf ,hdfs:/fulonghadoopn/hdfs:/fulonghadoop/);*上傳文件* param conf* param local* param remote* throws IOException

22、*/public static void copyFi!e(Configuration conf , String uri , String local. String remote) throws IOException FileSystem fs = FileSystem.get(URI.create(uri), conf);fs.copyFromLocalFile(new Path(local), new Path(remote);System.out.printin(”copy from:n + local + u to M + remote);fs.close();*獲取hdfs上文

23、件流* param conf* param uri* param local* param remote* throws IOException*/public static void getFileStream(Configuration conf, String uri, String local String remote) throws IOException FileSystem fs = FileSystem.get(URLcreate(uri), conf);Path path= new Path(remote);FSDatalnputStream in = fs.open(pa

24、th)y/獲取文件流FileOutputStreamfos=newFileOutputStrcam(HC:/Users/Adniinistrator/Desktop/b.txtM)y/ 出流int ch = 0;while(ch=in.read() != -1)fos.write(ch);)System, out. printing);in.closeO;fos.close();*創(chuàng)建文件夾* param conf* param uri* param remoteFile* throws IOException*/public static void markDir(Configuration

25、 conf , String uri , String remoteFile ) throws IOException FileSystem fs = FileSystem.get(URI.create(uri), conf);Path path = new Path(remoteFile);fs.mkdirs(path);System, out. printing 創(chuàng)建文件夾 N+remoteFile);*査看文件* param conf* param uri* param remoteFile* throws IOException*/public static void cat(Conf

26、iguration conf. String uri .String remoteFile) throws IOExceptionPath path = new Path(remoteFile);FileSystem fs = FileSystem.get(URI.create(uri), conf);FSDatalnputStream fsdis = null;System.out.println(Hcat:n + remoteFile);try fsdis = fs.open(path);IOUtils.copyBytes(fsdis, System.out, 4096. false);

27、finally IOUtils.cIoseStream(fsdis);fs.close();*下載hdfs 的文件* param conf* param uri* param remote* param local* throws IOException*/public static void download(Configuration conf , String uri .String remote. String local) throws IOException Path path = new Path(remote);FileSystem fs = FileSystem.get(UR

28、I.create(uri), conf);fs.copyToLocalFile(path. new Path(local);System.out.println(”download: from” + remote + u to H + local);fs.close();/*刪除文件或者文件夾* param conf* param uri* param filePath* throws IOException*/public static void delete(Configuration conf, String uri,String filePath) throws IOException

29、 Path path = new Path(filePath);FileSystem fs = FileSystem.get(URI.create(uri), conf);fs.dcleteOnExit(path);System.out.println(MDcIete:M + filePath);fs.close();*査看目錄下面的文件* param conf* param uri* param folder* throws IOException*/public static void is(Configuration conf, String uri, String folder) th

30、rows IOException Path path = new Path(folder);FileSystem fs = FileSystem.get(URI.create(uri), conf);FileStatus list = fs.IistStatus(path); System.out.println(Hls:u + folder);System.out.println(H= =);for (FileStatus f: list) System.out.printf(Hname:%s, folder:%s, size:%dn*f.getPath(),f.isDirectory(),

31、 f.getLenO);System.out println(H= =”);fs.close();* param parentName絕對路徑地址* throws Exception*/public static void checkDir(String uri.String parentName) throws Exception!/DAfileConfiguration conf = new Configuration();File file = new File(parentName);boolean flag = true;while (flag) 查岀parentName T的所有文

32、件File filcNames = file.listFiles(new FileFilterO);if(fileNames != null) for (int i = 0; i fileNames.length; i+) File f = fileNamesi);/System.out.println(Mparentdirectory: H+f.getParent()+*filename:n+f.getName();Systeni.out.println(Hparentdirectory:H+f.getParent().replace(,N/n).substring(2)+,file nam

33、e:n+f.getName();StringremoteFo!rd=”hdfs:/192680173:8020/Workspacc/houlinliiT+fgclParcm()rcplacc(“”,H/H).substring(2);markDir(conf .uri,remoteFolrd);copyFi!e(conf ,uri.f.getParcnt()+HM+f.getName(),remoteFolrd);查出parentName |;的所有目錄File directories = fiIe.listFiles(new DirectortyFilterO);if(directories

34、 != null) for (int i = 0; i directoriescngth; i+) File dir = directoriesij;絕對路徑String path = dir.getAbsolutcPath();遞歸checkDir(uri.path);flag = false;2.數(shù)據(jù)去重:package com.hebut.mr;indentimport java.io.IOException;/indcntindentimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path:

35、import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FilelnputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat: import org.apache.hadoop.util.GenericOptionsParser;public class Dedup /map將輸入中的value復制到輸出數(shù)據(jù)的key上,并直接輸岀 public static class Map extends Mapper private static Text line=new Text();/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論