版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
本文格式為Word版,下載可任意編輯——大數(shù)據(jù)課堂測驗21、簡述大數(shù)據(jù)的來源與數(shù)據(jù)類型
大數(shù)據(jù)的來源十分多,如信息管理系統(tǒng)、網(wǎng)絡信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學試驗系統(tǒng)等,其數(shù)據(jù)類型包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。2、大數(shù)據(jù)產生的三個階段
(1)被動式生成數(shù)據(jù)(2)主動式生成數(shù)據(jù)(3)感知式生成數(shù)據(jù)3、大數(shù)據(jù)處理的基本流程
1.數(shù)據(jù)抽取與集成2.數(shù)據(jù)分析3.數(shù)據(jù)解釋4、大數(shù)據(jù)的特征
4V1OVolume,Variety,Value,Velocity,On-Line5、適合大數(shù)據(jù)的四層堆棧式技術架構
6、大數(shù)據(jù)的整體技術和關鍵技術
大數(shù)據(jù)的整體技術一般包括:數(shù)據(jù)采集、數(shù)據(jù)存取、基礎架構、數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、模型預計和結果浮現(xiàn)等。
大數(shù)據(jù)處理關鍵技術一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲及管理、開發(fā)大數(shù)據(jù)安全大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)浮現(xiàn)和應用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應用、大數(shù)據(jù)安全等)。7、新一代數(shù)據(jù)體系的分類
新一代數(shù)據(jù)體系中,將傳統(tǒng)數(shù)據(jù)體系中沒有考慮過的新數(shù)據(jù)源進行歸納與分類,可將其歸納到線上行為數(shù)據(jù)與內容數(shù)據(jù)兩大類別。8、EDC系統(tǒng)的定義
臨床試驗電子數(shù)據(jù)采集(ElectricDataCapture,EDC)系統(tǒng),在臨床試驗中的應用可以有效解決紙質CRF存在的問題。EDC是通過互聯(lián)網(wǎng)從試驗中心(Sites)直接遠程收集臨床試驗數(shù)據(jù)的一種數(shù)據(jù)采集系統(tǒng)。9、EDC系統(tǒng)的基本功能
數(shù)據(jù)錄入、數(shù)據(jù)導出、試驗設計、編輯檢查、操作痕跡、系統(tǒng)安全、在線交流、醫(yī)學編碼和支持多語言。10、EDC系統(tǒng)的優(yōu)點
(1)提高了臨床研究的效率,縮短了臨床研究周期(2)通過規(guī)律檢查提高了數(shù)據(jù)質量
1第頁(共3頁)
(3)對研究質量的監(jiān)測更加便利11、大數(shù)據(jù)采集的數(shù)據(jù)來源
大數(shù)據(jù)的三大主要來源為商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)與傳感器數(shù)據(jù)。12、網(wǎng)絡數(shù)據(jù)采集和處理的四個主要模塊
網(wǎng)絡爬蟲(Spider)、數(shù)據(jù)處理(DataProcess)、URL隊列(URLQueue)和數(shù)據(jù)(Data)。13、大數(shù)據(jù)集成
在大數(shù)據(jù)領域中,數(shù)據(jù)集成技術也是實現(xiàn)大數(shù)據(jù)方案的關鍵組件。大數(shù)據(jù)中的集成是將大量不同類型的數(shù)據(jù)原封不動的保存在原地,而將處理過程適當?shù)姆峙山o這些數(shù)據(jù)。這是一個并行處理的過程,當在這些分布式數(shù)據(jù)上執(zhí)行請求后,需要整合并返回結果。14、數(shù)據(jù)集成時應解決的問題
數(shù)據(jù)集成時應解決的問題包括數(shù)據(jù)轉換、數(shù)據(jù)的遷移、組織內部的數(shù)據(jù)移動、從非結構化數(shù)據(jù)中抽取信息和將數(shù)據(jù)處理移動到數(shù)據(jù)端。
15、網(wǎng)絡數(shù)據(jù)處理的四個模塊及主要功能
分詞(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和數(shù)據(jù),如圖2-17所示。這四個模塊的主要功能如下。
1)分詞:對抓取到的網(wǎng)頁內容進行切詞處理。2)排重:對眾多的網(wǎng)頁內容進行排重。
3)整合:對不同來源的數(shù)據(jù)內容進行格式上的整合。4)數(shù)據(jù):包含兩方面的數(shù)據(jù),SpiderData和DpData。16、大數(shù)據(jù)建模概念
大數(shù)據(jù)建模是為了理解事物而對事物做出的一種抽象,是對事物的一種無歧義的書面描述。17、大數(shù)據(jù)分析模式分類
根據(jù)實時性,可分為在線分析和離線分析根據(jù)數(shù)據(jù)規(guī)模,可分為內存級、BI級和海量級根據(jù)算法繁雜度的分類18、大數(shù)據(jù)建模流程
定義問題、數(shù)據(jù)理解、數(shù)據(jù)準備、模型建立、模型評估、模型更新與結果部署等。19、大數(shù)據(jù)建模應遵循的規(guī)律
以業(yè)務目標作為實現(xiàn)目標業(yè)務知識是每一步的核心做好數(shù)據(jù)預處理
試驗對尋覓解決方案是必要的數(shù)據(jù)中總含有模式
數(shù)據(jù)挖掘增大對業(yè)務的認知預計提高了信息作用能力
大數(shù)據(jù)建模的價值不在于預計的確鑿率模式因業(yè)務變化而變化20、數(shù)據(jù)可視化的概念
數(shù)據(jù)可視化技術是指運用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉換為圖形或圖像,然后在屏幕上顯示出來,利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的交互處理的理論、方法和技術。
2第頁(共3頁)
21、數(shù)據(jù)可視化流程
22、數(shù)據(jù)可視化工具的特性
1)實時性2)簡單操作3)更豐富的浮現(xiàn)4)多種數(shù)據(jù)集成支持方式23、數(shù)據(jù)可視化在生物領域中的應用
測序數(shù)據(jù)可視化分子結構數(shù)據(jù)可視化關系網(wǎng)絡可視化臨床數(shù)據(jù)可視化24、Hadoop優(yōu)點
1)可擴展(Scalable)2)低成本(Economical)3)高效率(Efficient)4)可靠(Reliable)25、Hadoop的核心模塊
HDFS、MapReduce、Common及YARN,其中HDFS提供了海量數(shù)據(jù)的存儲,MapReduce提供了對數(shù)據(jù)的計算,Common為在通用硬件上搭建云計算環(huán)境提供基本的服務及接口,YARN可以控制整個集群并管理應用程序向基礎計算資源的分派。
26、YARN的基本設計思想
將MapReduce中的JobTracker拆分成了兩個獨立的服務:一個全局的資源管理器ResourceManager和每個應用程序特有的ApplicationMaster。其中ResourceManager負責整個系統(tǒng)的資源管理和分派,而ApplicationMaster則負責單個應用程序的管理。27、Hive
Hive最早是由Facebook設計,基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供類SQL查詢功能。28、HBase
HBase即HadoopDatabase,是一個分布式、面向列的開源數(shù)據(jù)庫。HBase主要用于需要隨機訪問、實時讀寫的大數(shù)據(jù)。29、Avro
Avro是一個數(shù)據(jù)序列化系統(tǒng)。類似于其他序列化機制,Avro可以將數(shù)據(jù)結構或者對象轉換成便于存儲和傳輸?shù)母袷?,其設計目標是用于支持數(shù)據(jù)密集型應用,適合大規(guī)模數(shù)據(jù)的存儲與交換。30、Chukwa
3第頁(共3頁)
Chukwa是開源的數(shù)據(jù)收集系統(tǒng),用于監(jiān)控和分析大型分布式系統(tǒng)的數(shù)據(jù)。31、Pig
Pig是一個對大型數(shù)據(jù)集進行分析和評估的平臺。32、Spark原理
Spark是一個開源的通用并行分布式計算框架,由加州大學伯克利分校的AMP試驗室開發(fā),支持內存計算、多迭代批量處理、流處理和圖計算等多種范式。Spark基于MapReduce算法實現(xiàn)的分布式計算,擁有MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。33、Spark的優(yōu)點
輕量級快速處理支持多語言支持繁雜查詢實時的流處理
可以與Hadoop數(shù)據(jù)整合34、HDFS的設計目標
高效的硬件響應流式數(shù)據(jù)訪問大規(guī)模數(shù)據(jù)集簡單的一致性模型
異構軟硬件平臺間的可移植性35、HDFS架構——解釋下圖
答案在P107-P108
36、以一個文件FileA(大小100MB)為例,說明HDFS的工作原理。
4第頁(共3頁)
讀操作流程
寫操作流程
答案在P109-P11137、HDFS的4類源代碼
基礎包實體實現(xiàn)包應用包
WebHDFS相關包38、MapReduce
MapReduce是一個針對大規(guī)模群組中海量數(shù)據(jù)處理的分布式編程模型。
5第頁(共3頁)
39、HDFS接口
遠程過程調用接口與客戶端相關接口HDFS各服務器間的接口40、HDFS和MapReduce的關系
HDFS在集群上實現(xiàn)了分布式文件系統(tǒng),MapReduce在集群上實現(xiàn)了分布式計算和任務處理。HDFS在MapReduce任務處理過程中提供了對文件操作和存儲的支持。
MapReduce在HDFS的基礎上實現(xiàn)任務的分發(fā)、跟蹤、執(zhí)行等工作,并收集結果。41、MapReduce技術特征
易于使用良好的伸縮性大規(guī)模數(shù)據(jù)處理42、MapReduce工作機制
答案在P116-P11743、MapReduce執(zhí)行流程
Map(映射)和Reduce(化簡)是它的主要思想,Map負責將數(shù)據(jù)打散,Reduce負責對數(shù)據(jù)進行聚集,用戶只需要實現(xiàn)Map和Reduce兩個接口,即可完成TB級數(shù)據(jù)的計算。
6第頁(共3頁)
向MapReduce框架提交一個計算作業(yè)時,它會首先進行Split(分片),將File(文件)分派為多個數(shù)據(jù)片段,保證作業(yè)的并行效率。然后Map把計算作業(yè)拆分成若干個Map任務,然后分派到不同的結點上去執(zhí)行,每一個Map任務處理輸入數(shù)據(jù)中的一部分。當Map任務完成后,它會生成一些中間文件,把這些文件重新組織作為Reduce階段的輸入,該過程稱為Shuffle(洗牌),洗牌的操作一般包含本地化混合、分區(qū)、排序、復制及合并。Reduce任務的主要目標就是把前面經(jīng)過洗牌的文件匯總到一起并輸出。44、Common
Common為Hadoop的其他模塊提供了一些常用工具程序包,主要包括系統(tǒng)配置工具Configuration、遠程過程調用RPC、序列化機制和Hadoop抽象文件系統(tǒng)FileSystem等。在通用硬件上搭建云計算環(huán)境提供基本的服務,同時為軟件開發(fā)提供了API。45、大數(shù)據(jù)的一致性策略
CAP,即一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(PartitionTolerance)46、大數(shù)據(jù)分區(qū)技術
通過一定的規(guī)則將超大型表分割成若干小塊來分別處理。表進行分區(qū)時需要使用分區(qū)鍵來標志每一行屬于哪一個分區(qū),分區(qū)鍵以列的形式保存在表中。47、幾種常見的數(shù)據(jù)分區(qū)算法
范圍分區(qū)列表分區(qū)哈希分區(qū)
48、分布式環(huán)境下的數(shù)據(jù)緩存技術特點
高性能動態(tài)擴展性高可用性易用性
49、NoSQL數(shù)據(jù)庫種類
鍵值(Key-Value)存儲列存儲(Column-Oriented)文檔(Document-Oriented)存儲圖形存儲(Graph-Oriented)。
7第頁(共3頁)
50、四種類型NoSQL的特點及典型產品
存儲類型鍵值存儲列存儲文檔存儲圖形存儲特性可以通過鍵快速查詢到值,值無需符合特定格式可存儲結構化和半結構化數(shù)據(jù),對某些列的高頻率查詢具有很好的I/O優(yōu)勢數(shù)據(jù)以文檔形式存儲,沒有固定格式以圖形的形式存儲數(shù)據(jù)及數(shù)據(jù)之間的關系RedisBigtable、Hbase、CassandraCouchDB、MongoDBNeo4J典型工具
51、Bigtable
Bigtable是Google開發(fā)的一個分布式結構化數(shù)據(jù)存儲系統(tǒng),運用按列存儲數(shù)據(jù)的方法,是一個未開源的系統(tǒng)。52、Bigtable數(shù)據(jù)庫的架構
答案在P135.
53、Bigtable數(shù)據(jù)庫特點
適合大規(guī)模海量數(shù)據(jù),PB級數(shù)據(jù)。分布式、并發(fā)數(shù)據(jù)處理,效率極高。易于擴展,支持動態(tài)伸縮。適用于廉價設備。
適合于讀操作,不適合寫操作。不適用于傳統(tǒng)關系型數(shù)據(jù)庫。54、云計算定義
云計算是一種用于對可配置共享資源池(網(wǎng)絡、服務器、存儲、應用和服務)通過網(wǎng)絡便利的、按需獲取的模型,它可以以最少的管理代價或以最少的服務商參與,快速地部署與發(fā)布。55、云計算基本特征
規(guī)模經(jīng)濟性強大的虛擬化能力高可靠性高可擴展性通用性強按需服務
8第頁(共3頁)
價格低廉
支持快速部署業(yè)務56、云計算服務模式
基礎設施即服務(IaaS)、平臺即服務(PaaS)、軟件即服務(SaaS)是云計算的三種應用服務模式57、云計算部署模式
公有云、私有云和混合云58、虛擬化技術
把有限的、固定的資源根據(jù)不同需求進行重新規(guī)劃以達到最大利用率的思路,在IT領域就稱為虛擬化技術。59、云計算數(shù)據(jù)中心的構成
云計算數(shù)據(jù)中心本質上由云計算平臺和云計算服務構成60、云計算安全關鍵技術
可信訪問控制密文檢索與處理
數(shù)據(jù)存在與可使用性證明數(shù)據(jù)隱私保護虛擬安全技術云資源訪問控制可信云計算
61、大數(shù)據(jù)解決方案系統(tǒng)架構及各層功能
平臺層:其中的大數(shù)據(jù)存儲平臺提供大數(shù)據(jù)存儲服務,大數(shù)據(jù)計算平臺提供大數(shù)據(jù)計算服務,多數(shù)據(jù)中心調度引擎為多區(qū)域智能中心的分析架構提供數(shù)據(jù)調度服務。
功能層:包括大數(shù)據(jù)集成、存儲、管理和挖掘部分,各部分為大數(shù)據(jù)存儲和挖掘提供相應功能。服務層:基于Web技術和OpenAPI技術提供大數(shù)據(jù)最終的浮現(xiàn)服務。62、醫(yī)學大數(shù)據(jù)的種類
醫(yī)院醫(yī)療大數(shù)據(jù)
區(qū)域衛(wèi)生信息平臺大數(shù)據(jù)
基于大量人群的醫(yī)學研究或疾病監(jiān)測大數(shù)據(jù)自我量化大數(shù)據(jù)網(wǎng)絡大數(shù)據(jù)生物信息大數(shù)據(jù)
63、大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘方法的區(qū)別
樣本數(shù)量少量數(shù)據(jù)樣本傳統(tǒng)數(shù)據(jù)挖掘大數(shù)據(jù)挖掘分析與事物相關的所有數(shù)據(jù),研究的樣本數(shù)量趨9第頁(共3頁)
近于總體數(shù)量事物之間的關系追求的目標挖掘方式遵循事物之間的因果
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藝培體驗課程設計美術
- 購買波形彈簧合同范例
- 外語橫向課題合同范例
- 果醬蛋糕采購合同范例
- 商業(yè)插畫甲乙方合同范例
- 濰坊租賃合同范例
- 博物館導覽圖印刷服務合同3篇
- 合伙協(xié)議合同違約責任3篇
- 塊石材料訂購合同3篇
- 地下車位轉讓簡單協(xié)議書范本3篇
- 高考作文寫作備考:君子善假于物也 導寫及范文示例
- 售后服務培訓管理制度
- 氮氣安全技術說明書MSDS
- 《測繪工程產品價格》和《測繪工程產品困難類別細則》
- 生產現(xiàn)場定置管理規(guī)定區(qū)域劃分、標識牌、工具擺放標準
- 接口類驗收報告
- 工程制圖-水利工程圖
- 小學五年級脫式計算題300道-五年級上冊脫式計算題及答案
- 隧道支護安全技術交底書
- GB∕T 22063-2018 顯微鏡 C型接口
- 倉庫管理員月度績效考核表
評論
0/150
提交評論