大數(shù)據(jù)分析與管理學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年_第1頁
大數(shù)據(jù)分析與管理學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年_第2頁
大數(shù)據(jù)分析與管理學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年_第3頁
大數(shù)據(jù)分析與管理學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年_第4頁
大數(shù)據(jù)分析與管理學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析與管理學(xué)習(xí)通超星期末考試章節(jié)答案2024年借助IBMSPSSModeler,企業(yè)可以滿足客戶需求,構(gòu)建正確的產(chǎn)品并調(diào)整業(yè)務(wù)需求,同時(shí)縮短從構(gòu)思到實(shí)驗(yàn)再到生產(chǎn)所需的時(shí)間。

答案:對SPSSModeler通過分析非結(jié)構(gòu)化文本數(shù)據(jù)捕獲關(guān)鍵概念、主題、觀點(diǎn)和趨勢。

答案:對SPSSModeler提供多種機(jī)器學(xué)習(xí)技術(shù),包括分類、分段和關(guān)聯(lián)算法。

答案:對對于非對稱得屬性,只有非零值才是重要的。

答案:對屬性的性質(zhì)不必與用來度量他的值得性質(zhì)相同。

答案:對SPSSModeler可幫助我們()

答案:充分利用基于開源的創(chuàng)新,包括R或Python;支持擁有不同技能(編程和可視化)的數(shù)據(jù)研究員;開發(fā)混合方法—在本地、公共云或私有云中;從小規(guī)模開始,擴(kuò)展至企業(yè)級監(jiān)管方法SPSS支持哪些數(shù)據(jù)源()

答案:Excel

;關(guān)系型數(shù)據(jù)庫;Hadoop的數(shù)據(jù);IBMPlanningAnalytics

非平衡樣本的處理包括()

答案:過抽樣;欠抽樣為了便于得到相對準(zhǔn)確的模型誤差估計(jì),將全部樣本隨機(jī)劃分成兩個(gè)子集,即()

答案:訓(xùn)練集;測試集數(shù)據(jù)精簡包括()

答案:從壓縮樣本入手;從壓縮變量取值入手;從壓縮變量個(gè)數(shù)入手?jǐn)?shù)據(jù)的橫向合并的聯(lián)接方式包括()

答案:內(nèi)連接;全外連接;局部外連接;反連接CHAID建模節(jié)點(diǎn)生成模型。在建模節(jié)點(diǎn)的字段選項(xiàng)卡中,已選中使用預(yù)定義角色,這意味著()

答案:將使用在類型節(jié)點(diǎn)中指定的目標(biāo)字段和輸入字段若想用圖表顯示評估模型時(shí)每個(gè)預(yù)測變量的相對重要性應(yīng)該選擇()選項(xiàng)卡。

答案:模型以下不屬于數(shù)據(jù)挖掘軟件的是()

答案:ApacheSparkBP網(wǎng)絡(luò)學(xué)習(xí)過程的四個(gè)部分()

答案:輸入模式順傳播;輸出誤差逆?zhèn)鞑?循環(huán)記憶訓(xùn)練;學(xué)習(xí)結(jié)果判別人工神經(jīng)網(wǎng)絡(luò)可以看做由哪三種基本元素組成()

答案:一個(gè)連接;一個(gè)加法器;一個(gè)激勵(lì)函數(shù)以下關(guān)于神經(jīng)網(wǎng)絡(luò)說法正確的有()

答案:神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)非線性分類;神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)線性分類重要的人工神經(jīng)網(wǎng)絡(luò)算法包括()

答案:感知器神經(jīng)網(wǎng)絡(luò)(PerceptronNeuralNetwork);

反向傳遞(BackPropagation);Hopfield網(wǎng)絡(luò);自組織映射(Self-OrganizingMap,SOM)下面屬于BP的缺點(diǎn)的是()

答案:BP神經(jīng)網(wǎng)絡(luò)算法的收斂速度慢;BP神經(jīng)網(wǎng)絡(luò)結(jié)果選擇不一下面屬于BP的優(yōu)點(diǎn)的是()

答案:非線性映射能力;自學(xué)習(xí)和自適應(yīng)能力;泛化能力;容錯(cuò)能力根據(jù)鏈接的拓?fù)浣Y(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)模型可以分為哪兩種?()

答案:前向網(wǎng)絡(luò);反饋網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)的基本特征有()

答案:非線性;非局限性;非常定性

;非凸性

神經(jīng)網(wǎng)絡(luò)發(fā)展大致經(jīng)歷過()個(gè)階段

答案:4單個(gè)神經(jīng)元的動(dòng)作特征是()

答案:以上都是常用的訓(xùn)練方式,除了監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),還有()

答案:強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的三層感知器除了輸入層、輸出層,還有()

答案:隱層神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)()

答案:神經(jīng)元人工神經(jīng)網(wǎng)絡(luò)是模擬()進(jìn)行信息處理的一種數(shù)學(xué)模型。

答案:生物神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由大量的節(jié)點(diǎn)(或稱神經(jīng)元)之間相互聯(lián)接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定的輸出函數(shù),稱為()

答案:激勵(lì)函數(shù)學(xué)習(xí)過程由信號的正向傳播與誤差的反向傳播兩個(gè)過程組成,由于多層前饋網(wǎng)絡(luò)的訓(xùn)練經(jīng)常采用誤差反向傳播算法,因此人們將多層前饋網(wǎng)絡(luò)稱為()

答案:BPK均值可以很好的處理不同密度的數(shù)據(jù)。

答案:錯(cuò)全鏈對噪聲點(diǎn)和離群點(diǎn)很敏感。

答案:錯(cuò)組平均是一種界于()之間的折中方法。

答案:單鏈;全鏈常見的距離度量方法包括()

答案:歐氏距離;漢明距離;曼哈頓距離;切比雪夫距離以下屬于聚類算法的有()

答案:K-Means;DBSCAN()這些數(shù)據(jù)特性都是對聚類分析具有很強(qiáng)影響的。

答案:高維性;規(guī)模;稀疏性;噪聲和離群點(diǎn)BIRCH是一種()

答案:聚類算法

在基本K均值算法里,當(dāng)鄰近度函數(shù)采用()的時(shí)候,合適的質(zhì)心是簇中各點(diǎn)的中位數(shù)。

答案:曼哈頓距離簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個(gè)數(shù)據(jù)對象恰在一個(gè)子集中,這種聚類類型稱作()

答案:劃分聚類數(shù)據(jù)挖掘的經(jīng)典案例“啤酒與尿布試驗(yàn)”最主要是應(yīng)用了()數(shù)據(jù)挖掘方法。

答案:關(guān)聯(lián)規(guī)則分析相似度矩陣可以用相識度表示還可以用()表示。

答案:距離()是兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對鄰近度的平均值。

答案:組平均下列()是屬于分裂層次聚類的方法。

答案:MST/star3/origin/2b70b24b9b7a0b43153a15a469c4ee5e.png

答案:0.4,0.67下列關(guān)于層次聚類存在的問題說法正確的是()

答案:GroupAverage擅長處理球狀的簇當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?()

答案:聚類當(dāng)對一個(gè)事物認(rèn)知是確定的,這時(shí)對應(yīng)的熵值最大。

答案:錯(cuò)聚類目的是找到每個(gè)樣本潛在的類別并將同類別的樣本放在一起。

答案:對分類的目的是找到每個(gè)樣本特征到類別的對應(yīng)法則。

答案:對當(dāng)給定新的訓(xùn)練數(shù)據(jù)時(shí),這些算法重構(gòu)從先前訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到的決策樹,或從頭開始學(xué)習(xí)一棵新樹。

答案:錯(cuò)樹是否是嚴(yán)格的二叉樹由屬性選擇度量確定。

答案:對決策樹中,每個(gè)葉節(jié)點(diǎn)表示在一個(gè)屬性上的測試。

答案:錯(cuò)常見的剪枝方法有()

答案:先剪枝;后剪枝()是預(yù)測問題的兩種主要類型。

答案:分類;數(shù)值預(yù)測解決分類問題的方法包括()

答案:決策樹;貝葉斯;人工神經(jīng)網(wǎng)絡(luò);支持向量機(jī)決策樹容易轉(zhuǎn)換成()

答案:分類規(guī)則數(shù)據(jù)分類是一個(gè)兩階段過程,包括()和分類階段。

答案:學(xué)習(xí)階段我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時(shí)間,可以()

答案:減少樹的深度根據(jù)信息增益來構(gòu)造決策樹的算法是()

答案:ID3決策樹當(dāng)預(yù)定義的閾值過高時(shí),會(huì)導(dǎo)致()

答案:樹過分簡化分類作為一個(gè)兩步過程的一般方法。在第二步,我們確定該模型的(

)是否可以接受,如果可以,我們就使用該模型對新的數(shù)據(jù)進(jìn)行分類

答案:準(zhǔn)確率ID3算法在分類樹構(gòu)建中,使用哪個(gè)度量來進(jìn)行分類節(jié)點(diǎn)()

答案:信息增益以下不是分類問題的是()

答案:身高和體重關(guān)系決策樹中不包含一下哪種結(jié)點(diǎn)()

答案:外部結(jié)點(diǎn)(externalnode)數(shù)據(jù)分析原則:“如無必要,勿增實(shí)體”,即“簡單有效原理”。

答案:對回歸方程總體線性顯著性檢驗(yàn)的原假設(shè)是模型中所有的回歸參數(shù)同時(shí)為零。

答案:錯(cuò)回歸分析法即將具有相關(guān)關(guān)系的兩個(gè)變量之間的數(shù)量關(guān)系進(jìn)行測定,通過建立一個(gè)數(shù)學(xué)表達(dá)式進(jìn)行統(tǒng)計(jì)估計(jì)和預(yù)測的研究。

答案:對多元線性回歸中,可決系數(shù)R^2是評價(jià)模型擬合優(yōu)度好壞的最佳標(biāo)準(zhǔn)。

答案:錯(cuò)在多元線性回歸中,t檢驗(yàn)和F檢驗(yàn)缺一不可。

答案:對線性模型的優(yōu)點(diǎn)包括()

答案:形式簡單、易于建模;可解釋性;引入層級結(jié)構(gòu)或高維映射;線性模型中系數(shù)直觀表達(dá)了各屬性在預(yù)測中的重要性回歸分析中按照自變量和因變量的關(guān)系類型可以分為()

答案:線性回歸分析;非線性回歸分析關(guān)于經(jīng)濟(jì)計(jì)量模型進(jìn)行預(yù)測出現(xiàn)誤差的原因,正確的說法是()

答案:既有隨機(jī)因素,又有系統(tǒng)因素在多元線性回歸模型中,若某個(gè)解釋變量對其余解釋變量的判定系數(shù)接近于1,則表明模型中存在()

答案:多重共線性在由n=30的一組樣本估計(jì)的、包含3個(gè)解釋變量的線性回歸模型中,計(jì)算的多重決定系數(shù)為0.8500,則調(diào)整后的多重決定系數(shù)為()

答案:0.8327變量之間的關(guān)系可以分為兩大類()

答案:函數(shù)關(guān)系與相關(guān)關(guān)系線性判別分析是一種()的方法。

答案:降維對于回歸分析,下列說法錯(cuò)誤的是()

答案:樣本相關(guān)系數(shù)r在區(qū)間(-1,1)下列變量中,屬于負(fù)相關(guān)的是()

答案:價(jià)格下降,消費(fèi)增加下列變量之間的關(guān)系是函數(shù)關(guān)系的是()

答案:已知二次函數(shù)y=ax^2+bx+c,其中a,c是已知常數(shù),取b為自變量,因變量是這個(gè)函數(shù)的判別式⊿=b^2-4ac/star3/origin/ac30eb2ae6e9bbc23c56001a7b441343.png

答案:1,3直線回歸系數(shù)假設(shè)檢驗(yàn),其自由度為()

答案:n-2execute方法負(fù)責(zé)接收一個(gè)元組作為輸入,并且使用OutputCollector對象發(fā)送新的元組。

答案:對一個(gè)數(shù)據(jù)流指的是在分布式環(huán)境中并行創(chuàng)建、處理的一組元組(tuple)的無界序列。

答案:對Trident的核心數(shù)據(jù)模型是“流”(Stream),它與普通的拓?fù)湎嗤?/p>

答案:錯(cuò)Storm的拓?fù)涫菍?shí)時(shí)計(jì)算應(yīng)用邏輯的封裝。

答案:對Streamgrouping除了隨機(jī)分組和字段分組還有()

答案:全部分組(Allgrouping);全局分組(Globalgrouping);無分組(Nonegrouping);直接分組(Directgrouping)流數(shù)據(jù)是()系列數(shù)據(jù)項(xiàng)。

答案:連續(xù)的;無邊界的;快速的;隨時(shí)間不斷變化的Storm的JavaAPI支持的兩種自定義組件配置信息的方式是()

答案:內(nèi)置型;外置型SparkStreaming是SparkCoreAPI的擴(kuò)展,它支持()實(shí)時(shí)數(shù)據(jù)流的處理。

答案:彈性的;高吞吐的;容錯(cuò)的流式大數(shù)據(jù)處理的三種框架()

答案:Strom;Spark;Samza為了滿足不同大數(shù)據(jù)處理場景需求,當(dāng)前主流的大數(shù)據(jù)計(jì)算框架包括()

答案:Spark實(shí)時(shí)計(jì)算框架;Strom流計(jì)算框架;Giraph圖計(jì)算框架;Mapreduce離線計(jì)算框架大數(shù)據(jù)的主要特征表現(xiàn)為()

答案:商業(yè)價(jià)值高;數(shù)據(jù)類型多;處理速度快;數(shù)據(jù)容量大下面哪個(gè)操作是窄依賴()

答案:filterDataFrame和RDD最大的區(qū)別()

答案:多了schema下面哪個(gè)端口不是spark自帶服務(wù)的端口()

答案:8090

下面哪個(gè)操作肯定是寬依賴()

答案:reduceByKeySpark支持的分布式部署方式中哪個(gè)是錯(cuò)誤的()

答案:SparkonlocalSparkJob默認(rèn)的調(diào)度模式()

答案:FIFOSpark引入了一個(gè)稱為()的概念,它是不可變的、容錯(cuò)的、分布式對象集合。

答案:RDD魚眼視圖屬于焦點(diǎn)+上下文技術(shù)可視化交互方法。

答案:對科學(xué)可視化最初被稱為“科學(xué)計(jì)算之中的可視化”。

答案:對可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。

答案:錯(cuò)圖挖掘技術(shù)在社會(huì)網(wǎng)絡(luò)分析中扮演了重要的角色。

答案:對數(shù)據(jù)可視化的流程包括()

答案:問題刻畫層:概括現(xiàn)實(shí)生活中用戶遇到的問題;抽象層:抽象相應(yīng)數(shù)據(jù)類型的操作;編碼層:設(shè)計(jì)編碼和交互方法;實(shí)現(xiàn)層:實(shí)現(xiàn)算法和交互常用的高維數(shù)據(jù)可視化的數(shù)據(jù)變換的非線性方法有()

答案:ISOMAP;局部線性嵌套(LLE)常用的高維數(shù)據(jù)可視化的數(shù)據(jù)變換的線性方法有()

答案:主成分分析(PCA);多維尺度分析(MDS);非負(fù)矩陣分解(NMF)數(shù)據(jù)可視化的5個(gè)基本特征:易懂性、專業(yè)性和()

答案:必然性;多維性;片面性數(shù)據(jù)可視化可分為哪三類()

答案:科學(xué)可視化;信息可視化;可視分析學(xué)可視化技術(shù)支持計(jì)算機(jī)輔助數(shù)據(jù)認(rèn)知的三個(gè)基本階段()

答案:數(shù)據(jù)記錄和表達(dá);數(shù)據(jù)操作;數(shù)據(jù)分析下列屬于線性的降維方法有()

答案:PCA;LDA下面哪些屬于可視化高維數(shù)據(jù)技術(shù)()

答案:矩陣;平行坐標(biāo)系;星形坐標(biāo);Chernoff臉()適用于多維數(shù)據(jù),且每個(gè)維度必須可以排序。

答案:雷達(dá)圖關(guān)于正態(tài)分布,下列說法錯(cuò)誤的是()

答案:正態(tài)分布的偏度為0,峰度為1

散點(diǎn)圖矩陣通過()坐標(biāo)系中的一組點(diǎn)來展示變量之間的關(guān)系

答案:二維可視分析的運(yùn)行過程可看做是(

)的循環(huán)過程

答案:數(shù)據(jù)–>知識–>數(shù)據(jù)下列一般不用于可視化時(shí)間空間數(shù)據(jù)技術(shù)的是()

答案:餅圖下面屬于映射數(shù)據(jù)到新的空間的方法是()

答案:傅立葉變換在統(tǒng)計(jì)分析中,描述變量的數(shù)據(jù)離散程度的基本統(tǒng)計(jì)量是()

答案:標(biāo)準(zhǔn)差在SPSS中,當(dāng)需要選取出滿足某一個(gè)條件的所有個(gè)案,則使用下面的那一項(xiàng)()

答案:個(gè)案選擇在學(xué)生的一張數(shù)據(jù)表中,有平時(shí)分?jǐn)?shù)、實(shí)驗(yàn)分?jǐn)?shù)和卷面分?jǐn)?shù),如使用SPSS計(jì)算最終得分,則需要使用SPSS預(yù)處理中的()

答案:變量計(jì)算對于SPSS來說,能夠快捷找到變量數(shù)據(jù)的異常值的數(shù)據(jù)預(yù)處理方法是()

答案:排序?qū)τ赟PSS來說,下面那一項(xiàng)不包括在變量的頻數(shù)分布內(nèi)容中()

答案:均值在SPSS的數(shù)據(jù)結(jié)構(gòu)中,下面那一項(xiàng)不是“缺失數(shù)據(jù)”的定義()

答案:數(shù)據(jù)不是科學(xué)計(jì)數(shù)法通常來說,發(fā)放了900份問卷,可直接得到的有效問卷有800份,則SPSS所建立的相關(guān)數(shù)據(jù)文件中的行數(shù)為()

答案:800()

就是將多項(xiàng)指標(biāo)轉(zhuǎn)化為少數(shù)幾項(xiàng)綜合指標(biāo),用綜合指標(biāo)來解釋多變量的方差-協(xié)方差結(jié)構(gòu)。

答案:主成分分析T檢驗(yàn)的使用前提不包括()

答案:離散變量在SPSS中,下面哪一個(gè)不是SPSSStatistics的主要窗口()

答案:命令輸入窗口()是對某個(gè)變量不同取值的數(shù)量進(jìn)行統(tǒng)計(jì),以了解變量的取值情況,把握數(shù)據(jù)的分布特征。

答案:頻率分析SPSS的數(shù)據(jù)文件后綴名是()

答案:sav在數(shù)據(jù)中插入變量的操作要用到的菜單是()

答案:InsertVariableSPSSStatistics進(jìn)行數(shù)據(jù)分析的基本步驟順序是()1數(shù)據(jù)預(yù)處理2數(shù)據(jù)讀入3選擇合適的算法分析數(shù)據(jù)4查看并輸出結(jié)果

答案:2134SPSSStatistics的主要功能()

答案:以上全是一般來說,檢驗(yàn)P值低于(),就認(rèn)為差異效果是明顯的,反之則認(rèn)為差異效果不顯著。

答案:5%在SPSS的基本分析模塊中,其作為“以行列表的形式揭示數(shù)據(jù)之間的關(guān)系”的是()

答案:交叉表離散屬性總是具有有限個(gè)值。

答案:錯(cuò)如果要對數(shù)據(jù)進(jìn)行分析和挖掘信息和知識,首先需要將描述的數(shù)據(jù)特征完整地表示出來。

答案:對數(shù)據(jù)預(yù)處理方法包括()

答案:數(shù)據(jù)清理;數(shù)據(jù)變換;數(shù)據(jù)歸約遺留數(shù)據(jù)庫是將不同的數(shù)據(jù)庫系統(tǒng)組合在一起,這些數(shù)據(jù)庫可以是()。

答案:關(guān)系的;面向?qū)ο蟮?層次的;網(wǎng)狀的度量數(shù)據(jù)的離中趨勢包括()

答案:方差;極差;百分位數(shù)下列屬于不同的有序數(shù)據(jù)的有()

答案:時(shí)序數(shù)據(jù);序列數(shù)據(jù)度量數(shù)據(jù)的中心趨勢包括()

答案:算術(shù)均值;加權(quán)均值;截?cái)嗑?中位數(shù);眾數(shù);中列數(shù)以下對對象的定性描述的有()

答案:標(biāo)稱屬性;二元屬性;序數(shù)屬性五數(shù)概括用()進(jìn)行可視化

答案:盒圖()可以實(shí)現(xiàn)數(shù)據(jù)的共享和透明訪問。

答案:異構(gòu)數(shù)據(jù)庫對于()的分析往往需要將特殊的數(shù)據(jù)預(yù)處理方法與分析處理算法集成在一起進(jìn)行考慮。

答案:多媒體數(shù)據(jù)庫下面哪種數(shù)據(jù)預(yù)處理技術(shù)可以用來平滑數(shù)據(jù),消除數(shù)據(jù)噪聲?()

答案:數(shù)據(jù)清理數(shù)據(jù)歸約的目的是()

答案:得到數(shù)據(jù)集的壓縮表示HBase可以有列,可以沒有列族。

答案:錯(cuò)HBase對于空(NULL)的列,不需要占用存儲(chǔ)空間。

答案:對Hadoop支持?jǐn)?shù)據(jù)的隨機(jī)讀寫。

答案:錯(cuò)HDFS框架中的兩類節(jié)點(diǎn)是()

答案:NameNode;DataNodeHBase的主要技術(shù)特點(diǎn)有()

答案:列式存儲(chǔ);表數(shù)據(jù)是稀疏的多維映射表;讀寫的嚴(yán)格一致性;提供很高的數(shù)據(jù)讀寫速度Hadoop的三種運(yùn)行模式是()

答案:單機(jī)版;偽分布式;分布式下面對LSM結(jié)構(gòu)描述正確的有()

答案:順序存儲(chǔ);需要將數(shù)據(jù)Flush到磁盤MapReduce與HBase的關(guān)系,描述正確的有()

答案:兩者不是強(qiáng)關(guān)聯(lián)關(guān)系,沒有MapReduce,HBase可以正常運(yùn)行;MapReduce可以直接訪問HBase下面對HBase的描述哪些是正確的?()

答案:是面向列的;是分布式的;是一種NoSQL數(shù)據(jù)庫LSM-Tree的含義是()。

答案:日志結(jié)構(gòu)合并樹HBase依賴()提供強(qiáng)大的計(jì)算能力。

答案:MapReduceHBase依靠_____存儲(chǔ)底層數(shù)據(jù)。

答案:HDFS設(shè)計(jì)分布式數(shù)據(jù)倉庫hive的數(shù)據(jù)表時(shí),為取樣更高效,一般可以對表中的連續(xù)字段進(jìn)行()。

答案:分桶HBase的Region組成中,必須要有()。

答案:MemStore若不針對MapReduce編程模型中的key和value值進(jìn)行特別設(shè)置,()是MapReduce不適宜的運(yùn)算。

答案:

AverageHadoop1.0默認(rèn)的調(diào)度器策略是()

答案:先進(jìn)先出調(diào)度器下面程序負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)的是()

答案:Datanode數(shù)據(jù)取樣時(shí),除了要求抽樣時(shí)嚴(yán)把質(zhì)量關(guān)外,還要求抽樣數(shù)據(jù)必須在足夠范圍內(nèi)有代表性。

答案:對聚類是指將物理或抽象對象的集合分組成為由類似的對象組成的多個(gè)類的過程。

答案:對每個(gè)map槽就是一個(gè)線程。

答案:錯(cuò)數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù)據(jù)、預(yù)測數(shù)據(jù)等任務(wù)。

答案:對哪些是大數(shù)據(jù)分析處理評測方法關(guān)于效率方面的量度?

答案:時(shí)間復(fù)雜度;空間復(fù)雜度;吞吐率;加速比數(shù)據(jù)中的知識發(fā)現(xiàn)由以下步驟迭代序列組成是數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇和()。

答案:數(shù)據(jù)變換;數(shù)據(jù)挖掘;模式評估;知識表示大數(shù)據(jù)處理的5V特點(diǎn)分別是()和Value。

答案:Volume;Velocity;Variety;VeracityHadoop

集群可以運(yùn)行在()3個(gè)模式。

答案:單機(jī)模式;偽分布式模式;完全分布式模式大數(shù)據(jù)分析處理在效果方面的評測方法為:()

答案:準(zhǔn)確率;召回率;F值數(shù)據(jù)挖掘的預(yù)測建模任務(wù)主要包括哪幾大類問題?()

答案:分類;回歸通過數(shù)據(jù)挖掘過程所推導(dǎo)出的關(guān)系和摘要經(jīng)常被稱為()

答案:模型;模式數(shù)據(jù)挖掘的主要功能包括概念描述、趨勢分析、孤立點(diǎn)分析及()等方面。

答案:挖掘頻繁模式;分類和預(yù)測;聚類分析;偏差分析單機(jī)串行處理1G大小的URL數(shù)據(jù)需要10分鐘,Hadoop平臺(tái)并行處理只需

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論