


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、一、選擇填空.數(shù)據(jù)倉庫的特點(diǎn)分別是 面向主題、集成、相對穩(wěn)定、反映歷史變化。、 粒度是對數(shù)據(jù)倉庫中數(shù)據(jù)的綜合程度高低的一個衡量。粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類越多。維度可以根據(jù)其變化快慢分為元變化維度、緩慢變化維度和劇烈變化維度三類。 連續(xù)型屬性的數(shù)據(jù)樣本之間的距離有歐氏距離、曼哈頓距離和明考斯基距離。在數(shù)據(jù)挖掘的分析方法中,直接數(shù)據(jù)挖掘包括(ACD )A分類 B 關(guān)聯(lián) C 估值 D 預(yù)言數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程中,ETL軟件的主要功能包括(ABC)A數(shù)據(jù)抽取 B 數(shù)據(jù)轉(zhuǎn)換 C 數(shù)據(jù)加載 D 數(shù)據(jù)稽核數(shù)據(jù)分類的評價準(zhǔn)則包括(ABCD )A精確度 B 查全率和查準(zhǔn)率 C F
2、-Measure D幾何均值層次聚類方法包括(BC )A劃分聚類方法B凝聚型層次聚類方法 C分解型層次聚類方法 D基于密 度聚類方法貝葉斯網(wǎng)絡(luò)由兩部分組成,分別是(A D )A網(wǎng)絡(luò)結(jié)構(gòu) B 先驗(yàn)概率 C后驗(yàn)概率 D 條件概率表置信度(confidence)是衡量興趣度度量(A )的指標(biāo)。A、簡潔性B、確定性C、實(shí)用性D新穎性關(guān)于OLAF和OLTP的區(qū)別描述,不正確的是:(C)A. OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.B. 與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù).C. OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高.D. O
3、LAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP-樣均來自底層的數(shù) 據(jù)庫系統(tǒng),兩者面對的用戶是相同的簡單地將數(shù)據(jù)對象集劃分成不重疊的子集,使得每個數(shù)據(jù)對象恰在一個子集中, 這種聚類類型稱作(B )A、層次聚類 B 、劃分聚類 C 、非互斥聚類 D 、模糊聚類將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個步驟的任務(wù)? (C) A.頻繁模式挖掘 B. 分類和預(yù)測 C. 數(shù)據(jù)預(yù)處理 D. 數(shù)據(jù)流 挖掘?yàn)閿?shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?(B)A.探索性數(shù)據(jù)分析B. 建模描述C.預(yù)測建模D.尋找模式和規(guī)則6. 在數(shù)據(jù)挖掘的分析方法中,直接數(shù)據(jù)挖掘包括
4、( ACD ) A分類 B 關(guān)聯(lián) C 估值 D 預(yù)言7. 數(shù)據(jù)倉庫的數(shù)據(jù)ETL過程中,ETL軟件的主要功能包括(ABC)A數(shù)據(jù)抽取 B 數(shù)據(jù)轉(zhuǎn)換 C 數(shù)據(jù)加載 D 數(shù)據(jù)稽核8. 數(shù)據(jù)分類的評價準(zhǔn)則包括(ABCDA精確度 B 查全率和查準(zhǔn)率 C F-Measure D幾何均值9. 層次聚類方法包括( BC )A 劃分聚類方法 B 凝聚型層次聚類方法 C 分解型層次聚類方法 D 基于密 度聚類方法10. 貝葉斯網(wǎng)絡(luò)由兩部分組成,分別是( A D )A 網(wǎng)絡(luò)結(jié)構(gòu) B 先驗(yàn)概率 C 后驗(yàn)概率 D 條件概率表二、判斷題1. 數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)則,從而能更好的完成描述數(shù) 據(jù)、預(yù)測數(shù)據(jù)
5、等任務(wù)。 ( 對)2. 數(shù)據(jù)挖掘的目標(biāo)不在于數(shù)據(jù)采集策略,而在于對于已經(jīng)存在的數(shù)據(jù)進(jìn)行模式 的發(fā)掘。(對) 3. 圖挖掘技術(shù)在社會網(wǎng)絡(luò)分析中扮演了重要的角色。 (對)4. 模式為對數(shù)據(jù)集的全局性總結(jié),它對整個測量空間的每一點(diǎn)做出描述;模型 則對變量變化空間的一個有限區(qū)域做出描述。 (錯)5. 尋找模式和規(guī)則主要是對數(shù)據(jù)進(jìn)行干擾,使其符合某種規(guī)則以及模式。 (錯)6. 離群點(diǎn)可以是合法的數(shù)據(jù)對象或者值。(對)7. 離散屬性總是具有有限個值。(錯)8. 噪聲和偽像是數(shù)據(jù)錯誤這一相同表述的兩種叫法。 (錯)9. 用于分類的離散化方法之間的根本區(qū)別在于是否使用類信息。 (對)10. 特征提取技術(shù)并不依
6、賴于特定的領(lǐng)域。 (錯)11. 序列數(shù)據(jù)沒有時間戳。 (對)12. 定量屬性可以是整數(shù)值或者是連續(xù)值。 (對)13. 可視化技術(shù)對于分析的數(shù)據(jù)類型通常不是專用性的。 (錯)14. DSS 主要是基于數(shù)據(jù)倉庫 . 聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的應(yīng)用。 (對)15. OLAP 技術(shù)側(cè)重于把數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換成輔助決策信息,是繼 數(shù)據(jù)庫技術(shù)發(fā)展之后迅猛發(fā)展起來的一種新技術(shù)。 (對)16. 商業(yè)智能系統(tǒng)與一般交易系統(tǒng)之間在系統(tǒng)設(shè)計(jì)上的主要區(qū)別在于: 后者把結(jié) 構(gòu)強(qiáng)加于商務(wù)之上, 一旦系統(tǒng)設(shè)計(jì)完畢, 其程序和規(guī)則不會輕易改變; 而前者則 是一個學(xué)習(xí)型系統(tǒng),能自動適應(yīng)商務(wù)不斷變化的要求。 (對)1
7、7. 數(shù)據(jù)倉庫中間層OLAP服務(wù)器只能采用關(guān)系型 OLAP(錯)18數(shù)據(jù)倉庫系統(tǒng)的組成部分包括數(shù)據(jù)倉庫,倉庫管理,數(shù)據(jù)抽取,分析工具等 四個部分 . ( 錯)19. Web 數(shù)據(jù)挖掘是通過數(shù)據(jù)庫仲的一些屬性來預(yù)測另一個屬性 , 它在驗(yàn)證用戶 提出的假設(shè)過程中提取信息 .(錯)21. 關(guān)聯(lián)規(guī)則挖掘過程是發(fā)現(xiàn)滿足最小支持度的所有項(xiàng)集代表的規(guī)則。 (錯)22. 利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時需要探查的候選項(xiàng)個數(shù)(對) 。23. 先驗(yàn)原理可以表述為: 如果一個項(xiàng)集是頻繁的, 那包含它的所有項(xiàng)集也是頻 繁的。(錯24. 如果規(guī)則 不滿足置信度閾值, 則形如 的規(guī)則一定也不滿足置信度閾值, 其 中
8、 是 X 的子集。(對)25. 具有較高的支持度的項(xiàng)集具有較高的置信度。 (錯)26. 聚類( clustering )是這樣的過程: 它找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型( 或函數(shù) ) ,以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。 (錯)27. 分類和回歸都可用于預(yù)測, 分類的輸出是離散的類別值, 而回歸的輸出是連 續(xù)數(shù)值。 ( 對)28. 對于SV附類算法,待分樣本集中的大部分樣本不是支持向量, 移去或者減少這些樣本對分類結(jié)果沒有影響。(對)29. Bayes法是一種在已知后驗(yàn)概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。(錯)30. 分類模型的誤差大致分
9、為兩種:訓(xùn)練誤差(training error)和泛化誤差(generalization error).( 對)31. 在決策樹中,隨著樹中結(jié)點(diǎn)數(shù)變得太大,即使模型的訓(xùn)練誤差還在繼續(xù)減低,但是檢驗(yàn)誤差開始增大,這是出現(xiàn)了模型擬合不足的問題。(錯)32. SVM是這樣一個分類器,他尋找具有最小邊緣的超平面,因此它也經(jīng)常被稱為最小邊緣分類器( minimal margin classifier )( 錯)33. 在聚類分析當(dāng)中,簇內(nèi)的相似性越大,簇間的差別越大,聚類的效果就越差。 (錯34. 聚類分析可以看作是一種非監(jiān)督的分類。(對)35. K均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個數(shù)由
10、算法自動地 確定。(錯36. 給定由兩次運(yùn)行K均值產(chǎn)生的兩個不同的簇集,誤差的平方和最大的那個應(yīng) 該被視為較優(yōu)。(錯37. 基于鄰近度的離群點(diǎn)檢測方法不能處理具有不同密度區(qū)域的數(shù)據(jù)集。(對)38. 如果一個對象不強(qiáng)屬于任何簇,那么該對象是基于聚類的離群點(diǎn)。(對)39. 從點(diǎn)作為個體簇開始,每一步合并兩個最接近的簇,這是一種分裂的層次聚 類方法。(錯)40. DBSCA是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。(對)三、計(jì)算題1. 一個食品連鎖店每周的事務(wù)記錄如下表所示,其中每一條事務(wù)表示在一項(xiàng)收款機(jī)業(yè)務(wù)中賣出的項(xiàng)目,假定 supmin=40% conf min=40%使用AprioN 算
11、法計(jì)算生成的關(guān)聯(lián)規(guī)則,標(biāo)明每趟數(shù)據(jù)庫掃描時的候選集和大項(xiàng)目集。(15分)事務(wù)項(xiàng)目事務(wù)項(xiàng)目T1面包、果凍、花生醬T4啤酒、面包T2面包、花生醬T5啤酒、牛奶T3面包、牛奶、花生醬解:(1)由1=面包、果凍、花生醬、牛奶、啤酒的所有項(xiàng)目直接產(chǎn)生1-候選G,計(jì)算其支持度,取出支持度小于 supmin的項(xiàng)集,形成1-頻繁集L1,如下表所示:項(xiàng)集C1支持度項(xiàng)集L1支持度面包4/5面包4/5花生醬3/5花生醬3/5牛奶2/5牛奶2/5啤酒2/5啤酒2/5所以,con fide nee(面包 -花生醬)=(4/5 ) / (3/5 ) =4/3 confmin(2)組合連接Li中的各項(xiàng)目,產(chǎn)生2-候選集C2
12、,計(jì)算其支持度,取出支持度小于supmin的項(xiàng)集,形成2-頻繁集L2,如下表所示:項(xiàng)集C2支持度項(xiàng)集L2支持度面包、花生醬3/5面包、花生醬3/5至此,所有頻繁集都被找到,算法結(jié)束,con fide nee (花生醬 面包) = (3/5 ) / (4/5 ) =3/4 conf min所以,關(guān)聯(lián)規(guī)則面包花生醬、花生醬 面包均是強(qiáng)關(guān)聯(lián)規(guī)則2. 給定以下數(shù)據(jù)集(2,4,10,12,15,3,21),進(jìn)行K-Means聚類,設(shè)定聚 類數(shù)為2個,相似度按照歐式距離計(jì)算。(15分)解:(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個數(shù)據(jù)樣本作為聚類的出示代表點(diǎn),每一個代表點(diǎn)表示一個類別,由題可知 k=2,則可設(shè)m仁2
13、 m2=4(2) 對于X中的任意數(shù)據(jù)樣本xm (1xmtotal ),計(jì)算它與k個初始代表點(diǎn)的 距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中:當(dāng) m仁2時,樣 本(2,4, 10,12, 15, 3, 21)距離該代表點(diǎn)的距離分別為 2, 8, 10,13, 1,19。當(dāng)m2=4時,樣本(2 , 4, 10, 12, 15, 3, 21)距離該代表點(diǎn)的距離分別為-2 , 6, 8, 11, -1 , 17。最小距離是1或者-1將該元素放入m仁2的聚類中,則該聚類為(2, 3),另一 個聚類 口2=4為(4, 10, 12, 15, 21)。(3) 完成數(shù)據(jù)樣本的劃分之后,對于每一個聚
14、類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的新的代表點(diǎn),由此得到k個均值代表點(diǎn):m仁2.5,m2=12(4) 對于X中的任意數(shù)據(jù)樣本xm (1xmtotal ),計(jì)算它與k個初始代表點(diǎn)的 距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中:當(dāng) m1=2.5 時, 樣本(2 ,4,10,12,15,3,21)距離該代表點(diǎn)的距離分別為 -0.5 ,0.5 ,1.5 , 7.5 ,9.5 ,12.5 ,18.5 。當(dāng)m2=12時,樣本(2 ,4, 10, 12, 15, 3, 21)距離該代表點(diǎn)的距離分別為-10, -9 , -8 , 2, 3, 9。最小距離是1.5將該元素放入m1=2
15、.5的聚類中,則該聚類為(2, 3, 4),另一 個聚類 口2=12為(10, 12, 15, 21)。(5)完成數(shù)據(jù)樣本的劃分之后,對于每一個聚類,計(jì)算其中所有數(shù)據(jù)樣本的均 值,并且將其作為該聚類的新的代表點(diǎn),由此得到 k 個均值代表點(diǎn): m1=3, m2=14.5:(6) 對于X中的任意數(shù)據(jù)樣本xm (1xm0=0=P(X|senior)P(senior);所以:樸素貝葉斯分類器將 X 分到 junior 類。 解二:設(shè)元組的各屬性之間不獨(dú)立,其聯(lián)合概率不能寫成份量相乘的形式。所以已知:X=(department=system,age=26 30,salary=46K 50K),元組總數(shù)
16、為: 30+40+40+20+5+3+3+10+4+4+6=16。5 先驗(yàn)概率:當(dāng) status=senior 時,元組總數(shù)為: 30+5+3+10+4=52, P(senior)=52/165=0.32;當(dāng) status=junior 時 , 元 組 總 數(shù) 為 : 40+40+20+3+4+6=113 , P(junior)=113/165=0.68;因?yàn)閟tatus=senior 狀態(tài)沒有對應(yīng)的age=2630區(qū)間,所以:P(X|senior)=0 ; 因?yàn)?status=junior 狀態(tài)對應(yīng)的 partment=systems、age=2630 區(qū)間的總元 組數(shù)為: 3,所以: P(
17、X|junior)=3/113;因 為 : P(X|ju ni or)P(ju nior)=3/113X 113/165=0.0180=P(X|senior)P(senior) ;所以:樸素貝葉斯分類器將 X 分到 junior 類。四、簡答論述題 三種規(guī)范化方法:(1) 最小最大規(guī)范化( min-max 規(guī)范化):對原始數(shù)據(jù)進(jìn)行線性變換,將原始 數(shù)據(jù)映射到一個指定的區(qū)間。(2) z-score 規(guī)范化(零均值規(guī)范化) :將某組數(shù)據(jù)的值基于它的均值和標(biāo)準(zhǔn)差 規(guī)范化,是其規(guī)范化后的均值為 0 方差為 1。, 其中 是均值, 是標(biāo)準(zhǔn)差(3) 小數(shù)定標(biāo)規(guī)范化:通過移動屬性 A 的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化
18、。k-means 聚類算法基本原理 :將各個聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚 類的代表點(diǎn), 算法的主要思想是通過迭代過程把數(shù)據(jù)劃分為不同的類別, 使得評 價聚集類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu), 從而使生成的每個聚集類的緊湊, 類間獨(dú)立。 操作步驟:輸入:數(shù)據(jù)集 , 其中的數(shù)據(jù)樣本只包含描述屬性,不包含類別屬性。聚類個數(shù) K 輸出:(1)從數(shù)據(jù)集X中隨機(jī)地選擇k個數(shù)據(jù)樣本作為聚類的出示代表點(diǎn),每一個代 表點(diǎn)表示一個類別( 2)對于 X 中的任意數(shù)據(jù)樣本 xm( 1xmtotal ),計(jì)算它與 k 個初始代表點(diǎn)的 距離,并且將它劃分到距離最近的初始代表點(diǎn)所表示的類別中(3) 完成數(shù)據(jù)樣本的劃分之后
19、,對于每一個聚類,計(jì)算其中所有數(shù)據(jù)樣本的均值,并且將其作為該聚類的新的代表點(diǎn),由此得到 k個均值代表點(diǎn)( 4)對于 X 中的任意數(shù)據(jù)樣本 xm( 1xmtotal ),計(jì)算它與 k 個均值代表點(diǎn)的距離,并且將它劃分到距離最近的均值代表點(diǎn)所表示的類別中( 5)重復(fù) 3.4 ,直到各個聚類不再發(fā)生變化為止。即誤差平方和準(zhǔn)則函數(shù)的值 達(dá)到最優(yōu)1、數(shù)據(jù)倉庫的組成? P2 數(shù)據(jù)倉庫數(shù)據(jù)庫,數(shù)據(jù)抽取工具,元數(shù)據(jù),訪問工具,數(shù)據(jù)集市,數(shù)據(jù)倉庫管理,信息發(fā)布系統(tǒng)2、數(shù)據(jù)挖掘技術(shù)對聚類分析的要求有哪幾個方面? P131 可伸縮性;處理不同類型屬性的能力;發(fā)現(xiàn)任意形狀聚類的能力;減小對先驗(yàn)知識和用戶自定義參數(shù)的依
20、賴性;處理噪聲數(shù)據(jù)的能力;可解釋性和實(shí)用性3、數(shù)據(jù)倉庫在存儲和管理方面的特點(diǎn)與關(guān)鍵技術(shù)? P7 數(shù)據(jù)倉庫面對的是大量數(shù)據(jù)的存儲與管理并行處理針對決策支持查詢的優(yōu)化支持多維分析的查詢模式4、常見的聚類算法可以分為幾類? P132基于劃分的聚類算法, 基于層次的聚類算法, 基于密度的聚類算法, 基于網(wǎng)格的 聚類算法,基于模型的聚類算法 等。5、一個典型的數(shù)據(jù)倉庫系統(tǒng)的組成? P12數(shù)據(jù)源、數(shù)據(jù)存儲與管理、OLAP服務(wù)器、前端工具與應(yīng)用6、數(shù)據(jù)倉庫常見的存儲優(yōu)化方法? P71 表的歸并與簇文件;反向規(guī)范化,引入冗余;表的物理分割。7、數(shù)據(jù)倉庫發(fā)展演變的5個階段? P20以報(bào)表為主以分析為主以預(yù)測模型
21、為主以運(yùn)行向?qū)橹饕詫?shí)時數(shù)據(jù)倉庫、自動決策應(yīng)用為主8、ID3算法主要存在的缺點(diǎn)? P116(1)ID3算法在選擇根結(jié)點(diǎn)和各內(nèi)部結(jié)點(diǎn)中的分枝屬性時,使用信息增益作為 評價標(biāo)準(zhǔn)。信息增益的缺點(diǎn)是傾向于選擇取值較多的屬性,在有些情況下這類屬 性可能不會提供太多有價值的信息。(2)ID3算法只能對描述屬性為離散型屬性的數(shù)據(jù)集構(gòu)造決策樹。9、 簡述數(shù)據(jù)倉庫ETL軟件的主要功能和對產(chǎn)生數(shù)據(jù)的目標(biāo)要求。P30 ETL軟件的主要功能:數(shù)據(jù)的抽取,數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的加載對產(chǎn)生數(shù)據(jù)的目標(biāo)要求: 詳細(xì)的、歷史的、規(guī)范化的、可理解的、即時的、質(zhì)量可控制的10、簡述分類器設(shè)計(jì)階段包含的3個過程。劃分?jǐn)?shù)據(jù)集,分類器構(gòu)造,
22、分類器測試11、什么是數(shù)據(jù)清洗?數(shù)據(jù)清洗是一種使用模式識別和其他技術(shù),在將原始數(shù)據(jù)轉(zhuǎn)換和移到數(shù)據(jù)倉庫之 前來升級原始數(shù)據(jù)質(zhì)量的技術(shù)。13、 利用信息包圖設(shè)計(jì)數(shù)據(jù)倉庫概念模型需要確定的三方面內(nèi)容。P57確定指標(biāo),確定維度,確定類別14、K-近鄰分類方法的操作步驟(包括算法的輸入和輸出)。P128輸Ai訓(xùn)練集皿 未知類標(biāo)號臓辭本滬(wh *輸出未知美標(biāo)號臓蹄機(jī)濮標(biāo)號,(1)對于未知類標(biāo)號的數(shù)辭本益按照下式計(jì)算它弓訓(xùn)練集也中每一個數(shù)d(v:i)匸廠附) 2二 totals(2)S(l)步中的儷氏距匡按照由小到大的順序耐展芥且取前k 個距匪從而找出x在沐中的k個近鄰,他設(shè)分別是k個近 輜懈于類別 Ci
23、j c:t rj C我樣本數(shù)氫“(3)如果p嚴(yán)azp, i二則汕類標(biāo)號為m SP xEc(b 15、什么是技術(shù)元數(shù)據(jù),主要包含的內(nèi)容?P29技術(shù)元數(shù)據(jù)是描述關(guān)于數(shù)據(jù)倉庫技術(shù)細(xì)節(jié)的數(shù)據(jù),應(yīng)用于開發(fā)、管理和維護(hù)Dvy包含:DW結(jié)構(gòu)的描述,如DW的模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,數(shù)據(jù) 集市的位置和內(nèi)容等業(yè)務(wù)系統(tǒng)、DW和數(shù)據(jù)集市的體系結(jié)構(gòu)和模式匯總算法。包括度量和維定義算法,數(shù)據(jù)粒度、主題領(lǐng)域、聚合、匯總和預(yù) 定義的查詢和報(bào)告。由操作型業(yè)務(wù)環(huán)境到數(shù)據(jù)倉庫業(yè)務(wù)環(huán)境的映射。包括源數(shù)據(jù)和他們的內(nèi)容、數(shù)據(jù)分割、數(shù)據(jù)提取、清洗、轉(zhuǎn)換規(guī)則和數(shù)據(jù)刷新規(guī)則及安全(用戶授權(quán)和存取 控制)16、業(yè)務(wù)元數(shù)據(jù)主要包
24、含的內(nèi)容? P29業(yè)務(wù)元數(shù)據(jù):從業(yè)務(wù)角度描述了 DW中的數(shù)據(jù),提供了介于使用者和實(shí)際系 統(tǒng)之間的語義層,主要包括:使用者的業(yè)務(wù)屬于所表達(dá)的數(shù)據(jù)模型、對象名和屬性名訪問數(shù)據(jù)的原則和數(shù)據(jù)的來源系統(tǒng)提供的分析方法及公式和報(bào)表的信息。18、 數(shù)據(jù)從集結(jié)區(qū)加載到數(shù)據(jù)倉庫中的主要方法?P36SQL命令(如 Insert 或 Update)由DW供應(yīng)商或第三方提供專門的加載工具由DW管理員編寫自定義程序19、多維數(shù)據(jù)模型中的基本概念:維,維類別,維屬性,粒度 P37維:人們觀察數(shù)據(jù)的特定角度,是考慮問題的一類屬性,如時間 維或產(chǎn)品維維類別:也稱維分層。即同一維度還可以存在細(xì)節(jié)程度不同的各個 類別屬性(如時間
25、維包括年、季度、月等)維屬性:是維的一個取值,是數(shù)據(jù)線在某維中位置的描述。 粒度:DW中數(shù)據(jù)綜合程度高低的一個衡量。粒度低,細(xì)節(jié)程度高, 回答查詢的種類多20、Apriori算法的基本操作步驟P93Apriori使用一種稱作逐層搜索的迭代方法,K項(xiàng)集用于探索K+1項(xiàng)集。 該方法是基于候選的策略,降低候選數(shù)Apriori剪枝原則:若任何項(xiàng)集是非頻繁的,則其超集必然是非頻繁的(不 用產(chǎn)生和測試超集)該原則基于以下支持度的特性:_X,Y:(X -Y)二 s(X) _ s(Y)項(xiàng)集的支持度不會超過其子集 支持度的反單調(diào)特性(anti-monotone ):如果一個集合不能通過測 試,則它的所有超集也都不能通過相同的測試。令k=1產(chǎn)生長度為1的頻繁項(xiàng)集循環(huán),直到無新的頻繁項(xiàng)集產(chǎn)生從長度為k的頻繁項(xiàng)集產(chǎn)生長度為k+1的候選頻繁項(xiàng)集 連接步:項(xiàng)集的各項(xiàng)排序,前k-1個項(xiàng)相同若候選頻繁子集包含長度為k的非頻繁子集,則剪枝 剪枝步:利用支持度屬性原則掃描數(shù)據(jù)庫,計(jì)算每個候選頻繁集的支持度 刪除非頻繁項(xiàng),保留頻繁項(xiàng)定義下列數(shù)據(jù)挖掘功能:特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測聚 類和演變分析。使用你熟悉的現(xiàn)實(shí)生活的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)庫性能優(yōu)化常見方法試題及答案
- 行政管理復(fù)習(xí)要點(diǎn)與總結(jié):試題及答案
- 校招開放性題庫及答案
- 網(wǎng)絡(luò)資源管理試題及答案
- 自動化測試工具與技術(shù)試題及答案
- 校招筆試題目及答案
- 計(jì)算機(jī)二級VB考試的復(fù)習(xí)策略及試題與答案
- 校招:市場營銷專員面試題庫及答案
- 風(fēng)險(xiǎn)文化在公司治理中的意義試題及答案
- 2025年軟件設(shè)計(jì)師考試制定計(jì)劃試題及答案
- 分子氣動力學(xué)及氣體流動的直接模擬
- 30題南京天加貿(mào)易供應(yīng)鏈管理崗位常見面試問題含HR問題考察點(diǎn)及參考回答
- 量子芯片集成
- 大面積腦梗死護(hù)理查房
- 20道中國人民財(cái)產(chǎn)保險(xiǎn)股份有限公司保險(xiǎn)理賠員崗位常見面試問題含HR常問問題考察點(diǎn)及參考回答
- 小學(xué)一年級家長會課件_
- 審計(jì)資料交接清單
- 勞動仲裁證據(jù)材料目錄清單范本
- 長螺旋引孔技術(shù)交底
- 應(yīng)用電化學(xué)習(xí)題及答案
- 突發(fā)環(huán)境事件應(yīng)急預(yù)案回顧性評估報(bào)告
評論
0/150
提交評論