




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、chi1.討論以下每項活動是不是是數(shù)據(jù)挖掘任務:(fgh是)(a)依照性別劃分公司的顧客。(b)依照可獲利性劃分公司的顧客。(c)計算公司的總銷售額。(d)按學生的標識號對學生數(shù)據(jù)庫排序。(e)預測擲一對骰子的結(jié)果。(f) 利用歷史記錄預測莫公司以后的股票價錢。(g)監(jiān)視病人心率的異樣轉(zhuǎn)變。(h)監(jiān)視地震活動的地震波。(i)提取聲波的頻率。(chi)數(shù)據(jù)挖掘能夠在很多數(shù)據(jù)源上進行,如關(guān)系數(shù)據(jù) 庫,空間數(shù)據(jù)庫,多媒體數(shù)據(jù)庫,文本數(shù)據(jù)庫等。(chi)數(shù)據(jù)挖掘必然能夠取得有趣的強關(guān)聯(lián)規(guī)那么。(chi)為了提高挖掘質(zhì)量,通常要進行數(shù)據(jù)預處置,包 括數(shù)據(jù)清理、集成、選擇、變換等。(ch5)發(fā)燒,上呼吸道
2、感染是(2)項集企業(yè)要成立預測模型,需預備建模數(shù)據(jù)集,以下四條描述 建模數(shù)據(jù)集正確的選項是(B ) oA數(shù)據(jù)越多越好B盡可能多的適合的數(shù)據(jù)C數(shù)據(jù)越少越好D以上三條都正確數(shù)據(jù)挖掘算法以(D )形式來組織數(shù)據(jù)。A行 B 列 C 記錄 D 表格Ch2(ch2)假定用于分析的數(shù)據(jù)包括屬性 age。數(shù)據(jù)元組中age的值如 下(按遞增序):13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70,求:1)利用按箱平均值滑膩對以上數(shù)據(jù)進行滑膩,箱的深 度
3、是3。說明你的步驟。2)利用按箱邊界值滑膩對以上數(shù)據(jù)進行滑膩,箱的深 度是3。說明你的步驟。P98 (ch3)假定大學的數(shù)據(jù)倉庫包括4個維student學生、course課程、semester學期、instructor 教JM , 2 個氣宇 count 和 avg_grade。 在最低的概念層(例如關(guān)于給定的學生、課程、學期和教師 組合),氣宇avg_grade存下學生的實際成績。為數(shù)據(jù)倉庫畫 由雪花模式圖P98 (ch3)假定數(shù)據(jù)倉庫包括 4個維date,spectator,location和game, 2個氣宇count和charge。其中,change是觀眾在給定的日期觀看節(jié)目的付費。
4、觀眾能夠是學生、成年人或老人,每類觀眾有不同的收費標準。畫由該數(shù)據(jù)倉庫的星形模式圖(ch5)數(shù)據(jù)庫有 4 個事物。設(shè) min_sup=60%,min_conf=80%TID日期購買的物品T10099/10/15K,A,D,BT20099/10/15D,A,C,E,BT30099/10/19C,A,B,ET40099/10/22B,A,Da)利用Apriori算法我由最大得頻繁項集b)列由所有強關(guān)聯(lián)規(guī)那么(帶支持度 s和置信度c)(參 P229)假定希望分析愛喝咖啡和愛喝茶得人之間得關(guān)系。搜集一組人關(guān)于飲料偏愛的信息,匯總?cè)缦拢嚎в貌缓瓤Х葏R總茶15050200不喝茶650150800匯總800
5、2001000,50% ,評估關(guān)聯(lián)規(guī)(最小支持度為2)假設(shè)支持度和置信度閾值別離為10%那么茶 咖啡。(負相關(guān))(ch5,參 P224 )有如下事務數(shù)據(jù)集。試挖掘頻繁項集。TID項1a,b2bcd3acde4ade5abc6abcd7a8abc9abd10bce結(jié)果:后綴頻繁項集ee,de,ade,ce,aedd,cd,bcd,acd,bd,abd,adcc,bc,abcacbbabaa(ch5,參 P256,17 )假定有一個購物籃數(shù)據(jù)集,包括100個事務和20個項。若是項a的支持度為25%,項b得支持度為90%,且項集ab 得支持度為20% o令最小支持度閾值和最小置信度閾值別 離為10%
6、和60% 。1)計算關(guān)聯(lián)a b的置信度。依照置信度氣宇,這 條規(guī)那么是有趣的么?(這條規(guī)那么是不是是強關(guān)聯(lián)規(guī)那 么? ) (80%,是)2) a b 是不是有趣?(負相關(guān),無趣)11.求生下表的強關(guān)聯(lián)規(guī)那么(ch5)IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbread(ch6)下表給由某門課程假設(shè)干學生期中和期末考試成績期中 72 50 81 74 94 86 59 83 65 33 88 81期末 84 63 77 78 90 75 49
7、 79 77 52 74 90繪數(shù)據(jù)圖。X和Y看上去具有線性聯(lián)系嗎?(ch6)下表是對是不是購買運算機的調(diào)查表,請依照 ID3算法畫 由是不是購買運算機的決策樹。計數(shù)年齡收入學生信譽歸類:買計算機?64青高否良不買64青高否優(yōu)不買128中高否良買60老中否良買164老低是買64老低是優(yōu)不買64中低是優(yōu)買128青中否良不買64青低是良買132老中是良買64青中是優(yōu)買32中中否優(yōu)買J32中高是良買63老中否優(yōu)不買1老中否優(yōu)買(參 P94)TID有房婚姻狀況年收入拖欠貸款1是單身125K否2否已婚100K否3否單身70K否4是已婚120K否5否離異95K是6否已婚60K否7是離異220K否8否單身8
8、5K是9否已婚75K否10否單身90K是一客戶信息如下:X=(有房=否,婚姻狀況=已婚,年收入=120K) TOC o 1-5 h z 用貝葉斯分類法,預測記錄的拖欠貸款類別。(否)可能的分裂年收入嫡點6065707580859095100110120125220原數(shù)據(jù)集合修正為:TID有房婚姻狀況年收入拖欠貸款1是單身125K(否2否已婚100K(否3否單身70K(否5否離異95K(=是6否已婚60K(8否單身85K(=是9否已婚75K(=否10否單身90K(P(y=0|x=1)因止匕,隊1可能取勝。20. (ch6,參 P195, 8)考慮以下數(shù)據(jù)集:實例ABC類1001-2101+301
9、0-4100-5101+6001+7110-8000-9010+10111+1)估量條件概率 P(A=1|+), P(B=1|+), P(C=1|+), P(A=1|-),P(B=1|-), P(C=1|-),2)依照1)中的條件概率,利用樸素貝葉斯分類方式預測測試樣本(A=1,B=1,C=1 )得類標號。(+ )3)比較P(A=1),P(B=1)和P(A=1,B=1),陳述 AB之間的關(guān)系。(獨立)14、 (ch7)假設(shè)數(shù)據(jù)集D含有9個數(shù)據(jù)對象(用2維空間的點表示):A1(3,2), A2(3,9), A3(8,6), B1(9,5), B2(2,4), B3(3,10), C1(2,6),
10、C2(9,6), C3(2,2)采納k-均值方式進行聚類,距離函數(shù)采納歐幾里德距離,取k=3,假設(shè)初始的三個簇質(zhì)心為A1,B1,和C1,求:(1)第一次循環(huán)終止時的三個簇的質(zhì)心。(2)最后求得的三個簇。A2A3B2B3C2C3A1V49V41V 564521B1V52V25074158C1V10V364V1749V16第一次循環(huán)終止時:(A1,C3)質(zhì)心為(,2)或(3, 2)(B1,A3,C2),質(zhì)心為:,或(9, 6)第二次循環(huán)A1 A23,20,49V9,6,45V3,7,25第二次循環(huán)終止時:(C1,A2,B2,B3 ),質(zhì)心為:平方誤差E=28A3 B1 B2 B3VV41V45V6
11、4V 1165VV26 V40 V9(A1,B2,C3)質(zhì)心為(,)(,)或(3, 8)C1C2C3V17V5214906523726或(2, 3)(A3,B1, C2),質(zhì)心為:或(9, 6)(A2, B3 ,C1 ),質(zhì)心為:(,)或(3, 7)平方誤差E=21第三次循環(huán)A1 A2 A32,3 V2 V37 V45V9,6451V3,7426C1 C2 C395814906523737第三次循環(huán)終止時:(A1,B2,C3)質(zhì)心為(,)或(2, 3)不變(A3,B1, C2),質(zhì)心為:,或(9, 6)不變(A2, B3 ,C1 ),質(zhì)心為:(,)或(3, 7) 不變平方誤差E=21不變. (
12、ch7)已知四個點的坐標如下:點X坐標Y坐標P102P220P331P451其歐幾里德距離矩陣:P1P2P3P4P10P20P30P420試進行單鏈、全鏈聚類,并畫由樹形圖答案:單鏈:P1P2, p3P4P10P2, p30P420P1P2,p3,p4P10P2,p3,p40P2,p3P2,P3,P4p2,p2,p4,p1全鏈:第一步同單鏈P1P2, p3P4P10P2, p30P40P2,p3P2,P3,P4p2,p2,p4,p1或:P2,p3P2,P3,P1p2,p2,p1,p4.請將以下屬性分類:(ch7)1)用AM和PM表示的時刻(序數(shù)變量) 2)按度測由得0和360之間的角度(區(qū)間標度變量)3)奧運會上授予得銅牌、銀牌和金牌(序數(shù))4)學生的性別(二元)5)用如下值表示得透光能力:不透明、半透明、透明(序 數(shù))6)外衣寄放號碼(當你由席一個活動時,你常常能夠?qū)⒛?的外衣交給某個人,然后他給你一個號碼,你能夠在離開時 來?。x)17.計算下表表示的混淆矩陣得嫡和純度簇娛樂財經(jīng)國外都市國內(nèi)體育合計#1110114676693#22789333827253331562#3326465810516299
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年事業(yè)單位員工續(xù)簽合同管理范本
- 2025年中外合資合同編制手冊
- 2025年標準設(shè)計與施工一體化合同
- 2025年企業(yè)級軟件定制開發(fā)外包合同
- 2025年網(wǎng)絡托管數(shù)據(jù)中心合同模板
- 2025年全球金融交易合規(guī)合同
- 2025年供應商服務合同協(xié)議
- 2025年單位無息借款合同樣本
- 2025年企業(yè)融資咨詢服務合同案例
- 2025年停止保安服務合同
- Unit 4 Time to celebrate 教學設(shè)計-2024-2025學年外研版英語七年級上冊
- 健康檔案模板
- 筋膜刀的臨床應用
- DB32-T 4790-2024建筑施工特種作業(yè)人員安全操作技能考核標準
- 2022年安徽阜陽太和縣人民醫(yī)院本科及以上學歷招聘筆試歷年典型考題及考點剖析附帶答案詳解
- 2024-2030年中國反芻動物飼料行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 護理團體標準解讀-成人氧氣吸入療法護理
- 幼兒園大班《識字卡》課件
- 2024-2030全球與中國寵物醫(yī)院市場現(xiàn)狀及未來發(fā)展趨勢
- 《研學旅行課程設(shè)計》課件-2認識研學旅行的參與方
- 安全警示教育的會議記錄內(nèi)容
評論
0/150
提交評論