




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、習(xí)題-2:數(shù)據(jù)(或?qū)傩裕┑念愋陀心膸追N?怎樣區(qū)分這些類型?每種類型舉一個(gè)例子。標(biāo)稱屬性的值只提供足夠的信息以_區(qū)分_對(duì)象. 序數(shù)屬性的值提供足夠的信息確定對(duì)象的_序_. 對(duì)于比率屬性的值,進(jìn)行_差_和_比率_操作都是有意義的. 攝氏溫度、年齡、質(zhì)量、長(zhǎng)度、基因表達(dá)量、一號(hào)染色體的基因起始位置,它們分別屬于什么數(shù)據(jù)類型。數(shù)據(jù)集的類型主要有幾類?每種類型又包含哪些具體的數(shù)據(jù)集子類型。數(shù)據(jù)矩陣是一種特殊的記錄數(shù)據(jù)類型。與記錄數(shù)據(jù)類型相比,特殊在哪里?目前有100多個(gè)代謝通路,如葡萄糖代謝、嘌呤代謝等,那么葡萄糖代謝屬于帶有對(duì)象之間聯(lián)系的數(shù)據(jù)還是具有圖形對(duì)象的數(shù)據(jù)?如下是酵母細(xì)胞在多個(gè)時(shí)間點(diǎn)上的全基因
2、組表達(dá)情況。該數(shù)據(jù)集屬于哪種具體的數(shù)據(jù)集類型?這種數(shù)據(jù)有什么特點(diǎn)。噪聲和離群點(diǎn)的區(qū)別?產(chǎn)生遺漏值的原因有哪些?怎樣處理遺漏值?數(shù)據(jù)預(yù)處理主要有什么方法?聚集的主要目的有:數(shù)據(jù)歸約、使數(shù)據(jù)性質(zhì)更加穩(wěn)定、_。(判斷對(duì)錯(cuò)?。㎡MIM數(shù)據(jù)庫(kù)中每個(gè)疾病已知的疾病基因很少,因此難以利用他們來(lái)識(shí)別相應(yīng)的通路。為此我們可以利用特征選擇的方法把疾病亞類匯集起來(lái),如肝移植、腎移植、等疾病,稱為器官移植疾病。然后得到較多的基因,再進(jìn)行識(shí)別通路。(錯(cuò),聚集的方法)統(tǒng)計(jì)學(xué)使用抽樣是因?yàn)開(kāi)獲得_(獲得、處理)感興趣的整個(gè)數(shù)據(jù)集的費(fèi)用太高、太費(fèi)時(shí)間。數(shù)據(jù)挖掘使用抽樣是因?yàn)開(kāi)處理_(獲得、處理)所有的數(shù)據(jù)的費(fèi)用太高、太費(fèi)時(shí)間
3、。已知人類基因有2萬(wàn)個(gè),我們檢測(cè)了所有1000疾病基因?qū)υ谕分械木嚯x,結(jié)果發(fā)現(xiàn)它們的平均距離(d)很小。但我們不確定這種現(xiàn)象是否是疾病基因特有的。試?yán)贸闃臃椒▉?lái)驗(yàn)證這種現(xiàn)象。連續(xù)屬性離散化方法主要有_、_和_。敘述等寬和等頻離散化方法的原理。當(dāng)數(shù)據(jù)有一些離群點(diǎn)時(shí),采用均值和標(biāo)準(zhǔn)差進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化受離群點(diǎn)影響大。這時(shí)可用_中位點(diǎn) 和_絕對(duì)標(biāo)準(zhǔn)差 代替。對(duì)象之間相似度和相異度測(cè)量方法主要有哪些?明可夫斯基距離 ,當(dāng)r=1時(shí),該距離稱為_(kāi)城市塊距離_。當(dāng)r=2時(shí),該距離稱為_(kāi)。有兩個(gè)數(shù)據(jù)對(duì)象,他們都是一維的數(shù)據(jù)(即簡(jiǎn)單屬性),那么當(dāng)他們是標(biāo)稱、序數(shù)、或連續(xù)屬性時(shí),他們之間的相似度和相異度怎樣計(jì)算。
4、如果利用基因表達(dá)譜來(lái)構(gòu)建基因相關(guān)網(wǎng)絡(luò),可以把每個(gè)基因當(dāng)作數(shù)據(jù)對(duì)象,然后計(jì)算對(duì)象間的表達(dá)相關(guān)度。那么計(jì)算這種相關(guān)度可以使用_皮爾森相關(guān)系數(shù)_測(cè)度。闡述你選擇這種測(cè)度的理由?并敘述怎樣利用這種測(cè)度來(lái)構(gòu)建網(wǎng)絡(luò)。(因?yàn)槭沁B續(xù)的)疾病的發(fā)生、發(fā)展與通路密切相關(guān)。目前已知的通路有100個(gè)。研究人員發(fā)現(xiàn)皮膚癌與其中的30個(gè)通路相關(guān),中風(fēng)與其中的20個(gè)通路相關(guān)。而且這兩個(gè)疾病共享的通路有10個(gè)。選擇一種方法計(jì)算這兩個(gè)疾病的相似性值?SMC = (f11 + f00)/(f01 + f10 + f11 + f00) = (10+60) / (10+20+10+60) = 0.7 J = (f11) / (f01
5、 + f10 + f11) = 10 / (10 + 20 + 10) = 0.25 習(xí)題-6隨機(jī)森林方法原理怎樣利用多棵決策樹(shù)來(lái)尋找疾病風(fēng)險(xiǎn)基因隨機(jī)森林與組合決策方法的異同點(diǎn)詳細(xì)閱讀組合決策方法論文組合決策還適用于解決哪些生物學(xué)(醫(yī)學(xué))問(wèn)題習(xí)題-9稀疏化的好處OPOSSUM聚類算法中重要一個(gè)步驟是稀疏化,敘述該稀疏化方法Chameleon算法使用接近性和互連性概念以及簇的局部建模。關(guān)鍵思想是:使用_和_概念,僅當(dāng)合并后的結(jié)果簇_原來(lái)的兩個(gè)簇時(shí),這兩個(gè)簇才合并。Jarvis-Patrick(JP)聚類算法首先計(jì)算_圖,然后使用相似度閾值,稀疏化該圖找出稀疏化圖的連通分支?;赟NN密度的聚類不
6、象JP聚類簡(jiǎn)單地使用域值,然后取_作為簇,基于SNN密度的聚類使用基于SNN密度和_方法。SNN密度的優(yōu)勢(shì)。習(xí)題-6考慮下表中的數(shù)據(jù)(a)計(jì)算項(xiàng)集e,b,d和b,d,e的支持度.(b)利用(a)計(jì)算的結(jié)果,計(jì)算關(guān)聯(lián)規(guī)則b,d=e和e=b,d的置信度。置信度是對(duì)稱的度量嗎?習(xí)題考慮如圖所示的候選3-項(xiàng)集的Hash樹(shù)(a)給定一個(gè)包含項(xiàng)1,3,4,5,8的事務(wù),在尋找該事務(wù)的候選項(xiàng)集時(shí),訪問(wèn)了Hash樹(shù)的哪些葉節(jié)點(diǎn)?(b)使用(a)中訪問(wèn)的葉節(jié)點(diǎn)確定事務(wù)1,3,4,5,8包含的候選項(xiàng)集。習(xí)題習(xí)題將Apriori算法用于下表所示的數(shù)據(jù)集,最小支持度為30%.習(xí)題(a)畫(huà)出數(shù)據(jù)集的項(xiàng)集格。并用以下字母
7、標(biāo)記格中的每個(gè)節(jié)點(diǎn)。N:不是候選項(xiàng)集;F:頻繁項(xiàng)集;I:經(jīng)支持度計(jì)數(shù)后,發(fā)現(xiàn)是非頻繁的候選項(xiàng)集。(b)頻繁項(xiàng)集的百分比是多少?(c)Apriori算法的剪枝率是多少?(d)假警告率是多少?(假警告率指經(jīng)過(guò)支持度計(jì)算后被發(fā)現(xiàn)是非頻繁的候選項(xiàng)集所占的百分比。)習(xí)題考慮下面的相依表(a)對(duì)于表I,計(jì)算關(guān)聯(lián)模式A,B的支持度,興趣度和相關(guān)系數(shù),并計(jì)算規(guī)則AB和BA的置信度。(b)對(duì)于表II ,計(jì)算關(guān)聯(lián)模式A,B的支持度,興趣度和相關(guān)系數(shù),并計(jì)算規(guī)則AB和BA的置信度。(c)由(a)和(b)的結(jié)果可以得出什么結(jié)論。習(xí)題-7考慮下表所示的數(shù)據(jù)集。第一個(gè)屬性是連續(xù)的,而其余兩個(gè)屬性是非對(duì)稱二元的。一個(gè)規(guī)則是強(qiáng)規(guī)則,如果它的支持度超過(guò)15%且置信度超過(guò)60%。表中數(shù)據(jù)支持如下兩個(gè)強(qiáng)規(guī)則:(i) (1 A 2),B = 1 C = 1(ii) (5 A 8),B = 1 C = 1習(xí)題(a)計(jì)算這兩個(gè)規(guī)則的支持度和置信度。(b)為了使用傳統(tǒng)的Apriori算法找出這些規(guī)則,我們需要離散化連續(xù)屬性A。假定我們使用等寬分箱方法離散化該數(shù)據(jù),其中bin-width=2,3,4.對(duì)于每個(gè)bin-width,上面兩個(gè)規(guī)則是否能夠被Apriori算法發(fā)現(xiàn)?對(duì)于每個(gè)與前面規(guī)則對(duì)應(yīng)的規(guī)則,計(jì)算其支持度和置信度。習(xí)題對(duì)于下面給定的每個(gè)序列w=,確定它們是否是序列的子
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院科研過(guò)程管理制度
- 公司門禁密碼管理制度
- 大漢集團(tuán)薪酬管理制度
- 單位涉案財(cái)物管理制度
- 小區(qū)綠化水泵管理制度
- 員工設(shè)備工具管理制度
- 壓鑄行業(yè)安全管理制度
- 計(jì)算機(jī)三級(jí)考試新思潮試題及答案
- 嵌入式軟件測(cè)試方法試題及答案
- 國(guó)際音樂(lè)比賽參賽計(jì)劃
- 安徽省合肥八中2025屆高三最后一卷英語(yǔ)試題及答案
- 2025年山東省淄博市張店區(qū)中考數(shù)學(xué)二模試卷
- 2025屆上海市普陀區(qū)數(shù)學(xué)七下期末質(zhì)量檢測(cè)模擬試題含解析
- 多器官功能障礙綜合征
- 技術(shù)學(xué)徒合同協(xié)議書(shū)
- 語(yǔ)文教學(xué)法與評(píng)價(jià)2025年試卷及答案
- 人工智能在醫(yī)療領(lǐng)域的測(cè)試卷
- 《生態(tài)環(huán)境的密碼:竺可楨的科學(xué)研究課件》
- 車位回購(gòu)協(xié)議書(shū)范本
- 中國(guó)的耕地與糧食安全課件高二下學(xué)期地理魯教版(2019)選擇性必修3
評(píng)論
0/150
提交評(píng)論