一講人類基因組數(shù)據(jù)庫及關(guān)聯(lián)分析_第1頁
一講人類基因組數(shù)據(jù)庫及關(guān)聯(lián)分析_第2頁
一講人類基因組數(shù)據(jù)庫及關(guān)聯(lián)分析_第3頁
一講人類基因組數(shù)據(jù)庫及關(guān)聯(lián)分析_第4頁
一講人類基因組數(shù)據(jù)庫及關(guān)聯(lián)分析_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

生物醫(yī)學(xué)大數(shù)據(jù)挖掘及生物信息學(xué)案例分析系列課程第一講人類基因組數(shù)據(jù)庫及SNP關(guān)聯(lián)與互作分析第二講基因表達(dá)數(shù)據(jù)分析第三講表觀遺傳學(xué)數(shù)據(jù)分析第四講非編碼RNA數(shù)據(jù)分析第五講生物醫(yī)學(xué)數(shù)據(jù)挖掘案例分析與探討第一講人類基因組數(shù)據(jù)庫及SNP關(guān)聯(lián)與互作分析PartI風(fēng)險(xiǎn)SNP識(shí)別與候選疾病基因驗(yàn)證PartIIGWAS關(guān)聯(lián)分析資源與拓展應(yīng)用PartIIISNP關(guān)聯(lián)分析與互作分析的軟件實(shí)現(xiàn)PartIVSNP功能分析的生物信息學(xué)方法PartI風(fēng)險(xiǎn)SNP識(shí)別與候選疾病基因驗(yàn)證以SNP為起點(diǎn)的疾病基因識(shí)別流程SNP作為人類可遺傳變異中最常見的一種,占所有已知多態(tài)性的90%以上,不僅可以作為遺傳標(biāo)記,還可以通過連鎖分析定位疾病基因。因此,SNP在疾病的早期風(fēng)險(xiǎn)性評(píng)估,早期診斷,預(yù)防和治療等方面具有重要功能和應(yīng)用價(jià)值。SNP基因芯片采用多色熒光探針雜交技術(shù)可以大大提高芯片的準(zhǔn)確性、定量及檢測范圍,應(yīng)用高密度基因芯片檢測單堿基多態(tài)性,為分析SNP提供了便捷的方法。SNP數(shù)據(jù)類型利用dbSNP篩選功能性SNP

SNP數(shù)據(jù)庫SNP相關(guān)的重要數(shù)據(jù)庫SingleSNPassociationanalysis?

Chi-squaretest1Allelictest(2×2table)2Genotypetest(2×3table)3Trendtest(2×2table)4Dominant(2×2table)5Recessive(2×2table)

病例與對(duì)照的等位基因分布組別等位基因合計(jì)AT病例412320732對(duì)照499281780Allelictest(2×2table)病例與對(duì)照的基因型分布組別基因型合計(jì)AAATTT病例10719861366對(duì)enotypetest(2×3table)采用plink軟件來實(shí)現(xiàn)-我們后面會(huì)進(jìn)行介紹為了探討一個(gè)SNP是否與糖尿病相關(guān)聯(lián),采用病例-對(duì)照研究,收集了366個(gè)病例與390個(gè)對(duì)照的基因型數(shù)據(jù),見下面兩個(gè)表。組別等位基因合計(jì)AT病例412320732對(duì)照499281780組別基因型合計(jì)AAATTT病例10719861366對(duì)用卡方檢驗(yàn):allele-based:=9.325,P=0.002,認(rèn)為兩組的等位基因頻率分布有差別,此位點(diǎn)與糖尿病有關(guān)聯(lián)。genotype-based:=12.267,P=0.004,認(rèn)為病例組和對(duì)照組的基因型頻率分布有差異,此位點(diǎn)與糖尿病有關(guān)聯(lián)。

ExfoliationsyndromerelatedSNPanalysis

50casesvs125controls3SNPSingleSNPassociationanalysis

在選擇國內(nèi)外研究較多的SNP位點(diǎn)時(shí)可以進(jìn)行多數(shù)據(jù)層面的meta分析,從而發(fā)現(xiàn)高顯著的疾病位點(diǎn)。多數(shù)據(jù)層面的meta分析Meta分析的基本流程常用軟件:R,ReviewManager,Stata等。Stratifiedmeta-analysisforCAD-relatedgenesMTHFRC677TStratifiedmeta-analysisforCAD-relatedgenesReference:Linhuaetal.Combininggeogrophicregionwithmeta-analysistomapthepotentialassocationbetweeenthreegeneticpolymorphismsandcoronaryarterydisease.JMedBiochem.20131-19

SNP-SNP互作分析研究SNP互作的分析方法:1logisticregression2MultifactorDimensionalityReduction

(MDR)3PolymorphismInteractionAnalysis(PIA)algorithm4Bayesnetworkanalysis5Decisiontree......可聯(lián)合使用多種方法,從而發(fā)現(xiàn)與復(fù)雜疾病相關(guān)的重要基因及基因間的交互作用.

COPDrelatedSNP-SNPandSNP-environmentanalysis301casesvs203controls

44SNP

Bayesiannetworksconstructedwithdifferentnodescombinations,alongwiththeircorrespondingprobabilitytables

Bayesiannetworkanalysis表型Bayesiannetworksconstructedwithdifferentnodescombinations,alongwiththeircorrespondingprobabilitytables

Bayesiannetworkanalysis數(shù)量性狀ROCcurvesobtainedusingfourlogisticregressionmodelsfordetectingCOPD,whicharecoloredwithdifferentlinesrespectively. ROCcurvescomparisonReference:Linhuaetal.AbioinformaticsstrategyfordetectingthecomplexityofChronicObstructivePulmonaryDiseaseinNorthernChineseHanPopulation.GenesGenet.Syst.2012ApplyPIAmethodtoconstructRArelatedSNP-SNPnetworkReference:Linhuaetal.MiningfunctionalgenemoduleslinkedwithrheumatoidarthritisusingaSNP-SNPnetwork.Genomics,proteomics&bioinformatics2012(IF=6.615)SNP-SNP互作網(wǎng)絡(luò)與COPD數(shù)量性狀相關(guān)的SNP-SNP互作與COPD數(shù)量性狀關(guān)聯(lián)的SNP-SNP互作Reference:LiAn,Linhuaetal.ExploringtheinteractionamongEPHX1,GSTP1,SERPINE2,andTGFB1contributingtothequantitativetraitsofchronicobstructivepulmonarydiseaseinChineseHanpopulatioin.HuamnGenomics.2016應(yīng)用GeneMANIA網(wǎng)絡(luò)工具查詢四個(gè)基因的互作關(guān)系PartIIGWAS關(guān)聯(lián)分析資源與拓展應(yīng)用

ThecharacteristicofGWASAlargeamountofSNPsAlargesamplesizeAhighsignificantlevel(p<10-7)tosurvivethemultipletestingcorrectionAhighcostbutlowefficiencyThecurrentGWAS

高通量SNP分析的難度多重檢驗(yàn)造成假陽性錯(cuò)誤增加;數(shù)據(jù)的高維性變量的多重共線性遺傳異質(zhì)性冠心病GWAS數(shù)據(jù)分析600casevs600control500,000SNPGWAS的多層面數(shù)據(jù)研究SNPGeneProteinnetworkFurtherfunctionalanalysis-疾病子網(wǎng)提取Reference:Linhuaetal.MiningsusceptibilitygenemodulesanddiseaseriskgenesfromSNPdatabycombiningnetworktopologicalpropertieswithsupportvectorregression.JournalofTheoreticalBiology2011225-236PartIIISNP關(guān)聯(lián)分析及互作分析的軟件實(shí)現(xiàn)1SNP關(guān)聯(lián)分析常用軟件-plink軟件Plink軟件是命令行執(zhí)行工具,將plink.exe直接存在某目錄下(如d盤)即可執(zhí)行,如下圖。1)ped文件(家系文件)Plink軟件格式首先需要將數(shù)據(jù)整理成plink所需要的格式。plink軟件所需要的數(shù)據(jù)文件包括:家系文件包括六列數(shù)據(jù),分別為家庭編號(hào)(FamilyID)、個(gè)體編號(hào)(IndividualID)、父親編號(hào)(PaternalID)、母親編號(hào)(MaternalID)、性別(Sex,1=男性;2=女性)和表型Phenotype。其中這里的表型(Phenotype)列可以為數(shù)量性狀或疾病狀態(tài)。對(duì)于疾病狀態(tài),一般1表示無病(unaffected),2表示有?。╝ffected)。如果數(shù)據(jù)屬于病例對(duì)照數(shù)據(jù),則家庭編號(hào)和個(gè)體編號(hào)、父親編號(hào)和母親編號(hào)可以是相同的。家系文件FamilyID

IndividualID

PID

MID

sexPhenotype2)map文件(位置文件)其中第1列表示染色體編號(hào),第2列表示dbSNP數(shù)據(jù)庫中的SNP名稱,最后1列表示在染色體上的距離。3)phenotype文件(表型文件)

也可以預(yù)先準(zhǔn)備好一個(gè)表型文件pheno.txt。注意表型文件要包括下面3列,每一個(gè)個(gè)體占一行。

Hardy-WeinbergEquilibrium檢驗(yàn)

SNP數(shù)據(jù)分析此時(shí)會(huì)在d盤下輸出一個(gè)文件名為:plink.hwe其中A1表示最小等位基因,A2表示另一個(gè)等位基因,GENO表示基因型頻數(shù),P表示哈代-溫伯格定律檢驗(yàn)的p值。P>0.05表示滿足哈代-溫伯格定律。注意對(duì)于病例-對(duì)照樣本,每個(gè)SNP都有3個(gè)哈代-溫伯格定律p值,其中all表示對(duì)全部樣本,aff表示僅對(duì)病例樣本,unaff表示僅對(duì)對(duì)照樣本。我們用excel將其打開:最小等位基因P-value單個(gè)SNP的關(guān)聯(lián)分析此時(shí)在d盤下輸出了plink.assoc文件,用excel打開如下:--ci0.95表示計(jì)算95%置信區(qū)間。其中A1表示最小等位基因,A2表示另一個(gè)等位基因,F(xiàn)_A表示A1在疾病中的頻率,F(xiàn)_U表示A1在對(duì)照中的頻率。P<0.05表示等位基因與疾病相關(guān)。OR為優(yōu)勢(shì)比,L95和U95分別表示OR置信區(qū)間的上限和下限。此外,Plink軟件還提供了下面單個(gè)SNP關(guān)聯(lián)分析的模型,假設(shè)一個(gè)SNP的最小等位基因?yàn)镈,另一個(gè)等位基因?yàn)閐,則四個(gè)模型分別為:等位基因模型(Allelic),顯性模型(Dominant),隱性模型(Recessive)和基因型模型(Genotypic).具體編碼如下:此時(shí)在d盤下輸出了plink.assoc文件,用excel打開單變量logistic回歸默認(rèn)為是加性模型MultiplecomparisoncorrectionThestandardforevidenceofsignificanceinGWAStoidentifyagenotype-phenotypeassociationisgenerallyconsideredtobep<5×10-8orp<1×10-8,fora=0.05and0.01,respectively.ThisstandardisbasedonaBonferronicorrectionforanassumedmillionindependentvariantsinthehumangenome.關(guān)于多重校正的問題Severalcorrectionmethodsprovidedbyplinkareasfollowing:打開存于c盤下的plink.assoc.adjusted文件

SNP-SNP互作分析plink-Traditionallogisticregressionplink--filemydata--epistasisExample:rs6734100×rs7583463

Logisticregression

SNP(gene)×SNP(gene)interactionSet0.1ascutoff:打開存于c盤下的plink.epi.cc文件datamining-MultifactorDimensionalityReduction

-MDR(多因子降維方法)MDRisanonparametricandgeneticmodel-freedataminingalternativetologisticregressionfordetectingandcharacterizingnonlinearinteractionsamongdiscretegeneticandenvironmentalattributes.

其他SNP-SNP互作分析方法(1)采用10倍交叉驗(yàn)證法將數(shù)據(jù)分為10個(gè)集合,其中9個(gè)子集作為訓(xùn)練集,1個(gè)子集作為測試集(2)根據(jù)總的因子數(shù)量確定組合因子數(shù)n(3)對(duì)每個(gè)訓(xùn)練集和測試集,篩選最好的n因子組合(篩選的標(biāo)準(zhǔn)根據(jù)訓(xùn)練集最低的分類錯(cuò)誤率)(4)此過程重復(fù)10次,最后根據(jù)平均最小預(yù)測錯(cuò)誤率和最大的交叉驗(yàn)證一致性篩選出最好的n因子組合(5)對(duì)每個(gè)n因子組合計(jì)算病例數(shù)與對(duì)照數(shù)之比。如果比值等于或超過域值,則此基因型組合確定為疾病的高風(fēng)險(xiǎn)組合,反之,則為疾病的低風(fēng)險(xiǎn)組合。(6)對(duì)于不同n值,得到最好的n因子組合。不同的n因子組合可能有的具有最小預(yù)測錯(cuò)誤率,而有的具有最大交叉驗(yàn)證一致性,一般取n值較小的模型。多因子降維方法的主要步驟:ApplyMDRpackageofRsoftware數(shù)據(jù)格式按照加性模型,0表示兩個(gè)等位基因均為非風(fēng)險(xiǎn)allele,1表示有1個(gè)等位基因?yàn)轱L(fēng)險(xiǎn)allele,2表示有兩個(gè)等位基因均為風(fēng)險(xiǎn)allele.library(MDR)read.table("c:\\mdrexample.csv",header=TRUE,sep=",")->datafit<-mdr.cv(data,K=2,cv=10)fitSNP1和SNP6的互作是最優(yōu)的模型,預(yù)測準(zhǔn)確率為51.88%。交叉驗(yàn)證一致性為70%。采用R軟件的MDR軟件包plot(fit,data)除了SNP1=2andSNP6=0是低風(fēng)險(xiǎn),其余都是高風(fēng)險(xiǎn)。2)datamining-DecisionTree(rpartpackageofRsoftware)Thedevelopmentofclassificationandregressiontrees-Randomforest決策樹模型基于數(shù)量性狀的SNP互作分析在遺傳關(guān)聯(lián)研究中,有時(shí)常常需要計(jì)算基因的協(xié)同效應(yīng)對(duì)數(shù)量性狀的影響。近年來新開發(fā)了一款基于多因子降維方法的數(shù)量性狀多因子降維法(QuantitativeMultifactorDimensionalityReduction,QMDR),可用于探查SNP的上位顯性交互作用。QMDR方法是在MDR算法的基礎(chǔ)上分析數(shù)量性狀。不同于MDR方法比較每種基因型組合的頻數(shù),QMDR是比較每種基因型組合的均數(shù)。與數(shù)量性狀相關(guān)的SNP-SNP互作對(duì)于每種基因型組合,計(jì)算它們的平均數(shù)并與總均數(shù)進(jìn)行比較。如果基因型組合的平均數(shù)超過總均數(shù),此時(shí)該基因型組合就被認(rèn)為是高水平的。否則,該基因型組合就被認(rèn)為為低水平的。當(dāng)所有的基因型組合都被標(biāo)記為“高水平”或“低水平”,構(gòu)建一個(gè)二分類變量,采用T檢驗(yàn)法對(duì)高水平組和低水平組進(jìn)行比較。將T統(tǒng)計(jì)量作為訓(xùn)練分?jǐn)?shù)選擇出最好的模型。假設(shè)無效分布是均數(shù)為0的正態(tài)分布,采用經(jīng)驗(yàn)分布方法估計(jì)模型的p值。QMDR方法QMDR軟件是基于Java系統(tǒng)進(jìn)行操作,可以從上直接下載。下載完成后界面如下圖,點(diǎn)擊“LoadDatafile”加載數(shù)據(jù)文件。假定數(shù)據(jù)集中有10個(gè)SNP,450個(gè)樣本,一個(gè)數(shù)量性狀FEV1。將該數(shù)據(jù)文件另存為qmdr10-FEV1.txt。數(shù)據(jù)格式如下圖:數(shù)據(jù)文件進(jìn)行加載后,點(diǎn)擊“ViewDatafile”,即可以看到相應(yīng)的數(shù)據(jù)文件,如下圖按照默認(rèn)的參數(shù)設(shè)置,點(diǎn)擊“RunAnalysis”,則可以輸出下面的結(jié)果,如下圖:對(duì)于單個(gè)SNP,SNP3獲得了最好的模型。其中訓(xùn)練集和測試集T統(tǒng)計(jì)量分別為2.8556和1.7585。交叉驗(yàn)證一致性是50.0%。點(diǎn)擊“GraphicalModel”,可以獲得相應(yīng)的條圖。其中條的寬度表示數(shù)據(jù)的頻數(shù),條的高度表示該基因型的FEV1平均數(shù)與總平均數(shù)的差異。點(diǎn)擊菜單中的“Topmodel”,則輸出每個(gè)模型交叉驗(yàn)證過程中的T統(tǒng)計(jì)量,如下圖。將紅色橢圓標(biāo)記的下拉菜單打開,還可以輸出T統(tǒng)計(jì)量的線圖和直方圖對(duì)于SNP的二階交互,SNP4和SNP6獲得了最好的模型,訓(xùn)練集和測試集的T統(tǒng)計(jì)量分別為3.7399和0.0328。對(duì)于SNP三階交互,SNP5、SNP9和SNP10獲得了最好的交互模型,訓(xùn)練集和測試集T統(tǒng)計(jì)量分別為5.5261和1.1015。對(duì)于二階交互模型和三階交互模型,交叉驗(yàn)證一致性均為40.0%。和單個(gè)SNP分析相同,選中交互模型,點(diǎn)擊圖中的各個(gè)選項(xiàng),即可描述計(jì)算過程和繪制相應(yīng)圖形。例如對(duì)于SNP三階交互模型,點(diǎn)擊“GraphicalModel”,即可繪制出三個(gè)SNP互作條圖,如下圖所示:SNP5,SNP9和SNP10的三階互作點(diǎn)擊“Configuration”可以對(duì)參數(shù)進(jìn)行設(shè)置,如下圖:點(diǎn)擊“Network”可以通過調(diào)整閾值構(gòu)建相應(yīng)的網(wǎng)絡(luò)(基于熵的計(jì)算方法)并計(jì)算網(wǎng)絡(luò)的拓?fù)湫再|(zhì)(如度、介數(shù)和簇類系數(shù))等

PartIVSNP功能分析的生物信息學(xué)方法

SNP功能分析研究表明,SNP可以在DNA、RNA和蛋白質(zhì)水平上影響基因的功能。SNP功能分析可以幫助闡明SNP對(duì)基因功能的影響及導(dǎo)致疾病發(fā)生的分子機(jī)制。對(duì)基因功能有影響的SNP是研究復(fù)雜疾

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論