臨床科研設(shè)計數(shù)據(jù)挖掘研究設(shè)計_第1頁
臨床科研設(shè)計數(shù)據(jù)挖掘研究設(shè)計_第2頁
臨床科研設(shè)計數(shù)據(jù)挖掘研究設(shè)計_第3頁
臨床科研設(shè)計數(shù)據(jù)挖掘研究設(shè)計_第4頁
臨床科研設(shè)計數(shù)據(jù)挖掘研究設(shè)計_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

臨床科研設(shè)計數(shù)據(jù)挖掘研究設(shè)計數(shù)據(jù)挖掘研究基于數(shù)據(jù)分析方法角度的分類本質(zhì)上屬于觀察性研究研究資料來源于日常診療工作資料應(yīng)用的技術(shù)較傳統(tǒng)研究更先進(jìn)分析工具、理論模型與傳統(tǒng)研究區(qū)別較大數(shù)據(jù)挖掘研究設(shè)計基本概念選擇數(shù)據(jù)處理數(shù)據(jù)挖掘分析結(jié)果解釋Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決策樹類神經(jīng)網(wǎng)絡(luò)聚類分析判別分析數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘——從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘——從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)。數(shù)據(jù)挖掘——利用已有的數(shù)據(jù),數(shù)據(jù)收集過程不經(jīng)過特意的科研設(shè)計,目的是發(fā)現(xiàn)規(guī)律,而不是驗證假設(shè)。數(shù)據(jù)挖掘研究的基本步驟第一步:選擇數(shù)據(jù)收集獲取原始數(shù)據(jù)就是根據(jù)研究目的,進(jìn)行需要被挖掘分析的原始數(shù)據(jù)采集。評估數(shù)據(jù)的可獲得性??梢圆捎幂^小規(guī)模的數(shù)據(jù)對問題的可行性進(jìn)行初步研究。原始數(shù)據(jù)可能會分布于不同的信息系統(tǒng)中,需要對信息系統(tǒng)充分理解,并有相應(yīng)的技術(shù)實現(xiàn)數(shù)據(jù)的導(dǎo)出。原始數(shù)據(jù)的采集非常費時費力,通常在研究工作中占相當(dāng)大的比重。第二步:處理數(shù)據(jù)數(shù)據(jù)預(yù)處理部分,把數(shù)據(jù)轉(zhuǎn)換成比較容易被數(shù)據(jù)挖掘的格式及內(nèi)容。為什么需要預(yù)處理數(shù)據(jù)不完整含觀測噪聲不一致包含其它不希望的成分?jǐn)?shù)據(jù)清理通過填寫空缺值,平滑噪聲數(shù)據(jù),識別刪除孤立點,并解決不一致來清理數(shù)據(jù)。污染數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護數(shù)據(jù)的正確性和一致性成為一個及其困難的任務(wù)。污染數(shù)據(jù)形成的原因濫用縮寫詞數(shù)據(jù)輸入錯誤數(shù)據(jù)中的內(nèi)嵌控制信息不同的慣用語重復(fù)記錄丟失值拼寫變化不同的計量單位過時的編碼數(shù)據(jù)處理兩種結(jié)構(gòu)化技術(shù)前結(jié)構(gòu)化:在數(shù)據(jù)采集階段即進(jìn)行結(jié)構(gòu)化設(shè)計、錄入,數(shù)據(jù)分析階段取到的數(shù)據(jù)都是規(guī)范的。事前的工作量很大。后結(jié)構(gòu)化:在數(shù)據(jù)錄入階段進(jìn)行自由輸入,分析時按照一定的規(guī)則進(jìn)行語義分析和結(jié)構(gòu)化處理。第三步:挖掘分析運用工具和算法,進(jìn)行數(shù)據(jù)挖掘分析,完成分類、關(guān)聯(lián)、聚類、估計、預(yù)測等功能,發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。數(shù)據(jù)挖掘主要方法決策樹DecisionTrees(傾向性分析)序列分析SequenceAnalysis聚類分析Clustering關(guān)聯(lián)分析Association神經(jīng)網(wǎng)絡(luò)NeuralNetworks第四步:結(jié)果解釋結(jié)合專業(yè)知識,進(jìn)行數(shù)據(jù)挖掘分析結(jié)果的解釋,闡明規(guī)律,以及規(guī)律的臨床價值。結(jié)果解釋是數(shù)據(jù)挖掘研究的關(guān)鍵,從發(fā)現(xiàn)的規(guī)律進(jìn)一步延伸出其實際意義,是整個研究工作的成果所在數(shù)據(jù)挖掘分析的一般步驟1、數(shù)據(jù)整理2、數(shù)據(jù)格式轉(zhuǎn)化3、數(shù)據(jù)文件讀入4、數(shù)據(jù)類型設(shè)置5、模型選擇與參數(shù)設(shè)置(關(guān)聯(lián)規(guī)則;決策樹;類神經(jīng)網(wǎng)絡(luò);聚類分析;判別分析)6、結(jié)果輸出與解讀關(guān)聯(lián)規(guī)則基本概念是分析兩個或多個變量的取值之間存在某種規(guī)律性的方法,包括簡單關(guān)聯(lián)規(guī)則和系列關(guān)聯(lián)規(guī)則。簡單關(guān)聯(lián)規(guī)則有效性的主要測度指標(biāo)包括兩個:規(guī)則置信度和規(guī)則支持度。規(guī)則置信度是對簡單關(guān)聯(lián)規(guī)則準(zhǔn)確度的測量,描述了包含項目X的事務(wù)中同時也包含項目Y的概率。規(guī)則支持度是對簡單關(guān)聯(lián)規(guī)則普遍性的測量,表示項目X和項目Y同時出現(xiàn)的概率。一個理想的簡單關(guān)聯(lián)規(guī)則應(yīng)具有較高的置信度和較高的支持度。決策樹基本概念在數(shù)據(jù)挖掘中,決策樹是分類預(yù)測的經(jīng)典算法。決策樹算法的目的是通過向數(shù)據(jù)學(xué)習(xí),獲得輸入變量和輸出變量不同取值下的數(shù)據(jù)分類和預(yù)測規(guī)律,并用于對新數(shù)據(jù)對象的分類預(yù)測。SPSSClementine提供C5.0、CART、CHAID、QUEST在內(nèi)的決策樹經(jīng)典算法。類神經(jīng)網(wǎng)絡(luò)基本概念類神經(jīng)網(wǎng)絡(luò),有時也稱作多層感知器(MLPs),本質(zhì)上是人腦處理信息方式的簡化模型。它通過模擬大量相互連接的簡單處理單元(即神經(jīng)元)工作,它在一定程度上模仿了人腦神經(jīng)系統(tǒng)的信息處理、存儲及檢索功能。聚類分析基本概念聚類分析是根據(jù)“物以類聚”的原理,對樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計分析方法。通過聚類分析,可以在沒有任何模式可供參考的情況下,將大量數(shù)據(jù)樣本按各自的特征來進(jìn)行合理分類。判別分析基本概念判別分析的主要目的是對數(shù)據(jù)的個體做分類,利用判別變量建立判別規(guī)則,再用此判別規(guī)則對所有的個體做分類,預(yù)測每個個體屬于各群組的可能機率。判別分析是判別所屬類型的一種統(tǒng)計方法,其應(yīng)用之廣可與回歸分析媲美?;貧w分析可建立回歸函數(shù),判別分析則建立判別函數(shù),兩者皆可以用來進(jìn)行預(yù)測。小結(jié)(1)數(shù)據(jù)采集:信息真實性,可靠性,代表性數(shù)據(jù)預(yù)處理:規(guī)范整齊的數(shù)據(jù)是最大的問題,事先確定標(biāo)準(zhǔn),或者事后按標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)清理。數(shù)據(jù)挖掘:不只是描述,需要借助數(shù)據(jù)挖掘工具。也不僅是統(tǒng)計,統(tǒng)計是驗證假設(shè),數(shù)據(jù)挖掘是發(fā)現(xiàn)規(guī)律。小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論