版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
臨床科研設(shè)計數(shù)據(jù)挖掘研究設(shè)計數(shù)據(jù)挖掘研究基于數(shù)據(jù)分析方法角度的分類本質(zhì)上屬于觀察性研究研究資料來源于日常診療工作資料應(yīng)用的技術(shù)較傳統(tǒng)研究更先進(jìn)分析工具、理論模型與傳統(tǒng)研究區(qū)別較大數(shù)據(jù)挖掘研究設(shè)計基本概念選擇數(shù)據(jù)處理數(shù)據(jù)挖掘分析結(jié)果解釋Clementine軟件應(yīng)用基本操作關(guān)聯(lián)規(guī)則決策樹類神經(jīng)網(wǎng)絡(luò)聚類分析判別分析數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘——從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘——從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)。數(shù)據(jù)挖掘——利用已有的數(shù)據(jù),數(shù)據(jù)收集過程不經(jīng)過特意的科研設(shè)計,目的是發(fā)現(xiàn)規(guī)律,而不是驗證假設(shè)。數(shù)據(jù)挖掘研究的基本步驟第一步:選擇數(shù)據(jù)收集獲取原始數(shù)據(jù)就是根據(jù)研究目的,進(jìn)行需要被挖掘分析的原始數(shù)據(jù)采集。評估數(shù)據(jù)的可獲得性??梢圆捎幂^小規(guī)模的數(shù)據(jù)對問題的可行性進(jìn)行初步研究。原始數(shù)據(jù)可能會分布于不同的信息系統(tǒng)中,需要對信息系統(tǒng)充分理解,并有相應(yīng)的技術(shù)實現(xiàn)數(shù)據(jù)的導(dǎo)出。原始數(shù)據(jù)的采集非常費時費力,通常在研究工作中占相當(dāng)大的比重。第二步:處理數(shù)據(jù)數(shù)據(jù)預(yù)處理部分,把數(shù)據(jù)轉(zhuǎn)換成比較容易被數(shù)據(jù)挖掘的格式及內(nèi)容。為什么需要預(yù)處理數(shù)據(jù)不完整含觀測噪聲不一致包含其它不希望的成分?jǐn)?shù)據(jù)清理通過填寫空缺值,平滑噪聲數(shù)據(jù),識別刪除孤立點,并解決不一致來清理數(shù)據(jù)。污染數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護數(shù)據(jù)的正確性和一致性成為一個及其困難的任務(wù)。污染數(shù)據(jù)形成的原因濫用縮寫詞數(shù)據(jù)輸入錯誤數(shù)據(jù)中的內(nèi)嵌控制信息不同的慣用語重復(fù)記錄丟失值拼寫變化不同的計量單位過時的編碼數(shù)據(jù)處理兩種結(jié)構(gòu)化技術(shù)前結(jié)構(gòu)化:在數(shù)據(jù)采集階段即進(jìn)行結(jié)構(gòu)化設(shè)計、錄入,數(shù)據(jù)分析階段取到的數(shù)據(jù)都是規(guī)范的。事前的工作量很大。后結(jié)構(gòu)化:在數(shù)據(jù)錄入階段進(jìn)行自由輸入,分析時按照一定的規(guī)則進(jìn)行語義分析和結(jié)構(gòu)化處理。第三步:挖掘分析運用工具和算法,進(jìn)行數(shù)據(jù)挖掘分析,完成分類、關(guān)聯(lián)、聚類、估計、預(yù)測等功能,發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。數(shù)據(jù)挖掘主要方法決策樹DecisionTrees(傾向性分析)序列分析SequenceAnalysis聚類分析Clustering關(guān)聯(lián)分析Association神經(jīng)網(wǎng)絡(luò)NeuralNetworks第四步:結(jié)果解釋結(jié)合專業(yè)知識,進(jìn)行數(shù)據(jù)挖掘分析結(jié)果的解釋,闡明規(guī)律,以及規(guī)律的臨床價值。結(jié)果解釋是數(shù)據(jù)挖掘研究的關(guān)鍵,從發(fā)現(xiàn)的規(guī)律進(jìn)一步延伸出其實際意義,是整個研究工作的成果所在數(shù)據(jù)挖掘分析的一般步驟1、數(shù)據(jù)整理2、數(shù)據(jù)格式轉(zhuǎn)化3、數(shù)據(jù)文件讀入4、數(shù)據(jù)類型設(shè)置5、模型選擇與參數(shù)設(shè)置(關(guān)聯(lián)規(guī)則;決策樹;類神經(jīng)網(wǎng)絡(luò);聚類分析;判別分析)6、結(jié)果輸出與解讀關(guān)聯(lián)規(guī)則基本概念是分析兩個或多個變量的取值之間存在某種規(guī)律性的方法,包括簡單關(guān)聯(lián)規(guī)則和系列關(guān)聯(lián)規(guī)則。簡單關(guān)聯(lián)規(guī)則有效性的主要測度指標(biāo)包括兩個:規(guī)則置信度和規(guī)則支持度。規(guī)則置信度是對簡單關(guān)聯(lián)規(guī)則準(zhǔn)確度的測量,描述了包含項目X的事務(wù)中同時也包含項目Y的概率。規(guī)則支持度是對簡單關(guān)聯(lián)規(guī)則普遍性的測量,表示項目X和項目Y同時出現(xiàn)的概率。一個理想的簡單關(guān)聯(lián)規(guī)則應(yīng)具有較高的置信度和較高的支持度。決策樹基本概念在數(shù)據(jù)挖掘中,決策樹是分類預(yù)測的經(jīng)典算法。決策樹算法的目的是通過向數(shù)據(jù)學(xué)習(xí),獲得輸入變量和輸出變量不同取值下的數(shù)據(jù)分類和預(yù)測規(guī)律,并用于對新數(shù)據(jù)對象的分類預(yù)測。SPSSClementine提供C5.0、CART、CHAID、QUEST在內(nèi)的決策樹經(jīng)典算法。類神經(jīng)網(wǎng)絡(luò)基本概念類神經(jīng)網(wǎng)絡(luò),有時也稱作多層感知器(MLPs),本質(zhì)上是人腦處理信息方式的簡化模型。它通過模擬大量相互連接的簡單處理單元(即神經(jīng)元)工作,它在一定程度上模仿了人腦神經(jīng)系統(tǒng)的信息處理、存儲及檢索功能。聚類分析基本概念聚類分析是根據(jù)“物以類聚”的原理,對樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計分析方法。通過聚類分析,可以在沒有任何模式可供參考的情況下,將大量數(shù)據(jù)樣本按各自的特征來進(jìn)行合理分類。判別分析基本概念判別分析的主要目的是對數(shù)據(jù)的個體做分類,利用判別變量建立判別規(guī)則,再用此判別規(guī)則對所有的個體做分類,預(yù)測每個個體屬于各群組的可能機率。判別分析是判別所屬類型的一種統(tǒng)計方法,其應(yīng)用之廣可與回歸分析媲美?;貧w分析可建立回歸函數(shù),判別分析則建立判別函數(shù),兩者皆可以用來進(jìn)行預(yù)測。小結(jié)(1)數(shù)據(jù)采集:信息真實性,可靠性,代表性數(shù)據(jù)預(yù)處理:規(guī)范整齊的數(shù)據(jù)是最大的問題,事先確定標(biāo)準(zhǔn),或者事后按標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)清理。數(shù)據(jù)挖掘:不只是描述,需要借助數(shù)據(jù)挖掘工具。也不僅是統(tǒng)計,統(tǒng)計是驗證假設(shè),數(shù)據(jù)挖掘是發(fā)現(xiàn)規(guī)律。小
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州省畢節(jié)二中2025屆高三第二次聯(lián)考數(shù)學(xué)試卷含解析
- 版車庫租賃協(xié)議
- 校園花卉采購協(xié)議
- 保證書向老婆誠懇道歉
- 食品制造機械購銷合同
- 土方招標(biāo)文件實例分享
- 專業(yè)的會議策劃與服務(wù)合同
- 招標(biāo)文件方案范本
- 招標(biāo)啟示防水卷材供應(yīng)商選拔
- 玻璃清潔協(xié)議樣本
- 新產(chǎn)品導(dǎo)入量產(chǎn)作業(yè)流程(NPI)
- 土壤分析技術(shù)規(guī)范(第二版)
- 大學(xué)生個人求職簡歷封面 (82)應(yīng)聘投稿找工作履歷表封面
- 《鐵匠波爾卡》——編創(chuàng)與活動
- T∕CAME 1-2019 家庭式產(chǎn)房建設(shè)標(biāo)準(zhǔn)
- 江淮4DC1發(fā)動機檢測報告
- 傷情評估和戰(zhàn)場傷員分類(江)
- ABC法則新培訓(xùn)課件PPT課件
- 老年人心力衰竭的管理
- 配電箱設(shè)備供貨方案
- 醫(yī)療環(huán)境表面清潔與消毒PPT課件
評論
0/150
提交評論