版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于最長尺度的全國惡性腫瘤適期聚類方法研究
近20年來,中國腫瘤死亡率有上升趨勢,農(nóng)村地區(qū)腫瘤上升速度明顯超過城市。但因腫瘤發(fā)病率和死亡率低,潛伏期長,是一個漸近的過程,加上惡性腫瘤又是一類多因素、多效應(yīng)、多階段、多基因致病的疾病,從而使腫瘤的防治工作有很大的困難。因此,國家很有必要系統(tǒng)地研究和掌握惡性腫瘤在人群中的發(fā)生、發(fā)展以及死亡情況和分布規(guī)律,為制定全國腫瘤防治規(guī)劃提供信息。本研究通過對全國9種常見惡性腫瘤的地區(qū)聚類,探討建立一個系統(tǒng)、連續(xù)的惡性腫瘤檢測、監(jiān)督和評價體系,以便于對各種腫瘤進(jìn)行有效的檢測和防治工作。1數(shù)據(jù)和方法1.1全國行政編碼制度本研究資料來源于1973~1975年全國人口死亡原因回顧調(diào)查,分析資料按20世紀(jì)90年代全國行政編碼進(jìn)行了部分調(diào)整,共2237個市、縣。研究對象是在15類惡性腫瘤中位于前9位的惡性腫瘤死亡率,即胃癌、食管癌、肝癌、肺癌、宮頸癌、白血病、鼻咽癌、腸癌、乳腺癌,它們占全部惡性腫瘤總調(diào)整死亡率構(gòu)成的89.3%,是我國最多見、危害人民生命健康最嚴(yán)重的惡性腫瘤。1.2條件系統(tǒng)聚類分析方法條件系統(tǒng)聚類分析(conditionalhierarchicalclustering)是基于系統(tǒng)聚類的思想,在聚類過程中按類(樣品)與類(樣品)相聚的條件進(jìn)行聚類,不滿足條件者不得相聚。條件系統(tǒng)聚類分析方法實(shí)質(zhì)與系統(tǒng)聚類法相似,只是在聚類過程中增加了條件的約束,不同的約束條件是各種研究目的的直接體現(xiàn),通過約束可以聚成更符合實(shí)際要求的類。如何把約束條件加入到聚類過程中去呢?關(guān)鍵在于構(gòu)造條件矩陣,樣品中滿足聚類條件者,記為1,否則記為0。不同的聚類要求導(dǎo)致不同的約束條件,不同的約束條件構(gòu)造了不同的條件矩陣。1.2.1維有序樣品問題本文采用二維有序樣品的條件系統(tǒng)聚類分析方法根據(jù)9種腫瘤的調(diào)整死亡率對全國30個省、市或自治區(qū)(以下簡稱為省)進(jìn)行分類,這是一個二維有序樣品的問題。二維有序樣品的約束條件是地區(qū)相鄰性,只有相鄰接的地區(qū)才能聚為一類,相隔的兩樣品開始不能聚類,但隨著聚類過程的繼續(xù),區(qū)域范圍的擴(kuò)大,原來相隔的地區(qū)聚類后也可以相鄰接。因此可以直接根據(jù)全國30個省的地區(qū)毗鄰圖構(gòu)造條件矩陣如下,樣品間距離選擇歐氏距離,得到距離矩陣。然后把條件矩陣和距離矩陣結(jié)合,把距離矩陣中滿足條件的省采用系統(tǒng)聚類法繼續(xù)分析,直至所有省都聚為一類為止。1.2.2聚類分析系數(shù)和聚類計(jì)算一帶一路條a本文針對全國9種主要惡性腫瘤的地區(qū)分類并建立監(jiān)測點(diǎn)這一特殊要求,擬定判斷準(zhǔn)則。準(zhǔn)則a:一種較好的聚類方法,可以使類內(nèi)差異較小,而類間差異較大。準(zhǔn)則b:在聚類結(jié)果中,各類包含的元素既不過分多,也不過分少(每一類至少有兩個省)。準(zhǔn)則c:聚類結(jié)果應(yīng)該滿足實(shí)際要求和符合實(shí)際需要。根據(jù)準(zhǔn)則a提出一個判斷函數(shù)SS內(nèi)/SS總,其中SS總是所有樣品的離差平方和;SS內(nèi)是各類內(nèi)離差平方和之和。隨分類數(shù)的增加,SS內(nèi)/SS總越來越小,當(dāng)全部樣品各自成一類時,比值等于0,當(dāng)全部樣品聚在一類時,比值=1。2ss內(nèi)/ss總的變化本文就采用這組準(zhǔn)則對最短距離法、最長距離法、類平均法、離差平方和法、重心法和中間距離法這6種類間距離定義方法進(jìn)行選擇。綜合考慮準(zhǔn)則b和c,在滿足b和c的條件下,尋找SS內(nèi)/SS總較小的聚類方法和聚類結(jié)果。2.16種方法的SS內(nèi)/SS總首先,用每一種方法對資料進(jìn)行聚類,記錄每種方法分成兩類、3類……30類的分類結(jié)果。由于數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化,而且指標(biāo)間的相關(guān)性較小,因此可以用九個指標(biāo)的均數(shù)來計(jì)算SS內(nèi)/SS總。根據(jù)聚類分析的基本思想,SS內(nèi)/SS總越小,說明這種聚類結(jié)果的類內(nèi)同質(zhì)性越好。所有樣品聚為一類時,比值均等于1,隨著分類個數(shù)的增加,比值逐漸減小,所有樣品各自成一類時,比值等于0。為直觀起見,分別以每種方法的SS內(nèi)/SS總為縱軸,以類別數(shù)為橫軸,作線圖。從2~15類時,各法的SS內(nèi)/SS總差距較大,故類別數(shù)取1~15作圖如下。由圖2可見,在分成9類之前,最短距離法的SS內(nèi)/SS總下降最慢,從分成兩類到分成八類,SS內(nèi)/SS總一直平穩(wěn)下降,且它的SS內(nèi)/SS總也是最大的,不能滿足準(zhǔn)則a。在分成兩類時,最短距離法就把上海單獨(dú)列為一類,也不能滿足準(zhǔn)則b和c,因此首先被排除。最長距離法和中間距離法,由于開始時的SS內(nèi)/SS總比值相同,所畫圖形一樣。最長距離法在分成3類時,SS內(nèi)/SS總有較明顯的下降,到分成3類時,下降到較低位置,分成7類時,各類內(nèi)的樣品數(shù)比較均勻,分成8類時,最長距離法把上海單獨(dú)列為一類,見圖2、圖3。中間距離法從分成兩類到分成5類時,SS內(nèi)/SS總一直較平穩(wěn),分成6類時,SS內(nèi)/SS總有顯著的降低,以后就較平緩。但分成5類時,就出現(xiàn)單個樣品的類,見圖4。離差平方和法一開始下降較快,到分成5類時,SS內(nèi)/SS總已降至較低水平,以后一直平緩下降;但分成5類時,第3類有15個地區(qū),分成6類時,仍有一類有9個樣品,在分成7類時,單獨(dú)把上海分為一類,不能滿足聚類準(zhǔn)則b和c,見圖5。類平均法和重心法一開始也是因?yàn)镾S內(nèi)/SS總相同,故圖形一致。類平均法從分成4類開始,SS內(nèi)/SS總下降較快。重心法則從分成五類時,SS內(nèi)/SS總有所下降,但一直較慢。這兩種方法在分成兩類時,就把上海單獨(dú)列出,不能滿足準(zhǔn)則b和c,見圖6、7。本文的聚類目的是為了得到分成5到9類的聚類結(jié)果。按照準(zhǔn)則a,類平均法和中間距離法在分成9類時,SS內(nèi)/SS總均較低,但考察從聚類譜系圖中可見,這兩種方法分成九類時,均有兩類中只有一個地區(qū)。究其SS內(nèi)/SS總最小的原因,是因?yàn)橹虚g距離法和類平均法在計(jì)算類內(nèi)離均差平方和時,去除了一個元素的SS內(nèi),從而使得整個SS內(nèi)較小,因此它們不能滿足準(zhǔn)則b和c??傊?最長距離法分成7類時的地區(qū)分布較均勻,因此根據(jù)擬定的聚類準(zhǔn)則a和b應(yīng)該選擇最長距離法的聚類結(jié)果,但其中有一類中有6個省,從內(nèi)蒙一直延伸到湖南,不能滿足準(zhǔn)則c故把這一類單獨(dú)列出,采用最長距離法分為兩類:第1類:湖南、江西第2類:湖北、內(nèi)蒙、陜西、山西2.2聚類結(jié)果及各類特征的描述把8類結(jié)果按照惡性腫瘤總死亡率由小到大進(jìn)行排列如下:(括號內(nèi)是每一地區(qū)的9種腫瘤死亡率之和)第1類:云南(22.96)、貴州(23.06)、四川(44.16)、西藏(62.05)第2類:海南(34.14)、廣西(35.49)、廣東(43.06)第3類:湖南(43.07)、江西(45.25)第4類:黑龍江(50.41)、遼寧(57.58)、吉林(61.78)第5類:湖北(55.13)、內(nèi)蒙(63.89)、陜西(66.61)、山西(75.87)第6類:北京(44.79)、天津(47.35)、山東(52.17)、河北(64.92)、安徽(66.10)、河南(77.58)第7類:甘肅(62.91)、新疆(71.90)、青海(81.30)、寧夏(85.66)第8類:福建(72.00)、浙江(73.51)、上海(79.06)、江蘇(95.20)雖然可以從上述各類中看出8個區(qū)域的惡性腫瘤死亡率由低到高的趨勢。但惡性腫瘤的發(fā)生、發(fā)展是多因素綜合的結(jié)果,在不同區(qū)域里,不同惡性腫瘤的死亡率也有所不同。第1類是云、貴、川、藏,各種腫瘤的死亡率均較低,其中以肺癌、肝癌、和白血病的死亡率更低些;第2類是廣東、廣西及海南,是鼻咽癌的高發(fā)地區(qū),而食管癌、腸癌及宮頸癌的死亡率則較低;第3類是江西和湖南,以胃癌和食管癌死亡率較低,第4類是東北三省,以肺癌和乳腺癌的死亡率為高,而食管癌的死亡率則較低;第5類是湖北、內(nèi)蒙、山西和陜西,以宮頸癌的死亡率較高,肝癌的死亡率則相對低一些;第6類是北京、天津、山東、安徽、河北、河南,以食管癌的死亡率較高,而鼻咽癌和肝癌相對低一些;第7類是甘肅、寧夏、青海、新疆,是胃癌的高發(fā)區(qū),乳腺癌死亡率較低;第8類是沿海的上海、福建、浙江、江蘇,各種腫瘤的死亡率均較高,其中又以肝癌、白血病和腸癌更高些。2.3聚類地圖用SAS/GRAPH軟件把最長距離法分成7類時的聚類結(jié)果作成聚類地圖,以清楚直觀地觀察結(jié)果,見圖8。4.4監(jiān)測點(diǎn)的設(shè)定按照研究目的,在獲得合適的聚類結(jié)果后,應(yīng)該在每個類內(nèi)設(shè)置一個監(jiān)測點(diǎn)。從物理的觀點(diǎn)來看,一個類用它的重心作代表比較合適,因此首先列出這7類的重心向量(9種腫瘤死亡率的均向量),并計(jì)算每個省和均向量之間的歐氏距離,選擇距離最近的省、市或自治區(qū)為監(jiān)測點(diǎn):2.3重心向量監(jiān)測點(diǎn)的選擇見表1。3討論5.1標(biāo)準(zhǔn)化聚類分析的必要性在實(shí)際問題中,不同的變量一般其量綱不同。為了使不同量綱的變量也能放在一起比較,通常需要對數(shù)據(jù)作標(biāo)準(zhǔn)化。通過標(biāo)準(zhǔn)化,可以使樣品間的關(guān)系獨(dú)立于變量量綱的影響,可以根據(jù)研究需要突出某一個或某些變量,或者降低某些數(shù)量級特大的變量的影響。如果不作標(biāo)準(zhǔn)化,聚類結(jié)果就會趨向于數(shù)值較大的指標(biāo),特別是以歐氏距離作為聚類統(tǒng)計(jì)量時。因此,在進(jìn)行多指標(biāo)的聚類分析時,必須對指標(biāo)進(jìn)行標(biāo)準(zhǔn)化。對單個指標(biāo)的聚類,是否標(biāo)準(zhǔn)化并不影響聚類的結(jié)果。5.2正態(tài)化變換分級法在一般的多元統(tǒng)計(jì)分析中,要求資料的正態(tài)性,故需對偏態(tài)資料作正態(tài)化變換。對發(fā)病率/死亡率的資料,陸守曾曾用變換x=(sin?1p√)1/ax=(sin-1p)1/a,可使資料達(dá)到正態(tài)化。其目的一方面使原始數(shù)據(jù)間的差異減小,從而限制大數(shù)的影響,資料更趨穩(wěn)定,另一方面是可以用正態(tài)分布下的離均法進(jìn)行分級。正態(tài)化變換是非線性的,它可以削弱大數(shù)值的影響,提升小數(shù)值的作用,或反之。但是,本研究是根據(jù)9種主要惡性腫瘤死亡率,把全國分成幾個大區(qū)域,以達(dá)到對惡性腫瘤的經(jīng)濟(jì)、有效的長期監(jiān)測和管理的目的。監(jiān)測結(jié)果既要反映總平均水平,又要反映各種腫瘤的地區(qū)聚集性。在不同區(qū)域中,各種惡性腫瘤進(jìn)行監(jiān)測的側(cè)重點(diǎn)又有所不同,因此,根據(jù)本資料研究目的,沒有進(jìn)行正態(tài)化變換,而直接用原始數(shù)據(jù)進(jìn)行分析,以便客觀真實(shí)地反映全國各地區(qū)主要惡性腫瘤的發(fā)病/死亡情況。5.3聚類的ss穩(wěn)定性按照擬定的準(zhǔn)則a,一個效果較好的聚類結(jié)果,應(yīng)該使類內(nèi)差異較小,而類間差異較大。對于一組數(shù)據(jù),總的變異是一定的,類內(nèi)差異小則必然類間差異大。因此設(shè)定了一個判斷函數(shù)(SS內(nèi)/SS總)。每次聚類時,只要求出分成各類時的SS內(nèi)即可。SS內(nèi)的計(jì)算理論上應(yīng)根據(jù)多元離差矩陣進(jìn)行。對本例而言,對指標(biāo)進(jìn)行標(biāo)準(zhǔn)化之后,就可以用這個指標(biāo)和聚類結(jié)果進(jìn)行方差分析,求出每次聚類后的類內(nèi)離差平方和。這種方法比把幾個指標(biāo)都放在一起進(jìn)行考慮協(xié)方差的多因素方差分析要簡單得多。因指標(biāo)間相關(guān)程度均較低,基于多元離差矩陣計(jì)算所得結(jié)果與現(xiàn)有方法所得結(jié)果基本一致,現(xiàn)有方法計(jì)算過程非常簡單,故建議用現(xiàn)有方法計(jì)算SS內(nèi)。5.4聚類分析準(zhǔn)則類型的選擇本文利用9種主要惡性腫瘤的死亡率對全國30個省進(jìn)行聚類分析,其目的是希望得到一個分類合理、均勻的聚類結(jié)果,從總體上反映出我國主要惡性腫瘤的發(fā)病/死亡情況的層次性,并體現(xiàn)出不同類型的腫瘤地區(qū)分布的差異性。針對該研究目的,我們選擇二維有序樣品的條件系統(tǒng)聚類法。這種方法由于加入了條件約束,使得聚類結(jié)果與一般的系統(tǒng)聚類法的聚類結(jié)果明顯不同。它把地區(qū)分為幾個大區(qū)域,對局部特殊點(diǎn)也有較好的鑒別。正因?yàn)槿绱?使得條件系統(tǒng)聚類法和一般的系統(tǒng)聚類法比較起來,較易出現(xiàn)單個樣品的類。這對于希望發(fā)現(xiàn)某一區(qū)域中的特殊地區(qū)非常有利;但是,對于想得到分類個數(shù)比較均勻的聚類結(jié)果而言,卻是相背離的。因此,制定了一組判斷準(zhǔn)則,希望通過選擇適當(dāng)?shù)念愰g距離定義方法來彌補(bǔ)這一缺陷。準(zhǔn)則a是從聚類分析的實(shí)質(zhì)出發(fā),認(rèn)為一種較好的聚類方法,應(yīng)該使類間差異盡可能大,類內(nèi)差異盡可能小。按照這個準(zhǔn)則選擇的聚類結(jié)果應(yīng)該是較好的。但是,一個有多個單個樣品的類的聚類結(jié)果,類內(nèi)差異必然很小。因此僅用準(zhǔn)則a,還不能得出滿足要求的聚類結(jié)果。因此,又加入了準(zhǔn)則b和準(zhǔn)則c,準(zhǔn)則b是針對二維有序樣品的條件系統(tǒng)聚類法的缺陷而設(shè)置的,它要求每一類至少有兩個樣品。準(zhǔn)則c也是根據(jù)研究目的所設(shè),它要求聚類結(jié)果應(yīng)該滿足實(shí)際需要。把這三個準(zhǔn)則結(jié)合起來,就可以判斷不同聚類方法的聚類結(jié)果了。雖然在聚類過程中加入了條件的約束,但是幾種系統(tǒng)聚類法的聚類性質(zhì)并未發(fā)生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)五年級小數(shù)乘除法計(jì)算題匯編
- 科創(chuàng)板開通知識測試參考答案
- 語文試卷 天津市濱海新區(qū)五所重點(diǎn)中學(xué)高三畢業(yè)班聯(lián)考語文試卷
- 保險(xiǎn)行業(yè)助理的工作總結(jié)和技能要求
- 骨骼疾病護(hù)理工作總結(jié)
- 家具家居行業(yè)技術(shù)嘗試改造
- 生物醫(yī)藥行業(yè)技術(shù)工作總結(jié)
- 紙制品行業(yè)業(yè)務(wù)員工作總結(jié)
- 游戲界面設(shè)計(jì)師的交互體驗(yàn)和游戲設(shè)計(jì)
- 《機(jī)械防煙方式》課件
- 施工員崗位述職報(bào)告
- 第47屆江蘇省選拔賽化學(xué)實(shí)驗(yàn)室技術(shù)項(xiàng)目技術(shù)文件
- 2024年精美《婚姻法》課件模板:法律教育的新趨勢
- 項(xiàng)目管理年終總結(jié)匯報(bào)
- 夫妻共同房產(chǎn)變更為一方單獨(dú)所有協(xié)議書(2篇)
- 第六單元《多邊形的面積》 單元測試(含答案)2024-2025學(xué)年人教版五年級數(shù)學(xué)上冊
- 光伏電站安裝與調(diào)試教學(xué)培訓(xùn)課件:太陽能光伏發(fā)電系統(tǒng)概論
- 工程倫理(2024東莞理工)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 平安在線測評 iq 30題 答案
- 2024工程材料合同交底(填報(bào)要求)
- 體育場館運(yùn)營管理與服務(wù)標(biāo)準(zhǔn)規(guī)范
評論
0/150
提交評論