




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、中職生心理健康教育中分類技術(shù)的運用 1數(shù)據(jù)準(zhǔn)備 1.1數(shù)據(jù)選擇 本文采用癥狀自評量表(scl90),通過對某中職學(xué)校2011級學(xué)生進行心理健康狀況測試得到的數(shù)據(jù),發(fā)出問卷413份,其中有效問卷377份,有效率為91.3%。 1.2數(shù)據(jù)預(yù)處理 數(shù)據(jù)挖掘的目的是從日常業(yè)務(wù)數(shù)據(jù)中抽取一些有價值的知識或信息,但實際的數(shù)據(jù)庫太大,極易受噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)的侵?jǐn)_,這就給后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘帶來極大的不便,甚至導(dǎo)致錯誤的結(jié)論,所以有必要對數(shù)據(jù)進行預(yù)處理。經(jīng)驗表明,只有通過前期細(xì)致的數(shù)據(jù)準(zhǔn)備工作,才能在數(shù)據(jù)挖掘過程中節(jié)省挖掘的時間,提高挖掘的效率,得到高質(zhì)量的挖掘結(jié)果。常見的數(shù)據(jù)預(yù)處理方法有
2、多種,包括數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換等。 1)數(shù)據(jù)抽取 在數(shù)據(jù)挖掘過程中一般并不需要使用所有的數(shù)據(jù),有些數(shù)據(jù)對構(gòu)建數(shù)據(jù)模型干擾不大,有些數(shù)據(jù)會降低挖掘計算的效率,甚至可能導(dǎo)致謬誤,并且這些數(shù)據(jù)對最終的數(shù)據(jù)分析沒有任何益處,也不會影響正確結(jié)論的獲得。因此,根據(jù)所定義的項目任務(wù),確定所需的數(shù)據(jù)源,并從中收集和提取數(shù)據(jù),查找數(shù)據(jù)屬性特征,減少數(shù)據(jù)規(guī)模,使得在不影響數(shù)據(jù)分析基礎(chǔ)上最大可能地精簡數(shù)據(jù)量,方便挖掘出數(shù)據(jù)之間隱含的規(guī)律和內(nèi)在的聯(lián)系。在收集到的中職學(xué)生心理健康測試數(shù)據(jù)中有很多屬性,其中有一些屬性與挖掘任務(wù)之間沒有太大關(guān)系,或數(shù)據(jù)本身沒有挖掘的意義。如學(xué)生的學(xué)號、姓名、id號等屬性,
3、這些屬性值都是唯一性的,而且數(shù)據(jù)量又很大,只會增加挖掘計算的時間和空間,可以直接刪除。另外,像民族、出生年月、學(xué)生類別之類的屬性,由于選取的數(shù)據(jù)中有八成以上為漢族學(xué)生,全部是2011級,類別過于集中,沒有分類的意義,對挖掘的結(jié)果影響不大,因此在數(shù)據(jù)提取時也需要清除這部分屬性值,使得數(shù)據(jù)規(guī)模得以降低。根據(jù)中職學(xué)生心理健康數(shù)據(jù)的特點,經(jīng)過數(shù)據(jù)抽取,確定了與挖掘任務(wù)相關(guān)的學(xué)生基本屬性是性別、獨生子女、專業(yè)、家庭所在地,分別對軀體化、強迫癥狀、人際關(guān)系敏感、抑郁、焦慮、敵對、恐怖、偏執(zhí)、精神病性等十個心理癥狀進行挖掘。 2)數(shù)據(jù)清洗 數(shù)據(jù)清洗目的是通過檢測數(shù)據(jù)中存在的錯誤和不一致來清理數(shù)據(jù),包括空值處
4、理、噪聲處理及不一致數(shù)據(jù)的處理等。該文所使用的數(shù)據(jù)集在收回癥狀自評量表時已經(jīng)對數(shù)據(jù)的有效性做了初步的篩選,剔除了存在較大缺失的測試數(shù)據(jù)。因此,在數(shù)據(jù)清理這個環(huán)節(jié)主要針對數(shù)據(jù)中的不完整性、不一致性進一步篩查,確保數(shù)據(jù)的有效性。在心理測試過程中,由于學(xué)生填涂不規(guī)范、錯填或者其他因素干擾等原因,導(dǎo)致數(shù)據(jù)不完整,會產(chǎn)生大量的噪聲數(shù)據(jù)。這些錯誤數(shù)據(jù)和空值數(shù)據(jù)、重復(fù)數(shù)據(jù)需要通過預(yù)處理方法進行數(shù)據(jù)清洗。經(jīng)過對數(shù)據(jù)空值及不一致性的清理后,所得到的數(shù)據(jù)質(zhì)量有了很大的提高,保證了數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性和有效性。 3)數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)轉(zhuǎn)換的基本原則是連續(xù)型數(shù)據(jù)離散化,離散型數(shù)據(jù)類別化。源數(shù)據(jù)中有些數(shù)據(jù)是連續(xù)型的,還有些
5、數(shù)據(jù)雖是離散型,但其分類太多,如家庭所在地屬性值分散較廣,專業(yè)屬性值有多個等,不利于進行數(shù)據(jù)挖掘,必須轉(zhuǎn)換。另外,為了提高挖掘的效率,必須規(guī)范數(shù)據(jù)格式,中文屬性值可用一些英文字符或數(shù)字編號替代。 2數(shù)據(jù)分類規(guī)則挖掘方法基于決策樹模型的方法 數(shù)據(jù)分類是數(shù)據(jù)挖掘技術(shù)的主要組成部分,采用kdd技術(shù)對數(shù)據(jù)進行有效分析。它能找出描述數(shù)據(jù)類或概念的模型,以便能使用模型預(yù)測類來標(biāo)記未知的對象類。在眾多的分類挖掘技術(shù)中,決策樹方法以其算法容易理解,易生成分類規(guī)則等優(yōu)點被廣泛研究和應(yīng)用。 2.1決策樹概述 決策樹方法首先對數(shù)據(jù)進行處理,構(gòu)建分類模型,生成決策樹,利用生成的分類規(guī)則對新數(shù)據(jù)進行分析。本質(zhì)上決策樹是
6、通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。決策樹是一個可以自動對數(shù)據(jù)進行分類的倒置樹形結(jié)構(gòu),采用自頂向下的遞歸方式,對它的每個內(nèi)部節(jié)點進行一個屬性上的測試,對每個節(jié)點上問題的不同回答引出兩個或多個分支,導(dǎo)致不同的結(jié)果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹中最頂層的節(jié)點稱為根節(jié)點,是整個決策樹的開始。每個節(jié)點代表一個屬性,并根據(jù)屬性值的不同判斷該節(jié)點向下的分支,最終會到達葉節(jié)點。其中每個分支代表它所連接的上節(jié)點在其屬性上的可能取值,每個葉節(jié)點對應(yīng)一個類別。根據(jù)類別屬性建立一個類似流程圖的樹形結(jié)構(gòu),從根結(jié)點到葉結(jié)點的一條路徑就形成了一個分類規(guī)則,整個決策樹就相應(yīng)形成一組析取規(guī)則,這
7、樣就很容易轉(zhuǎn)換成if-then形式的分類規(guī)則,根據(jù)這個分類規(guī)則就可以比較容易地對新數(shù)據(jù)進行分類識別和預(yù)測。 2.2id3算法 生成決策樹的一個著名算法是id3算法,是由quinlan等人于1986年提出的,其基本思想是自頂向下遞歸地搜索訓(xùn)練樣本集,在每個節(jié)點處測試每一個屬性,從而構(gòu)成決策樹。id3算法在每個非葉節(jié)點選擇信息增益最大的屬性作為測試屬性。id3算法的核心是確定分支準(zhǔn)則,即如何從眾多的屬性變量中選擇一個最佳的分裂屬性。通常,在樹的每個非葉節(jié)點選擇具有信息增益最大的屬性作為當(dāng)前節(jié)點的測試屬性,使得對結(jié)果劃分中的樣本分類所需的信息量最小,并確保找到一棵相對簡單的樹。算法計算每個屬性的信息
8、增益,具有最高信息增益的屬性選作給定集合的根節(jié)點,然后依次比對節(jié)點和訓(xùn)練樣本中的其他屬性值,完成對訓(xùn)練樣本的劃分。 3基于決策樹的中職學(xué)生心理健康模型的發(fā)現(xiàn) 將汽車制造與檢修、計算機網(wǎng)絡(luò)技術(shù)、機電技術(shù)應(yīng)用三個專業(yè)學(xué)生的數(shù)據(jù)抽出,共有242條記錄作為訓(xùn)練數(shù)據(jù)集進行決策樹挖掘。具體包含了中職學(xué)生相關(guān)屬性(性別、獨生子女、專業(yè)、家庭所在地)和癥狀自評量表10個維度(軀體化、強迫癥狀、人際關(guān)系敏感、抑郁、焦慮、敵對、恐怖、偏執(zhí)、精神病性、其他)共14個字段。這里,將挖掘任務(wù)具體為分析焦慮癥狀與中職學(xué)生的哪些屬性相關(guān),其相關(guān)程度如何。因此,選擇性別、獨生子女、專業(yè)、家庭所在地以及焦慮作為決策樹挖掘字段,
9、生成如圖1所示決策樹。其中用jl1和jl2分別代表學(xué)生有焦慮癥狀和無焦慮癥狀。采用決策樹的最大特點就是能方便地提取分類規(guī)則,并使用if.then形式表示對應(yīng)的分類規(guī)則。if.then規(guī)則就是從根節(jié)點到葉節(jié)點的每條路徑生成一個規(guī)則,據(jù)此可以得到如下判定學(xué)生是否焦慮的規(guī)則:if獨生子女是and專業(yè)機電技術(shù)應(yīng)用and性別男and家庭所在地農(nóng)村then有焦慮癥狀;if獨生子女是and專業(yè)機電技術(shù)應(yīng)用and性別男and家庭所在地中小城市then無焦慮癥狀;if獨生子女是and專業(yè)計算機網(wǎng)絡(luò)技術(shù)and性別男then有焦慮癥狀;if獨生子女是and專業(yè)計算機網(wǎng)絡(luò)技術(shù)and性別女then無焦慮癥狀;if獨生子
10、女否and專業(yè)汽車制造與檢修and性別男and家庭所在地農(nóng)村then無焦慮癥狀;if獨生子女否and專業(yè)汽車制造與檢修and性別女a(chǎn)nd家庭所在地農(nóng)村then有焦慮癥狀;從生成的決策樹可以看出,與焦慮癥狀最為相關(guān)的學(xué)生屬性是是否獨生子女,其次是專業(yè)。從圖中可以得出以下結(jié)論:獨生子女的焦慮程度明顯高于非獨生子女,男生的比例明顯高于女生,男生中為獨生子女、專業(yè)為機電技術(shù)應(yīng)用且來自農(nóng)村或小城鎮(zhèn)的學(xué)生焦慮癥狀比較普遍。根據(jù)分析的結(jié)果,在進行與焦慮癥狀相關(guān)的心理咨詢、心理輔導(dǎo)工作中,應(yīng)對獨生子女、農(nóng)村或小村鎮(zhèn)、機電技術(shù)應(yīng)用專業(yè)男生等容易出現(xiàn)心理問題的群體給予特別的關(guān)注,予以適當(dāng)?shù)囊龑?dǎo)、幫助,降低心理健康問題對學(xué)生成長的影響。 4結(jié)束語 中職學(xué)生心理健康問題十分內(nèi)隱,外人無法直接感知,很難體會到有心理疾病學(xué)生矛盾、困惑乃至痛苦的內(nèi)心處境。通
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廚房煙道設(shè)備合同范本
- 就業(yè)指導(dǎo)課題申報書
- 公司承運合同范本
- 和學(xué)徒簽合同范本
- 校級課題怎樣立項申報書
- 哪里看課題申報書
- 挑戰(zhàn)性課題申報書
- 加油車合同范本
- 品牌接手合同范本
- 售房合同范本6
- 大象版(2017秋)六年級下冊 科學(xué) 2.4可再生與不可再生資源(教學(xué)設(shè)計)
- 《珍愛生命拒絕毒品》主題班會課件
- GB/T 32399-2024信息技術(shù)云計算參考架構(gòu)
- 蘇教版二年級數(shù)學(xué)下冊單元測試題及答案全套1
- 全國職業(yè)院校技能大賽高職組(建筑信息模型建模與應(yīng)用賽項)備賽試題庫(含答案)
- 07SG111-1 建筑結(jié)構(gòu)加固施工圖設(shè)計表示方法
- 《增廣賢文》全文及解釋(珍藏版)
- 中小學(xué)美術(shù)教學(xué)論
- 屋頂分布式光伏發(fā)電EPC項目 投標(biāo)方案(技術(shù)方案)
- 網(wǎng)約車停運損失費起訴狀模板
- 新編建筑裝飾設(shè)計收費標(biāo)準(zhǔn)
評論
0/150
提交評論