




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第25卷第1期 航 天 器 環(huán) 境 工 程2008年2月 S P A C E C R A F T E N V I R O N M E N T E N G I N E E R I N G 41數(shù)據(jù)挖掘分類方法在沖擊譜試驗中的應用馮雪梅,盧來潔,馬愛軍,劉洪英(中國航天員科研訓練中心,北京 100094摘要:沖擊譜試驗隨機性強,難度較大。文章利用數(shù)據(jù)挖掘中分類方法提取數(shù)據(jù)背后隱藏的有用知識,通過數(shù)據(jù)預處理、構建沖擊譜試驗數(shù)據(jù)倉庫、決策樹分析、評估比較,最終總結出一套針對不同產(chǎn)品、不同試驗工況的沖擊譜試驗調(diào)試方法。這可為以后產(chǎn)品的沖擊環(huán)境試驗提供有力的技術支持,進一步提高沖擊譜試驗的質(zhì)量和試驗中產(chǎn)品
2、的安全性。關鍵詞:數(shù)據(jù)挖掘;分類分析;沖擊譜試驗 中圖分類號:TB123;V416.2 文獻標識碼:A 文章編號:1673-1379(200801-0041-031 引言數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊且隨機的實際應用數(shù)據(jù)中提取隱含在其中的預先未知但又是潛在有用的信息和知識的過程1。分類是數(shù)據(jù)挖掘中常用的技術。它將建立一個分類模型,該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。這樣可以利用該模型來分析已有數(shù)據(jù),并預測新數(shù)據(jù)將屬于哪一個組。沖擊譜試驗主要是模擬爆炸沖擊環(huán)境的力學試驗。模擬爆炸沖擊試驗的環(huán)境復雜,影響因素較多,隨機性強,試驗難度較大2,試驗調(diào)試往往依賴于試驗人員的經(jīng)
3、驗。通過對沖擊譜機試驗數(shù)據(jù)進行整理,構建沖擊譜機數(shù)據(jù)倉庫,并利用數(shù)據(jù)挖掘工具(SPSS Clementine ,采用決策樹(Decision Tree 分析方法,從試驗訓練數(shù)據(jù)集中找出隱藏、未知而有用的規(guī)律,總結出一套針對不同產(chǎn)品、不同試驗工況的沖擊譜試驗調(diào)試方法。2 數(shù)據(jù)預處理高質(zhì)量的決策依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預處理是數(shù)據(jù)挖掘過程中的重要步驟。在構建沖擊譜試驗機數(shù)據(jù)倉庫過程中使用的數(shù)據(jù)是經(jīng)過預處理(即去掉壞的數(shù)據(jù),消除數(shù)據(jù)之間的矛盾,來自不同數(shù)據(jù)源的數(shù)據(jù)的集成,數(shù)據(jù)的轉(zhuǎn)換的歷史數(shù)據(jù),可以提高所獲規(guī)則的可靠性3。對沖擊譜試驗數(shù)據(jù)源作必要的整理,包括以下內(nèi)容:(1 數(shù)據(jù)獲取整理記錄沖擊譜試
4、驗機的歷史試驗及調(diào)試數(shù)據(jù)。(2 數(shù)據(jù)取樣按沖擊譜試驗的不同試驗規(guī)范、產(chǎn)品質(zhì)量分類,取樣以類為單位。(3 數(shù)據(jù)篩選濾除不希望包括進來的試驗數(shù)據(jù),去除數(shù)據(jù)中的噪音并糾正其不一致。例如由于加速度傳感器粘貼不當或傳感器零漂所產(chǎn)生的“臟數(shù)據(jù)”等,將超出沖擊試驗規(guī)范一定范圍的試驗數(shù)據(jù)排除于取樣范圍之外;當屬性出現(xiàn)缺少值、奇異值或數(shù)據(jù)存在不一致時,采用數(shù)據(jù)分箱、人機交互檢查以及回歸等方法檢測。(4 數(shù)據(jù)轉(zhuǎn)換將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式。3 分類分析分類是利用訓練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則。常用的算法是神經(jīng)網(wǎng)絡和決策樹。神經(jīng)網(wǎng)絡的優(yōu)點是該算法對復雜問題能進行很好地預測,對噪聲數(shù)據(jù)的承受能力比較強,以及
5、它的泛化性較好;其缺點是需要很長的訓練時間及大量的參數(shù),而且解釋性差,即無法解釋如何得出結果和使用了什么規(guī)則。決策樹是建立在信息論基礎之上對數(shù)據(jù)進行分類的一種方法。這種方法相對比較簡收稿日期:2007-08-28;修回日期:2007-12-03作者簡介: 馮雪梅(1974-,女,工程師,主要從事計算機測控技術研究工作。聯(lián)系電話:(01066365643-801;E-mail: fengxuemei507 。HY FSOF TWA REC O.,LT D42 航 天 器 環(huán) 境 工 程 2008年第25卷單,其最大的優(yōu)點就是易于理解,比較直觀4。本文采用SPSS Clementine 中的決策樹
6、C5.0算法和CART 算法進行分類分析。C5.0算法是ID3算法、C4.5算法的修訂版,適用于處理大資料集,采用Boosting 方式提高模型準確率,軟件的計算速度比較快,占用的內(nèi)存資源比較少。CART 算法自20世紀80年代以來就開始發(fā)展,由Friedman 等人提出,是基于樹結構產(chǎn)生分類和回歸模型的過程,是一種產(chǎn)生二元樹的技術。CART 與C5.0算法的最大差別在于其在每一個節(jié)點上都是采用二分法,也就是一次只能夠有兩個子節(jié)點;而C5.0算法則在每一個節(jié)點上可以產(chǎn)生不同數(shù)量的分支。根據(jù)試驗規(guī)范、產(chǎn)品重量、夾具重量、溫濕度環(huán)境等信息分類,預測各個調(diào)試參數(shù)(諧振板厚度,諧振板上、板下阻尼材料參
7、數(shù),標尺高度等,如圖1所示。圖1 決策樹圖Fig.1 Decision tree4 數(shù)據(jù)評價通過數(shù)據(jù)評價可以選擇出最好的分類模型。由于在數(shù)據(jù)挖掘過程中發(fā)現(xiàn)試驗室溫濕度環(huán)境與試驗結果有關聯(lián),因此在進行分類分析中,將數(shù)據(jù)輸入項分為兩類:第一類以試驗規(guī)范、產(chǎn)品重量、夾具重量、備件前后為輸入;第二類除包含第一類內(nèi)容以外,增加環(huán)境溫度和濕度輸入。利用C5.0算法和CART 算法進行分類分析,得到不同的分類模型結果。使用公共的標準例如提升圖,對不同數(shù)據(jù)挖掘模型進行定量比較和評價。圖2圖5分別為對諧振板厚度,諧振板上、板下阻尼材料參數(shù),標尺高度分類結果的提升圖。(a 無溫濕度 (b 含溫濕度輸入注:Best
8、 ;$C. 諧振板;$R. 諧振板圖2 諧振板分類結果評估圖Fig.2 Evaluation chart of resonance board(a 無溫濕度 (b 含溫濕度輸入注:Best ;$C. 板下材料;$R. 板下材料圖3 板下材料分類結果評估圖Fig.3 Evaluation chart of materials under the board(a 無溫濕度 (b 含溫濕度輸入注:Best ;$C. 板上材料;$R. 板上材料圖4 板上材料分類結果評估圖Fig.4 Evaluation chart of materials on the board(a 無溫濕度 (b 含溫濕度輸入注
9、:Best ;$C. 標尺高度數(shù);$R. 標尺高度數(shù)圖5 提升高度分類結果評估圖Fig.5 Evaluation chart of height提升表中繪制的是累積提升值與樣本百分比的關系,即構造/培訓樣本。其基準值(即評估每個模型的底限是1,它表示當從樣本中隨機抽取記錄的百分點時能成功地“擊中”現(xiàn)有客戶。提示值衡量的是當來自數(shù)據(jù)中的某一記錄使一個現(xiàn)有客戶的降序預測概率能被百分點反映時,預測模型“擊中”現(xiàn)有客戶的成功可能性(準確度有多高。如上圖所示,每個模型的提升值均大于1,在100%時收斂于1。由于每個預測模型都能以有效精HY FSOF TWA REC O.,LT D度預測目標變量,因此可以
10、說它們都是有效的。從圖2圖5中可以看出:第1期 馮雪梅等:數(shù)據(jù)挖掘分類方法在沖擊譜試驗中的應用 43(1 對于諧振板厚度和諧振板下阻尼材料,采用C5.0算法和CART 算法都可以得到很好的分類預測結果,且環(huán)境溫濕度與分類結果無關;(2 對于諧振板上阻尼材料和標尺高度,采用C5.0算法可以得到更好的分類預測結果,且分類輸入因素應考慮環(huán)境溫濕度的影響。分類模式往往表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能確定類別,以供試驗人員進行試驗調(diào)試使用。圖6顯示的是諧振板下阻尼材料的分類樹結構。圖6 板下材料的分類樹結構Fig.6 Classification tr
11、ee models of materials under the board5 結論將數(shù)據(jù)挖掘技術應用于試驗技術研究中,通過對沖擊譜試驗數(shù)據(jù)的分類分析,總結出一套適用于產(chǎn)品沖擊譜試驗的調(diào)試方法,改變了以往依賴試驗人員經(jīng)驗的狀況。研究結果可為以后產(chǎn)品的沖擊環(huán)境試驗提供有力的技術保障,進一步提高沖擊譜試驗的質(zhì)量和沖擊譜試驗中產(chǎn)品的安全性。參考文獻(References 1 Han Jiawei, Kamber Micheline. Data mining:concepts and techniquesM. USA: Morgan Kaufmann Publishers, 2001: 70-1812 馬愛軍, 馮雪梅, 盧來潔, 等. 一種沖擊譜試驗機的研制J. 航天醫(yī)學與醫(yī)學工程
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度湖南省勞動合同(教育行業(yè))
- 離婚房產(chǎn)公證協(xié)議書
- 住宿服務合同書
- 企業(yè)環(huán)保技術創(chuàng)新及綠色制造戰(zhàn)略規(guī)劃
- 民用建筑施工合同
- 旅游度假村開發(fā)建設合同
- 企業(yè)可持續(xù)發(fā)展成本效益分析
- 大數(shù)據(jù)平臺建設委托代理協(xié)議
- 股份轉(zhuǎn)讓意向合同
- 三農(nóng)用無人機使用及維護指南
- 氫氣儲存和運輸 課件 第1、2章 氫氣存儲與運輸概述、高壓氣態(tài)儲運氫
- 三年級地方課教案
- 涉外法律文書寫作
- 旅游大數(shù)據(jù)理論、技術與應用課程方案、案例分析
- 1.裝配式建筑概述(裝配式混凝土結構施工技術)
- 新零件的成熟保障MLA
- 《董存瑞舍身炸碉堡》PPT課件新
- 新川教版信息技術六年級下冊全冊教案
- 《計算機與網(wǎng)絡技術基礎》
- 下穿高速鐵路監(jiān)測方案
- 手機號碼段歸屬地數(shù)據(jù)庫(2016年3月)
評論
0/150
提交評論