下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)中的數(shù)據(jù)預(yù)處理技術(shù)分析摘要:隨著信息技術(shù)的飛速發(fā)展,大數(shù)據(jù)技術(shù)也快速發(fā)展并且應(yīng)用越來越廣泛。信息技術(shù)的飛速發(fā)展為數(shù)據(jù)的收集和分析提供了強大的技術(shù)基礎(chǔ),并且隨著數(shù)學(xué)與計算機科學(xué)的交匯,大數(shù)據(jù)技術(shù)的應(yīng)用價值越來越大。本文根據(jù)大數(shù)據(jù)技術(shù)的數(shù)據(jù)預(yù)處理要求,簡要論述了大數(shù)據(jù)的預(yù)處理技術(shù)。分析結(jié)果表明,對數(shù)據(jù)進行預(yù)處理,可以更準確的獲得有價值的數(shù)據(jù)。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)預(yù)處理;技術(shù);分析
一、大數(shù)據(jù)技術(shù)
1.概念
大數(shù)據(jù)技術(shù),是指一種在不使用傳統(tǒng)隨機理論進行數(shù)據(jù)分析的情況下對數(shù)據(jù)進行集成分析和處理的方法,主要是在數(shù)據(jù)處理方面面臨挑戰(zhàn)。由于實際的生產(chǎn)和壽命,會生成并存儲大量數(shù)據(jù),這些數(shù)據(jù)可以表征該過程。您會看到使用科學(xué)合理的數(shù)據(jù)處理方法時,會挖掘它們的唯一值并將其用于優(yōu)化。控制和決策制定并加深數(shù)據(jù)的價值。大數(shù)據(jù)由于其樣本量大,準確性高和出色的科學(xué)質(zhì)量而受到人們的歡迎。同時,大數(shù)據(jù)處理技術(shù)具有高速,多樣化,高價值和可靠性。
2.大數(shù)據(jù)技術(shù)的處理流程
根據(jù)現(xiàn)有的一般大數(shù)據(jù)處理技術(shù)。第一步是數(shù)據(jù)的收集,這是大數(shù)據(jù)的數(shù)據(jù)來源,并且主要依靠信息技術(shù)(例如傳感器網(wǎng)絡(luò))來實現(xiàn)數(shù)據(jù)收集。下一步是預(yù)處理數(shù)據(jù),但是由于實際收集的數(shù)據(jù)存在噪音,冗余等問題,因此需要對其進行預(yù)處理以進行計算和分析,這也是本文的重點。第三步是存儲正常檢索的數(shù)據(jù)矩陣。第四步是數(shù)值分析,它是利用數(shù)據(jù)值分析的特定模型。第五步是顯示結(jié)果,以簡單易懂的形式將數(shù)據(jù)展示出來。從整個大數(shù)據(jù)處理過程的角度來看,數(shù)據(jù)預(yù)處理技術(shù)的水平?jīng)Q定了數(shù)據(jù)的可靠性和完整性,并在后續(xù)數(shù)據(jù)分析中起著重要作用。預(yù)處理過程中使用了許多數(shù)學(xué)計算模式。接下來,我們重點介紹相關(guān)數(shù)學(xué)轉(zhuǎn)換和大數(shù)據(jù)預(yù)處理的數(shù)學(xué)分析方法。
二、數(shù)據(jù)預(yù)處理技術(shù)分析
1.需求分析
在數(shù)據(jù)采集的過程中會出現(xiàn)一些問題,例如測量采集設(shè)備的精度不足,數(shù)據(jù)傳輸過程中的環(huán)境干擾,數(shù)據(jù)中的環(huán)境噪聲以及對手動輸入數(shù)據(jù)的篡改,會形成不需要的或者錯誤的數(shù)據(jù)。這些原始數(shù)據(jù)存在以下問題集:(1)混亂。數(shù)據(jù)僅存儲在數(shù)據(jù)集中,缺乏統(tǒng)一的定量和轉(zhuǎn)換標準,因此無法進行數(shù)據(jù)的定量視覺分析。(2)重復(fù)。數(shù)據(jù)具有多個相同的物理描述和特征,尤其是在分析數(shù)據(jù)的方向上存在重復(fù),這構(gòu)成了數(shù)據(jù)重復(fù)和冗余數(shù)據(jù)的累積。這對樣品的分析是有害的。例如,如果輸入數(shù)據(jù),則多次輸入同一實體將導(dǎo)致重復(fù)數(shù)據(jù)。(3)模糊。實驗?zāi)P突驅(qū)嶋H系統(tǒng)設(shè)計必定會存在一些漏洞和缺陷,從而使其物理特性不清楚或混亂。(4)丟失。發(fā)送或記錄數(shù)據(jù)時發(fā)生錯誤,并且數(shù)據(jù)丟失。由于數(shù)據(jù)集的復(fù)雜性,數(shù)據(jù)的準確性和有效性極大地影響了挖掘?qū)W習(xí)的準確性和有效性。因此,對數(shù)據(jù)進行預(yù)處理成為一項重要的預(yù)分析任務(wù)。有很多預(yù)處理數(shù)據(jù)的方法,包括清除數(shù)據(jù),選擇數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)。
2.數(shù)據(jù)清洗
由于各種問題,實際收集的數(shù)據(jù)無法直接用于價值分析。這些不確定的數(shù)據(jù)會嚴重影響大數(shù)據(jù)數(shù)據(jù)分析的準確性,并且在關(guān)鍵情況下會失去分析結(jié)果的實際意義。出于某些目的需要進行預(yù)處理。數(shù)據(jù)清理主要處理不合規(guī)的數(shù)據(jù),例如重復(fù)數(shù)據(jù)項,噪聲數(shù)據(jù)項和丟失的數(shù)據(jù)項。數(shù)據(jù)重復(fù)會導(dǎo)致數(shù)據(jù)挖掘模型發(fā)生變化,應(yīng)予以消除,但是檢測重復(fù)數(shù)據(jù)的有效方法包括使用基于排序/合并原理的基本鄰接排序算法。在實際的生產(chǎn)和生活中,數(shù)據(jù)不可避免地會有很多漏洞。這是在現(xiàn)實世界中生成的數(shù)據(jù)集的特征,只有某些算法才能補償該錯誤。一般的缺失值預(yù)處理方法為:(1)直接刪除空白數(shù)據(jù)項。該方法的優(yōu)點是明顯,高效且技術(shù)含量較低。但是,對于樣本量不夠大的數(shù)據(jù)集,會出現(xiàn)較大的偏差。(2)使用填充技術(shù)來填充缺失值。由于直接刪除空值可能會對數(shù)據(jù)造成不可挽回的損害,因此我們使用填充算法來完成數(shù)據(jù),但不容易產(chǎn)生偏差。統(tǒng)計方法:標準正態(tài)分布表明,可以使用數(shù)據(jù)的算術(shù)平均值代替空缺值。這是最簡單,最常用的方法。分類法:面對大數(shù)據(jù)集時,您可以先對其分類,然后再分析和檢查小數(shù)據(jù)集。分類方法對于樣本訓(xùn)練具有很好的容忍性,但往往會過度學(xué)習(xí)。我們將需要設(shè)置更多的測試樣本,并使用更多的算法進行檢測和挖掘,因此在此不再贅述。
3.數(shù)據(jù)選樣
數(shù)據(jù)選擇分為簡單隨機選擇和分層樣本選擇。這是數(shù)學(xué)中的典型統(tǒng)計問題。其中,簡單隨機樣本選擇不包括替換樣本選擇和替換樣本選擇。簡單的隨機樣本選擇算法易于實現(xiàn)??梢越Y(jié)合使用排列和概率知識以及中學(xué)編程知識來進行操作。通過分層樣本選擇獲得的數(shù)據(jù)子集適用于數(shù)據(jù)挖掘。
4.數(shù)據(jù)變換
數(shù)據(jù)轉(zhuǎn)換的目的是將數(shù)據(jù)轉(zhuǎn)換為特定挖掘所需的格式。通常需要將其與實際數(shù)據(jù)挖掘算法結(jié)合起來以執(zhí)行特定的數(shù)據(jù)轉(zhuǎn)換。通常,它可以分為簡單功能轉(zhuǎn)換和統(tǒng)一標準轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的重點是將難以表達和計算的原始不規(guī)則性轉(zhuǎn)換為規(guī)范化的可分析數(shù)據(jù),從而消除了由于收集和存儲數(shù)據(jù)而造成的缺陷。嘗試消除數(shù)據(jù)轉(zhuǎn)換的基礎(chǔ)是簡單的功能轉(zhuǎn)換,它通過特定的數(shù)學(xué)排列方式對數(shù)據(jù)進行排列,以采用曲線擬合方法。更復(fù)雜的算法也可以使用不同的復(fù)雜算法,例如Z分數(shù)歸一化算法,以使數(shù)據(jù)轉(zhuǎn)換更加準確和科學(xué)。此外,在使用數(shù)據(jù)之前,您需要合并數(shù)據(jù),合并配置有不同數(shù)據(jù)源的數(shù)據(jù)集以刪除冗余數(shù)據(jù),將兩個或多個上述數(shù)據(jù)集合并到同一數(shù)據(jù)集中。一種處理不正確的空位值的清潔技術(shù),以使所獲取的數(shù)據(jù)集更加科學(xué)和準確。
結(jié)束語
目前大多數(shù)技術(shù)都是基于某些特定數(shù)學(xué)類型的典型問題。通過本文的分析可以看出,實際收集到的數(shù)據(jù)受外部環(huán)境的影響很大,因此數(shù)據(jù)是變化的,難以保證數(shù)據(jù)的質(zhì)量。同時,由于不同行業(yè)對數(shù)據(jù)的要求不同,有必要結(jié)合具體應(yīng)用采用科學(xué)合理的數(shù)據(jù)預(yù)處理方法。因此,通過對數(shù)據(jù)的預(yù)處理,可以去除數(shù)據(jù)中的冗余或者錯誤的數(shù)據(jù),得到更有價值的數(shù)據(jù)。
參考文獻:
[1]孔欽,葉長青,孫赟.大數(shù)據(jù)下數(shù)據(jù)預(yù)處理方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 恒流恒壓電源課程設(shè)計
- 體育行業(yè)的會計工作總結(jié)
- 線性代數(shù)總結(jié)課程設(shè)計
- 自動散熱器課程設(shè)計
- 電子信息行業(yè)電話客服工作總結(jié)
- 文化行業(yè)采購合作案例分析
- 教育行業(yè)美工工作心得交流
- 2023-2024學(xué)年上海師大附中閔行分校高一(下)期中語文試卷
- 醫(yī)療機構(gòu)保安工作內(nèi)容詳解
- IT科技行業(yè)中信息技術(shù)顧問的工作總結(jié)
- 2024屆四川省眉山市仁壽縣中考聯(lián)考數(shù)學(xué)試卷含解析
- 激光技術(shù)員年終總結(jié)
- 危險化學(xué)品經(jīng)營許可證核發(fā)程序省公開課一等獎全國示范課微課金獎?wù)n件
- 1北京師范大學(xué)馬克思主義哲學(xué)期末測試卷
- 智能建造理論與實踐 課件全套 第1-6章 智能建造概述- 智慧城市
- 修井作業(yè)安全培訓(xùn)課件
- 新點軟件使用培訓(xùn)課件
- 內(nèi)控合規(guī)風(fēng)險管理手冊
- 教師工作職責(zé)培訓(xùn)課件建立良好的教師與學(xué)生關(guān)系
- 品管部年度工作總結(jié)
- 胃腸外科病人圍手術(shù)期營養(yǎng)管理專家共識護理課件
評論
0/150
提交評論