版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于人工智能技術(shù)的大數(shù)據(jù)分析方法研究進(jìn)展費(fèi)一鳴
(香港恒生大學(xué),香港,999077)
1大數(shù)據(jù)分析方法問題的提出
1.1大數(shù)據(jù)分析的重要性
大數(shù)據(jù)是人類發(fā)展過程中的重要資源,使我們必不可少的重要內(nèi)容。關(guān)注大數(shù)據(jù)技術(shù)的研究工作,可以充分挖掘大數(shù)據(jù)的內(nèi)在價值和科學(xué)知識,認(rèn)識工業(yè)經(jīng)濟(jì)的快速發(fā)展。當(dāng)下數(shù)據(jù)無所不在:在我國經(jīng)濟(jì)發(fā)展中,可以科學(xué)控制工業(yè)生產(chǎn)過程[1],從而實(shí)現(xiàn)產(chǎn)業(yè)經(jīng)濟(jì)結(jié)構(gòu)的調(diào)整,為我國經(jīng)濟(jì)發(fā)展注入新的活力。此外,大數(shù)據(jù)技術(shù)的應(yīng)用有效結(jié)合人工智能技術(shù),將智能制造應(yīng)用于社會制造,為制造業(yè)轉(zhuǎn)型做出巨大貢獻(xiàn)。
1.2技術(shù)路線
基于人工智能技術(shù)的大數(shù)據(jù)分析,智能是前提,離不開高端的技術(shù)支持。利用大數(shù)據(jù)、人工智能等技術(shù)和硬件,實(shí)現(xiàn)信息的實(shí)時動態(tài)采集,整合分析社會的需求,為社會決策作出最優(yōu)解。從收集數(shù)據(jù)到分析需求,再到數(shù)據(jù)整合、數(shù)據(jù)清洗、數(shù)據(jù)分析、深度培訓(xùn)、設(shè)計合適的方案,整個過程涉及大數(shù)據(jù)、人工智能等相關(guān)技術(shù)。
1.2.1大數(shù)據(jù)與Hadoop
根據(jù)麥肯錫全球研究院的定義,大數(shù)據(jù)一般是指大到足以捕獲、存儲、分析和處理超出傳統(tǒng)數(shù)據(jù)管理工具能力的非結(jié)構(gòu)化數(shù)據(jù)的集合。大數(shù)據(jù)只是為了實(shí)現(xiàn)某些公司或其他利益相關(guān)者的某些目標(biāo)或運(yùn)營策略而收集的大量數(shù)據(jù)。大數(shù)據(jù)技術(shù)在于將這些海里數(shù)據(jù)專業(yè)化處理成有價值的信息。
必須處理大量數(shù)據(jù)才能提取信息。首先要解決的問題是數(shù)據(jù)存儲問題。Hadoop工具具有分布式HDFS文件系統(tǒng)。初衷是在數(shù)百臺計算機(jī)上存儲大量數(shù)據(jù)。HDFS是提供的管理解決數(shù)據(jù)存儲問題。
1.2.2人工智能與Python
人工智能,英文縮寫是AI,研究的重點(diǎn)是人類的思維和意識,這種人類的行為是通過機(jī)器模擬,通過數(shù)學(xué)計算和分析來實(shí)現(xiàn)的。人工智能包括兩個非常重要的模塊:常用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。
創(chuàng)建模型需要使用Python爬蟲技術(shù)從互聯(lián)網(wǎng)上獲取企業(yè)數(shù)據(jù)以外的數(shù)據(jù),這就需要用到Python中的Requests、Scrapy、Selenium、BeautifulSoup等庫。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)只有在數(shù)據(jù)被抓取后才能進(jìn)行。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)以及整個人工智能領(lǐng)域中的大多數(shù)模型和算法都使用Python作為基礎(chǔ)語言。
2基于人工智能的大數(shù)據(jù)發(fā)現(xiàn)網(wǎng)絡(luò)技術(shù)設(shè)計
2.1大數(shù)據(jù)的網(wǎng)絡(luò)掃描處理
網(wǎng)絡(luò)掃描是使用電子系統(tǒng)識別、讀取和記錄數(shù)據(jù)的過程,以便未經(jīng)授權(quán)的數(shù)據(jù)可以通過檢查。其作用是加快數(shù)據(jù)驗(yàn)證,保證數(shù)據(jù)安全,但對于人工智能技術(shù)平臺人員來說[2],查找數(shù)據(jù)存在難度,所以要解決這個問題,首先要對數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)掃描。
數(shù)據(jù)采用大數(shù)據(jù)掃描處理,它是對瀏覽量數(shù)據(jù)進(jìn)行分類和定性分類的過程。這個過程中用到的參數(shù)叫做分辨率,是掃描的關(guān)鍵。
2.2大數(shù)據(jù)信息的提取
大數(shù)據(jù)信息的提取旨在從人工智能技術(shù)平臺的頁面瀏覽數(shù)據(jù)中獲取有價值的信息?,F(xiàn)在數(shù)字處理應(yīng)用于構(gòu)建基于人工智能的大數(shù)據(jù)識別網(wǎng)絡(luò)。其基本思路如下:首先對提取的客戶瀏覽量數(shù)據(jù)進(jìn)行預(yù)處理,然后確定大數(shù)據(jù)識別屬性,以便過濾他們出來。
2.3數(shù)據(jù)分析方法
2.3.1聚類分析法
聚類分析方法的主要特點(diǎn)是對通過相似性收集到的信息進(jìn)行分組和分類,使信息以分段的形式呈現(xiàn)。這種方法論對看似雜亂無章的數(shù)據(jù)進(jìn)行深入研究,根據(jù)分析的目標(biāo)將數(shù)據(jù)劃分為不同的組。然后利用數(shù)據(jù)之間的聯(lián)系提取有價值的信息,發(fā)現(xiàn)信息的潛在價值。聚類分析方法有一定的缺點(diǎn),因?yàn)閿?shù)據(jù)信息本身的個性化,使得在計算統(tǒng)計時難以進(jìn)行數(shù)據(jù)分析,也難以識別數(shù)據(jù)。
2.3.2人工神經(jīng)網(wǎng)絡(luò)分析方法
人工神經(jīng)網(wǎng)絡(luò)法是指試圖通過模擬大腦神經(jīng)網(wǎng)絡(luò)處理和存儲信息的方式,分析和抽象復(fù)雜而廣泛的數(shù)據(jù),接收和使用計算結(jié)果的方式來處理信息的方法。例如:人工神經(jīng)網(wǎng)絡(luò)法主要是在數(shù)學(xué)模型上建立算法,輸入神經(jīng)網(wǎng)絡(luò)的研究值都是數(shù)值型的。在收集相關(guān)數(shù)據(jù)時需要根據(jù)自身實(shí)際需要對相關(guān)數(shù)據(jù)進(jìn)行分析。最好是進(jìn)行數(shù)據(jù)分析,確保人工智能技術(shù)的應(yīng)用。
2.3.3相關(guān)性分析方法
相關(guān)性分析法是一種利用大數(shù)據(jù)揭示數(shù)據(jù)庫中不同信息之間關(guān)系的分析技術(shù)。相關(guān)性分析方法可以對采集到的數(shù)據(jù)和不能直接應(yīng)用的信息進(jìn)行相關(guān)性分析,實(shí)現(xiàn)隱藏信息的挖掘和相應(yīng)的處理,識別數(shù)據(jù)的唯一性。這類分析方法具有更好的準(zhǔn)確性和目的性,因此這類分析方法更常用于數(shù)據(jù)的精確分析,例如:在管理文件信息方面。
2.3.4特征數(shù)據(jù)分析方法
數(shù)據(jù)特征分析是一種基于數(shù)據(jù)質(zhì)量分析結(jié)果的數(shù)據(jù)分析方法.利用計算數(shù)據(jù)的特定相關(guān)特征集等方法,得到的人工智能結(jié)果可能更接近先前預(yù)期的數(shù)據(jù)分析結(jié)果或一致。所以使用這種方法進(jìn)行數(shù)據(jù)分析可以更好地實(shí)現(xiàn)大規(guī)模數(shù)據(jù)分析。大數(shù)據(jù)時代,海量數(shù)據(jù)和信息呈現(xiàn)快速增長趨勢,給數(shù)據(jù)整理和分析帶來信息的使用困難。
2.4確定大數(shù)據(jù)發(fā)現(xiàn)的屬性
為了使大數(shù)據(jù)更容易識別,需要在識別描述中盡可能完整地描述大數(shù)據(jù)信息,但同時對大數(shù)據(jù)識別網(wǎng)絡(luò)本身的描述也很重要。另外,由于大數(shù)據(jù)的輸出結(jié)果是一個數(shù)據(jù)集,需要定義很多操作來滿足用戶的不同需求。因此,有必要明確大數(shù)據(jù)識別應(yīng)涵蓋的數(shù)據(jù)來源。
2.5實(shí)現(xiàn)大數(shù)據(jù)檢測網(wǎng)絡(luò)的建設(shè)
在基于人工智能的大數(shù)據(jù)發(fā)現(xiàn)中,網(wǎng)絡(luò)發(fā)現(xiàn)處理可以加快數(shù)據(jù)驗(yàn)證速度,保證數(shù)據(jù)安全,然后根據(jù)大數(shù)據(jù)信息的提取確定大數(shù)據(jù)發(fā)現(xiàn)的屬性。
基于大數(shù)據(jù)發(fā)現(xiàn)完成大數(shù)據(jù)信息提取;依靠大數(shù)據(jù)檢測屬性的確定,使大數(shù)據(jù)檢測成為現(xiàn)實(shí)。完成關(guān)于構(gòu)建基于人工智能的大數(shù)據(jù)發(fā)現(xiàn)網(wǎng)絡(luò)的擬議研究。
3基于人工智能技術(shù)的大數(shù)據(jù)分析方法研究方向
3.1機(jī)器學(xué)習(xí)的大數(shù)據(jù)分析
機(jī)器學(xué)習(xí)是人工智能技術(shù)的組成部分之一,在當(dāng)前大數(shù)據(jù)分析技術(shù)的研究階段[3],應(yīng)用機(jī)器學(xué)習(xí)已經(jīng)成為大數(shù)據(jù)分析技術(shù)中最重要的部分。技術(shù)人員利用機(jī)器學(xué)習(xí)技術(shù)有效討論當(dāng)前大數(shù)據(jù)分析技術(shù),提高當(dāng)前工作質(zhì)量,將大數(shù)據(jù)技術(shù)應(yīng)用到日常生活中。研究人員對大數(shù)據(jù)的分析從四個主要方面開始:大數(shù)據(jù)聚類、大數(shù)據(jù)關(guān)聯(lián)分析、大數(shù)據(jù)分類和大數(shù)據(jù)預(yù)測。研究人員在使用機(jī)器學(xué)習(xí)分析大數(shù)據(jù)技術(shù)時,需要結(jié)合現(xiàn)階段機(jī)器學(xué)習(xí)技術(shù)的實(shí)際情況[4],才能有效地將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用到日常生活中。
例如,當(dāng)研究人員使用機(jī)器學(xué)習(xí)分析大數(shù)據(jù)時,他們使用傳統(tǒng)的聚類算法對現(xiàn)階段的大量數(shù)據(jù)進(jìn)行阻塞和簡化,然后將這些計算結(jié)果重新組合以實(shí)現(xiàn)大數(shù)據(jù)分析。其中,MapReduce是目前分布式計算的主流框架之一,研究人員可以使用該框架通過機(jī)器學(xué)習(xí)來實(shí)現(xiàn)數(shù)據(jù)分析。在研究傳統(tǒng)聚類算法時,由于現(xiàn)階段數(shù)據(jù)量較大,所有的研究工作都比較繁瑣。它是一種并行聚類算法,可以有效提高計算機(jī)處理速度來分析經(jīng)典大數(shù)據(jù)。
3.2深度學(xué)習(xí)的大數(shù)據(jù)分析
當(dāng)前的大數(shù)據(jù)研究強(qiáng)調(diào)使用深度學(xué)習(xí)技術(shù),并為提高計算機(jī)操作質(zhì)量做出相應(yīng)貢獻(xiàn)。深度學(xué)習(xí)代表了這一階段人工智能技術(shù)的關(guān)鍵技術(shù),它要求公司員工在模型訓(xùn)練過程中注意對各種閾值和參數(shù)的迭代計算[5],以實(shí)現(xiàn)這一階段的計算機(jī)智能并構(gòu)建為這些隱藏階段構(gòu)建深度網(wǎng)絡(luò),逐漸適應(yīng)當(dāng)前的工作質(zhì)量,并為大數(shù)據(jù)分析指明方向。
目前,深度學(xué)習(xí)技術(shù)研究取得了一定的進(jìn)展,有力地支撐了我國經(jīng)濟(jì)和產(chǎn)業(yè)的發(fā)展?;赟park的分布式平臺可以利用內(nèi)存計算訓(xùn)練模型參數(shù),逐步構(gòu)建深度網(wǎng)絡(luò),提高大數(shù)據(jù)分析效率,為當(dāng)前階段大數(shù)據(jù)探索指明方向。在深度神經(jīng)網(wǎng)絡(luò)分析中,研究人員重視算法工作,并借助信息論逐漸適應(yīng)當(dāng)前工作的發(fā)展,明確整體數(shù)據(jù)中隱藏神經(jīng)元的數(shù)量。然后將大數(shù)據(jù)劃分為塊,并根據(jù)深度學(xué)習(xí)-訓(xùn)練步驟實(shí)現(xiàn)對各種數(shù)據(jù)的迭代計算,從而改變當(dāng)前的工作質(zhì)量[6],提高深度學(xué)習(xí)模型的學(xué)習(xí)速度,提高相應(yīng)大數(shù)據(jù)分析技術(shù)的準(zhǔn)確性,從而實(shí)現(xiàn)大數(shù)據(jù)的構(gòu)建。
3.3大數(shù)據(jù)分析的計算智能
在當(dāng)前人工智能的發(fā)展中,計算智能是計算機(jī)研究的一個重要分支,借助現(xiàn)有的計算智能研究方法,可以高效處理大數(shù)據(jù)。研究人員重視傳統(tǒng)優(yōu)化算法的使用,有效利用計算智能技術(shù)實(shí)現(xiàn)大數(shù)據(jù)的高效處理。
基于群體智能的大數(shù)據(jù)分析技術(shù)是這一階段實(shí)現(xiàn)具有動態(tài)特性的大數(shù)據(jù)分析的重要手段。群體智能的大數(shù)據(jù)分析方法是這一階段分布式計算的一個重要分支,常用于大數(shù)據(jù)分析。目前的技術(shù)人員能夠基于粒子群優(yōu)化技術(shù)有效地處理大數(shù)據(jù)。該階段的研究人員基于數(shù)據(jù)拆分合并策略,實(shí)現(xiàn)了不同樣本的拆分,保持了原始數(shù)據(jù)之間的信息傳遞,有效地整合了不同的子集,從而提高了大數(shù)據(jù)分析的效率。目前,利用計算智能技術(shù),可以逐步建立起由數(shù)據(jù)存儲和并行計
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年物業(yè)服務(wù)保潔保安協(xié)議3篇
- 2024年職工停薪留職期間離職手續(xù)辦理及離職證明合同3篇
- 2024年電子信息產(chǎn)業(yè)基地建設(shè)與運(yùn)營合同
- 2024年離婚雙方同意補(bǔ)償細(xì)則協(xié)議版B版
- 2024年版紅木家具交易協(xié)議細(xì)則版B版
- 2025版股份置換與體育產(chǎn)業(yè)合作合同范本3篇
- 行業(yè)趨勢研究與應(yīng)對措施計劃
- 2024微信小程序技術(shù)支持與維護(hù)服務(wù)合同3篇
- 2024年綠色建筑綠化景觀維護(hù)驗(yàn)收合同3篇
- 2024年度學(xué)生交通安全責(zé)任承諾協(xié)議6篇
- 缺血性腸病完整版本課件
- 汽車起重機(jī)基本結(jié)構(gòu)、工作原理課件
- ××領(lǐng)導(dǎo)班子及成員分析研判報告(模板)
- 08S305-小型潛水泵選用及安裝圖集
- 視頻監(jiān)控室值班記錄表
- 四川2020版清單定額
- 教材編寫工作總結(jié)
- 企業(yè)員工上下班交通安全培訓(xùn)(簡詳共2份)
- 城市高密度建成區(qū)合流制溢流污染系統(tǒng)研究-黃孝河機(jī)場河水環(huán)境綜合治理項(xiàng)目實(shí)踐
- word 公章 模板
- T∕ZSQX 008-2020 建設(shè)工程全過程質(zhì)量行為導(dǎo)則
評論
0/150
提交評論