大數(shù)據(jù)分析方法與應(yīng)用 課件全套 耿秀麗 第1-9章 大數(shù)據(jù)概述-神經(jīng)網(wǎng)絡(luò)_第1頁
大數(shù)據(jù)分析方法與應(yīng)用 課件全套 耿秀麗 第1-9章 大數(shù)據(jù)概述-神經(jīng)網(wǎng)絡(luò)_第2頁
大數(shù)據(jù)分析方法與應(yīng)用 課件全套 耿秀麗 第1-9章 大數(shù)據(jù)概述-神經(jīng)網(wǎng)絡(luò)_第3頁
大數(shù)據(jù)分析方法與應(yīng)用 課件全套 耿秀麗 第1-9章 大數(shù)據(jù)概述-神經(jīng)網(wǎng)絡(luò)_第4頁
大數(shù)據(jù)分析方法與應(yīng)用 課件全套 耿秀麗 第1-9章 大數(shù)據(jù)概述-神經(jīng)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩435頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析方法與應(yīng)用第1章大數(shù)據(jù)概述1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對(duì)科學(xué)研究和經(jīng)濟(jì)社會(huì)的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.1大數(shù)據(jù)的相關(guān)概念

大數(shù)據(jù)來源歸納為以下三點(diǎn):科學(xué)研究產(chǎn)生大數(shù)據(jù)大數(shù)據(jù)的信息交互比以往任何時(shí)候?qū)茖W(xué)研究的影響都要突出,尤其是各大實(shí)驗(yàn)室之間的實(shí)驗(yàn)數(shù)據(jù)交流分享。比如類似希格斯玻色子的發(fā)現(xiàn)就需要36個(gè)國(guó)家的150多個(gè)計(jì)算中心之間每年進(jìn)行約26PB(26×1015B)的數(shù)據(jù)共享。龐大網(wǎng)絡(luò)信息形成大數(shù)據(jù)淘寶網(wǎng)擁有超過7億注冊(cè)會(huì)員,每天交易量超過1.2萬億元。醫(yī)院里,一個(gè)病人的CT影像數(shù)據(jù)量達(dá)幾十GB,而全國(guó)每年的門診人數(shù)以數(shù)十億計(jì),并且病人的數(shù)據(jù)需要長(zhǎng)時(shí)間保存。物聯(lián)網(wǎng)(InternetofThings,IoT)產(chǎn)生大數(shù)據(jù)物聯(lián)網(wǎng)設(shè)備和傳感器生成大量的數(shù)據(jù)(例如智能工業(yè)設(shè)備、智能產(chǎn)品等),這些數(shù)據(jù)通過云平臺(tái)進(jìn)行存儲(chǔ)和處理,從中可以提取有價(jià)值的信息,支持決策制定、優(yōu)化資源利用和改善用戶體驗(yàn)。1.1大數(shù)據(jù)的相關(guān)概念

1.1.2大數(shù)據(jù)的概念與特征Gartner咨詢公司給出的定義是:“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)?!本S基百科對(duì)大數(shù)據(jù)的定義如下:在信息技術(shù)中,“大數(shù)據(jù)”是指一些使用目前現(xiàn)有數(shù)據(jù)庫管理工具或傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型而復(fù)雜的數(shù)據(jù)集。其挑戰(zhàn)包括采集、管理、存儲(chǔ)、搜索、共享、分析和可視化。麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。1.1大數(shù)據(jù)的相關(guān)概念

1.1.2大數(shù)據(jù)的概念與特征IBM(國(guó)際商業(yè)機(jī)器公司)提出了大數(shù)據(jù)“5V”的概念,即在“4V”的基礎(chǔ)上多了一個(gè)特征——Veracity(數(shù)據(jù)質(zhì)量),表示數(shù)據(jù)的準(zhǔn)確性和可信賴度。1.1大數(shù)據(jù)的相關(guān)概念

1.1.3大數(shù)據(jù)的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)指通過二維表結(jié)構(gòu)來完成邏輯表達(dá)的數(shù)據(jù),也稱行數(shù)據(jù),主要通過關(guān)系數(shù)據(jù)庫進(jìn)行存儲(chǔ)和管理。非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相對(duì)的,不適于用二維表來表現(xiàn)的是非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)屬性,包括所有格式的辦公文檔、各類報(bào)表、圖片、音頻、視頻、日志、地形等數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)既具有一定的結(jié)構(gòu),又靈活多變,其實(shí)也是非結(jié)構(gòu)化數(shù)據(jù)的一種,如員工簡(jiǎn)歷、電子郵件等。處理這類數(shù)據(jù)可以通過信息抽取等步驟,采用可擴(kuò)展標(biāo)記語言(ExtensibleMarkupLanguage,XML)、超文本標(biāo)記語言(HyperTextMarkupLanguage,HTML)等形式表達(dá)。網(wǎng)絡(luò)爬蟲經(jīng)常需要采集互聯(lián)網(wǎng)上的半結(jié)構(gòu)化數(shù)據(jù)。1.1大數(shù)據(jù)的相關(guān)概念

1.1.4《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》資源維度數(shù)據(jù)要素的地位正不斷地提升,價(jià)值正持續(xù)地凸顯。隨著經(jīng)濟(jì)形態(tài)從農(nóng)業(yè)經(jīng)濟(jì)演進(jìn)到工業(yè)經(jīng)濟(jì),再到數(shù)字經(jīng)濟(jì),數(shù)據(jù)在人類社會(huì)發(fā)展史上的地位和作用一直在提升。根據(jù)國(guó)際數(shù)據(jù)機(jī)構(gòu)IDC的預(yù)測(cè),中國(guó)的數(shù)據(jù)量將以30%的年均增長(zhǎng)速度領(lǐng)先全球,到2025年將成為全球最大的數(shù)據(jù)圈。技術(shù)維度從技術(shù)維度看,大數(shù)據(jù)技術(shù)加快創(chuàng)新變革,“5V”特性優(yōu)勢(shì)持續(xù)釋放。除高容量采集、高容量存儲(chǔ)、高性能采集以及異構(gòu)融合等相關(guān)技術(shù)快速地演進(jìn)外,隨著隱私計(jì)算、分布式賬本等新興大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)的精準(zhǔn)度高和可信賴度高的第五大特征優(yōu)勢(shì)也在不斷地呈現(xiàn)。1.1大數(shù)據(jù)的相關(guān)概念

1.1.4《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》大數(shù)據(jù)產(chǎn)業(yè)維度我國(guó)大數(shù)據(jù)產(chǎn)業(yè)的基礎(chǔ)優(yōu)勢(shì)基本形成,對(duì)經(jīng)濟(jì)社會(huì)發(fā)展的服務(wù)支撐能力不斷增強(qiáng)。數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)等部分領(lǐng)域呈現(xiàn)出了先發(fā)優(yōu)勢(shì),大數(shù)據(jù)的標(biāo)準(zhǔn)體系初步建立。在大數(shù)據(jù)產(chǎn)品和服務(wù)體系方面,數(shù)據(jù)資源、基礎(chǔ)硬件、通用軟件、行業(yè)應(yīng)用、安全保障等方面的產(chǎn)品和服務(wù)不斷豐富。我國(guó)的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)持續(xù)優(yōu)化。賦能維度從賦能的維度看,大數(shù)據(jù)產(chǎn)業(yè)不斷地融入實(shí)體經(jīng)濟(jì),成為數(shù)字經(jīng)濟(jì)發(fā)展的核心驅(qū)動(dòng)力之一。大數(shù)據(jù)產(chǎn)業(yè)為數(shù)字經(jīng)濟(jì)提供高質(zhì)量的數(shù)據(jù)要素,大數(shù)據(jù)產(chǎn)業(yè)深度融入產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程,推動(dòng)傳統(tǒng)要素?cái)?shù)據(jù)化,改變了傳統(tǒng)的生產(chǎn)方式,持續(xù)激發(fā)新業(yè)態(tài)和新模式。1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對(duì)科學(xué)研究和經(jīng)濟(jì)社會(huì)的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.2對(duì)科學(xué)研究和經(jīng)濟(jì)社會(huì)的影響

1.2.1對(duì)科學(xué)研究的影響大數(shù)據(jù)的產(chǎn)生和信息技術(shù)領(lǐng)域提出的面向數(shù)據(jù)的概念同時(shí)改變了科學(xué)研究的模式。著名數(shù)據(jù)庫專家,圖靈獎(jiǎng)獲得者JimGray博士提出了數(shù)據(jù)密集型科研“第四范式”(TheFourthParadigm)

第四范式——數(shù)據(jù)研究,是通過數(shù)據(jù)研究發(fā)現(xiàn)知識(shí)。利用海量數(shù)據(jù)加上高速計(jì)算發(fā)現(xiàn)新的知識(shí)是數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)。Google廣告優(yōu)化配置及2016年李世石在圍棋挑戰(zhàn)中輸給AlphaGo都是依據(jù)第四范式實(shí)現(xiàn)的。實(shí)驗(yàn)理論研究計(jì)算仿真數(shù)據(jù)研究1.2對(duì)科學(xué)研究和經(jīng)濟(jì)社會(huì)的影響

1.2.2對(duì)經(jīng)濟(jì)社會(huì)的影響大數(shù)據(jù)改變了企業(yè)的決策方式、產(chǎn)品創(chuàng)新過程、供應(yīng)鏈管理、市場(chǎng)營(yíng)銷策略等方面,幫助企業(yè)提高效率、降低成本、增強(qiáng)競(jìng)爭(zhēng)力,并推動(dòng)數(shù)字經(jīng)濟(jì)的發(fā)展和創(chuàng)新。大數(shù)據(jù)提供了大量的實(shí)時(shí)和歷史數(shù)據(jù),使得企業(yè)能夠基于數(shù)據(jù)進(jìn)行決策。如:通過分析用戶的行為數(shù)據(jù)和消費(fèi)習(xí)慣,企業(yè)可以提供個(gè)性化的產(chǎn)品和服務(wù),滿足客戶的特定需求,提高用戶體驗(yàn)和忠誠度。大數(shù)據(jù)分析可以揭示產(chǎn)品的使用情況和性能,幫助企業(yè)進(jìn)行產(chǎn)品創(chuàng)新和優(yōu)化。大數(shù)據(jù)可以幫助企業(yè)優(yōu)化供應(yīng)鏈管理。大數(shù)據(jù)可以幫助企業(yè)發(fā)現(xiàn)業(yè)務(wù)流程中的瓶頸和改進(jìn)點(diǎn),優(yōu)化流程設(shè)計(jì),提高效率和生產(chǎn)力。1.2對(duì)科學(xué)研究和經(jīng)濟(jì)社會(huì)的影響

1.2.3大數(shù)據(jù)與其他學(xué)科大數(shù)據(jù)課程不僅是一門獨(dú)立的學(xué)科,也會(huì)與其他學(xué)科交叉融合,互相影響。大數(shù)據(jù)極大地影響著人們的生活方式、思維方式和工作習(xí)慣,從大數(shù)據(jù)的特點(diǎn)和發(fā)展趨勢(shì)來看可以歸納為以下幾點(diǎn)。主體大眾化在大數(shù)據(jù)視域下,數(shù)據(jù)的使用者不再是一個(gè)具有一定特征的、單一的小群體或個(gè)人,而是數(shù)量龐大、結(jié)構(gòu)復(fù)雜的大眾群體。在大數(shù)據(jù)時(shí)代,只需要通過一部智能手機(jī),或者任何可以連接網(wǎng)絡(luò)的設(shè)備,就可以在網(wǎng)絡(luò)空間留下自己的足跡,這些數(shù)據(jù)又會(huì)被某些機(jī)構(gòu)或個(gè)人收集、分析、處理變?yōu)榧河谩_@便是大數(shù)據(jù)的使用主體變得大眾化的現(xiàn)實(shí)基礎(chǔ)??傮w來說,大數(shù)據(jù)由于具有主體大眾化的特點(diǎn),其數(shù)據(jù)內(nèi)容可以做到極端的生活化和細(xì)節(jié)化,甚至能夠描畫出一個(gè)人的生活習(xí)慣和行為偏好。但大數(shù)據(jù)的普及意味著,數(shù)據(jù)海中的數(shù)據(jù)首先是范圍廣泛、內(nèi)容詳密的,這極大地提高了個(gè)人信息隱私安全保護(hù)的要求。1.2對(duì)科學(xué)研究和經(jīng)濟(jì)社會(huì)的影響

治理多元化治理多元化的主要目標(biāo)是保護(hù)個(gè)人信息隱私的安全。除了政府和各種團(tuán)體機(jī)構(gòu)外,各類網(wǎng)絡(luò)企業(yè)、自媒體、軟件開發(fā)者以及眾多網(wǎng)絡(luò)用戶都有責(zé)任為保護(hù)個(gè)人信息隱私做出貢獻(xiàn)。在大數(shù)據(jù)視域下,不同治理主體在數(shù)據(jù)處理上存在著顯著差異,不同的價(jià)值觀最后會(huì)產(chǎn)生完全不同的結(jié)果,這勢(shì)必會(huì)加大個(gè)人信息隱私保護(hù)的難度。

數(shù)據(jù)海量化“AI尋人”便是數(shù)據(jù)海量化的實(shí)例之一。由于只有最大限度的搜集到足夠多的個(gè)人信息,大數(shù)據(jù)的使用效率才能大大提高,但同時(shí)海量的數(shù)據(jù)也會(huì)對(duì)個(gè)人信息隱私安全構(gòu)成威脅。

手段多維化手段多維化是指數(shù)據(jù)采集者要從多方面、多途徑來搜集有關(guān)信息,大數(shù)據(jù)能夠反映出一個(gè)人的生活細(xì)節(jié)及行為偏好,主要原因就是大數(shù)據(jù)具有手段多維化的特征。1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對(duì)科學(xué)研究和經(jīng)濟(jì)社會(huì)的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.3大數(shù)據(jù)的研究現(xiàn)狀

2008201120122019201320142021國(guó)際頂級(jí)科技期刊Nature出版BigData專題以及Science推出DealingwithData???jì)算機(jī)社區(qū)聯(lián)盟發(fā)表相關(guān)報(bào)告,闡述了大數(shù)據(jù)應(yīng)用過程中面臨的困境與解決方案麥肯錫發(fā)布的報(bào)告《大數(shù)據(jù):下一代創(chuàng)新、競(jìng)爭(zhēng)及生產(chǎn)力開拓者》首次提出大數(shù)據(jù)的概念聯(lián)合國(guó)發(fā)布相關(guān)報(bào)告對(duì)大數(shù)據(jù)的運(yùn)用進(jìn)行了初步解讀并分析了可能面臨的挑戰(zhàn);美國(guó)啟動(dòng)了“大數(shù)據(jù)發(fā)展計(jì)劃”,培養(yǎng)更多專業(yè)人才科技部正式啟動(dòng)863項(xiàng)目“面向大數(shù)據(jù)的先進(jìn)存儲(chǔ)結(jié)構(gòu)與關(guān)鍵技術(shù)”,啟動(dòng)5個(gè)大數(shù)據(jù)課題。大數(shù)據(jù)首次寫入政府工作報(bào)告。十八屆五中全會(huì)將大數(shù)據(jù)上升到國(guó)家戰(zhàn)略,強(qiáng)調(diào)推動(dòng)大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)的深度融合。美國(guó)進(jìn)入大數(shù)據(jù)的“第三步戰(zhàn)略階段”,打造了面向未來的大數(shù)據(jù)創(chuàng)新生態(tài)?!丁笆奈濉贝髷?shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》、《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》等發(fā)布,把大數(shù)據(jù)產(chǎn)業(yè)作為數(shù)字經(jīng)濟(jì)時(shí)代重要引擎。1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對(duì)科學(xué)研究和經(jīng)濟(jì)社會(huì)的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.4大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)

1.4.1機(jī)遇大數(shù)據(jù)分析成為大數(shù)據(jù)技術(shù)的核心通過大數(shù)據(jù)分析,可以深入理解數(shù)據(jù),發(fā)現(xiàn)新的機(jī)遇和挑戰(zhàn),并為個(gè)人、企業(yè)和社會(huì)帶來更多的價(jià)值和發(fā)展機(jī)會(huì),同時(shí),大數(shù)據(jù)分析可以應(yīng)用于各個(gè)領(lǐng)域,如政府可以利用大數(shù)據(jù)分析來改善公共安全、城市規(guī)劃和社會(huì)管理。

大數(shù)據(jù)與云技術(shù)的深度融合云技術(shù)提供了彈性的計(jì)算和存儲(chǔ)資源、可擴(kuò)展的數(shù)據(jù)存儲(chǔ)解決方案、彈性擴(kuò)展的計(jì)算環(huán)境,通過云技術(shù)的支持,大數(shù)據(jù)可以更加高效、彈性和安全地進(jìn)行處理和分析,隨著大數(shù)據(jù)和云技術(shù)的不斷發(fā)展,它們的融合將進(jìn)一步推動(dòng)數(shù)字化轉(zhuǎn)型和創(chuàng)新的進(jìn)程。1.4大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)

1.4.1機(jī)遇大數(shù)據(jù)技術(shù)與各領(lǐng)域深度融合大數(shù)據(jù)技術(shù)已經(jīng)在許多領(lǐng)域都有廣泛的應(yīng)用,如零售、金融、醫(yī)療和制造業(yè)等領(lǐng)域。在醫(yī)療領(lǐng)域,醫(yī)院利用大數(shù)據(jù)分析患者的醫(yī)療記錄、基因組數(shù)據(jù)和生活習(xí)慣等信息,以提供更加個(gè)性化的醫(yī)療診斷和治療方案。大數(shù)據(jù)還可以用于疾病預(yù)測(cè)、藥物研發(fā)和醫(yī)療資源管理等方面,提升醫(yī)療服務(wù)的效率和質(zhì)量。在制造業(yè)領(lǐng)域,比亞迪利用大數(shù)據(jù)技術(shù)來改進(jìn)產(chǎn)品設(shè)計(jì)、優(yōu)化生產(chǎn)過程和提供個(gè)性化的汽車服務(wù)。他們通過車輛傳感器和互聯(lián)網(wǎng)連接,收集和分析車輛數(shù)據(jù),以實(shí)現(xiàn)智能駕駛和車輛運(yùn)營(yíng)的優(yōu)化。隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展和創(chuàng)新,其實(shí)際應(yīng)用領(lǐng)域范圍將不斷擴(kuò)大,與各領(lǐng)域的融合也將不斷加深,它將繼續(xù)推動(dòng)各行各業(yè)的數(shù)字化轉(zhuǎn)型和創(chuàng)新發(fā)展。1.4大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)

1.4.1機(jī)遇開源軟件將成為助推大數(shù)據(jù)發(fā)展的新動(dòng)力開源軟件可以根據(jù)具體的業(yè)務(wù)需求進(jìn)行定制和擴(kuò)展,滿足不同行業(yè)和組織的特定要求。開源軟件通常以較低的成本提供,并且在大數(shù)據(jù)處理方面具有出色的性能。開源軟件的共享和合作精神有助于推動(dòng)大數(shù)據(jù)領(lǐng)域的技術(shù)進(jìn)步和發(fā)展。開源軟件的靈活性還使得組織可以自主控制和管理數(shù)據(jù),加強(qiáng)對(duì)數(shù)據(jù)的安全和隱私的保護(hù)。開源軟件的開放性和可擴(kuò)展性鼓勵(lì)了創(chuàng)新者和企業(yè)參與到大數(shù)據(jù)領(lǐng)域的創(chuàng)新中,推動(dòng)了新的應(yīng)用和技術(shù)的涌現(xiàn)。開源軟件的生態(tài)系統(tǒng)還可以促進(jìn)不同組織和開發(fā)者之間的合作,加速大數(shù)據(jù)應(yīng)用的發(fā)展和成熟。開源軟件的應(yīng)用可以促進(jìn)大數(shù)據(jù)技術(shù)的普及和發(fā)展,推動(dòng)各行各業(yè)更好地應(yīng)用大數(shù)據(jù),實(shí)現(xiàn)更多的創(chuàng)新和增長(zhǎng)機(jī)會(huì)。1.4大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)

1.4.2挑戰(zhàn)

數(shù)據(jù)隱私和安全大數(shù)據(jù)時(shí)代涉及大量的個(gè)人和機(jī)密數(shù)據(jù),數(shù)據(jù)隱私和安全成為重要的挑戰(zhàn)。未經(jīng)充分保護(hù)的數(shù)據(jù)可能導(dǎo)致個(gè)人隱私泄露、身份盜竊和惡意攻擊。

數(shù)據(jù)質(zhì)量和可靠性大數(shù)據(jù)通常來自多個(gè)來源,可能存在數(shù)據(jù)質(zhì)量不一致、錯(cuò)誤和缺失等問題。這可能導(dǎo)致分析結(jié)果不準(zhǔn)確或誤導(dǎo)性。

技術(shù)和人才需求大數(shù)據(jù)時(shí)代需要大量的技術(shù)和人才來處理和分析龐大的數(shù)據(jù)集。大數(shù)據(jù)技術(shù)和工具的快速發(fā)展也要求從業(yè)人員不斷更新知識(shí)和技能,以適應(yīng)不斷變化的環(huán)境。

倫理和法律問題大數(shù)據(jù)的應(yīng)用涉及倫理和法律問題。同時(shí),大數(shù)據(jù)的應(yīng)用可能對(duì)個(gè)人和社會(huì)產(chǎn)生不平等的影響,引發(fā)公平和道德的爭(zhēng)議。1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對(duì)科學(xué)研究和經(jīng)濟(jì)社會(huì)的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.5

大數(shù)據(jù)分析的相關(guān)概念大數(shù)據(jù)分析已經(jīng)成為各個(gè)領(lǐng)域中實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)決策、創(chuàng)新和效率提升的重要工具。隨著數(shù)據(jù)量的不斷增加和技術(shù)的進(jìn)一步發(fā)展,大數(shù)據(jù)分析將繼續(xù)在商業(yè)、科研、社會(huì)等領(lǐng)域發(fā)揮重要作用。1.5.1大數(shù)據(jù)分析的概念

大數(shù)據(jù)分析是指通過數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)等方法,對(duì)大體量、多種類的數(shù)據(jù)進(jìn)行收集、處理、儲(chǔ)存、分析和可視化的過程,以揭示數(shù)據(jù)集中的趨勢(shì)和關(guān)聯(lián)性,并為決策者提供相關(guān)業(yè)務(wù)信息。大數(shù)據(jù)分析的基礎(chǔ)就是大數(shù)據(jù),在理論層面,理論是對(duì)大數(shù)據(jù)認(rèn)知的必經(jīng)之路,也是大數(shù)據(jù)廣泛傳播與認(rèn)同的基線。從大數(shù)據(jù)的定義和特征洞悉行業(yè)對(duì)大數(shù)據(jù)的整體描述和定性;從對(duì)大數(shù)據(jù)的價(jià)值進(jìn)行探討深入分析大數(shù)據(jù)的意義所在;探討大數(shù)據(jù)的現(xiàn)在和未來去解開大數(shù)據(jù)的發(fā)展之謎;從大數(shù)據(jù)隱私這個(gè)特殊視角探討人與數(shù)據(jù)之間的倫理。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.1大數(shù)據(jù)分析的概念在技術(shù)層面,技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的基礎(chǔ)與前進(jìn)的法寶。從云計(jì)算、分布式處理技術(shù)、儲(chǔ)存技術(shù)和感知技術(shù)的發(fā)展,可以說明大數(shù)據(jù)從采集、預(yù)處理、儲(chǔ)存、分析和成果的整個(gè)過程。在實(shí)踐層面,實(shí)踐是大數(shù)據(jù)價(jià)值最終體現(xiàn)的環(huán)節(jié)。從個(gè)人、企業(yè)、政府和互聯(lián)網(wǎng)的大數(shù)據(jù)四個(gè)方面闡述大數(shù)據(jù)已經(jīng)帶來的價(jià)值以及未來可能實(shí)現(xiàn)的價(jià)值藍(lán)圖。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.2大數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)分析的比較數(shù)據(jù)規(guī)模和復(fù)雜性傳統(tǒng)數(shù)據(jù)分析大多對(duì)數(shù)據(jù)庫儲(chǔ)存數(shù)據(jù)進(jìn)行分析,規(guī)模相對(duì)較小、數(shù)據(jù)類型單一,以結(jié)構(gòu)化數(shù)據(jù)為主。大數(shù)據(jù)分析旨在應(yīng)對(duì)體量巨大、種類繁多、產(chǎn)生速度快和價(jià)值密度低的數(shù)據(jù),涉及數(shù)據(jù)的收集、存儲(chǔ)、清洗和處理等方面的挑戰(zhàn),并從中提取有效信息。

數(shù)據(jù)處理速度和實(shí)時(shí)性傳統(tǒng)數(shù)據(jù)分析通常是離線處理或批處理,即對(duì)已經(jīng)收集的數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)分析需要在實(shí)時(shí)或接近實(shí)時(shí)的情況下,收集并處理高速生成的數(shù)據(jù),以便及時(shí)發(fā)現(xiàn)和響應(yīng)潛在的機(jī)會(huì)或風(fēng)險(xiǎn)。1.5

大數(shù)據(jù)分析的相關(guān)概念數(shù)據(jù)處理架構(gòu)傳統(tǒng)數(shù)據(jù)分析主要以縱向擴(kuò)展為主,采用集中式處理方法。集中式計(jì)算中,數(shù)據(jù)計(jì)算幾乎完全依賴于一臺(tái)中、大型的中心計(jì)算機(jī)。常用數(shù)據(jù)處理方式為Excel和數(shù)據(jù)庫。大數(shù)據(jù)分析主要以橫向擴(kuò)展為主,更傾向于分布式處理方法。分布式計(jì)算機(jī)系統(tǒng)是指由多臺(tái)分散的、硬件自治的計(jì)算機(jī),經(jīng)過互聯(lián)的網(wǎng)絡(luò)連接而形成的系統(tǒng),系統(tǒng)的處理和控制功能分布在各個(gè)計(jì)算機(jī)上。常見分布式計(jì)算系統(tǒng)有MIP、OpenMP、Spark等。

數(shù)據(jù)處理方法傳統(tǒng)數(shù)據(jù)分析采用以處理器為中心的數(shù)據(jù)處理方式,主要是用數(shù)據(jù)庫和數(shù)據(jù)倉庫進(jìn)行存儲(chǔ)、管理和分析。大數(shù)據(jù)分析采用以數(shù)據(jù)為中心的數(shù)據(jù)處理方法,減少數(shù)據(jù)移動(dòng)開銷。一般而言,大數(shù)據(jù)處理流程可分為4步,即數(shù)據(jù)采集、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)統(tǒng)計(jì)分析與挖掘、結(jié)果可視化。大數(shù)據(jù)分析不僅產(chǎn)出分析結(jié)果,甚至產(chǎn)出模型的原型和效果測(cè)試,用來后續(xù)升級(jí)產(chǎn)品。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.3大數(shù)據(jù)分析的流程1)目標(biāo)確定。明確分析的目標(biāo)和問題,例如市場(chǎng)調(diào)研、客戶洞察、業(yè)務(wù)優(yōu)化等。

2)數(shù)據(jù)收集。收集與目標(biāo)相關(guān)的數(shù)據(jù),它是數(shù)據(jù)分析的重要基礎(chǔ)環(huán)節(jié)。

3)數(shù)據(jù)預(yù)處理。對(duì)收集到的數(shù)據(jù)進(jìn)行去重、去噪、清洗和轉(zhuǎn)換等操作,確保數(shù)據(jù)的準(zhǔn)確性和一致性。這是數(shù)據(jù)分析前必不可少的一個(gè)環(huán)節(jié),需要花費(fèi)大量時(shí)間,也在一定程度上保證了數(shù)據(jù)的質(zhì)量。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.3大數(shù)據(jù)分析的流程大數(shù)據(jù)清洗主要處理的是“臟數(shù)據(jù)”,其主要目標(biāo)是監(jiān)測(cè)和修復(fù)臟數(shù)據(jù),以解決數(shù)據(jù)質(zhì)量問題,當(dāng)前的數(shù)據(jù)清洗主要圍繞著將數(shù)據(jù)劃分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.3大數(shù)據(jù)分析的流程

4)數(shù)據(jù)挖掘。指在大規(guī)模數(shù)據(jù)集中發(fā)現(xiàn)隱藏模式、趨勢(shì)、關(guān)聯(lián)和知識(shí)的過程。大數(shù)據(jù)挖掘?qū)τ诎l(fā)現(xiàn)商業(yè)機(jī)會(huì)、改進(jìn)運(yùn)營(yíng)效率、提升決策質(zhì)量等方面具有重要作用。常見大數(shù)據(jù)挖掘任務(wù)包括分類、聚類、關(guān)聯(lián)分析、預(yù)估和預(yù)測(cè)等。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.3大數(shù)據(jù)分析的流程

5)數(shù)據(jù)建模與分析。應(yīng)用統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù),構(gòu)建模型并對(duì)數(shù)據(jù)進(jìn)行分析,以揭示隱藏的模式和趨勢(shì)。這個(gè)階段要能駕馭數(shù)據(jù)、展開數(shù)據(jù)分析,熟悉常規(guī)數(shù)據(jù)分析方法,例如方差、回歸等多元數(shù)據(jù)分析方法,也需要熟悉數(shù)據(jù)分析工具,如Excel、Hadoop、Spark和SAS等。6)數(shù)據(jù)可視化。通過可視化工具和統(tǒng)計(jì)方法對(duì)數(shù)據(jù)進(jìn)行探索,尋找數(shù)據(jù)之間的關(guān)聯(lián)、趨勢(shì)和異常。借助數(shù)據(jù)展現(xiàn)與可視化手段能更加直觀展現(xiàn)分析結(jié)果。常見大數(shù)據(jù)可視化工具包括:Tableau、PowerBI等。常見的圖表包括餅圖、折線圖、散點(diǎn)圖、帕累托圖等。7)結(jié)果分析和報(bào)告。解釋分析結(jié)果,并將其以易于理解的報(bào)告形式呈現(xiàn)給相關(guān)的利益相關(guān)者。一份好的大數(shù)據(jù)分析報(bào)告能夠?yàn)闆Q策者提供有價(jià)值的信息和洞察,支持他們做出明智的決策。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.4大數(shù)據(jù)分析的基礎(chǔ)模型AARRR模型AARRR模型是一種用于衡量和優(yōu)化用戶參與度的模型,它常被應(yīng)用于大數(shù)據(jù)分析中。1)獲取(Acquisition)。在大數(shù)據(jù)分析中,可以利用數(shù)據(jù)分析來了解用戶獲取渠道的效果和效率。通過分析用戶來源、營(yíng)銷活動(dòng)和廣告投放效果等數(shù)據(jù),可以評(píng)估不同渠道的效果,并確定哪些渠道對(duì)用戶獲取產(chǎn)生了最大影響。2)激活(Activation)。激活階段的目標(biāo)是讓用戶體驗(yàn)到產(chǎn)品或服務(wù)的價(jià)值,并使其成為活躍用戶。在大數(shù)據(jù)分析中,可以分析用戶的行為和使用模式,了解用戶在產(chǎn)品或服務(wù)中的參與程度。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.4大數(shù)據(jù)分析的基礎(chǔ)模型

3)留存(Retention)。用戶留存是指讓用戶保持長(zhǎng)期的使用和參與。在大數(shù)據(jù)分析中,可以利用數(shù)據(jù)來識(shí)別用戶的留存率和忠誠度。通過分析用戶活動(dòng)、重復(fù)購買率、使用時(shí)長(zhǎng)等數(shù)據(jù),可以了解用戶的留存情況,并針對(duì)不同用戶群體實(shí)施個(gè)性化策略,提高用戶的留存率。4)收入(Revenue)。這一步驟關(guān)注的是從用戶行為中獲取收入。在大數(shù)據(jù)分析中,可以通過分析用戶的消費(fèi)行為和購買模式,了解用戶的付費(fèi)習(xí)慣和價(jià)值。通過分析收入數(shù)據(jù)、轉(zhuǎn)化率、購買決策路徑等,可以識(shí)別用戶的付費(fèi)能力和購買意愿,并針對(duì)不同用戶群體實(shí)施個(gè)性化的收入增長(zhǎng)策略。5)傳播(Refer)。傳播是通過現(xiàn)有用戶向其他潛在用戶傳播產(chǎn)品或服務(wù)。在大數(shù)據(jù)分析中,可以通過分析用戶的分享行為、社交媒體活動(dòng)等數(shù)據(jù),了解用戶的推薦效果和影響力。1.5

大數(shù)據(jù)分析的相關(guān)概念1.5.4大數(shù)據(jù)分析的基礎(chǔ)模型漏斗模型漏斗模型是一種用于追蹤和分析用戶在某個(gè)過程或轉(zhuǎn)化路徑中的流動(dòng)情況的分析方法。漏斗模型常用于評(píng)估用戶在完成特定目標(biāo)的轉(zhuǎn)化過程中的轉(zhuǎn)化率,并識(shí)別在轉(zhuǎn)化路徑的不同階段存在的瓶頸或問題。通常包含以下幾個(gè)階段:1.5

大數(shù)據(jù)分析的相關(guān)概念漏斗模型1)流量來源。例如廣告、搜索引擎、社交媒體等。在這個(gè)階段,分析人員可以追蹤每個(gè)流量來源的訪問量和用戶行為,了解哪些渠道吸引了更多的訪問者。2)用戶訪問。在流量來源階段之后,用戶會(huì)訪問網(wǎng)站或應(yīng)用程序的特定頁面。在這個(gè)階段,可以追蹤訪問量、頁面停留時(shí)間以及用戶的瀏覽行為。這有助于了解用戶對(duì)不同頁面的興趣和參與度。3)轉(zhuǎn)化行為。在訪問階段之后,用戶可能會(huì)執(zhí)行某些轉(zhuǎn)化行為,例如添加產(chǎn)品到購物車等,在這個(gè)階段,分析人員可以跟蹤轉(zhuǎn)化率和轉(zhuǎn)化行為的特征,以確定用戶在特定轉(zhuǎn)化目標(biāo)上的表現(xiàn)。4)轉(zhuǎn)化結(jié)果。在這個(gè)階段,可以計(jì)算最終的轉(zhuǎn)化率,并分析成功轉(zhuǎn)化的用戶的特征和行為,以獲得關(guān)于用戶轉(zhuǎn)化過程的深入洞察。通過分析漏斗模型的各個(gè)階段,有助于采取相應(yīng)的優(yōu)化措施,以提高轉(zhuǎn)化率和用戶體驗(yàn),大數(shù)據(jù)分析技術(shù)可以幫助技術(shù)人員跟蹤和分析用戶數(shù)據(jù),優(yōu)化整個(gè)轉(zhuǎn)化過程。1.1大數(shù)據(jù)的相關(guān)概念目錄CONTENTS1.2對(duì)科學(xué)研究和經(jīng)濟(jì)社會(huì)的影響1.3大數(shù)據(jù)的研究現(xiàn)狀1.4大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)1.5大數(shù)據(jù)分析的相關(guān)概念第1章大數(shù)據(jù)概述1.6大數(shù)據(jù)的應(yīng)用1.6大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)目前已經(jīng)廣泛應(yīng)用于各行各業(yè)中,包括金融大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)、零售大數(shù)據(jù)、電商大數(shù)據(jù)、交通大數(shù)據(jù)、智慧城市大數(shù)據(jù)等應(yīng)用場(chǎng)景。醫(yī)療大數(shù)據(jù)

醫(yī)療大數(shù)據(jù)主要包括了人們的日常健康體征數(shù)據(jù)、體檢數(shù)據(jù)、病例數(shù)據(jù)、處方數(shù)據(jù)、用藥情況數(shù)據(jù)、基因數(shù)據(jù)等圍繞著人體各項(xiàng)健康指標(biāo)以及與健康行為相關(guān)的數(shù)據(jù)。在習(xí)近平總書記關(guān)于建設(shè)健康中國(guó)和數(shù)字經(jīng)濟(jì)的一系列重要論述規(guī)劃下,國(guó)家相繼成立了多家醫(yī)療健康大數(shù)據(jù)中心。(1)醫(yī)療大數(shù)據(jù)資源《國(guó)務(wù)院辦公廳關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》指出:加快建設(shè)和完善以居民電子健康檔案、電子病歷、電子處方等為核心的基礎(chǔ)數(shù)據(jù)庫。探索推進(jìn)可穿戴設(shè)備、智能健康電子產(chǎn)品、健康醫(yī)療移動(dòng)應(yīng)用等產(chǎn)生的數(shù)據(jù)資源規(guī)范接入人口健康信息平臺(tái)。1.6大數(shù)據(jù)的應(yīng)用醫(yī)療大數(shù)據(jù)(2)行業(yè)治理大數(shù)據(jù)應(yīng)用加強(qiáng)深化醫(yī)藥衛(wèi)生體制改革評(píng)估監(jiān)測(cè),加強(qiáng)居民健康狀況等重要數(shù)據(jù)精準(zhǔn)統(tǒng)計(jì)和預(yù)測(cè)評(píng)價(jià),有力支撐健康中國(guó)建設(shè)規(guī)劃和決策。(3)臨床和科研大數(shù)據(jù)應(yīng)用依托國(guó)家臨床醫(yī)學(xué)研究中心和協(xié)同研究網(wǎng)絡(luò),系統(tǒng)加強(qiáng)臨床和科研數(shù)據(jù)資源整合共享,提升醫(yī)學(xué)科研及應(yīng)用效能,推動(dòng)智慧醫(yī)療發(fā)展。(4)公共衛(wèi)生大數(shù)據(jù)應(yīng)用通過醫(yī)療機(jī)構(gòu)、公共衛(wèi)生機(jī)構(gòu)和口岸檢驗(yàn)檢疫機(jī)構(gòu)的信息共享和業(yè)務(wù)協(xié)同,全面提升公共衛(wèi)生監(jiān)測(cè)評(píng)估和決策管理能力,提高突發(fā)公共衛(wèi)生事件預(yù)警與應(yīng)急響應(yīng)能力。1.6大數(shù)據(jù)的應(yīng)用醫(yī)療大數(shù)據(jù)(5)醫(yī)院管理與傳統(tǒng)的臨床醫(yī)療相比,利用大數(shù)據(jù)分析技術(shù)能夠更好地對(duì)醫(yī)療數(shù)據(jù)進(jìn)行分析,為醫(yī)護(hù)人員提供了大概率的預(yù)測(cè)與建議,并在此基礎(chǔ)上提升了醫(yī)療臨床系統(tǒng)決策的合理性。大數(shù)據(jù)分析可以幫助醫(yī)療機(jī)構(gòu)更好地理解資源分配的需求,從而優(yōu)化醫(yī)療服務(wù)的供給。這包括合理安排醫(yī)療設(shè)備的使用、人員的調(diào)度以及床位的管理,以提高整體效率。(6)智能診療隨著人工智能技術(shù)的發(fā)展,大數(shù)據(jù)與AI的結(jié)合為精準(zhǔn)醫(yī)療和個(gè)性化治療提供了可能。例如,通過對(duì)患者的基因數(shù)據(jù)、生活習(xí)慣、病史等多維度信息的綜合分析,醫(yī)生可以為患者提供更加精準(zhǔn)的診療方案。1.6大數(shù)據(jù)的應(yīng)用生物大數(shù)據(jù)自人類基因組計(jì)劃完成以來,以美國(guó)為代表,世界主要發(fā)達(dá)國(guó)家紛紛啟動(dòng)了生命科學(xué)基礎(chǔ)研究計(jì)劃,如國(guó)際千人基因組計(jì)劃、DNA百科全書計(jì)劃、英國(guó)十萬人基因組計(jì)劃等。這些計(jì)劃引領(lǐng)生物數(shù)據(jù)呈爆炸式增長(zhǎng),目前每年全球產(chǎn)生的生物數(shù)據(jù)總量已達(dá)EB級(jí),生命科學(xué)領(lǐng)域正在爆發(fā)一次數(shù)據(jù)革命,生命科學(xué)某種程度上已經(jīng)成為大數(shù)據(jù)科學(xué)。2023年,教育部辦公廳關(guān)于印發(fā)《服務(wù)健康事業(yè)和健康產(chǎn)業(yè)人才培養(yǎng)引導(dǎo)性專業(yè)指南》的通知。對(duì)接國(guó)家重大需求,服務(wù)健康事業(yè)和健康產(chǎn)業(yè)發(fā)展新態(tài)勢(shì),設(shè)置5個(gè)新醫(yī)科人才培養(yǎng)引導(dǎo)性專業(yè)。其中1個(gè)是:生物醫(yī)藥數(shù)據(jù)科學(xué)。培養(yǎng)目標(biāo):本專業(yè)培養(yǎng)具有較好的生物醫(yī)藥知識(shí),掌握面向數(shù)據(jù)科學(xué)的數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)基礎(chǔ)理論和方法,具備較強(qiáng)的數(shù)據(jù)挖掘與統(tǒng)計(jì)分析、應(yīng)用大數(shù)據(jù)方法解決實(shí)際問題的能力,能夠勝任大數(shù)據(jù)分析挖掘、大數(shù)據(jù)系統(tǒng)開發(fā)等技術(shù)領(lǐng)域以及大數(shù)據(jù)生物信息、大數(shù)據(jù)藥學(xué)、大數(shù)據(jù)醫(yī)療與公共衛(wèi)生管理等各類應(yīng)用領(lǐng)域工作的專業(yè)型人才。1.6大數(shù)據(jù)的應(yīng)用農(nóng)牧大數(shù)據(jù)習(xí)近平總書記指出堅(jiān)持把解決好“三農(nóng)”問題作為全黨工作重中之重。我國(guó)已進(jìn)入傳統(tǒng)農(nóng)業(yè)向現(xiàn)代農(nóng)業(yè)加快轉(zhuǎn)變的關(guān)鍵階段,需要運(yùn)用大數(shù)據(jù)提高農(nóng)業(yè)生產(chǎn)精準(zhǔn)化、智能化水平。國(guó)家農(nóng)業(yè)數(shù)據(jù)中心由1個(gè)中央平臺(tái),種植、畜牧和漁業(yè)等產(chǎn)業(yè)數(shù)據(jù),國(guó)際農(nóng)業(yè)、全球遙感、質(zhì)量安全、科技教育、設(shè)施裝備、農(nóng)業(yè)要素、資源環(huán)境、防災(zāi)減災(zāi)、疫病防控等數(shù)據(jù)資源及各省、自治區(qū)、直轄市農(nóng)業(yè)數(shù)據(jù)分中心共同組成,集成農(nóng)業(yè)部各類數(shù)據(jù)和涉農(nóng)部門數(shù)據(jù)。大數(shù)據(jù)在農(nóng)業(yè)應(yīng)用主要是指依據(jù)未來商業(yè)需求的預(yù)測(cè)來進(jìn)行農(nóng)牧產(chǎn)品生產(chǎn),降低菜賤傷農(nóng)的概率。同時(shí)大數(shù)據(jù)的分析將會(huì)更加精確預(yù)測(cè)未來的天氣氣候,幫助農(nóng)牧民做好自然災(zāi)害的預(yù)防工作。大數(shù)據(jù)同時(shí)也會(huì)幫助農(nóng)民依據(jù)消費(fèi)者消費(fèi)習(xí)慣決定來增加哪些品種的種植,減少哪些品種農(nóng)作物的生產(chǎn),提高單位種植面積的產(chǎn)值,同時(shí)有助于快速銷售農(nóng)產(chǎn)品,完成資金回流。牧民可以通過大數(shù)據(jù)分析來安排放牧范圍,有效利用牧場(chǎng)。漁民可以利用大數(shù)據(jù)安排休漁期、定位捕魚范圍等。1.6大數(shù)據(jù)的應(yīng)用交通大數(shù)據(jù)交通作為人類行為的重要組成和重要條件之一,對(duì)于大數(shù)據(jù)的感知也是最急迫的?,F(xiàn)代城市每天產(chǎn)生海量龐雜、異質(zhì)多元,大范圍時(shí)空關(guān)聯(lián)的數(shù)據(jù),蘊(yùn)含著豐富的價(jià)值信息。通過對(duì)多元異構(gòu)大數(shù)據(jù)的匯聚和深度挖掘,可以更準(zhǔn)確地刻畫城市交通系統(tǒng)的運(yùn)行狀態(tài)與演變規(guī)律,有望在虛擬環(huán)境下實(shí)現(xiàn)城市復(fù)雜交通系統(tǒng)運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)測(cè)、在線推演、精準(zhǔn)調(diào)控和可視化呈現(xiàn),為實(shí)現(xiàn)城市交通系統(tǒng)科學(xué)決策提供了新途徑,為大幅度提升城市綜合交通運(yùn)系統(tǒng)的規(guī)格、設(shè)計(jì)、運(yùn)行管理水平,進(jìn)而實(shí)現(xiàn)城市綜合交通系統(tǒng)的整體效能提供了有力支撐。規(guī)劃:交通設(shè)施選址、道路規(guī)劃、管理設(shè)施部署。運(yùn)營(yíng):客流調(diào)控、公共交通優(yōu)化、用戶體系運(yùn)營(yíng)。運(yùn)行優(yōu)化:安全風(fēng)險(xiǎn)監(jiān)測(cè)、施工路段交通組織。出行服務(wù):自動(dòng)駕駛輔助、智能導(dǎo)航、個(gè)性化服務(wù)。1.6大數(shù)據(jù)的應(yīng)用環(huán)保大數(shù)據(jù)氣象對(duì)社會(huì)的影響涉及方方面面,氣象已成為二十一世紀(jì)社會(huì)發(fā)展的重要資源。借助于大數(shù)據(jù)技術(shù),天氣預(yù)報(bào)的準(zhǔn)確性和實(shí)效性將會(huì)大大提高,預(yù)報(bào)的及時(shí)性將會(huì)大大提升,同時(shí)對(duì)于重大自然災(zāi)害,例如龍卷風(fēng),通過大數(shù)據(jù)計(jì)算平臺(tái),人們將會(huì)更加精確地了解其運(yùn)動(dòng)軌跡和危害的等級(jí),有利于幫助人們提高應(yīng)對(duì)自然災(zāi)害的能力。天氣預(yù)報(bào)的準(zhǔn)確度的提升和預(yù)測(cè)周期的延長(zhǎng)將會(huì)有利于農(nóng)業(yè)生產(chǎn)的安排。2024年中國(guó)氣象局在第七屆數(shù)字中國(guó)建設(shè)峰會(huì)·數(shù)字氣象分論壇上首次發(fā)布第五批開放共享氣象數(shù)據(jù)暨人工智能氣象大模型訓(xùn)練專題數(shù)據(jù)目錄,共包含6大類12種氣象數(shù)據(jù)和產(chǎn)品。這些數(shù)據(jù)和產(chǎn)品依托國(guó)家氣象科學(xué)數(shù)據(jù)中心門戶網(wǎng)站中國(guó)氣象數(shù)據(jù)網(wǎng),為社會(huì)公眾提供數(shù)據(jù)下載服務(wù)。國(guó)家氣象科學(xué)數(shù)據(jù)中心不斷探索新的數(shù)據(jù)服務(wù)方式,打通“氣象數(shù)據(jù)服務(wù)最后一公里”,為氣象數(shù)據(jù)要素價(jià)值發(fā)揮保駕護(hù)航。1.6大數(shù)據(jù)的應(yīng)用衛(wèi)星大數(shù)據(jù)北斗衛(wèi)星導(dǎo)航系統(tǒng)(以下簡(jiǎn)稱北斗系統(tǒng))是中國(guó)著眼于國(guó)家安全和經(jīng)濟(jì)社會(huì)發(fā)展需要,自主建設(shè)運(yùn)行的全球衛(wèi)星導(dǎo)航系統(tǒng),是為全球用戶提供全天候、全天時(shí)、高精度的定位、導(dǎo)航和授時(shí)服務(wù)的國(guó)家重要時(shí)空基礎(chǔ)設(shè)施。北斗系統(tǒng)提供服務(wù)以來,已在交通運(yùn)輸、農(nóng)林漁業(yè)、水文監(jiān)測(cè)、氣象測(cè)報(bào)、通信授時(shí)、電力調(diào)度、救災(zāi)減災(zāi)、公共安全等領(lǐng)域得到廣泛應(yīng)用,服務(wù)國(guó)家重要基礎(chǔ)設(shè)施,產(chǎn)生了顯著的經(jīng)濟(jì)效益和社會(huì)效益。基于北斗系統(tǒng)的導(dǎo)航服務(wù)已被電子商務(wù)、移動(dòng)智能終端制造、位置服務(wù)等廠商采用,廣泛進(jìn)入中國(guó)大眾消費(fèi)、共享經(jīng)濟(jì)和民生領(lǐng)域,應(yīng)用的新模式、新業(yè)態(tài)、新經(jīng)濟(jì)不斷涌現(xiàn),深刻改變著人們的生產(chǎn)生活方式。1.6大數(shù)據(jù)的應(yīng)用電商大數(shù)據(jù)大數(shù)據(jù)的發(fā)展給電商平臺(tái)帶來了豐富的應(yīng)用場(chǎng)景和商業(yè)機(jī)遇。影響的領(lǐng)域包括訂單管理、用戶管理、庫存管理和供應(yīng)鏈優(yōu)化等。首先,訂單管理與預(yù)測(cè)分析是大數(shù)據(jù)在電商平臺(tái)中非常廣泛的應(yīng)用。通過分析歷史訂單數(shù)據(jù),電商平臺(tái)可以實(shí)現(xiàn)訂單管理自動(dòng)化,并根據(jù)數(shù)據(jù)模型預(yù)測(cè)未來訂單的規(guī)模和趨勢(shì)。這樣,電商平臺(tái)可以更好地規(guī)劃倉庫、庫存和物流等需求,以達(dá)到更高的效率和客戶滿意度。其次,用戶數(shù)據(jù)分析與個(gè)性化推薦也是大數(shù)據(jù)在電商平臺(tái)中重要的應(yīng)用。電商平臺(tái)通過分析用戶在平臺(tái)上的瀏覽、購買和評(píng)價(jià)等行為,可以將用戶細(xì)分成不同的群體,并推薦個(gè)性化的商品和服務(wù)。這樣,可以提高用戶購買的滿意度,提高客戶轉(zhuǎn)化率。此外,大數(shù)據(jù)分析可以優(yōu)化供應(yīng)鏈,提高商品的質(zhì)量和數(shù)量。這樣,可以提高客戶滿意度并減少效率成本。1.6大數(shù)據(jù)的應(yīng)用1.6大數(shù)據(jù)的應(yīng)用總結(jié)數(shù)據(jù)是新時(shí)代重要的生產(chǎn)要素,是國(guó)家基礎(chǔ)性戰(zhàn)略資源。大數(shù)據(jù)是數(shù)據(jù)的集合,以容量大、類型多、速度快、精度準(zhǔn)、價(jià)值高為主要特征,是推動(dòng)經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動(dòng)力,是提升政府治理能力的新途徑,是重塑國(guó)家競(jìng)爭(zhēng)優(yōu)勢(shì)的新機(jī)遇。大數(shù)據(jù)產(chǎn)業(yè)是以數(shù)據(jù)生成、采集、存儲(chǔ)、加工、分析、服務(wù)為主的戰(zhàn)略性新興產(chǎn)業(yè),是激活數(shù)據(jù)要素潛能的關(guān)鍵支撐,是加快經(jīng)濟(jì)社會(huì)發(fā)展質(zhì)量變革、效率變革、動(dòng)力變革的重要引擎。Thank

you!大數(shù)據(jù)分析方法與應(yīng)用第2章數(shù)據(jù)分析基礎(chǔ)2.1數(shù)據(jù)的類型與分布目錄CONTENTS2.2變量之間的關(guān)系第2章數(shù)據(jù)分析基礎(chǔ)2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.4數(shù)據(jù)的輸入2.1數(shù)據(jù)的類型與分布

數(shù)據(jù)的類型定性數(shù)據(jù)(也稱為名義數(shù)據(jù))是一種用于描述各種類別或?qū)傩缘臄?shù)據(jù)。定量數(shù)據(jù)是以數(shù)字表現(xiàn)的數(shù)據(jù),它可以被測(cè)量、計(jì)算和比較。數(shù)據(jù)的收集方式(數(shù)據(jù)收集方式會(huì)影響數(shù)據(jù)的分布特征)

截面數(shù)據(jù)(Cross-sectionaldata)是指在同一時(shí)間點(diǎn)上對(duì)某個(gè)總體進(jìn)行測(cè)量所得到的數(shù)據(jù)。時(shí)間序列數(shù)據(jù)(Time

series

data)是一種按時(shí)間順序排列的觀測(cè)值的集合,這些觀測(cè)值通常時(shí)間間隔采集。2.2變量之間的關(guān)系協(xié)方差(Covariance)是描述兩個(gè)隨機(jī)變量之間關(guān)系的統(tǒng)計(jì)量。它用于衡量?jī)蓚€(gè)變量在同一時(shí)間段內(nèi)的變動(dòng)趨勢(shì)是否同向或相反。當(dāng)協(xié)方差為正值時(shí),表示兩個(gè)變量呈正相關(guān)關(guān)系,即當(dāng)一個(gè)變量增大時(shí),另一個(gè)變量也可能會(huì)增大。當(dāng)協(xié)方差為負(fù)值時(shí),表示兩個(gè)變量呈負(fù)相關(guān)關(guān)系,即當(dāng)一個(gè)變量增大時(shí),另一個(gè)變量可能會(huì)減小。當(dāng)協(xié)方差接近于零時(shí),表示兩個(gè)變量之間沒有線性關(guān)系。協(xié)方差只能描述變量之間的線性關(guān)系,并不能確定其因果關(guān)系。2.2.1協(xié)方差相關(guān)系數(shù)(Pearsoncorrelationcoefficient)是一種用于衡量?jī)蓚€(gè)變量之間線性關(guān)系強(qiáng)度和方向的統(tǒng)計(jì)量。相關(guān)系數(shù)用希臘字母ρ表示,取值范圍為[-1,1]。相關(guān)系數(shù)定量地刻畫了X和Y的相關(guān)程度,即|ρxy|越大,相關(guān)程度越大;|ρxy|=0對(duì)應(yīng)相關(guān)程度最低。相關(guān)系數(shù)是一種非參數(shù)統(tǒng)計(jì)量,不受變量分布形狀的影響,適用于各種分布。其中2.2變量之間的關(guān)系2.2.2相關(guān)系數(shù)散點(diǎn)圖是描述變量關(guān)系的一種直觀方法,可以從散點(diǎn)圖中直觀地看出兩個(gè)變量之間是否存在相關(guān)關(guān)系、是正線性相關(guān)還是負(fù)線性相關(guān),也可以大致看出變量之間關(guān)系強(qiáng)度如何,但是對(duì)于具體關(guān)系強(qiáng)度則需要相關(guān)系數(shù)來判斷。2.3數(shù)據(jù)的可視化——基于Excel的應(yīng)用2.3.1散點(diǎn)圖【例2-1】廣告業(yè)近年來得到廣泛應(yīng)用,尤其在產(chǎn)品推廣中發(fā)揮了巨大作用,也影響著產(chǎn)品的銷售收入,因此了解廣告費(fèi)對(duì)銷售收入的影響至關(guān)重要。某公司銷售額和廣告費(fèi)用的數(shù)據(jù)如表2-1所示。表2-1某公司銷售額和廣告費(fèi)用廣告費(fèi)用(萬元)銷售額1052126015701877208223942.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點(diǎn)圖1)打開Excel表格,選中需要制作散點(diǎn)圖的數(shù)據(jù)單元格,單擊“插入”菜單下的散點(diǎn)圖。繪制廣告費(fèi)用對(duì)銷售收入的影響情況的散點(diǎn)圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點(diǎn)圖2)選中“XY散點(diǎn)圖”,然后界面右側(cè)會(huì)顯示很多的散點(diǎn)圖,選擇一個(gè)合適的,單擊確定。3)單擊“圖表標(biāo)題”,輸入標(biāo)題名稱。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點(diǎn)圖4)在圖表空白處單擊選中圖表,然后單擊右上角的“+”號(hào),勾選“數(shù)據(jù)標(biāo)簽”,這樣每個(gè)散點(diǎn)圖數(shù)據(jù)點(diǎn)上都會(huì)顯示數(shù)值,單擊“趨勢(shì)線”,還能添加趨勢(shì)線。可以發(fā)現(xiàn)銷售額和廣告費(fèi)用之間呈現(xiàn)一種線性關(guān)系,即隨著廣告費(fèi)用的增加,銷售額也會(huì)增加。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.1散點(diǎn)圖【例2-2】三大產(chǎn)業(yè)的發(fā)展對(duì)我國(guó)經(jīng)濟(jì)發(fā)展有著舉足輕重的作用,通過柱形圖和折線圖表示三大產(chǎn)業(yè)在2019-2022年的增加值,可以直觀看出這四年的變化情況。我國(guó)2019-2022年第一、第二和第三產(chǎn)業(yè)增加值如表2-2所示。表2-2我國(guó)2019-2022年第一、第二和第三產(chǎn)業(yè)增加值年份第一產(chǎn)業(yè)增加值第二產(chǎn)業(yè)增加值第三產(chǎn)業(yè)增加值201970,467386,165534,233202077,754384,255553,977202183,086450,904609,680202288,345483,164638,6982.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖1)打開Excel,選擇相關(guān)數(shù)據(jù),選定插入,單擊“柱狀圖形”。繪制我國(guó)2019-2022年第一、第二和第三產(chǎn)業(yè)增加值變化的柱形圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖2)選擇一種柱形圖,單擊確定。3)單擊“圖表設(shè)計(jì)”菜單項(xiàng),在“圖標(biāo)布局”和“圖表式樣”中選擇需要的布局和式樣。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖4)如果選擇有圖表標(biāo)題和坐標(biāo)軸標(biāo)題的布局,則得到如下的圖表。單擊標(biāo)題可以修改標(biāo)題文本。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖5)修改橫坐標(biāo)軸。右鍵單擊橫坐標(biāo),單擊選擇數(shù)據(jù),在水平(分類)軸標(biāo)簽下單擊編輯,選擇需要顯示的橫坐標(biāo)數(shù)據(jù),單擊確定。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖6)得到最終的柱狀圖。通過比較不同柱子的長(zhǎng)度,可以快速看出哪個(gè)類別或時(shí)間段的數(shù)據(jù)更大或更小。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖1)打開Excel,選擇相關(guān)數(shù)據(jù),選定插入,單擊“折線圖形”。單擊標(biāo)題可以修改標(biāo)題文本。繪制我國(guó)2019-2022年第一、第二和第三產(chǎn)業(yè)增加值變化的折線圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖2)修改橫坐標(biāo)軸。右鍵單擊橫坐標(biāo),單擊選擇數(shù)據(jù),在水平(分類)軸標(biāo)簽下單擊編輯,選擇需要顯示的橫坐標(biāo)數(shù)據(jù),單擊確定。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖3)得到數(shù)據(jù)最終的折線圖。折線圖通常由一系列數(shù)據(jù)點(diǎn)連接而成,表示數(shù)據(jù)隨時(shí)間或某一變量變化而變化的趨勢(shì)。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.2柱形圖和折線圖2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表數(shù)據(jù)透視表是一種數(shù)據(jù)分析工具,用于對(duì)大量數(shù)據(jù)進(jìn)行匯總、整理和分析。它以電子表格的形式展示數(shù)據(jù),通過行和列的組合來提供多維度的統(tǒng)計(jì)信息。數(shù)據(jù)透視表有以下幾個(gè)主要功能:1)匯總數(shù)據(jù)通過將數(shù)據(jù)按照不同的維度進(jìn)行分組,數(shù)據(jù)透視表可以將大量數(shù)據(jù)匯總并顯示總計(jì)、平均值、最大值、最小值等統(tǒng)計(jì)指標(biāo)。2)過濾數(shù)據(jù)數(shù)據(jù)透視表可以根據(jù)特定的條件篩選數(shù)據(jù),只顯示符合條件的記錄,從而更精確地進(jìn)行數(shù)據(jù)分析。3)重新排序通過拖動(dòng)字段或更改字段順序,可以動(dòng)態(tài)調(diào)整數(shù)據(jù)透視表中的數(shù)據(jù)展示方式,使其更符合分析需求。4)數(shù)據(jù)透視圖數(shù)據(jù)透視表可以將數(shù)據(jù)以交叉表格的形式展示,清晰直觀地呈現(xiàn)不同維度之間的關(guān)系,幫助用戶發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢(shì)和異常情況。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表【例2-3】以銷售月表為例,表中記錄了訂單號(hào)、訂單日期、訂單金額、銷售人員和銷售人員部門,如下表2-3所示。表2-3銷售月表訂單號(hào)訂單日期訂單金額銷售人員部門202305012023.8.17100,000Alan銷售1部202305022023.8.1720,000Lily銷售2部202305032023.8.185000Alan銷售1部202305042023.8.1930000Alan銷售1部202305052023.8.20200,000Tom銷售1部202305062023.8.2125,000Mike銷售2部202305072023.8.212,000Lily銷售2部202305082023.8.2250,000Helen銷售3部202305092023.8.2323,000Mike銷售2部2023050102023.8.2440,000Tom銷售1部2023050112023.8.2510,000Helen銷售3部2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用1)單擊插入,單擊數(shù)據(jù)透視圖。以銷售人員分類查詢訂單總額2)選擇數(shù)據(jù)透視表,選中需要分析的數(shù)據(jù)區(qū)域。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表3)選擇需要添加到報(bào)表的字段—銷售人員和銷售金額,即顯示各銷售人員負(fù)責(zé)的訂單金額總計(jì)的情況。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表4)根據(jù)數(shù)據(jù)透視圖分析銷售人員、銷售金額和銷售部門之間關(guān)系通過使用數(shù)據(jù)透視表,用戶可以更加靈活和高效地對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行分析和理解,快速找到有意義的數(shù)據(jù)洞察,并支持決策制定和問題解決。2.3數(shù)據(jù)的可視化——基于Excel(2019)的應(yīng)用2.3.3數(shù)據(jù)透視表直接鍵盤輸入用自定義格式輸入LEFT用條件函數(shù)IF輸入用“有效性”工具輸入輸入序列用字符提取函數(shù)RIGHTMID輸入用查找函數(shù)VLOOKUP輸入等2.4數(shù)據(jù)的輸入2.4.1Excel數(shù)據(jù)的輸入方法1)單擊Excel菜單:“數(shù)據(jù)\數(shù)據(jù)驗(yàn)證”。2.4數(shù)據(jù)的輸入2.4.2數(shù)據(jù)有效性2)數(shù)據(jù)驗(yàn)證-設(shè)置日期驗(yàn)證條件。如果輸入的數(shù)據(jù)是2023年某高校大學(xué)生的出生年月,在“允許”下拉菜單中選定“日期”,輸入“開始日期”和“結(jié)束”日期。2.4數(shù)據(jù)的輸入2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

3)數(shù)據(jù)驗(yàn)證-設(shè)置文本長(zhǎng)度驗(yàn)證條件。如果輸入的數(shù)據(jù)是學(xué)生的身份證號(hào)碼,在“允許”下拉中選定“文本長(zhǎng)度”,“數(shù)據(jù)”下拉選定“等于”,“長(zhǎng)度”輸入18。2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

4)數(shù)據(jù)驗(yàn)證-設(shè)置序列驗(yàn)證條件。設(shè)置還可以建立輸入項(xiàng)目的下拉菜單,特別適合輸入定制的項(xiàng)目。例如:建立畢業(yè)院校的下拉菜單。打開“數(shù)據(jù)驗(yàn)證/設(shè)置/允許”下拉菜單,選定“序列”。選定下拉菜單中的院校名稱,就可以方便地輸入所選內(nèi)容。2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

5)數(shù)據(jù)驗(yàn)證-輸入信息提示?!拜斎胄畔ⅰ庇糜谟脩舳ㄖ七x定輸入單元格時(shí)出現(xiàn)的提示信息。例如,對(duì)于輸入身份證號(hào)碼的單元格。2.4.2數(shù)據(jù)有效性2.4數(shù)據(jù)的輸入

6)數(shù)據(jù)驗(yàn)證-出錯(cuò)警告。輸入的身份證號(hào)碼超過18位時(shí)出現(xiàn)的錯(cuò)誤警告。2.4.2數(shù)據(jù)有效性條件函數(shù)IF是Excel中常用的條件判斷函數(shù),其語法格式為:=IF(logical_test,[value_if_true],[value_if_false])。logical_test:表示要進(jìn)行判斷的條件,如果該條件為TRUE,則返回value_if_true的值,否則返回value_if_false的值。value_if_true:表示當(dāng)logical_test為TRUE時(shí)返回的值。value_if_false:表示當(dāng)logical_test為FALSE時(shí)返回的值。2.4數(shù)據(jù)的輸入

2.4.3條件函數(shù)IF【例2-4】某公司根據(jù)員工今年的累計(jì)銷售總額計(jì)算員工年終獎(jiǎng)金,計(jì)算規(guī)則為:當(dāng)累計(jì)銷售總額[50000,∞)時(shí),獎(jiǎng)勵(lì)5000元;當(dāng)累計(jì)銷售總額[30000,50000),獎(jiǎng)勵(lì)3000元;當(dāng)累計(jì)銷售總額[20000,30000),獎(jiǎng)勵(lì)2000元,當(dāng)累計(jì)銷售總額[0,20000),沒有獎(jiǎng)金獎(jiǎng)勵(lì)。該公司本年度員工的累計(jì)銷售金額如表2-4所示。表2-4本年度員工累計(jì)銷售金額員工ID員工銷售金額(元)Alan60,000Alex55,000Helen46,000Lily22,000Mike15,000Tom37,0002.4數(shù)據(jù)的輸入

2.4數(shù)據(jù)的輸入

增設(shè)“獎(jiǎng)勵(lì)金額”一列,插入IF函數(shù)公式。得到最終員工的年終獎(jiǎng)勵(lì)金額。IF函數(shù)嵌套的層數(shù)最多為7層。多個(gè)條件的情況,還是推薦用函數(shù)VLOOKUP來實(shí)現(xiàn)。VLOOKUP是一種在Excel或其他電子表格程序中使用的函數(shù),用于在一個(gè)區(qū)域中查找指定值,并返回該值所在行或列的相關(guān)數(shù)據(jù)。其語法格式為:VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

lookup_value:要查找的值。table_array:包含要進(jìn)行查找的數(shù)據(jù)區(qū)域,該區(qū)域至少包含兩列。col_index_num:目標(biāo)數(shù)據(jù)所在列的索引號(hào),該值從1開始計(jì)數(shù)。range_lookup:指定是否需要進(jìn)行近似匹配的布爾值,可選參數(shù),常用的有0或FALSE表示僅進(jìn)行精確匹配,1或TRUE表示進(jìn)行近似匹配。2.4數(shù)據(jù)的輸入

2.4.4函數(shù)VLOOKUP員工ID員工銷售金額(元)Alan60,000Alex55,000Helen46,000Lily22,000Mike15,000Tom37,0002.4數(shù)據(jù)的輸入

【例2-5】使用VLOOKUP函數(shù)實(shí)現(xiàn)多個(gè)條件數(shù)據(jù)的查找和輸入。表2-3銷售月表中記錄了訂單號(hào)、訂單日期、訂單金額、銷售人員和銷售人員部門。表2-3銷售月表訂單號(hào)訂單日期訂單金額銷售人員部門202305012023.8.17100,000Alan銷售1部202305022023.8.1720,000Lily銷售2部202305032023.8.185000Alan銷售1部202305042023.8.1930000Alan銷售1部202305052023.8.20200,000Tom銷售1部202305062023.8.2125,000Mike銷售2部202305072023.8.212,000Lily銷售2部202305082023.8.2250,000Helen銷售3部202305092023.8.2323,000Mike銷售2部2023050102023.8.2440,000Tom銷售1部2023050112023.8.2510,000Helen銷售3部2.4數(shù)據(jù)的輸入

查找訂單編號(hào)為20230504時(shí)的訂單日期、訂單金額、銷售人員和部分。得到訂單日期、訂單金額、銷售人員和部分的數(shù)據(jù)查找。設(shè)置好VLOOKUP的公式后,往右拖動(dòng)公式即可自動(dòng)返回訂單金額、銷售人員部門。課后習(xí)題2.1總體和樣本的定義?2.2區(qū)分以下數(shù)據(jù)哪些是總體,哪些是樣本?(1)從某大學(xué)6000個(gè)宿舍中隨機(jī)抽查100間宿舍進(jìn)行安全檢查。(2)從一批燈泡中隨機(jī)挑選20個(gè)抽樣檢查。(3)對(duì)某小區(qū)所有的老人進(jìn)行身體檢查。2.3定性數(shù)據(jù)和定量數(shù)據(jù)的定義?2.4截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)的定義?2.5協(xié)方差和相關(guān)系數(shù)的定義?Thank

you!大數(shù)據(jù)分析方法與應(yīng)用第3章回歸分析3.1線性和非線性回歸目錄CONTENTS3.2多元回歸3.3嶺回歸3.4LASSO回歸第3章回歸分析3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)“回歸”一詞的英文是Regression,統(tǒng)計(jì)學(xué)上的“相關(guān)”和“回歸”的概念是高爾頓第一次使用。一些變量之間存在相關(guān)關(guān)系。如果能建立這些相關(guān)關(guān)系的數(shù)量表達(dá)式,就可以根據(jù)一個(gè)變量的值來預(yù)測(cè)另一個(gè)變量的變化。如果隨機(jī)變量y與變量間具有統(tǒng)計(jì)關(guān)系,那么每當(dāng)取定值之后,y便有相應(yīng)的概率分布與之對(duì)應(yīng)。其概率模型為:

其中y稱為因變量,x1,x2,x3,…,xn稱為自變量。y由兩部分組成,一部分是由x1,x2,x3,…,xn能夠決定的部分,記為f(x1,x2,x3,…,xn);另一部分由眾多未加考慮的因素(包括隨機(jī)因素)所產(chǎn)生的影響,它被看成隨機(jī)誤差,記為ε。f(x1,x2,x3,…,xn)稱為y對(duì)x1,x2,x3,…,xn的回歸函數(shù)。3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)當(dāng)模型中的回歸函數(shù)為線性函數(shù)時(shí),即:

,為線性回歸模型。當(dāng)模型中的回歸函數(shù)為非線性函數(shù)時(shí),為非線性回歸模型。常見的非線性回歸模型包括:1)多項(xiàng)式回歸;2)指數(shù)回歸;3)對(duì)數(shù)回歸;4)冪函數(shù)回歸;5)Sigmoid函數(shù)回歸;6)非線性混合效應(yīng)模型。3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)當(dāng)模型中只有一個(gè)自變量時(shí),為簡(jiǎn)單的一元線性回歸,

其中X是自變量,Y是因變量。β0表示截距,是自變量X等于0時(shí),因變量Y的值。??1表示斜率,表示自變量X每增加1,因變量Y增加的數(shù)值。ε表示誤差?;貧w方程可以表示為:3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)如表所示為某市用電量指標(biāo)統(tǒng)計(jì),在Excel中繪制散點(diǎn)圖,添加趨勢(shì)線,顯示回歸方程和相關(guān)系數(shù),具體操作步驟如下:

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)1)在數(shù)據(jù)中,選擇“GDP”和“年用電量”。

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)2)插入“散點(diǎn)圖”,操作如圖所示。

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)3)單擊菜單“設(shè)計(jì)”,選擇“圖表布局”,輸入圖表和坐標(biāo)軸標(biāo)題,如圖所示。

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)4)右鍵單擊散點(diǎn)圖,選擇“添加趨勢(shì)線”,如圖所示。

3.1線性和非線性回歸

3.1.1

線性回歸及其Excel中的實(shí)現(xiàn)5)在“趨勢(shì)線選項(xiàng)”中選擇“線性”,“顯示公式”和顯示R平方值,單擊“關(guān)閉”,操作如圖所示。

3.1線性和非線性回歸

3.1.1

線性回歸及其Excel中的實(shí)現(xiàn)6)完成散點(diǎn)圖添加趨勢(shì)線的簡(jiǎn)單一元回歸,結(jié)果如圖所示。

3.1線性和非線性回歸

3.1.2

最小二乘回歸最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡(jiǎn)便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。對(duì)于回歸直線,關(guān)鍵在于求解參數(shù),常用的就是最小二乘法,它是使因變量的觀察值與估計(jì)值之間的殘差平方和達(dá)到最小來求解,殘差平方和為:3.1線性和非線性回歸

3.1.2

最小二乘回歸上述方程中對(duì)系數(shù)β0,β1偏導(dǎo),并使導(dǎo)數(shù)等于0,可得3.1線性和非線性回歸

3.1.2

最小二乘回歸因變量觀察值yi和觀察值的均值的差的平方和稱為總平方和SST??偲椒胶涂梢苑纸鉃榛貧w平方和、殘差平方和:SST=SSR+SSE。

判定系數(shù)R2=SSR/SST表示因變量總差異中可以由回歸解釋的比例,1-R2=SSE/SST表示殘差平方和占總平方和的比例。R2越接近1,回歸的相關(guān)性越好。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實(shí)現(xiàn)在實(shí)際問題中,很多情況下因變量與自變量之間的關(guān)系不是線性的,而是呈現(xiàn)出曲線、指數(shù)、對(duì)數(shù)等非線性形式。非線性回歸是一種統(tǒng)計(jì)建模方法,用于建立自變量和因變量之間非線性關(guān)系的模型。在非線性回歸中,自變量和因變量之間的關(guān)系可以通過非線性函數(shù)來描述,而不是簡(jiǎn)單的線性關(guān)系。非線性回歸可以更準(zhǔn)確地?cái)M合非線性關(guān)系的數(shù)據(jù),提高模型的預(yù)測(cè)能力。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實(shí)現(xiàn)按照表中的數(shù)據(jù),在Excel繪制簡(jiǎn)單一元非線性回歸步驟如下:3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實(shí)現(xiàn)1)創(chuàng)建“人口”和“用電量”兩個(gè)變量樣本的散點(diǎn)圖,單擊散點(diǎn)圖,選擇“添加趨勢(shì)線”,選擇“多項(xiàng)式”,“階數(shù)”為2,如圖所示。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實(shí)現(xiàn)2)選擇“顯示公式”和“顯示R平方”,操作如圖所示。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實(shí)現(xiàn)3)一元非線性回歸如圖所示。3.2多元回歸3.2.1多元回歸及其概念多元線性回歸包括一個(gè)因變量y和若干自變量x1,x2,…,xn,多元線性回歸模型一般形式為:其中β0,β1,β2,β3,…,βn稱為待估參數(shù),ε為誤差項(xiàng)。則回歸方程為:對(duì)于隨機(jī)抽取的n組觀測(cè)值,如果樣本函數(shù)的參數(shù)估計(jì)值已經(jīng)得到,則有:殘差平方和為:3.2多元回歸3.2.1多元回歸及其概念根據(jù)最小二乘原理,參數(shù)估計(jì)值應(yīng)使殘差平方和達(dá)到最小,也就是尋找參數(shù)β0,β1,β2,β3,…,βn的估計(jì)值達(dá)到最小:即Qe的最小值,根據(jù)微積分知識(shí),需對(duì)Qe關(guān)于待估參數(shù)求偏導(dǎo)數(shù),并且令其為0。則3.2多元回歸3.2.1多元回歸及其概念得到回歸方程:在多元回歸中,復(fù)相關(guān)系數(shù)R2的大小和樣本數(shù)量n以及自變量的個(gè)數(shù)k有關(guān)。為了消除樣本數(shù)量和自變量個(gè)數(shù)對(duì)復(fù)相關(guān)系數(shù)的影響,計(jì)算以下修正的復(fù)相關(guān)系數(shù):由統(tǒng)計(jì)學(xué)理論可以知道,對(duì)于自變量個(gè)數(shù)為k,總平方和SST的自由度為n-1,殘差平方和SSE的自由度為n-k-1,回歸平方和SSR的自由度為k。將相應(yīng)的平方和除以自由度,得到以下方差:MST=SST/(n-1)觀察值和平均值之間的方差MSR=SSR/k預(yù)測(cè)值和平均值之間的方差

MSE=SSE/(n-k-1)觀察值和預(yù)測(cè)值之間的方差3.2多元回歸3.2.1多元回歸及其概念F檢驗(yàn)H0:β1=β2=…=βn=0H1:β1≠β2≠…≠βn≠0構(gòu)造統(tǒng)計(jì)量:統(tǒng)計(jì)量F服從F分布,自由度為(k,n-k-1)。對(duì)于給定的置信水平,查F分布表得到臨界值Fα/2,k,n-k-1,如果F>Fα/2,k,n-k-1,拒絕原假設(shè)?;貧w的總體效果顯著的。F值越大,說明回歸方程能解釋因變量變異的程度越高。3.2多元回歸3.2.2多重共線性在多元回歸中,自變量除了和因變量有很強(qiáng)的相關(guān)關(guān)系外,還和其他若干個(gè)自變量之間也存在很強(qiáng)的相關(guān)關(guān)系,這種現(xiàn)象稱為“多重共線性”。容忍度

,Ri是解釋變量Xi與方程中其他解釋變量間的復(fù)相關(guān)系數(shù),容忍度在0到1之間,越接近0,表示多重共線性越強(qiáng),越接近1,表示多重共線性越弱。方差膨脹因子是容忍度的倒數(shù):處理多重共線性最簡(jiǎn)單的方法就是從模型中將被懷疑會(huì)引起多重共線性問題的解釋變量舍去,但是這一方法卻可能會(huì)引起其他方面的問題。因此,還要考慮其他可供選擇的方法,這些方法主要有:追加樣本信息,使用非樣本先驗(yàn)信息,使用有偏估計(jì)量等。3.2多元回歸3.2.3多元回歸及其SPSS中的實(shí)現(xiàn)為了操作更具有簡(jiǎn)便性、快捷性,我們使用SPSS在線分析軟件SPSSPRO來實(shí)現(xiàn)多元回歸。1)放入數(shù)據(jù)文檔,如圖所示。3.2多元回歸3.2.3多元回歸及其SPSS中的實(shí)現(xiàn)2)根據(jù)數(shù)據(jù)分析需求,選擇多元回歸,如圖所示。3.2多元回歸3.2.3多元回歸及其SPSS中的實(shí)現(xiàn)3)將左側(cè)變量放入對(duì)應(yīng)的方框里,如圖所示。3.2多元回歸3.2.3多元回歸及其SPSS中的實(shí)現(xiàn)4)單擊“開始分析”,如圖所示。3.2多元回歸3.2.4居民存款影響因素回歸案例分析影響住戶存款的因素較多,如居民收入、物價(jià)、利率、人口數(shù)量、消費(fèi)習(xí)慣、生活方式、社會(huì)保障體系等。而居民收入和人口數(shù)量是決定住戶存款的核心因素。由于目前我國(guó)城鄉(xiāng)差別仍然很大,城鎮(zhèn)居民的收入遠(yuǎn)大于農(nóng)村居民的收入。這種差異可以用城鎮(zhèn)化率體現(xiàn)。本節(jié)選擇農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率為影響因子,分析它們對(duì)住戶存款的影響。如表所示,為農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率、住戶存款的相關(guān)數(shù)據(jù)。分析農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率對(duì)住戶存款的多元線性回歸方程。3.2多元回歸3.2.4居民存款影響因素回歸案例分析3.2多元回歸3.2.4居民存款影響因素回歸案例分析以表中的數(shù)據(jù)為樣本,運(yùn)用最小二乘法估計(jì)回歸系數(shù)β。借助SPSSPRO軟件工具,求得回歸系數(shù),結(jié)果表所示。3.2多元回歸3.2.4居民存款影響因素回歸案例分析由表中的數(shù)據(jù)可得回歸方程:Y=-12.037+0.001X1+0.002X2+0.704X3-0.089X4。VIF都大于10,明顯存在多重共線性。如何解決多重共線性的問題,將在下一章嶺回歸中著重介紹。3.3嶺回歸3.3.1嶺回歸的概念嶺回歸是最小二乘法的改良與深化,是專門用于解決數(shù)據(jù)共線性這種病態(tài)現(xiàn)象的有效方法,對(duì)共線性數(shù)據(jù)分析具有獨(dú)到的效果。它通過放棄OLS的無偏性優(yōu)勢(shì),以損失部分信息、降低擬合精度為代價(jià),換來回歸系數(shù)的穩(wěn)定性和可靠性?;貧w分析中常用的最小二乘法是一種無偏估計(jì)。對(duì)于一個(gè)適定問題,X通常是列滿秩的:Xβ=y采用最小二乘法,定義損失函數(shù)為殘差的平方,最小化損失函數(shù):‖Xβ-y‖2上述優(yōu)化問題可以采用公式進(jìn)行直接求解:3.3嶺回歸3.3.1嶺回歸的概念當(dāng)X不是列滿秩時(shí),或者某些列之間的線性相關(guān)性比較大時(shí),X的行列式接近于0,即接近于奇異,上述問題變?yōu)橐粋€(gè)不適定問題,此時(shí)計(jì)算(XTX)-1誤差會(huì)很大,傳統(tǒng)的最小二乘法缺乏穩(wěn)定性與可靠性。為了解決上述問題,我們需要將不適定問題轉(zhuǎn)化為適定問題:我們?yōu)樯鲜鰮p失函數(shù)加上一個(gè)正則化項(xiàng),變?yōu)?/p>

,嶺回歸的目標(biāo)函數(shù)為:3.3嶺回歸3.3.1嶺回歸的概念嶺回歸求解回歸系數(shù)β方法為:在公式中,k為嶺回歸參數(shù)。k越大,消除共線性影響效果越好,但擬合精度越低;k越小,擬合精度越高,但消除共線性影響作用越差。因此,必須在二者間找到最佳平衡點(diǎn),使k既能消除共線對(duì)參數(shù)估計(jì)的影響,又盡可能小,以減小擬合方程,提高擬合精度。復(fù)相關(guān)系數(shù)Radj2是反映擬合精度的重要指標(biāo),它隨k的增大而減小。k選取原則是:在嶺軌跡變化趨于穩(wěn)定時(shí)選取其最小值。嶺回歸是對(duì)OLS的一種補(bǔ)充,基本思想就是給矩陣XTX加上一個(gè)對(duì)角陣,盡量將奇異矩陣轉(zhuǎn)化為非奇異矩陣,以使矩陣XTX盡可能可逆,以便能夠求出回歸系數(shù)和提高參數(shù)估計(jì)的穩(wěn)定性和可靠性,得到的參數(shù)更能真實(shí)反映客觀實(shí)際。但同時(shí)對(duì)回歸系數(shù)β的估計(jì)不再是無偏估計(jì),從而降低擬合精度。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實(shí)現(xiàn)按照嶺回歸法估計(jì)回歸系數(shù),運(yùn)用SPSS在線分析軟件SPSSPRO實(shí)現(xiàn)。1)放入數(shù)據(jù)文檔,如圖所示。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實(shí)現(xiàn)2)根據(jù)數(shù)據(jù)分析需求,選擇嶺回歸,如圖所示。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實(shí)現(xiàn)3)將左側(cè)變量放入對(duì)應(yīng)的方框里,如圖所示。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實(shí)現(xiàn)4)嶺回歸分析前需要結(jié)合嶺跡圖確認(rèn)K值,K值的選擇原則是各個(gè)自變量的標(biāo)準(zhǔn)化回歸系數(shù)趨于穩(wěn)定時(shí)的最小K值。5)確定好K值后,代入程序中,單擊“開始分析”,如圖所示。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析選擇農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率為影響因子,分析它們對(duì)住戶存款的影響。由于住戶存款與影響因素一般同相變化,即存在共線性,如果采用最小二乘法(OLS)估計(jì)模型的參數(shù),得到的自變量系數(shù)往往喪失了對(duì)因變量的解釋作用,不能客觀反映客觀實(shí)際。嶺回歸可以較好解決這一問題,回歸的參數(shù)可以客觀反映解釋變量與被解釋變量的關(guān)系。因此,采用嶺回歸分析它們對(duì)我國(guó)住戶存款的影響,這樣才能客觀掌握其對(duì)住戶存款的影響。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析X1、X2、X3、X4分別為居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率,Y表示住戶存款運(yùn)用最小二乘法估計(jì)回歸系數(shù)β。借助SPSSPRO軟件工具,求得回歸系數(shù),如下表所示。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析4個(gè)自變量的膨脹系數(shù)VIF均大于10,說明存在多重共線性。再觀察共線性診斷結(jié)果,如下表所示。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析特征值:4維特征值為0,3、5維特征值接近于0,證實(shí)存在共線性;條件指數(shù):3、4、5維度的條件指數(shù)分別為44.762、173.466、644.245,大于30,也證明存在共線性;方差比例:X1在4維度的方差比例為0.66大于0.5,X2在4維度方差比例為0.81,大于0.5,X3在5維度的方差比例為0.99,大于0.5,X4在4維度的方差比例為0.93,大于0.5,證明存在共線性。綜上所述,自變量滿足共線性診斷的所有條件,說明4個(gè)自變量數(shù)據(jù)之間存在嚴(yán)重的共線性。此時(shí)回歸的參數(shù)不能客觀反映自變量與因變量的關(guān)系,解決的最好辦法就是采用嶺回歸法估計(jì)回歸系數(shù)。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析嶺回歸分析前需要結(jié)合嶺跡圖確認(rèn)K值,K值的選擇原則是各個(gè)自變量的標(biāo)準(zhǔn)化回歸系數(shù)趨于穩(wěn)定時(shí)的最小K值。K值越小則偏差越小,K值為0時(shí)則為普通線性O(shè)LS回歸(可主觀判斷,或系統(tǒng)自動(dòng)生成)。設(shè)定迭代步長(zhǎng)取0.01,以確定最佳嶺回歸參數(shù)K。當(dāng)K逐漸增大時(shí),各自變量系數(shù)逐步趨于穩(wěn)定,由下圖可知當(dāng)K=0.70以后,自變量系數(shù)基本不變,故最佳嶺回歸參數(shù)取K=0.60。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析確定好K值后,將K=0.60加入程序再運(yùn)行,得到回歸參數(shù),如表3-6所示。4個(gè)自變量的標(biāo)準(zhǔn)化回歸系數(shù)分別為:β1=0.2319882,β2=0.2248438,β3=0.2080938,β4=0.2063121。4個(gè)自變量的標(biāo)準(zhǔn)化系數(shù)在數(shù)量級(jí)上較為合理,且皆為正數(shù),能客觀反映其對(duì)因變量的影響。根據(jù)回歸的非標(biāo)準(zhǔn)化系和常數(shù),我們可以得到最終嶺回歸方程,即:Y=-148.002167+0.0012134X1+0.0004499X2+10.0416323X3+0.5962266X43.4LASSO回歸3.4.1LASSO回歸的概念LASSO回歸方法與嶺回歸類似,通過構(gòu)造一個(gè)懲罰函數(shù)得到一個(gè)較為精煉的模型,達(dá)到壓縮回歸系數(shù)的目的,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì)。嶺回歸無法降低模型復(fù)雜度,而LASSO回歸是在嶺回歸基礎(chǔ)上的優(yōu)化,可以直接將系數(shù)懲罰壓縮至零,達(dá)到降低模型復(fù)雜度的目的。為保證回歸系數(shù)可求,在多元線性回歸目標(biāo)函數(shù)加上L1范數(shù)懲罰項(xiàng),則LASSO回歸目標(biāo)函數(shù):Y為觀測(cè)集;X為由X1,X2,…,Xn構(gòu)成的集合;β為由β1,β2,…,βn成的回歸系數(shù)集;λ為正則化系數(shù),且值非負(fù)。由LASSO回歸目標(biāo)函數(shù)可知,其引入L1范數(shù)懲罰項(xiàng),正則化系數(shù)λ的選取十分重要。調(diào)整參數(shù)λ的值,模型系數(shù)的絕對(duì)值逐漸減小,使絕對(duì)值較小的系數(shù)自動(dòng)壓縮為0,實(shí)現(xiàn)對(duì)高維數(shù)據(jù)進(jìn)行降維。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實(shí)現(xiàn)按照LASSO回歸法的原理,在SPSSPRO中實(shí)現(xiàn)。1)放入數(shù)據(jù)文檔,如圖所示。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實(shí)現(xiàn)2)根據(jù)數(shù)據(jù)分析需求,選擇LASSO回歸,如圖所示。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實(shí)現(xiàn)3)將左側(cè)變量放入對(duì)應(yīng)的方框里,如圖所示。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實(shí)現(xiàn)4)LASSO回歸中,正則化系數(shù)λ的選取十分重要。調(diào)整參數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論