能源大數(shù)據(jù)分析理論與實(shí)踐 課件匯 漸令 1.大數(shù)據(jù)概述-5.聚類(lèi)分析_第1頁(yè)
能源大數(shù)據(jù)分析理論與實(shí)踐 課件匯 漸令 1.大數(shù)據(jù)概述-5.聚類(lèi)分析_第2頁(yè)
能源大數(shù)據(jù)分析理論與實(shí)踐 課件匯 漸令 1.大數(shù)據(jù)概述-5.聚類(lèi)分析_第3頁(yè)
能源大數(shù)據(jù)分析理論與實(shí)踐 課件匯 漸令 1.大數(shù)據(jù)概述-5.聚類(lèi)分析_第4頁(yè)
能源大數(shù)據(jù)分析理論與實(shí)踐 課件匯 漸令 1.大數(shù)據(jù)概述-5.聚類(lèi)分析_第5頁(yè)
已閱讀5頁(yè),還剩213頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)概述01BigDataOverview大數(shù)據(jù)概念BigDataConcept1.1.1大數(shù)據(jù)定義與含義定義大數(shù)據(jù)(BigData)是一種大規(guī)模的包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的復(fù)雜數(shù)據(jù)集合,大大超出了傳統(tǒng)軟件和工具的處理能力。簡(jiǎn)單來(lái)說(shuō),大數(shù)據(jù)就是規(guī)模大、增長(zhǎng)快、類(lèi)型復(fù)雜且需要新的技術(shù)和工具進(jìn)行處理的數(shù)據(jù)集合,是一種重要的信息資產(chǎn)。價(jià)值大數(shù)據(jù)的核心價(jià)值在于通過(guò)分析海量數(shù)據(jù)可以獲得巨大的價(jià)值,大數(shù)據(jù)技術(shù)就是指從各種類(lèi)型的數(shù)據(jù)中快速獲得有價(jià)值信息的方法和工具。應(yīng)用大數(shù)據(jù)的核心價(jià)值在于通過(guò)分析海量數(shù)據(jù)可以獲得巨大的價(jià)值,大數(shù)據(jù)技術(shù)就是指從各種類(lèi)型的數(shù)據(jù)中快速獲得有價(jià)值信息的方法和工具。1.1.2大數(shù)據(jù)的特征規(guī)模數(shù)據(jù)開(kāi)始爆發(fā)式增長(zhǎng),大數(shù)據(jù)中的數(shù)據(jù)不再以GB或TB為單位來(lái)計(jì)量,而以PB、EB或ZB為計(jì)量單位。速度指數(shù)據(jù)增長(zhǎng)速度快,也指數(shù)據(jù)處理速度快。多樣性主要體現(xiàn)在數(shù)據(jù)來(lái)源多、數(shù)據(jù)類(lèi)型多。質(zhì)量指數(shù)據(jù)的準(zhǔn)確性和可信賴度?,F(xiàn)有的所有大數(shù)據(jù)處理技術(shù)均依賴于數(shù)據(jù)質(zhì)量,這是獲得數(shù)據(jù)價(jià)值的關(guān)鍵基礎(chǔ)。價(jià)值數(shù)據(jù)來(lái)源多、數(shù)據(jù)規(guī)模大,但是價(jià)值密度較低,是大數(shù)據(jù)的一大特征。1.1.3數(shù)據(jù)類(lèi)型結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)是最常見(jiàn)的數(shù)據(jù)類(lèi)型之一,它是以固定格式和結(jié)構(gòu)存儲(chǔ)的數(shù)據(jù),通常以表格形式呈現(xiàn),包含預(yù)定義的字段和特征。半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的一種數(shù)據(jù)類(lèi)型,它具有一定的結(jié)構(gòu),但不像結(jié)構(gòu)化數(shù)據(jù)那么規(guī)范。通常以HTML、XML、JSON等格式存在。非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是最具挑戰(zhàn)性的數(shù)據(jù)類(lèi)型之一,這類(lèi)數(shù)據(jù)沒(méi)有預(yù)定義的結(jié)構(gòu)和格式,通常以文本、圖像、音頻或視頻等形式存在。大數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),三種數(shù)據(jù)具有不同的特點(diǎn)和處理方式。在實(shí)際的應(yīng)用中,需要根據(jù)數(shù)據(jù)類(lèi)型的不同選擇合適的處理方式和工具,以便進(jìn)行有效的數(shù)據(jù)存儲(chǔ)、處理和分析。大數(shù)據(jù)應(yīng)用Bigdataapplication1.2大數(shù)據(jù)的應(yīng)用商業(yè)和市場(chǎng)分析健康醫(yī)療交通與城市規(guī)劃金融與風(fēng)險(xiǎn)管理社交媒體和輿情分析科學(xué)研究和探索大數(shù)據(jù)的應(yīng)用范圍廣泛,它在許多其他行業(yè)中發(fā)揮著重要作用。以下是大數(shù)據(jù)的一些典型應(yīng)用領(lǐng)域。除此以外,能源領(lǐng)域的大數(shù)據(jù)應(yīng)用也非常廣泛。例如,在能源生產(chǎn)優(yōu)化方面,通過(guò)實(shí)時(shí)監(jiān)測(cè)傳感器數(shù)據(jù)和設(shè)備狀態(tài),能源企業(yè)可以實(shí)現(xiàn)設(shè)備智能化維護(hù),縮短停機(jī)時(shí)間,并預(yù)測(cè)潛在故障,從而提高生產(chǎn)效率和資源利用效率;在節(jié)能與減排優(yōu)化方面,通過(guò)分析能源生產(chǎn)和消費(fèi)的數(shù)據(jù),能源企業(yè)可以找到節(jié)能的潛力和優(yōu)化方案,還可以幫助評(píng)估和監(jiān)控減排措施的效果,推動(dòng)能源企業(yè)向低碳和可持續(xù)發(fā)展方向轉(zhuǎn)型;在能源市場(chǎng)預(yù)測(cè)方面,通過(guò)分析歷史市場(chǎng)數(shù)據(jù)、經(jīng)濟(jì)指標(biāo)等,能源企業(yè)可以預(yù)測(cè)未來(lái)的能源需求和價(jià)格趨勢(shì),做出相應(yīng)的資源配置和市場(chǎng)決策。大數(shù)據(jù)處理流程BigDataProcessing

Process1.3.1大數(shù)據(jù)處理的基本流程通過(guò)有效地采集、處理和應(yīng)用大數(shù)據(jù),企業(yè)和組織可以從復(fù)雜的數(shù)據(jù)來(lái)源中提取有價(jià)值的信息,進(jìn)行統(tǒng)計(jì)分析和挖掘,從而服務(wù)于決策分析。大數(shù)據(jù)處理的基本流程涵蓋了從數(shù)據(jù)采集到數(shù)據(jù)可視化的全過(guò)程,包括四個(gè)主要步驟:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘、數(shù)據(jù)可視化。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)存儲(chǔ)三個(gè)步驟。1.3.2數(shù)據(jù)采集數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是指從傳感器和其他測(cè)量設(shè)備等模擬和數(shù)字被測(cè)單元中自動(dòng)采集信息的過(guò)程。數(shù)據(jù)來(lái)源較為復(fù)雜,包括傳感器、社交網(wǎng)絡(luò)、網(wǎng)站、移動(dòng)應(yīng)用程序、物聯(lián)網(wǎng)設(shè)備等。數(shù)據(jù)類(lèi)型較多,根據(jù)產(chǎn)生來(lái)源不同可以將數(shù)據(jù)分為交易數(shù)據(jù)、人為數(shù)據(jù)、移動(dòng)數(shù)據(jù)、機(jī)器和傳感器數(shù)據(jù)等。由于數(shù)據(jù)來(lái)源的不同,數(shù)據(jù)采集方式具有很大的不同,包括爬蟲(chóng)技術(shù)、API技術(shù)、傳感器技術(shù)等。數(shù)據(jù)采集需要針對(duì)不同的數(shù)據(jù)來(lái)源選擇不同的工具和技術(shù),確保數(shù)據(jù)的準(zhǔn)確性和完整性。1.3.3數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)清洗是指去除無(wú)用數(shù)據(jù)、缺失數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)等。解決數(shù)據(jù)質(zhì)量問(wèn)題:①數(shù)據(jù)的完整性②數(shù)據(jù)的唯一性③數(shù)據(jù)的權(quán)威性④數(shù)據(jù)的合法性⑤數(shù)據(jù)的一致性數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)從一種格式或結(jié)構(gòu)轉(zhuǎn)換為另一種格式或結(jié)構(gòu)的過(guò)程,對(duì)于數(shù)據(jù)集成和數(shù)據(jù)管理等活動(dòng)較為重要。包括:①數(shù)據(jù)集成②數(shù)據(jù)變換③數(shù)據(jù)歸約數(shù)據(jù)存儲(chǔ)是指將巨量的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到集群中,并以可擴(kuò)展、高可用性及高容錯(cuò)性的形式安全存儲(chǔ)、處理和管理數(shù)據(jù)。存儲(chǔ)數(shù)據(jù)的方式有很多選擇,包括關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、文件系統(tǒng)等。1.3.4數(shù)據(jù)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘數(shù)據(jù)統(tǒng)計(jì)分析是大數(shù)據(jù)處理流程中的關(guān)鍵步驟之一,它涉及對(duì)采集和清洗后的數(shù)據(jù)進(jìn)行分析和總結(jié),以獲得對(duì)數(shù)據(jù)的基本描述和洞察。用于大數(shù)據(jù)統(tǒng)計(jì)分析的方法主要如下:描述性分析探索性分析非參數(shù)方法時(shí)間序列分析數(shù)據(jù)挖掘是指利用一些高級(jí)算法和技術(shù),如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語(yǔ)言處理等,對(duì)數(shù)據(jù)包含的信息進(jìn)行深度分析。主要任務(wù)包括關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)分析、異常分析、特異群組分析和演變分析等。數(shù)據(jù)挖掘技術(shù)可以分為以下幾類(lèi):①分類(lèi)②預(yù)測(cè)③相關(guān)性分組(或關(guān)聯(lián)規(guī)則)④聚類(lèi)。機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘的一種手段。利用機(jī)器學(xué)習(xí)提供的統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)等手段分析海量數(shù)據(jù),同時(shí)利用數(shù)據(jù)存取技術(shù)實(shí)現(xiàn)數(shù)據(jù)的高效讀寫(xiě)。大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)采用分布式和并行計(jì)算的方式進(jìn)行分治策略的實(shí)施。機(jī)器學(xué)習(xí)的方法種類(lèi)有很多,傳統(tǒng)的研究方向有決策樹(shù)、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)等。1.3.5數(shù)據(jù)可視化數(shù)據(jù)可視化是指以圖形、圖表的形式將原始的信息和數(shù)據(jù)表示出來(lái)。也就是通過(guò)對(duì)數(shù)據(jù)進(jìn)行采集、清洗、分析,將所示分析結(jié)果通過(guò)圖形、圖表等形式展示出來(lái)的一個(gè)過(guò)程。傳統(tǒng)的數(shù)據(jù)可視化方法包括表格、直方圖、散點(diǎn)圖、折線圖、柱狀圖、餅圖、面積圖、流程圖等,圖表的多個(gè)數(shù)據(jù)系列或組合也較為常用,還包括平行坐標(biāo)系、樹(shù)狀圖、錐形樹(shù)圖和語(yǔ)義網(wǎng)絡(luò)等。數(shù)據(jù)可視化并非僅包括靜態(tài)形式,還包括動(dòng)態(tài)(交互)形式。當(dāng)前的數(shù)據(jù)可視化工具:

Tableau:提供了豐富的圖表類(lèi)型和交互功能,支持多種數(shù)據(jù)源。MicrosoftPowerBI:用于創(chuàng)建交互式儀表板和報(bào)表。python:有許多庫(kù)和工具可以實(shí)現(xiàn)數(shù)據(jù)可視化。大數(shù)據(jù)平臺(tái)技術(shù)BigDataPlatform

Technology1.4.1大數(shù)據(jù)系統(tǒng)生態(tài)大數(shù)據(jù)的“5V”特征決定了大數(shù)據(jù)不是一種技術(shù)或一個(gè)軟件就能完成的,必須是一個(gè)生態(tài)圈,各組件共同完成其存儲(chǔ)、計(jì)算、分析等任務(wù)。這個(gè)生態(tài)圈涵蓋了各種不同的組成部分,涉及數(shù)據(jù)采集、存儲(chǔ)、處理、分析、可視化、安全和隱私等方面。在這個(gè)生態(tài)圈中,各個(gè)組成部分相互連接,共同協(xié)作,形成了一個(gè)完整的大數(shù)據(jù)處理和應(yīng)用的生態(tài)系統(tǒng)。Hadoop是一種分布式計(jì)算框架,其核心包含HDFS(HadoopDistributedFileSystem)和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)功能,MapReduce則為海量的數(shù)據(jù)提供了計(jì)算功能。Hadoop作為分布式軟件框架具有可靠性高、擴(kuò)展性高、效率高、容錯(cuò)性高和成本低等優(yōu)點(diǎn)。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除能夠提供交互式查詢功能外,還可以優(yōu)化迭代工作負(fù)載。1.4.1大數(shù)據(jù)系統(tǒng)生態(tài)Hadoop和Spark在大數(shù)據(jù)生態(tài)圈中相互補(bǔ)充,它們可以一起使用,也可以單獨(dú)使用,取決于具體的應(yīng)用場(chǎng)景和需求。當(dāng)需要處理大規(guī)模的靜態(tài)數(shù)據(jù)集時(shí),特別是對(duì)于離線批處理任務(wù),Hadoop的MapReduce是一個(gè)很好的選擇。對(duì)于需要更快速的數(shù)據(jù)處理和更多的交互性的應(yīng)用場(chǎng)景,Spark是更優(yōu)的選擇。Hadoop和Spark作為大數(shù)據(jù)生態(tài)圈中的兩個(gè)重要組件,各自有著不同的優(yōu)勢(shì)和應(yīng)用場(chǎng)景,它們共同構(gòu)建了一個(gè)完整而多樣化的大數(shù)據(jù)處理和分析生態(tài)系統(tǒng)。1.4.2大數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)存儲(chǔ)與管理是非常重要的,主要涉及數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖等概念,以及分布式文件系統(tǒng)和HDFS等技術(shù)。數(shù)據(jù)庫(kù)是按照數(shù)據(jù)結(jié)構(gòu)來(lái)組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)。數(shù)據(jù)庫(kù)可以分為關(guān)系型數(shù)據(jù)庫(kù)與非關(guān)系型數(shù)據(jù)庫(kù)。企業(yè)往往會(huì)結(jié)合兩者的優(yōu)點(diǎn),將兩者結(jié)合使用。關(guān)系型數(shù)據(jù)庫(kù)是指采用了關(guān)系模型來(lái)組織數(shù)據(jù)的數(shù)據(jù)庫(kù),如Oracle、SQLServer、MySQL等;非關(guān)系型數(shù)據(jù)庫(kù)是以對(duì)象為單位的數(shù)據(jù)結(jié)構(gòu),其中的數(shù)據(jù)以對(duì)象的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中,而對(duì)象之間的關(guān)系通過(guò)每個(gè)對(duì)象自身的特征來(lái)決定,如HBase、Redis、MongoDB、Neo4j等。兩者的區(qū)別如下:①數(shù)據(jù)存儲(chǔ)方式不同②擴(kuò)展方式不同③對(duì)事務(wù)性的支持不同。1.4.2大數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)存儲(chǔ)與管理是非常重要的,主要涉及數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖等概念,以及分布式文件系統(tǒng)和HDFS等技術(shù)。為了避免冷數(shù)據(jù)與歷史數(shù)據(jù)收集對(duì)業(yè)務(wù)數(shù)據(jù)庫(kù)產(chǎn)生影響,就需要使用數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)是為企業(yè)所有級(jí)別的決策制定過(guò)程提供所有類(lèi)型數(shù)據(jù)支持的戰(zhàn)略集合。其架構(gòu)一般分為三層:數(shù)據(jù)源層、數(shù)據(jù)倉(cāng)庫(kù)層和數(shù)據(jù)應(yīng)用層,其中,數(shù)據(jù)源層是指從各種數(shù)據(jù)源中獲取數(shù)據(jù)的過(guò)程。數(shù)據(jù)湖作為一個(gè)原始的大型數(shù)據(jù)集,處理不同來(lái)源的原始數(shù)據(jù),并支持不同的用戶需求。它是一種數(shù)據(jù)存儲(chǔ)架構(gòu),它可以容納大量不同類(lèi)型和格式的數(shù)據(jù),通常使用分布式存儲(chǔ)和處理技術(shù)。1.4.2大數(shù)據(jù)存儲(chǔ)與管理分布式文件系統(tǒng)是指文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接連接在本地節(jié)點(diǎn)上而是通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連,或者是若干不同的邏輯磁盤(pán)分區(qū)或卷標(biāo)組合在一起而形成的完整的、有層次的文件系統(tǒng)。HDFS是Hadoop生態(tài)系統(tǒng)中的一部分,是一個(gè)開(kāi)源的分布式文件系統(tǒng),用于存儲(chǔ)和管理大規(guī)模數(shù)據(jù)。其支持大數(shù)據(jù)處理,能夠有效處理海量數(shù)據(jù)的存儲(chǔ)和訪問(wèn),是大數(shù)據(jù)處理中最重要的分布式文件系統(tǒng)之一。1.4.3大數(shù)據(jù)計(jì)算與處理云計(jì)算是一種通過(guò)互聯(lián)網(wǎng)提供計(jì)算資源和服務(wù)的模式,為用戶提供了靈活、高效、富有彈性和成本效益的解決方案。云計(jì)算與大數(shù)據(jù)的區(qū)別:云計(jì)算是基礎(chǔ),沒(méi)有云計(jì)算,就無(wú)法實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)與計(jì)算;大數(shù)據(jù)是應(yīng)用,沒(méi)有大數(shù)據(jù),云計(jì)算就缺少了目標(biāo)與價(jià)值。服務(wù)模型:①基礎(chǔ)設(shè)施即服務(wù)②平臺(tái)即服務(wù)③軟件即服務(wù)。優(yōu)勢(shì):①用戶可以根據(jù)需求快速獲得所需計(jì)算資源,無(wú)須事先投資和購(gòu)買(mǎi)硬件設(shè)施,也不用擔(dān)心資源的浪費(fèi);②提供高度自動(dòng)化的資源管理和配置,資源調(diào)配更加高效和智能,用戶可以根據(jù)需求快速擴(kuò)展或縮減計(jì)算資源,以適應(yīng)不斷變化的工作負(fù)載,實(shí)現(xiàn)資源的彈性伸縮。1.4.3大數(shù)據(jù)計(jì)算與處理批處理是指將一系列命令或程序按順序組合在一起,在一個(gè)批處理文件中批量執(zhí)行。批處理是一種數(shù)據(jù)處理模式,適用于對(duì)靜態(tài)數(shù)據(jù)集進(jìn)行處理和分析。在大數(shù)據(jù)處理中,批處理是處理大規(guī)模歷史數(shù)據(jù)的常用方法,它可以在離線狀態(tài)下進(jìn)行計(jì)算,以獲得全面的數(shù)據(jù)分析和洞察。目前,使用較多的批處理計(jì)算引擎有MapReduce和Spark。MapReduce可以有效解決海量數(shù)據(jù)的計(jì)算問(wèn)題,都包含Map過(guò)程和Reduce過(guò)程。MapReduce框架和分布式文件系統(tǒng)是運(yùn)行在一組相同的節(jié)點(diǎn)上的。1.4.3大數(shù)據(jù)計(jì)算與處理流處理是一種對(duì)實(shí)時(shí)數(shù)據(jù)流進(jìn)行即時(shí)處理和分析的方式。流處理能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)處理和響應(yīng),適用于需要快速獲取實(shí)時(shí)數(shù)據(jù)洞察和做出實(shí)時(shí)決策的場(chǎng)景。Spark的SparkStreaming和Storm是比較早的流處理框架,從一端讀取實(shí)時(shí)數(shù)據(jù)的原始流,將其傳遞通過(guò)一系列小處理單元,并在另一端輸出處理后的、有用的信息。Storm是Twitter開(kāi)源的分布式實(shí)時(shí)大數(shù)據(jù)處理框架,從一端讀取實(shí)時(shí)數(shù)據(jù)的原始流,將其傳遞通過(guò)一系列小處理單元,并在另一端輸出處理后的、有用的信息。Storm是一個(gè)分布式實(shí)時(shí)計(jì)算系統(tǒng),采用了類(lèi)似MapReduce的拓?fù)浣Y(jié)構(gòu)。SparkStreaming屬于Spark的一個(gè)組件,是基于批的流式計(jì)算框架。它在處理數(shù)據(jù)流之前,會(huì)按照時(shí)間間隔對(duì)數(shù)據(jù)流進(jìn)行分段切分。1.4.3大數(shù)據(jù)計(jì)算與處理HBase是一種開(kāi)源的分布式列式存儲(chǔ)數(shù)據(jù)庫(kù),它適用于大規(guī)模數(shù)據(jù)的存儲(chǔ)和查詢,可以以低成本來(lái)存儲(chǔ)海量的數(shù)據(jù)并且支持高并發(fā)的隨機(jī)寫(xiě)和實(shí)時(shí)查詢。HBase交互式分析是指通過(guò)HBase進(jìn)行數(shù)據(jù)查詢和分析,并實(shí)時(shí)獲取結(jié)果。用戶需要根據(jù)數(shù)據(jù)的類(lèi)型和格式選擇合適的導(dǎo)入方法。HBase作為一種高性能、高可靠性的存儲(chǔ)解決方案,為大數(shù)據(jù)行業(yè)提供了強(qiáng)大的數(shù)據(jù)查詢和分析能力,幫助實(shí)現(xiàn)高效、智能的數(shù)據(jù)處理與應(yīng)用。思考題闡述大數(shù)據(jù)的五大基本特征。大數(shù)據(jù)時(shí)代的數(shù)據(jù)類(lèi)型包含哪些?大數(shù)據(jù)處理的基本流程是什么?大數(shù)據(jù)平臺(tái)Hadoop和Spark的區(qū)別和聯(lián)系有哪些?什么是數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖?三者的區(qū)別與聯(lián)系是什么?HDFS是一種分布式文件系統(tǒng),其架構(gòu)和數(shù)據(jù)存儲(chǔ)機(jī)制是什么?什么是MapReduce?請(qǐng)給出一個(gè)例子并描述其計(jì)算過(guò)程。Thankyou!數(shù)據(jù)獲取與預(yù)處理02DataAcquisitionAndPreprocessing數(shù)據(jù)獲取與預(yù)處理概述DataAcquisitionAndPreprocessingOverview2.1.1數(shù)據(jù)獲取在現(xiàn)實(shí)應(yīng)用中,多個(gè)源系統(tǒng)的數(shù)據(jù)兼容性較差,因此需要對(duì)獲取的異構(gòu)數(shù)據(jù)進(jìn)行處理。ETL方法提供了一個(gè)數(shù)據(jù)獲取與預(yù)處理的標(biāo)準(zhǔn)流程和技術(shù)工具。數(shù)據(jù)獲取是指從各種相關(guān)數(shù)據(jù)源獲取數(shù)據(jù)的過(guò)程,也指ETL的數(shù)據(jù)獲取環(huán)節(jié),是數(shù)據(jù)分析與挖掘的基礎(chǔ)。數(shù)據(jù)獲取是ETL處理的第一步,也是最重要的一步,數(shù)據(jù)被成功獲取后,才可以進(jìn)行轉(zhuǎn)換并加載到數(shù)據(jù)倉(cāng)庫(kù)中。2.1.1數(shù)據(jù)獲取傳統(tǒng)數(shù)據(jù)獲取和大數(shù)據(jù)獲取有如下不同:數(shù)據(jù)源方面,傳統(tǒng)數(shù)據(jù)獲取的數(shù)據(jù)源單一,而大數(shù)據(jù)獲取系統(tǒng)還需要從社交系統(tǒng)、互聯(lián)網(wǎng)系統(tǒng)及各種類(lèi)型的機(jī)器設(shè)備上獲取數(shù)據(jù)。數(shù)據(jù)量方面,互聯(lián)網(wǎng)系統(tǒng)和機(jī)器系統(tǒng)產(chǎn)生的數(shù)據(jù)量要遠(yuǎn)遠(yuǎn)大于企業(yè)系統(tǒng)產(chǎn)生的數(shù)據(jù)量。數(shù)據(jù)結(jié)構(gòu)方面,傳統(tǒng)數(shù)據(jù)獲取系統(tǒng)獲取的數(shù)據(jù)都是結(jié)構(gòu)化數(shù)據(jù),而大數(shù)據(jù)獲取系統(tǒng)需要獲取大量的視頻、音頻、照片等非結(jié)構(gòu)化數(shù)據(jù),以及網(wǎng)頁(yè)、博客、日志等半結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)產(chǎn)生速度,傳統(tǒng)數(shù)據(jù)獲取系統(tǒng)獲取的數(shù)據(jù)幾乎都是由人操作生成的,遠(yuǎn)遠(yuǎn)慢于機(jī)器生成數(shù)據(jù)的速度。2.1.2數(shù)據(jù)清洗與數(shù)據(jù)轉(zhuǎn)換在一般情況下,數(shù)據(jù)倉(cāng)庫(kù)分為ODS、DW兩個(gè)部分。ODS是數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)的一種過(guò)渡,數(shù)據(jù)結(jié)構(gòu)一般與數(shù)據(jù)源保持一致,便于減少ETL的工作復(fù)雜性,而且ODS的數(shù)據(jù)周期一般比較短。ODS的數(shù)據(jù)最終流入DW,DW是數(shù)據(jù)的歸宿,這里保存著所有從ODS到來(lái)的數(shù)據(jù),而且這些數(shù)據(jù)不會(huì)被修改。數(shù)據(jù)轉(zhuǎn)換:它是在ODS到DW的過(guò)程中轉(zhuǎn)換的,將數(shù)據(jù)轉(zhuǎn)換為適用于查詢和分析的形式和結(jié)構(gòu)。數(shù)據(jù)從操作型源系統(tǒng)獲取后,需要進(jìn)行多種轉(zhuǎn)換操作,通常是最復(fù)雜的部分,也是ETL處理中用時(shí)最長(zhǎng)的一步。數(shù)據(jù)清洗:數(shù)據(jù)轉(zhuǎn)換一個(gè)最重要的功能是數(shù)據(jù)清洗,目的是只有“合規(guī)”的數(shù)據(jù)才能進(jìn)入目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)。這步操作在不同系統(tǒng)間交互和通信時(shí)尤為必要。2.1.3數(shù)據(jù)加載數(shù)據(jù)加載就是將轉(zhuǎn)換后的數(shù)據(jù)導(dǎo)入目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)中。這步操作需要重點(diǎn)考慮兩個(gè)問(wèn)題,一是數(shù)據(jù)加載的效率問(wèn)題,二是一旦加載過(guò)程中失敗了,如何再次執(zhí)行加載過(guò)程。要提高數(shù)據(jù)加載的效率,加快加載速度,可以采用如下兩種做法:保證足夠的系統(tǒng)資源。在進(jìn)行數(shù)據(jù)加載時(shí),禁用數(shù)據(jù)庫(kù)約束(唯一性、非空性、檢查約束等)和索引,當(dāng)加載過(guò)程完全結(jié)束后,再啟用這些約束,重建索引。ETL系統(tǒng)一般會(huì)從多個(gè)應(yīng)用系統(tǒng)中整合數(shù)據(jù),常用實(shí)現(xiàn)方法有三種:借助ETL工具采用SQL方式ETL工具和SQL方式相結(jié)合為了提高ETL處理的效率,通常數(shù)據(jù)獲取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載操作會(huì)并行執(zhí)行。數(shù)據(jù)獲取技術(shù)DataAcquisitionTechnique2.2.1數(shù)據(jù)獲取技術(shù)概述數(shù)據(jù)獲取需要在調(diào)研階段做大量的工作。如果已經(jīng)明確了需要獲取的數(shù)據(jù),下一步就該考慮從源系統(tǒng)獲取數(shù)據(jù)的方法了。數(shù)據(jù)獲取方法的選擇高度依賴于源系統(tǒng)和目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的業(yè)務(wù)需要。隨著大數(shù)據(jù)的蓬勃發(fā)展,數(shù)據(jù)獲取的來(lái)源廣泛且數(shù)據(jù)量巨大,數(shù)據(jù)類(lèi)型豐富,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),它們大多存在于分布式數(shù)據(jù)庫(kù)中。目前大數(shù)據(jù)獲取主要方法如下:數(shù)據(jù)庫(kù)獲取系統(tǒng)日志獲取網(wǎng)絡(luò)數(shù)據(jù)獲取感知設(shè)備數(shù)據(jù)獲取針對(duì)軟件系統(tǒng)的數(shù)據(jù)獲取,有如下三種方式:接口對(duì)接方式開(kāi)放數(shù)據(jù)庫(kù)方式基于底層數(shù)據(jù)交換的數(shù)據(jù)直接獲取方式2.2.2網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)可以按照我們制定的規(guī)則自動(dòng)瀏覽網(wǎng)絡(luò)中的數(shù)據(jù),這些規(guī)則稱為網(wǎng)絡(luò)爬蟲(chóng)算法。網(wǎng)絡(luò)爬蟲(chóng)由控制節(jié)點(diǎn)、爬蟲(chóng)節(jié)點(diǎn)、資源庫(kù)構(gòu)成。控制節(jié)點(diǎn)主要負(fù)責(zé)根據(jù)URL分配線程,并調(diào)用爬蟲(chóng)節(jié)點(diǎn)進(jìn)行具體的爬取爬蟲(chóng)節(jié)點(diǎn)會(huì)按照相關(guān)的算法,對(duì)網(wǎng)頁(yè)進(jìn)行具體的爬取,爬取后會(huì)將爬取結(jié)果存儲(chǔ)到對(duì)應(yīng)的資源庫(kù)中。通用網(wǎng)絡(luò)爬蟲(chóng)通用網(wǎng)絡(luò)爬蟲(chóng)的爬取目標(biāo)是整個(gè)互聯(lián)網(wǎng)上的所有網(wǎng)頁(yè)。主要由初始URL集合、URL隊(duì)列、網(wǎng)頁(yè)爬取模塊、網(wǎng)頁(yè)分析模塊、網(wǎng)頁(yè)數(shù)據(jù)庫(kù)、鏈接過(guò)濾模塊等構(gòu)成。通用網(wǎng)絡(luò)爬蟲(chóng)在爬取的時(shí)候會(huì)采取一定的爬取策略,主要有深度優(yōu)先策略和廣度優(yōu)先策略。這類(lèi)網(wǎng)絡(luò)爬蟲(chóng)主要應(yīng)用于大型搜索引擎中,有非常高的應(yīng)用價(jià)值。聚焦網(wǎng)絡(luò)爬蟲(chóng)聚焦網(wǎng)絡(luò)爬蟲(chóng)是按照預(yù)先定義好的主題有選擇地進(jìn)行網(wǎng)頁(yè)爬取的一種爬蟲(chóng)。可以大大節(jié)省爬蟲(chóng)爬取時(shí)所需的帶寬資源和服務(wù)器資源。聚焦網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用在對(duì)特定信息的爬取中,主要為某一類(lèi)特定的人群提供服務(wù),主要由初始URL集合、URL隊(duì)列、網(wǎng)頁(yè)爬取模塊、網(wǎng)頁(yè)分析模塊、網(wǎng)頁(yè)數(shù)據(jù)庫(kù)、鏈接過(guò)濾模塊、內(nèi)容評(píng)價(jià)模塊、鏈接評(píng)價(jià)模塊等構(gòu)成。聚焦網(wǎng)絡(luò)爬蟲(chóng)的爬取策略主要有四種:基于內(nèi)容評(píng)價(jià)的爬取策略基于鏈接評(píng)價(jià)的爬取策略基于強(qiáng)化學(xué)習(xí)的爬取策略基于語(yǔ)境圖的爬取策略增量式網(wǎng)絡(luò)爬蟲(chóng)增量式更新指在更新的時(shí)候只更新改變的地方,未改變的地方則不更新,所以只爬取內(nèi)容發(fā)生變化的網(wǎng)頁(yè)或新產(chǎn)生的網(wǎng)頁(yè),對(duì)于未發(fā)生內(nèi)容變化的網(wǎng)頁(yè)則不會(huì)爬取。深層網(wǎng)絡(luò)爬蟲(chóng)在互聯(lián)網(wǎng)中,按存在方式分類(lèi),網(wǎng)頁(yè)可以分為表層網(wǎng)頁(yè)和深層網(wǎng)頁(yè):表層網(wǎng)頁(yè):不需要提交表單,使用靜態(tài)的鏈接就能夠到達(dá)的靜態(tài)網(wǎng)頁(yè);深層網(wǎng)頁(yè):隱藏在表單后面,不能通過(guò)靜態(tài)鏈接直接獲取,是需要提交一定的關(guān)鍵詞之后才能夠到達(dá)的網(wǎng)頁(yè)。在互聯(lián)網(wǎng)中,深層網(wǎng)頁(yè)的數(shù)量往往比表層網(wǎng)頁(yè)的數(shù)量要多很多,因此需要深層網(wǎng)絡(luò)爬蟲(chóng)。深層網(wǎng)絡(luò)爬蟲(chóng)在爬取深層網(wǎng)頁(yè)時(shí)需要自動(dòng)填寫(xiě)好對(duì)應(yīng)的表單,表單填寫(xiě)方式有兩種:①基于領(lǐng)域知識(shí)的表單填寫(xiě):建立一個(gè)填寫(xiě)表單的關(guān)鍵詞庫(kù),在需要填寫(xiě)的時(shí)候,根據(jù)語(yǔ)義分析選擇對(duì)應(yīng)的關(guān)鍵詞進(jìn)行填寫(xiě)。②基于網(wǎng)頁(yè)結(jié)構(gòu)分析的表單填寫(xiě):會(huì)根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行分析,并自動(dòng)地進(jìn)行表單填寫(xiě),一般在領(lǐng)域知識(shí)有限的情況下使用。數(shù)據(jù)預(yù)處理DataPre-processing2.3.1數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量是指數(shù)據(jù)在特定應(yīng)用環(huán)境中是否滿足預(yù)期的要求。包括以下幾個(gè)方面:準(zhǔn)確性:數(shù)據(jù)與實(shí)際情況的符合程度,數(shù)據(jù)值與實(shí)際值的一致性高低。完整性:數(shù)據(jù)是否包含了需要的全部信息,有無(wú)遺漏或缺失。一致性:數(shù)據(jù)在不同的數(shù)據(jù)源、數(shù)據(jù)記錄等方面是否保持一致,數(shù)據(jù)之間有無(wú)沖突或矛盾。及時(shí)性:數(shù)據(jù)是否及時(shí)地進(jìn)行采集、處理、傳輸和更新,以保證數(shù)據(jù)的實(shí)效性和時(shí)效性??衫斫庑裕簲?shù)據(jù)是否易于被理解,數(shù)據(jù)結(jié)構(gòu)和格式是否清晰,數(shù)據(jù)值和字段是否具有明確的含義??煽啃裕簲?shù)據(jù)是否可信、可靠,其產(chǎn)生的過(guò)程和來(lái)源是否可靠,數(shù)據(jù)是否經(jīng)過(guò)驗(yàn)證和核實(shí)。可用性:指數(shù)據(jù)是否易于訪問(wèn)、檢索和使用,數(shù)據(jù)存儲(chǔ)和管理系統(tǒng)的性能是否足夠高效。導(dǎo)致數(shù)據(jù)質(zhì)量不高的根源主要如下:數(shù)據(jù)采集問(wèn)題數(shù)據(jù)存儲(chǔ)問(wèn)題數(shù)據(jù)處理問(wèn)題數(shù)據(jù)管理問(wèn)題數(shù)據(jù)使用問(wèn)題2.3.2數(shù)據(jù)清洗數(shù)據(jù)清洗是審查和校驗(yàn)數(shù)據(jù)的過(guò)程,旨在刪除重復(fù)信息、糾正錯(cuò)誤并確保一致性。缺失數(shù)據(jù)處理:刪除缺失數(shù)據(jù):適用于少量缺失且影響較小時(shí),但可能引入樣本偏差。插補(bǔ)缺失數(shù)據(jù):適用于缺失較多或影響較大時(shí)。插補(bǔ)的方法可以分為三類(lèi):(1)均值插補(bǔ)(2)回歸插補(bǔ)(3)多重插補(bǔ)創(chuàng)建指示變量:對(duì)于分類(lèi)變量的缺失數(shù)據(jù),新增指示變量(0/1)標(biāo)記缺失情況,避免插補(bǔ)誤差。其他:利用聚類(lèi)或?qū)iT(mén)模型處理缺失數(shù)據(jù)。在處理缺失數(shù)據(jù)時(shí),還需要注意以下三個(gè)問(wèn)題:①缺失數(shù)據(jù)的模式②數(shù)據(jù)的完整性③插補(bǔ)方法的合理性2.3.2數(shù)據(jù)清洗噪聲數(shù)據(jù)是指數(shù)據(jù)中存在錯(cuò)誤或異常(偏離期望值)的數(shù)據(jù),即測(cè)量變量中存在隨機(jī)誤差或方差。噪聲數(shù)據(jù)處理:分箱:通過(guò)考察相鄰數(shù)據(jù)來(lái)確定最終值。

分箱的方法有四種:(1)等深分箱法(2)等寬分箱法(3)用戶自定義區(qū)間法(4)最小熵法。

在分箱之后,要對(duì)每個(gè)“箱子”中的數(shù)據(jù)進(jìn)行平滑處理:(1)按均值進(jìn)行平滑處理(2)按中位數(shù)進(jìn)行平滑處理(3)按邊界值進(jìn)行平滑處理。聚類(lèi):將數(shù)據(jù)集合分組為若干個(gè)簇,在簇外的值為孤立點(diǎn),應(yīng)對(duì)這些孤立點(diǎn)進(jìn)行刪除或替換。相似或相鄰的數(shù)據(jù)聚合在一起形成各個(gè)聚類(lèi)集合,在這些聚類(lèi)集合之外的數(shù)據(jù)為異常數(shù)據(jù)?;貧w:如果變量之間存在函數(shù)關(guān)系,則可以使用回歸分析方法進(jìn)行函數(shù)擬合,通過(guò)使用擬合值或平滑數(shù)據(jù)來(lái)更新變量數(shù)值,從而實(shí)現(xiàn)噪聲數(shù)據(jù)去除。2.3.3數(shù)據(jù)集成數(shù)據(jù)集成是將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)整合到統(tǒng)一的數(shù)據(jù)集中,以便分析、決策支持和業(yè)務(wù)應(yīng)用。其過(guò)程涉及數(shù)據(jù)整合、匹配、沖突解決、質(zhì)量控制、元數(shù)據(jù)管理和安全等方面。模式識(shí)別和對(duì)象匹配是在數(shù)據(jù)集成過(guò)程中的兩個(gè)重要任務(wù),用于識(shí)別和匹配不同數(shù)據(jù)源中的模式和對(duì)象,以提高數(shù)據(jù)集成的準(zhǔn)確性和效率。模式識(shí)別:對(duì)表征事物或現(xiàn)象的模式進(jìn)行自動(dòng)處理和判讀。對(duì)象匹配:將不同數(shù)據(jù)源中的對(duì)象進(jìn)行匹配和對(duì)應(yīng)。在進(jìn)行模式識(shí)別和對(duì)象匹配時(shí),需要考慮以下幾個(gè)方面:①特征提取:在進(jìn)行模式識(shí)別和對(duì)象匹配時(shí),需要選擇合適的特征并進(jìn)行提取。②相似度度量:方法包括歐氏距離、曼哈頓距離、余弦相似度等。③匹配算法:算法包括基于規(guī)則的匹配、基于機(jī)器學(xué)習(xí)的匹配、基于統(tǒng)計(jì)的匹配、基于圖的匹配等。④沖突解決:可以通過(guò)規(guī)則、投票機(jī)制、權(quán)重分配、機(jī)器學(xué)習(xí)等方法來(lái)確定最佳匹配結(jié)果。2.3.3數(shù)據(jù)集成數(shù)據(jù)冗余是指數(shù)據(jù)存儲(chǔ)或集成過(guò)程中產(chǎn)生的重復(fù)或多余數(shù)據(jù),包括重復(fù)數(shù)據(jù)和無(wú)關(guān)數(shù)據(jù)。需處理數(shù)據(jù)冗余以減少存儲(chǔ)占用和分析誤差??赏ㄟ^(guò)一下幾種方式來(lái)實(shí)現(xiàn):規(guī)則和約束:通過(guò)定義規(guī)則和約束來(lái)防止數(shù)據(jù)冗余的產(chǎn)生。數(shù)據(jù)規(guī)范化:數(shù)據(jù)規(guī)范化是一種將數(shù)據(jù)劃分成更小、更規(guī)范的單元的過(guò)程。數(shù)據(jù)清洗和去重:去除重復(fù)和冗余的數(shù)據(jù)。數(shù)據(jù)合并和歸約:將重復(fù)和冗余的數(shù)據(jù)進(jìn)行合并和歸約。數(shù)據(jù)壓縮:通過(guò)編碼或壓縮技術(shù)減少存儲(chǔ)占用。數(shù)據(jù)分析和挖掘:通過(guò)數(shù)據(jù)分析和挖掘技術(shù),可以識(shí)別和消除數(shù)據(jù)冗余。2.3.3數(shù)據(jù)集成在數(shù)據(jù)集成過(guò)程中,不同數(shù)據(jù)源可能存在沖突(如值、格式、單位、覆蓋范圍不一致)。為確保數(shù)據(jù)質(zhì)量和準(zhǔn)確性,需要進(jìn)行沖突檢測(cè)與處理。步驟如下:(1)確定沖突類(lèi)型。常見(jiàn)類(lèi)型包括數(shù)據(jù)值、格式、單位或覆蓋范圍不同。(2)數(shù)據(jù)沖突檢測(cè)。利用算法或規(guī)則檢測(cè)相同實(shí)體在不同數(shù)據(jù)源中的特征是否一致或存在矛盾。(3)沖突解析。當(dāng)發(fā)現(xiàn)沖突時(shí),需要進(jìn)行沖突解析來(lái)確定集成數(shù)據(jù)的準(zhǔn)確值。常見(jiàn)的沖突解析方法如下:①人工解析②投票機(jī)制③權(quán)重分配④規(guī)則和模型。(4)沖突解析后的數(shù)據(jù)集成。應(yīng)用解析后的數(shù)據(jù),形成最終集成結(jié)果。沖突檢測(cè)與處理較復(fù)雜,需根據(jù)數(shù)據(jù)需求、質(zhì)量要求和沖突類(lèi)型選擇合適方法,并考慮數(shù)據(jù)源的可靠性和權(quán)威性。2.3.4數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié),通過(guò)轉(zhuǎn)換提高數(shù)據(jù)質(zhì)量和可用性,使其更適合分析和建模。主要方法包括數(shù)據(jù)規(guī)范化、數(shù)據(jù)離散化、數(shù)據(jù)泛化和數(shù)據(jù)脫敏。數(shù)據(jù)規(guī)范化:將被挖掘?qū)ο蟮奶卣鲾?shù)據(jù)按比例縮放,使其落入一個(gè)小的特定區(qū)間。常用方法有三種:①小數(shù)定標(biāo)規(guī)范化:將原始數(shù)據(jù)除以一個(gè)固定值,將數(shù)據(jù)映射到[-1,1]之間。②最小值—最大值規(guī)范化:將原始數(shù)據(jù)映射到0~1之間的特定區(qū)間,保留數(shù)據(jù)的相對(duì)大小關(guān)系。③Z-Score規(guī)范化:將原始數(shù)據(jù)轉(zhuǎn)化為均值為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布。2.3.4數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)離散化:將連續(xù)型數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù)的過(guò)程,將數(shù)據(jù)劃分為若干個(gè)區(qū)間或類(lèi)別。常見(jiàn)方法如下:①等寬離散化:將數(shù)據(jù)根據(jù)固定的寬度劃分為若干個(gè)區(qū)間,每個(gè)區(qū)間的寬度相同。②等頻離散化:將數(shù)據(jù)根據(jù)相同的樣本數(shù)量劃分為若干個(gè)區(qū)間,每個(gè)區(qū)間中包含的樣本數(shù)量相同。③聚類(lèi)離散化:用聚類(lèi)算法將數(shù)據(jù)聚類(lèi)為若干個(gè)簇,每個(gè)簇表示一個(gè)離散化的類(lèi)別。④決策樹(shù)離散化:使用決策樹(shù)算法將連續(xù)型數(shù)據(jù)轉(zhuǎn)換為決策樹(shù)的劃分節(jié)點(diǎn),將數(shù)據(jù)分為不同的類(lèi)別。2.3.4數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)泛化:把較低層次的概念用較高層次的概念替換來(lái)匯總數(shù)據(jù),或者通過(guò)減小維度,在較小維度的概念空間中匯總數(shù)據(jù)。常用的方法如下:①基于數(shù)據(jù)立方體的數(shù)據(jù)聚集:用于從多維數(shù)據(jù)集中提取有用的信息。數(shù)據(jù)立方體是一個(gè)多維數(shù)組,其中每個(gè)維度表示數(shù)據(jù)的一個(gè)特征,構(gòu)建步驟:選擇維度→設(shè)計(jì)度量→聚合數(shù)據(jù)→構(gòu)建數(shù)據(jù)立方體。②面向特征的歸納:旨在從數(shù)據(jù)中歸納出特征間的關(guān)系、規(guī)律和模式。主要過(guò)程包括以下步驟:

特征選擇→歸納分析→模式評(píng)估與驗(yàn)證。2.3.4數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)脫敏:通過(guò)對(duì)敏感數(shù)據(jù)進(jìn)行部分或完全的刪除、替換或隱藏,以抹去個(gè)人敏感信息。常見(jiàn)方法如下:①刪除(Deletion):直接刪除或部分刪除包含敏感信息的數(shù)據(jù)。②替換(Substitution):將敏感數(shù)據(jù)替換為不可識(shí)別的偽造值。③脫敏屏蔽(Masking):在數(shù)據(jù)中通過(guò)覆蓋、屏蔽或空白值等方式隱藏敏感信息,以避免敏感信息的識(shí)別。④加密(Encryption):使用加密算法對(duì)敏感信息進(jìn)行加密,只有授權(quán)的用戶才能解密和訪問(wèn)。具體方法的選擇取決于數(shù)據(jù)類(lèi)型、隱私需求和分析任務(wù)。2.3.5數(shù)據(jù)歸約數(shù)據(jù)歸約是在保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù),以降低數(shù)據(jù)規(guī)模。主要包括維歸約和數(shù)據(jù)歸約兩種方法。維歸約:目的是將高維數(shù)據(jù)集轉(zhuǎn)換為低維表示,以減少數(shù)據(jù)集的維度并保留主要的信息。①特征集選擇(FSS):篩選最相關(guān)和有價(jià)值的特征,去除無(wú)關(guān)或冗余特征。②主成分分析(PCA):將高維數(shù)據(jù)映射到低維子空間,提取主要特征。③線性判別分析(LDA):監(jiān)督學(xué)習(xí)方法,尋找最能區(qū)分類(lèi)別的投影方向。④非負(fù)矩陣分解(NMF):將高維矩陣分解為兩個(gè)低維非負(fù)矩陣,以降低維度。⑤t-SNE:基于數(shù)據(jù)相似性,將高維數(shù)據(jù)映射到低維,保持局部關(guān)系,適用于可視化。2.3.5數(shù)據(jù)歸約數(shù)據(jù)歸約:通過(guò)聚合、壓縮或采樣等方法減少數(shù)據(jù)點(diǎn),以簡(jiǎn)化分析和處理,提高計(jì)算效率并降低存儲(chǔ)需求。常見(jiàn)方法如下:①聚合(Aggregation):按規(guī)則匯總數(shù)據(jù),減少數(shù)據(jù)規(guī)模。②采樣(Sampling):從數(shù)據(jù)集中選取部分樣本作為代表,如隨機(jī)、均勻、分層采樣等。③插值(Interpolation):在數(shù)據(jù)點(diǎn)之間插值,填補(bǔ)缺失值,提高數(shù)據(jù)密度。④壓縮(Compression):使用壓縮算法減少數(shù)據(jù)存儲(chǔ)空間,如gzip、LZW、哈夫曼編碼等。數(shù)據(jù)歸約提高效率,但可能造成信息損失,需根據(jù)任務(wù)需求權(quán)衡選擇。數(shù)據(jù)集的構(gòu)建ConstructionOfDataSets2.4.1數(shù)據(jù)集的劃分?jǐn)?shù)據(jù)預(yù)處理后可存入數(shù)據(jù)倉(cāng)庫(kù),供分析或訓(xùn)練時(shí)提取。通常,數(shù)據(jù)會(huì)被劃分或重抽樣以適應(yīng)模型應(yīng)用。在機(jī)器學(xué)習(xí)算法中,通常將原始數(shù)據(jù)集劃分為三個(gè)部分:訓(xùn)練集(TrainingSet)、驗(yàn)證集(ValidationSet)和測(cè)試集(TestSet)。訓(xùn)練集是用于訓(xùn)練的樣本集合,主要用于訓(xùn)練模型中的參數(shù);驗(yàn)證集是驗(yàn)證模型性能的樣本集合,主要用于超參數(shù)的調(diào)整;測(cè)試集主要用于訓(xùn)練和驗(yàn)證完成的模型,來(lái)客觀評(píng)估模型的性能。訓(xùn)練集用于模型學(xué)習(xí),驗(yàn)證集少量調(diào)整,測(cè)試集僅作最終評(píng)估,數(shù)據(jù)集應(yīng)互不重疊。在數(shù)據(jù)量不是特別大的情況下一般遵循6∶2∶2的劃分比例。2.4.2重抽樣方法重抽樣可用于提高最終預(yù)測(cè)效果,因訓(xùn)練集、驗(yàn)證集和測(cè)試集的數(shù)據(jù)分布可能存在差異。將數(shù)據(jù)隨機(jī)分為訓(xùn)練集和驗(yàn)證集:模型在訓(xùn)練集上學(xué)習(xí),然后在驗(yàn)證集上評(píng)估預(yù)測(cè)誤差。誤差計(jì)算結(jié)果可能波動(dòng)較大,取決于樣本劃分方式。僅使用部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練,可能導(dǎo)致誤差估計(jì)偏高。重抽樣可降低誤差波動(dòng),但需權(quán)衡計(jì)算成本與數(shù)據(jù)利用率。2.4.2重抽樣方法

2.4.2重抽樣方法

2.4.2重抽樣方法

2.4.2重抽樣方法自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練集和測(cè)試集時(shí)很有用。此外,自助法能從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集,這對(duì)集成學(xué)習(xí)等有很大的好處,該方法也常常用于非平衡數(shù)據(jù)的處理。但是自助法產(chǎn)生的數(shù)據(jù)集改變了原始數(shù)據(jù)集的分布,這會(huì)導(dǎo)致估計(jì)偏差,因此在原始數(shù)據(jù)集足夠大時(shí),驗(yàn)證集方法和交叉驗(yàn)證法更加常用。思考題什么是ETL?ETL的主要流程是什么?網(wǎng)絡(luò)爬蟲(chóng)的工作原理是什么?試結(jié)合Python爬蟲(chóng)程序分析實(shí)現(xiàn)過(guò)程。數(shù)據(jù)清洗中缺失數(shù)據(jù)和噪聲數(shù)據(jù)如何處理?試舉例說(shuō)明。什么是數(shù)據(jù)轉(zhuǎn)換?數(shù)據(jù)轉(zhuǎn)換包含哪幾類(lèi)?試舉例說(shuō)明數(shù)據(jù)轉(zhuǎn)換的操作過(guò)程。機(jī)器學(xué)習(xí)中數(shù)據(jù)集劃分為幾類(lèi)?各類(lèi)數(shù)據(jù)集的作用是什么?K折交叉驗(yàn)證的原理是什么?Thankyou!回歸分析03RegressionAnalysis3.1

回歸分析概述回歸分析是在眾多的相關(guān)變量中根據(jù)實(shí)際問(wèn)題考察其中一個(gè)或多個(gè)目標(biāo)變量(因變量)與其影響因素(自變量)之間相互依賴的定量關(guān)系的一種方法。通常事物的特征可用多個(gè)變量進(jìn)行描述?;貧w分析的公式可以表示為:例如,能源消費(fèi)量

受經(jīng)濟(jì)、人口和科技發(fā)展等因素影響,這些因素包括GDP指標(biāo)

、人口規(guī)模

、科技投入指標(biāo)

等。當(dāng)對(duì)這一問(wèn)題進(jìn)行回歸分析時(shí),將能源消費(fèi)量

稱為因變量(或目標(biāo)變量),

稱為自變量,

為自變量的維度,回歸分析的目標(biāo)是利用歷史數(shù)據(jù)找出函數(shù)表示它們之間的關(guān)系,以預(yù)測(cè)未來(lái)能源消費(fèi)量的情況。在大數(shù)據(jù)分析中,習(xí)慣上將這些自變量稱為特征(Feature),因變量則稱為標(biāo)簽(Label)。如果只需考察一個(gè)變量與其余多個(gè)變量之間的相互依賴關(guān)系,則稱為一元回歸問(wèn)題。若要同時(shí)考察多個(gè)因變量與多個(gè)自變量之間的相互依賴關(guān)系,則稱為多因變量的多元回歸問(wèn)題。(3-1)3.1回歸分析概述回歸分析的分類(lèi)標(biāo)準(zhǔn)多樣,按照不同的分類(lèi)標(biāo)準(zhǔn),可以分成不同的種類(lèi)。按照涉及自變量的數(shù)量,回歸分析可以分為一元回歸分析和多元回歸分析,只有一個(gè)自變量的稱為一元回歸分析(又稱簡(jiǎn)單回歸分析),有兩個(gè)或兩個(gè)以上自變量的稱為多元回歸分析(又稱復(fù)回歸分析)。按照涉及因變量的數(shù)量,回歸分析可以分為簡(jiǎn)單回歸分析和多重回歸分析。按照自變量和因變量之間的關(guān)系類(lèi)型,回歸分析可以分為線性回歸分析和非線性回歸分析。基本過(guò)程3.2線性回歸線性回歸(LinearRegression)是利用稱為線性回歸方程的最小平方函數(shù)對(duì)一個(gè)或多個(gè)因變量和自變量之間關(guān)系進(jìn)行建模的一種回歸分析方法,這種函數(shù)是一個(gè)或多個(gè)稱為回歸系數(shù)的模型參數(shù)的線性組合。只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系線性回歸分析是一種統(tǒng)計(jì)分析方法,用于了解兩個(gè)變量之間的相關(guān)性,以及一個(gè)變量隨另一個(gè)變量變化的趨勢(shì)。3.2線性回歸線性模型(GeneralLinearModels,GLM)并不是一個(gè)具體的模型,而是多種統(tǒng)計(jì)模型的統(tǒng)稱,其中包含線性回歸模型、方差分析模型等。線性模型可以表示為:式中,

是一個(gè)因變量的觀測(cè)集合;

是一個(gè)自變量的觀測(cè)集合;

是待估計(jì)的參數(shù)矩陣;

是誤差矩陣或隨機(jī)擾動(dòng)項(xiàng),又叫噪聲(Noise)。一元線性回歸模型可以寫(xiě)為:多元線性回歸模型又稱多重線性回歸模型。其數(shù)學(xué)模型可以寫(xiě)為:線性回歸模型需要假設(shè)因變量關(guān)于自變量的條件期望存在線性關(guān)系,即:(3-2)(3-3)(3-4)(3-5)假設(shè)中的

是未知的,稱為回歸系數(shù)。為了檢驗(yàn)這個(gè)假設(shè),需要利用樣本數(shù)據(jù)估計(jì)出

,將它們的估計(jì)值記為

,由此得出的相應(yīng)因變量

的估計(jì)值為

,這樣式(3-5)就變?yōu)椋海?-6)回歸分析概述統(tǒng)計(jì)學(xué)中估計(jì)回歸系數(shù)的一種方法是最小二乘法(LeastSquareMethod,LSE),為了與廣義最小二乘法相區(qū)別,也稱之為普通最小二乘法(OrdinaryLeastSquare,OLS)。如果回歸方程對(duì)樣本擬合得較好,能較好地反映客觀規(guī)律,那么真實(shí)值和回歸值的“距離”會(huì)較小。真實(shí)值和回歸值的“距離”可以采用誤差平方和表示。機(jī)器學(xué)習(xí)中使用線性回歸模型進(jìn)行預(yù)測(cè)時(shí),需要使得理論值與觀測(cè)值之差(誤差,或者說(shuō)殘差)的平方和達(dá)到最小,這個(gè)誤差稱為均方誤差(MeanSquareError,MSE),表示為:均方誤差是反映估計(jì)量與被估計(jì)量之間差異程度的一種度量,在機(jī)器學(xué)習(xí)中稱為損失函數(shù)(LossFunction)。機(jī)器學(xué)習(xí)中通過(guò)不斷迭代使得均方誤差不斷降低,從而逼近最優(yōu)解。式中,

是因變量觀測(cè)值的樣本;

是預(yù)測(cè)值;

是均方誤差。(3-7)3.3非線性回歸非線性回歸指因變量與自變量的關(guān)系不是一次函數(shù),而是更復(fù)雜的非線性函數(shù),適用于描述非線性關(guān)聯(lián)的數(shù)據(jù)。非線性回歸類(lèi)型廣義非線性回歸:可通過(guò)變量變換轉(zhuǎn)換為線性回歸,也稱非純非線性回歸。狹義非線性回歸:無(wú)論如何變換都無(wú)法轉(zhuǎn)換為線性回歸,即純非線性回歸。廣義非線性回歸可簡(jiǎn)化計(jì)算,而狹義非線性回歸通常需更復(fù)雜的優(yōu)化方法求解。3.3非線性回歸非線性回歸問(wèn)題大多數(shù)可以轉(zhuǎn)變?yōu)榫€性回歸問(wèn)題來(lái)求解,也就是通過(guò)對(duì)非線性回歸模型進(jìn)行適當(dāng)?shù)淖兞孔儞Q,使其轉(zhuǎn)變?yōu)榫€性回歸模型來(lái)求解。一般步驟為:例如,全球煤炭消費(fèi)量隨時(shí)間的變化并不是線性的,因此若選取日期作為自變量,則不適合使用線性回歸模型,非線性回歸模型更為適用。全球煤炭消費(fèi)量隨時(shí)間的變化曲線擬合如圖3-1所示。圖3-1全球煤炭消費(fèi)量隨時(shí)間的變化曲線擬合3.3非線性回歸1多項(xiàng)式模型多項(xiàng)式模型在非線性回歸分析中占有重要的地位。根據(jù)級(jí)數(shù)展開(kāi)的原理,任何曲線、曲面、超曲面的問(wèn)題在一定的范圍內(nèi)都能夠用多項(xiàng)式任意逼近,所以,當(dāng)因變量與自變量之間的確定關(guān)系未知時(shí),可以使用適當(dāng)冪次的多項(xiàng)式來(lái)近似。當(dāng)所涉及的自變量只有一個(gè)時(shí),所采用的多項(xiàng)式稱為一元多項(xiàng)式,其一般形式為:多項(xiàng)式模型可以轉(zhuǎn)變?yōu)榫€性回歸模型,并利用最小二乘法確定系數(shù)。并不是所有的非線性回歸模型都可以通過(guò)變換得到與原模型完全等價(jià)的線性回歸模型。在遇到這種情況時(shí),還需要利用其他一些方法,如泰勒級(jí)數(shù)展開(kāi)法等進(jìn)行估計(jì)。(3-8)3.3非線性回歸2冪函數(shù)模型

冪函數(shù)模型為:(3-9)令

,則冪函數(shù)模型可以轉(zhuǎn)變?yōu)榫€性回歸模型:

(3-10)3指數(shù)函數(shù)模型指數(shù)函數(shù)用于描述幾何級(jí)數(shù)遞增或遞減的現(xiàn)象,一般的自然增長(zhǎng)及大多數(shù)經(jīng)濟(jì)數(shù)列屬于此類(lèi)。指數(shù)函數(shù)模型為:

(3-11)

,指數(shù)函數(shù)模型同樣可以轉(zhuǎn)變?yōu)榫€性回歸模型。3.3非線性回歸54對(duì)數(shù)函數(shù)模型對(duì)數(shù)函數(shù)是指數(shù)函數(shù)的反函數(shù),對(duì)數(shù)函數(shù)模型為:(3-12)令

,對(duì)數(shù)函數(shù)模型可以轉(zhuǎn)變?yōu)榫€性回歸模型。雙曲線模型若因變量

隨自變量

的增加(或減少),最初增加(或減少)很快,以后逐漸放慢并趨于穩(wěn)定,則可以選用雙曲線模型來(lái)擬合。雙曲線模型為:令

,雙曲線模型可以轉(zhuǎn)變?yōu)榫€性回歸模型。(3-13)3.3非線性回歸非線性回歸模型非線性回歸可分為固定模式和非固定模式兩類(lèi)。1.固定模式的非線性回歸結(jié)構(gòu)固定,部分自變量可能不確定,無(wú)法轉(zhuǎn)換為線性回歸。采用泰勒級(jí)數(shù)展開(kāi)或數(shù)值優(yōu)化方法求解。低維(≤3維)可通過(guò)繪制測(cè)點(diǎn)圖像確定線性類(lèi)型。應(yīng)用:適用于調(diào)查研究、臨床試驗(yàn)等,分析單值或多值變量的非線性關(guān)系。2.非固定模式的非線性回歸結(jié)構(gòu)不固定,需要在建模過(guò)程中同時(shí)確定模型結(jié)構(gòu)和參數(shù)。方法:機(jī)器學(xué)習(xí)算法(如神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等)、數(shù)據(jù)驅(qū)動(dòng)建模(如自回歸方法)、自適應(yīng)回歸(如局部加權(quán)回歸)應(yīng)用:適用于復(fù)雜系統(tǒng)建模,非線性關(guān)系未知或數(shù)據(jù)驅(qū)動(dòng)特征明顯的場(chǎng)景。3.4分位數(shù)回歸線性回歸最基本的假設(shè)是殘差滿足正態(tài)分布、獨(dú)立性、同方差性,但這些條件常常得不到滿足。如果樣本數(shù)據(jù)中存在異常值或極端值,則線性回歸模型估計(jì)值可能會(huì)存在較大偏差。我們不僅希望研究被解釋變量的期望,還希望能探索被解釋變量Y的全局分布(如被解釋變量的某個(gè)分位數(shù)),這時(shí)候就需要使用分位數(shù)回歸。分位數(shù)亦稱分位點(diǎn),是指將一個(gè)隨機(jī)變量的概率分布范圍分為幾個(gè)等份的數(shù)值點(diǎn),常用的有中位數(shù)(二分位數(shù))、四分位數(shù)(25%、50%和75%)等。分位數(shù)回歸是估計(jì)一組解釋變量X與被解釋變量Y的分位數(shù)之間線性關(guān)系的建模方法,其原理是將數(shù)據(jù)按被解釋變量拆分成多個(gè)分位數(shù),研究不同分位數(shù)情況下的回歸影響關(guān)系。3.4分位數(shù)回歸分位數(shù)回歸的優(yōu)點(diǎn)如下:(1)能夠更加全面地描述被解釋變量條件分布的全貌,而不是僅僅分析被解釋變量的條件期望(均值),也可以分析解釋變量如何影響被解釋變量的分位數(shù)。不同分位數(shù)下的回歸系數(shù)估計(jì)量常常不同,即解釋變量對(duì)不同水平被解釋變量的影響不同。(2)分位數(shù)回歸的估計(jì)方法與最小二乘法相比,估計(jì)結(jié)果對(duì)離群值表現(xiàn)得更加穩(wěn)健,而且分位數(shù)回歸對(duì)誤差項(xiàng)并不要求很強(qiáng)的假設(shè)條件,因此對(duì)于非正態(tài)分布而言,分位數(shù)回歸系數(shù)估計(jì)量更加穩(wěn)健。3.4分位數(shù)回歸圖3-2給出了分位數(shù)回歸示例,其中的數(shù)據(jù)來(lái)自Python程序包statsmodel中的案例數(shù)據(jù)。因變量是食物支出,自變量是家庭收入,對(duì)該數(shù)據(jù)同時(shí)進(jìn)行最小二乘法(OLS)回歸和分位數(shù)回歸可以得到圖3-2中的回歸線。從圖3-2可以看出,食物支出隨家庭收入的增加而增加,食物支出的分布隨家庭收入增加變得越來(lái)越寬(高分位數(shù)和低分位數(shù)之間的間隔越來(lái)越大),存在典型的異方差,因此比較適合分位數(shù)回歸。圖3-2分位數(shù)回歸示例3.4分位數(shù)回歸分位數(shù)回歸的估計(jì)方法介紹:如果一組數(shù)據(jù)由小到大排列后,

分位數(shù)為

,則表示該組數(shù)據(jù)中有

的數(shù)據(jù)小于

。所謂的

分位數(shù)回歸,就是希望擬合線下面含有

的數(shù)據(jù)點(diǎn),如0.25分位數(shù)回歸線下面含有25%的數(shù)據(jù)點(diǎn)。因此,系列分位數(shù)回歸并不是像線性回歸那樣擬合一條曲線,而是可以擬合一簇曲線。不同分位數(shù)的回歸系數(shù)不同,則說(shuō)明解釋變量對(duì)不同水平的被解釋變量影響不同,可以由此獲得解釋變量對(duì)被解釋變量分位數(shù)變化趨勢(shì)的影響。

假設(shè)條件分布

的總體

分位數(shù)

的線性函數(shù),即(3-14)式中,

是分位數(shù)

回歸系數(shù),其估計(jì)量

可以由以下最小化問(wèn)題來(lái)定義:(3-15)3.4分位數(shù)回歸作為最小化問(wèn)題的目標(biāo)函數(shù),式(3-15)在機(jī)器學(xué)習(xí)中稱為分位數(shù)回歸的損失函數(shù),如何理解這個(gè)損失函數(shù)呢?這個(gè)損失函數(shù)是一個(gè)分段函數(shù),將

(高估)和

(低估)兩種情況分開(kāi),并分別給予不同的系數(shù)。當(dāng)

時(shí),低估的損失比高估的損失大,反之,當(dāng)

時(shí),高估的損失比低估的損失大。分位數(shù)損失實(shí)現(xiàn)了分別用不同的系數(shù)控制高估和低估的損失,進(jìn)而實(shí)現(xiàn)分位數(shù)回歸。特別地,當(dāng)

時(shí),分位數(shù)損失退化為MAE損失,從這里可以看出MAE損失實(shí)際上是分位數(shù)損失的一個(gè)特例——中位數(shù)損失。如果

,則為中位數(shù)回歸,此時(shí),目標(biāo)函數(shù)可以簡(jiǎn)化為:(3-16)中位數(shù)回歸常被稱為最小絕對(duì)離差估計(jì)量(LeastAbsoluteDeviationsEstimator,LAD)回歸,它比條件均值回歸更不易受到極端值等異常項(xiàng)的影響,也更加穩(wěn)健。與條件均值模型相比,中位數(shù)回歸模型具有無(wú)法比擬的優(yōu)勢(shì)。3.4分位數(shù)回歸在上述估計(jì)方法中,參數(shù)求解一般采用單純形算法、內(nèi)點(diǎn)算法和平滑算法等。單純形算法估計(jì)出來(lái)的參數(shù)具有很好的穩(wěn)定性,但是在處理大型數(shù)據(jù)時(shí)運(yùn)算速度會(huì)顯著降低;內(nèi)點(diǎn)算法對(duì)于那些具有大量觀測(cè)值和少量變量的數(shù)據(jù)集運(yùn)算效率很高;平滑算法理論上比較簡(jiǎn)單,適合處理具有大量觀測(cè)值及很多變量的數(shù)據(jù)集。隨著協(xié)變量的變化,分位數(shù)回歸模型更加強(qiáng)調(diào)條件分位數(shù)的變化。由于所有分位數(shù)都是可用的,所以對(duì)任何預(yù)先決定的分布位置進(jìn)行建模都是可能的。因此,可以對(duì)分布的任意非中心位置進(jìn)行建模,可選的研究問(wèn)題變得更加廣泛。思考題1.最小二乘法對(duì)線性回歸方程參數(shù)進(jìn)行估計(jì)的原理是什么?請(qǐng)給出推理過(guò)程。2.使用全球煤炭消費(fèi)量數(shù)據(jù),參考文中介紹的方法,嘗試使用其他的非線性回歸模型進(jìn)行擬合,對(duì)比分析擬合結(jié)果。3.非線性回歸問(wèn)題大多數(shù)可以轉(zhuǎn)變?yōu)榫€性回歸問(wèn)題來(lái)求解,具體步驟是什么?4.什么是分位數(shù)回歸?分位數(shù)回歸估計(jì)方法的原理是什么?5.如何用Python語(yǔ)言實(shí)現(xiàn)分位數(shù)回歸?請(qǐng)結(jié)合具體例子進(jìn)行編程。Thankyou!分類(lèi)分析04CategoricalAnalysis4.1分類(lèi)分析概述分類(lèi)的目標(biāo)是構(gòu)建模型,通過(guò)學(xué)習(xí)訓(xùn)練集中不同類(lèi)別的特征差異,預(yù)測(cè)未知數(shù)據(jù)點(diǎn)的類(lèi)別。在分類(lèi)問(wèn)題中,訓(xùn)練集由已知類(lèi)別標(biāo)簽的數(shù)據(jù)組成,這些標(biāo)簽用于定義數(shù)據(jù)的組結(jié)構(gòu),常用于特定應(yīng)用,如識(shí)別目標(biāo)客戶或特征數(shù)據(jù)對(duì)象。分類(lèi)模型通過(guò)訓(xùn)練集學(xué)習(xí)數(shù)據(jù)模式,對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),測(cè)試集由需分類(lèi)的數(shù)據(jù)點(diǎn)組成。與聚類(lèi)不同,分類(lèi)問(wèn)題是有監(jiān)督學(xué)習(xí),訓(xùn)練集中已知類(lèi)別標(biāo)簽,模型可學(xué)習(xí)數(shù)據(jù)關(guān)系。而聚類(lèi)是無(wú)監(jiān)督學(xué)習(xí),需自行發(fā)現(xiàn)數(shù)據(jù)間的相似結(jié)構(gòu),無(wú)需類(lèi)別標(biāo)簽指引。4.1分類(lèi)分析概述大多數(shù)分類(lèi)算法包括訓(xùn)練階段和測(cè)試階段。訓(xùn)練階段使用訓(xùn)練集構(gòu)建模型,學(xué)習(xí)特征和類(lèi)別之間的關(guān)系;測(cè)試階段則利用訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行分類(lèi),預(yù)測(cè)其類(lèi)別并評(píng)估模型性能。數(shù)據(jù)表示中,訓(xùn)練集D包含n個(gè)數(shù)據(jù)點(diǎn)和d個(gè)特征(或維度)。每個(gè)數(shù)據(jù)點(diǎn)屬于??類(lèi)別之一。在二分類(lèi)問(wèn)題(??=2)中,通常用0和1表示類(lèi)別,而在多分類(lèi)問(wèn)題中,可采用任意編號(hào)作為類(lèi)別標(biāo)簽,具體選擇取決于分類(lèi)模型和應(yīng)用需求。4.1分類(lèi)分析概述分類(lèi)的目標(biāo)是根據(jù)訓(xùn)練集構(gòu)建訓(xùn)練模型,用于預(yù)測(cè)未知的測(cè)試數(shù)據(jù)點(diǎn)的類(lèi)別標(biāo)簽。分類(lèi)算法的輸出可以是以下兩種類(lèi)型之一:(1)標(biāo)簽預(yù)測(cè):在這種情況下,對(duì)每個(gè)測(cè)試數(shù)據(jù)點(diǎn)進(jìn)行類(lèi)別標(biāo)簽的預(yù)測(cè)。將測(cè)試數(shù)據(jù)點(diǎn)輸入訓(xùn)練好的模型中,得到對(duì)應(yīng)的類(lèi)別標(biāo)簽。(2)數(shù)值評(píng)分:在大多數(shù)情況下,算法會(huì)為每個(gè)“實(shí)例—標(biāo)簽”組合分配一個(gè)數(shù)值分?jǐn)?shù),來(lái)測(cè)量實(shí)例屬于特定類(lèi)別的傾向。通過(guò)使用最大值或不同類(lèi)別的數(shù)值分?jǐn)?shù)的成本加權(quán)最大值,可以將該分?jǐn)?shù)轉(zhuǎn)換為預(yù)測(cè)標(biāo)簽。數(shù)值分?jǐn)?shù)在某個(gè)類(lèi)別非常罕見(jiàn)的情況下特別有用,并且數(shù)值分?jǐn)?shù)提供了一種方法,來(lái)確定屬于該類(lèi)別的排名最高的候選者。4.1分類(lèi)分析概述解決分類(lèi)問(wèn)題需要一系列處理流程,首先需要將原始數(shù)據(jù)進(jìn)行收集、清洗和轉(zhuǎn)換為標(biāo)準(zhǔn)格式。數(shù)據(jù)可能存儲(chǔ)在商業(yè)數(shù)據(jù)庫(kù)系統(tǒng)中,并需要通過(guò)使用分析方法進(jìn)行最終處理。實(shí)際上,盡管數(shù)據(jù)挖掘經(jīng)常讓人聯(lián)想到分析算法的概念,但事實(shí)是絕大多數(shù)工作都與數(shù)據(jù)準(zhǔn)備部分的流程有關(guān)。這包括數(shù)據(jù)的預(yù)處理、特征工程和選擇適當(dāng)?shù)乃惴ǖ炔襟E,這些都是構(gòu)建有效的分類(lèi)模型的關(guān)鍵。分類(lèi)分析的應(yīng)用流程如圖4-1所示。圖4-1分類(lèi)分析的應(yīng)用流程4.1分類(lèi)分析概述當(dāng)訓(xùn)練集較小時(shí),分類(lèi)模型容易過(guò)擬合,即學(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的噪聲和隨機(jī)特征,導(dǎo)致在訓(xùn)練集上表現(xiàn)良好,但對(duì)新數(shù)據(jù)泛化能力差,容易做出錯(cuò)誤預(yù)測(cè)。為解決過(guò)擬合問(wèn)題,可以增加訓(xùn)練集規(guī)模,使用正則化來(lái)限制模型復(fù)雜度,或特征選擇與特征提取減少噪聲和冗余信息。常見(jiàn)分類(lèi)算法包括Logistic回歸(二分類(lèi))、KNN、支持向量機(jī)、決策樹(shù)等,神經(jīng)網(wǎng)絡(luò)近年來(lái)應(yīng)用廣泛。4.1分類(lèi)分析概述①文檔分類(lèi)和過(guò)濾許多應(yīng)用程序需要對(duì)文檔進(jìn)行實(shí)時(shí)分類(lèi),如新聞專線服務(wù),分類(lèi)分析用于組織門(mén)戶網(wǎng)站中特定主題下的文檔。特征對(duì)應(yīng)于文檔中的單詞,而類(lèi)別標(biāo)簽對(duì)應(yīng)于不同主題,如政治、體育、時(shí)事等②多媒體數(shù)據(jù)分析在多媒體數(shù)據(jù)分析中,通常需要對(duì)大量的多媒體數(shù)據(jù)(如照片、視頻、音頻等)進(jìn)行分類(lèi)。通過(guò)訓(xùn)練示例,可以確定特定多媒體數(shù)據(jù)是否描述了特定活動(dòng)。這種問(wèn)題可以建模為二分類(lèi)問(wèn)題,其中類(lèi)別標(biāo)簽對(duì)應(yīng)于特定活動(dòng)的發(fā)生或不發(fā)生。③客戶目標(biāo)營(yíng)銷(xiāo)在這種情況下,組(或標(biāo)簽)對(duì)應(yīng)于客戶對(duì)特定產(chǎn)品的興趣。通過(guò)先前購(gòu)買(mǎi)行為的訓(xùn)練示例,企業(yè)可以了解已知人口統(tǒng)計(jì)概況但未知購(gòu)買(mǎi)行為的客戶,是否可能對(duì)特定產(chǎn)品感興趣。④醫(yī)療疾病管理數(shù)據(jù)挖掘方法在醫(yī)學(xué)研究中的使用越來(lái)越受到關(guān)注,通過(guò)從患者的醫(yī)學(xué)測(cè)試和治療中提取特征,可以建立一個(gè)模型來(lái)預(yù)測(cè)治療效果,這種分類(lèi)方法有助于醫(yī)療決策和治療規(guī)劃。分類(lèi)分析的廣泛應(yīng)用使其成為數(shù)據(jù)分析和決策領(lǐng)域中不可或缺的工具。通過(guò)構(gòu)建有效的分類(lèi)模型,可以從數(shù)據(jù)中提取有用的信息,并用于各種實(shí)際應(yīng)用。4.2.1貝葉斯分類(lèi)的原理下面舉一個(gè)例子來(lái)解釋貝葉斯定理。某慈善組織進(jìn)行募捐活動(dòng),根據(jù)歷史數(shù)據(jù),所有參與募捐活動(dòng)的人群中年齡大于50歲的人群占6/11,全部年齡段的整體募捐成功率為3/11,而在捐贈(zèng)成功的個(gè)人中,年齡大于50歲的人占5/6。請(qǐng)問(wèn),在已知年齡大于50歲的情況下,一個(gè)人會(huì)捐贈(zèng)的概率是多少?在這個(gè)例子中,可以定義事件E表示個(gè)人的年齡大于50歲,事件

表示個(gè)人是捐贈(zèng)者。目標(biāo)是計(jì)算后驗(yàn)概率

,即在已知年齡大于50歲的情況下,個(gè)人捐贈(zèng)的概率。根據(jù)貝葉斯定理,后驗(yàn)概率表示為:(4-1)式中,是已知

是捐贈(zèng)者的情況下個(gè)人年齡大于50歲的概率;

是個(gè)人是捐贈(zèng)者的先驗(yàn)概率(在觀察年齡之前的概率);

是年齡大于50歲的先驗(yàn)概率。4.2.1貝葉斯分類(lèi)的原理由前面給出的信息可以得到:個(gè)人是捐贈(zèng)者的先驗(yàn)概率

,已知是捐贈(zèng)者的情況下個(gè)人年齡大于50歲的概率

,年齡大于50歲的先驗(yàn)概率

。將這些值代入式(4-1)中,可以計(jì)算出后驗(yàn)概率

,即在已知年齡大于50歲的情況下,個(gè)人捐贈(zèng)的概率為:(4-2)在一維訓(xùn)練數(shù)據(jù)(如年齡與類(lèi)別變量)中,若類(lèi)別可直接從單個(gè)特征預(yù)測(cè),則可直接計(jì)算后驗(yàn)概率??(??∣??),無(wú)需使用貝葉斯定理。但在多維特征組合下,貝葉斯定理提供了有效的推理路徑。通常,條件事件??

由多個(gè)特征變量的聯(lián)合約束組成,使得直接計(jì)算??(??∣??)變得困難。這時(shí),可使用樸素貝葉斯的乘積形式進(jìn)行估計(jì),提高計(jì)算效率。4.2.1貝葉斯分類(lèi)的原理樸素貝葉斯分類(lèi)假設(shè)所有特征在給定類(lèi)別條件下獨(dú)立,從而簡(jiǎn)化概率計(jì)算。這樣可以直接用訓(xùn)練數(shù)據(jù)的頻率估計(jì)概率,避免維度增加帶來(lái)的計(jì)算復(fù)雜度問(wèn)題。在高維特征情況下,直接使用貝葉斯定理可能因數(shù)據(jù)稀疏導(dǎo)致估計(jì)困難,而樸素貝葉斯的乘積形式能更可靠地進(jìn)行概率估計(jì),簡(jiǎn)化計(jì)算過(guò)程。在假設(shè)所有特征變量都是分類(lèi)變量的情況下,一個(gè)隨機(jī)變量

,表示具有

d

維特征值

的未知類(lèi)別的測(cè)試實(shí)例。目標(biāo)是估計(jì)條件概率

,即在給定特征值

的情況下,測(cè)試實(shí)例屬于類(lèi)別的概率。4.2.1貝葉斯分類(lèi)的原理

的各個(gè)維度的隨機(jī)變量可以表示為

。直接從訓(xùn)練數(shù)據(jù)中估計(jì)

是困難的,因?yàn)橛?xùn)練數(shù)據(jù)可能不包含具有特定特征

的記錄。為了解決這個(gè)問(wèn)題,可以使用貝葉斯定理來(lái)得到一個(gè)等價(jià)的表達(dá)式。根據(jù)貝葉斯定理,可以得到:

(4-3)式(4-3)中第二個(gè)關(guān)系式成立的前提是第一個(gè)關(guān)系式中分母中的項(xiàng)

與類(lèi)別無(wú)關(guān),因此只需計(jì)算分子即可確定具有最大條件概率的類(lèi)別。

的值是類(lèi)別

的先驗(yàn)概率,并且可以通過(guò)統(tǒng)計(jì)訓(xùn)練數(shù)據(jù)中屬于類(lèi)別的數(shù)據(jù)的頻率來(lái)估計(jì),這個(gè)先驗(yàn)概率表示在沒(méi)有任何特征信息的情況下,某個(gè)數(shù)據(jù)屬于類(lèi)別的概率。4.2.1貝葉斯分類(lèi)的原理貝葉斯定理的關(guān)鍵用途在于可以使用樸素貝葉斯近似來(lái)有效估計(jì)式(4-3)的結(jié)果。樸素貝葉斯近似假設(shè)不同特征

的取值在給定類(lèi)別的情況下是相互獨(dú)立的。如果兩個(gè)隨機(jī)事件A和B在第三事件F的條件下彼此獨(dú)立,則遵循

。在樸素貝葉斯近似的情況下,特征之間的條件獨(dú)立假設(shè)使得計(jì)算條件概率變得更加簡(jiǎn)單,因?yàn)橹恍枰烙?jì)每個(gè)特征變量的條件概率,而不需要考慮特征變量之間的聯(lián)合概率。每個(gè)特征變量的條件概率表示為:因此,用式(4-3)和式(4-4)可以得出,貝葉斯概率可以在一個(gè)比例常數(shù)內(nèi)估計(jì):(4-5)(4-4)4.2.1貝葉斯分類(lèi)的原理在樸素貝葉斯分類(lèi)模型中,需要估計(jì)兩個(gè)概率:

其中,

表示在給定類(lèi)別

的情況下特征變量

取值為

的概率。這個(gè)概率相對(duì)容易估計(jì),因?yàn)樵谟?xùn)練數(shù)據(jù)中通常會(huì)有足夠的樣本來(lái)給出可靠的估計(jì)。具體來(lái)說(shuō),只需計(jì)算訓(xùn)練樣本中具有特征值

且屬于類(lèi)別

的樣本數(shù)量,并用它除以屬于類(lèi)別的總樣本數(shù)量,就能得到

的估計(jì)值:對(duì)于

這個(gè)概率,由于涉及多個(gè)特征變量同時(shí)取值的情況,很可能在訓(xùn)練數(shù)據(jù)中找不到完全符合條件的樣本,因此估計(jì)變得困難。為此,引入樸素貝葉斯假設(shè),即假設(shè)不同特征值之間是相互獨(dú)立的,這樣就可以將

這個(gè)復(fù)雜的聯(lián)合概率拆分成各個(gè)特征值的條件概率相乘的形式。(4-6)4.2.1貝葉斯分類(lèi)的原理在某些情況下,訓(xùn)練樣本可能不足,尤其是稀有類(lèi)別可能只有極少樣本,直接用訓(xùn)練樣本比例估算條件概率可能導(dǎo)致過(guò)擬合或概率值極端化。為了避免這種過(guò)擬合問(wèn)題,可以使用拉普拉斯平滑(LaplaceSmoothing)來(lái)對(duì)條件概率進(jìn)行平滑處理。拉普拉斯平滑是一種常用的技術(shù),它通過(guò)在分子中添加一個(gè)小的平滑參數(shù),并將

乘特征變量

的不同取值數(shù)量

加到分母中,來(lái)調(diào)整概率的估計(jì)值。式中,

是訓(xùn)練樣本中具有特征值

且屬于類(lèi)別

的樣本數(shù)量;

是屬于類(lèi)別

的總訓(xùn)練樣本數(shù)量;

是一個(gè)小的正數(shù)(通常取1);

是第

個(gè)特征的不同取值的數(shù)量。拉普拉斯平滑提高了模型的魯棒性和泛化能力,即使訓(xùn)練集中未出現(xiàn)特定特征值與類(lèi)別組合,仍能提供合理的非零概率估計(jì),避免極端情況影響模型性能。(4-7)4.2.1貝葉斯分類(lèi)的原理貝葉斯模型可分為不同類(lèi)型:樸素貝葉斯模型:假設(shè)特征在給定類(lèi)別條件下相互獨(dú)立,計(jì)算效率高,但在特征相關(guān)性較強(qiáng)時(shí)可能影響模型準(zhǔn)確性。伯努利模型(貝葉斯二元模型):特征變量?jī)H有兩個(gè)可能值(如文本數(shù)據(jù)中單詞的存在或缺失)。多項(xiàng)式模型(廣義貝葉斯模型):特征變量有兩個(gè)以上的可能值,適用于分類(lèi)任務(wù),如文本分類(lèi)中單詞出現(xiàn)次數(shù)。高斯模型:假設(shè)特征服從高斯分布,適用于連續(xù)值數(shù)據(jù),可用于回歸或分類(lèi)任務(wù)。盡管假設(shè)能提高計(jì)算效率,但在實(shí)際問(wèn)題中,特征往往相關(guān),導(dǎo)致估計(jì)偏差。因此,在特征相關(guān)性較強(qiáng)時(shí),可以使用多元估計(jì)方法(如貝葉斯網(wǎng)絡(luò)),但計(jì)算成本更高,需在計(jì)算復(fù)雜度與模型精度之間權(quán)衡。4.2.2貝葉斯分類(lèi)的應(yīng)用與實(shí)例貝葉斯分類(lèi)可以解決各個(gè)領(lǐng)域中的很多問(wèn)題,例如:教育學(xué)中根據(jù)各科成績(jī)相近程度對(duì)學(xué)生進(jìn)行分類(lèi),醫(yī)學(xué)中根據(jù)病人的若干癥狀來(lái)判斷腫瘤是良性或惡性氣象學(xué)中根據(jù)各項(xiàng)氣象指標(biāo)對(duì)降雨量做出預(yù)報(bào)環(huán)境科學(xué)中根據(jù)各種污染氣體的濃度來(lái)判定某化工廠對(duì)環(huán)境的污染程度經(jīng)濟(jì)學(xué)中根據(jù)人均國(guó)民收入等多種指標(biāo)來(lái)判定一個(gè)國(guó)家的經(jīng)濟(jì)發(fā)展情況4.2.2貝葉斯分類(lèi)的應(yīng)用與實(shí)例基于貝葉斯分類(lèi)的光伏系統(tǒng)日總發(fā)電量預(yù)測(cè)是貝葉斯分類(lèi)算法在能源大數(shù)據(jù)分析方面的一個(gè)例子。太陽(yáng)能是世界上最清潔的可再生能源之一,太陽(yáng)能發(fā)電量預(yù)測(cè)能夠?yàn)殡娏ο到y(tǒng)平穩(wěn)調(diào)節(jié)計(jì)劃提供支持。本例使用了樸素貝葉斯模型來(lái)預(yù)測(cè)已安裝光伏系統(tǒng)的日總發(fā)電量。在預(yù)測(cè)過(guò)程中,使用日平均溫度(DAT)、日總?cè)照諘r(shí)長(zhǎng)(DTSD)、日全球太陽(yáng)總輻射量(DTGSR)作為特征變量,對(duì)日總發(fā)電量(DTPEG)進(jìn)行預(yù)測(cè),使用的數(shù)據(jù)集是土耳其南部78個(gè)太陽(yáng)能面板一年的歷史數(shù)據(jù)。數(shù)據(jù)集中包含365條數(shù)據(jù),其中292條數(shù)據(jù)組成訓(xùn)練集,73條數(shù)據(jù)組成測(cè)試集。4.2.2貝葉斯分類(lèi)的應(yīng)用與實(shí)例首先按數(shù)據(jù)值區(qū)間進(jìn)行離散化處理,將特征變量和預(yù)測(cè)數(shù)據(jù)劃分為5個(gè)類(lèi)別,如表4-1所示。類(lèi)別標(biāo)簽特征變量取值范圍VeryLowDAT[-6.90,-0.40)(°C)DTSD[0.000,2.874)(h)DTGSR[0.000,1.776)(kWh/m2)DTPEG[0.000,25.172)(kWh)LowDAT[-0.40,6.10)(°C)DTSD[2.874,5.748)(h)DTGSR[1.776,3.552)(kWh/m2)DTPEG[25.172,50.344)(kWh)MediumDAT[6.10,12.60)(°C)DTSD[5.748,8.622)(h)DTGSR[3.552,5.328)(kWh/m2)DTPEG[50.344,75.516)(kWh)HighDAT[12.60,19.10)(°C)DTSD[8.622,11.496)(h)DTGSR[5.328,7.104)(kWh/m2)DTPEG[75.516,100.688)(kWh)VeryHighDAT[19.10,25.60)(°C)DTSD[11.496,14.370)(h)DTGSR[7.104,8.880)(kWh/m2)DTPEG[100.688,125.860)(kWh)表4-1特征變量和預(yù)測(cè)數(shù)據(jù)的劃分方法訓(xùn)練集中每條數(shù)據(jù)定義為向量

,包含三個(gè)特征變量DAT、DTSD和DTGSR,類(lèi)別標(biāo)簽集合為

,即表4-1中的5個(gè)類(lèi)別標(biāo)簽。4.2.2貝葉斯分類(lèi)的應(yīng)用與實(shí)例根據(jù)式(4-1)可以獲得DTPEG的預(yù)測(cè)公式為:式中,概率

對(duì)于所有類(lèi)別標(biāo)簽是一個(gè)常數(shù),因此只需計(jì)算

。假設(shè)所有特征變量都是獨(dú)立的,則

可以根據(jù)下式計(jì)算:這樣就可以使用式(4-8)對(duì)DTPEG進(jìn)行預(yù)測(cè)。(4-9)(4-8)4.3Logistic回歸Logistic回歸又稱邏輯回歸,是一種廣義的線性回歸分析方法。由于Logistic回歸用于分類(lèi),因此把Logistic回歸列入分類(lèi)分析中進(jìn)行介紹。如果要預(yù)測(cè)的內(nèi)容是一個(gè)離散變量情況下的分類(lèi)問(wèn)題,如判斷郵件是否是垃圾郵件,就可以使用Logistic回歸。Logistic回歸的因變量可以是二分類(lèi)的,也可以是多分類(lèi)的,但是二分類(lèi)的更為常用,也更容易解釋,多分類(lèi)的可以使用Softmax方法進(jìn)行處理。實(shí)際中常用的就是二分類(lèi)的Logistic回歸。4.3.1Logistic回歸的原理貝葉斯分類(lèi)模型和Logistic回歸都是概率分類(lèi)模型,但其建模方式不同:貝葉斯分類(lèi)假設(shè)類(lèi)別的條件概率分布已知,通過(guò)計(jì)算后驗(yàn)概率進(jìn)行分類(lèi)。Logistic回歸直接使用區(qū)分函數(shù)(Logistic函數(shù))建模類(lèi)別概率,而不依賴具體的概率分布假設(shè)。它是一個(gè)可導(dǎo)函數(shù),定義域?yàn)?/p>

,值域?yàn)?/p>

,導(dǎo)數(shù)為

,由于其導(dǎo)數(shù)的特性,Logistic函數(shù)常常在神經(jīng)網(wǎng)絡(luò)中作為激活函數(shù)使用。(4-10)一般的廣義線性回歸的形式是

,或者

,其中

通常稱為聯(lián)系函數(shù)。Logistic回歸使用的聯(lián)系函數(shù)是Logistic函數(shù):4.3.1Logistic回歸的原理在最簡(jiǎn)單的Logistic回歸形式中,假設(shè)類(lèi)別變量是二元的,取值為

,但也可以對(duì)非二元類(lèi)別變量進(jìn)行建模。系數(shù)向量

是偏移參數(shù)。對(duì)于一個(gè)樣本

,使用Logistic函數(shù)對(duì)類(lèi)別變量

取值為+1或-1的概率進(jìn)行建模。利用式(4-11)求出的就是樣本為正類(lèi)的概率,利用式(4-12)求出的就是樣本為負(fù)類(lèi)的概率。一個(gè)事件的幾率是指該事件發(fā)生的概率與該事件不發(fā)生的概率的比值。很顯然,Logistic回歸模型的值可以轉(zhuǎn)化為對(duì)數(shù)幾率,從而可以轉(zhuǎn)化為線性回歸模型的值。Logistic回歸的對(duì)數(shù)幾率表示為:(4-12)(4-11)(4-13)4.3.1Logistic回歸的原理可以將參數(shù)

看作用于分隔兩個(gè)類(lèi)別的超平面的系數(shù),這個(gè)超平面可以看作一個(gè)在特征空間中的直線或平面,它將數(shù)據(jù)點(diǎn)分隔成兩個(gè)類(lèi)別。Logistic回歸模型分類(lèi)效果如圖

4-2所示。當(dāng)對(duì)一個(gè)數(shù)據(jù)點(diǎn)

進(jìn)行預(yù)測(cè)時(shí),可以計(jì)算

的值。這個(gè)值可以理解為數(shù)據(jù)點(diǎn)

相對(duì)于超平面的位置。如果這個(gè)值為正,那么

被劃分到類(lèi)別+1,如果這個(gè)值為負(fù),那么

被劃分到類(lèi)別-1。因此,Logistic回歸模型是一種線性分類(lèi)模型,它使用超平面來(lái)對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類(lèi)。Logistic回歸模型可以視為概率分類(lèi)模型,Logistic函數(shù)可以將超平面的值轉(zhuǎn)換為[0,1]范圍內(nèi)的概率值,輸出概率可以通過(guò)將超平面的值輸入Logistic函數(shù)中得到。圖4-2Logistic回歸模型分類(lèi)效果4.3.2Logistic回歸模型的訓(xùn)練在Logistic回歸模型中,通常使用極大似然法來(lái)估計(jì)最佳的模型參數(shù)。假設(shè)有兩類(lèi)數(shù)據(jù):正類(lèi)和負(fù)類(lèi),分別用

表示,用

表示第個(gè)數(shù)據(jù)點(diǎn)。整個(gè)數(shù)據(jù)集

的似然函數(shù)定義如下:似然函數(shù)表示所有訓(xùn)練樣本遵從Logistic回歸模型分配給它們的類(lèi)別標(biāo)簽所得概率的乘積。訓(xùn)練的目標(biāo)是找到一組最優(yōu)參數(shù)向量

,使得整個(gè)數(shù)據(jù)集的似然函數(shù)值最大化。為了方便計(jì)算,損失函數(shù)通常使用對(duì)數(shù)似然函數(shù):對(duì)于上述對(duì)參數(shù)向量

的似然函數(shù),通常使用梯度上升法(GradientAscent)來(lái)迭代確定參數(shù)向量的最優(yōu)值。通常梯度向量通過(guò)對(duì)數(shù)似然函數(shù)對(duì)每個(gè)參數(shù)求導(dǎo)得到。(4-15)(4-14)4.3.2Logistic回歸模型的訓(xùn)練對(duì)于第

個(gè)參數(shù)

,可以通過(guò)計(jì)算

的偏導(dǎo)數(shù)得到其梯度。梯度表示為:式中,

分別代表正類(lèi)和負(fù)類(lèi)中錯(cuò)誤預(yù)測(cè)的概率。

除此之外,乘法因子

影響了梯度向量

個(gè)分量的大小,因此,參數(shù)

的更新公式為:在式(4-17)中,

是步長(zhǎng),可以通過(guò)二分查找的方式來(lái)確定,以最大化目標(biāo)函數(shù)值的改進(jìn)。上述方法使用批量梯度上升法,在每個(gè)更新步驟中,所有訓(xùn)練數(shù)據(jù)都對(duì)梯度做出貢獻(xiàn)。實(shí)際上,也可以使用隨機(jī)梯度上升法,逐一循環(huán)訓(xùn)練數(shù)據(jù)來(lái)進(jìn)行更新。可以證明似然函數(shù)是凹函數(shù),因此梯度上升法可以找到全局最優(yōu)解。(4-16)(4-17)4.3.3帶正則項(xiàng)的Logistic回歸Logistic回歸可以使用正則化方法減少過(guò)擬合問(wèn)題。1970年,Hoerl和Kennard等提出了嶺回歸(RidgeRegression)方法,實(shí)際是在損失函數(shù)的基礎(chǔ)上加上

正則項(xiàng)作為對(duì)系數(shù)的懲罰,這也是最早的懲罰函數(shù),形式為:式中,

正則化懲罰項(xiàng),

;

為正則化參數(shù),

。由于嶺回歸不能把系數(shù)壓縮到0,因此無(wú)法產(chǎn)生稀疏解,所以在變量選擇的應(yīng)用中表現(xiàn)稍差。Tibshirani提出了著名的Lasso方法,該方法通過(guò)在損失函數(shù)的基礎(chǔ)上加上對(duì)系數(shù)的

正則項(xiàng)來(lái)將某些系數(shù)壓縮到0,以此提高模型的解釋能力,形式為:式中,

。后來(lái),為了進(jìn)一步改

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論