《數(shù)據(jù)科學(xué)導(dǎo)論》數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)分析(上)_第1頁
《數(shù)據(jù)科學(xué)導(dǎo)論》數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)分析(上)_第2頁
《數(shù)據(jù)科學(xué)導(dǎo)論》數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)分析(上)_第3頁
《數(shù)據(jù)科學(xué)導(dǎo)論》數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)分析(上)_第4頁
《數(shù)據(jù)科學(xué)導(dǎo)論》數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)分析(上)_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)科學(xué):從數(shù)據(jù)中洞見真知Raw

DataInsightsInsight

Questions

與19世紀(jì)初相比,當(dāng)今世界國家之間發(fā)展是否更不均衡?……回顧:Hans

Rosling"s

200

Countries,200

Years,4

MinutesRaw

DataYear

Country

Income

Lifespan2000

China

$3,800…

…73…數(shù)據(jù)科學(xué)的工作流程循環(huán)迭代式的工作流程先提出問題,再收集與分析相關(guān)的數(shù)據(jù)先收集數(shù)據(jù),再分析可以回答哪些問題數(shù)據(jù)科學(xué)的工作流程三個(gè)基本任務(wù)獲取原始數(shù)據(jù)準(zhǔn)備待分析數(shù)據(jù)

針對特定問題進(jìn)行數(shù)據(jù)分析主要內(nèi)容數(shù)據(jù)采集數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析特征標(biāo)簽…………1…………0數(shù)據(jù)采集待分析數(shù)據(jù)數(shù)據(jù)分析數(shù)據(jù)準(zhǔn)備數(shù)據(jù)科學(xué)的工作流程數(shù)據(jù)科學(xué)與烹飪買菜洗菜備菜炒菜數(shù)據(jù)準(zhǔn)備本講重點(diǎn):數(shù)據(jù)采集+數(shù)據(jù)準(zhǔn)備給分析算法更優(yōu)質(zhì)的數(shù)據(jù)數(shù)據(jù)采集數(shù)據(jù)分析提綱數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)分析數(shù)據(jù)采集數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析數(shù)據(jù)的種類繁多Variety:數(shù)據(jù)的種類繁多數(shù)組、矩陣鍵值對實(shí)體-關(guān)系表時(shí)序數(shù)據(jù)、流數(shù)據(jù)圖數(shù)據(jù)文本數(shù)據(jù)多媒體數(shù)據(jù)…數(shù)組與矩陣用戶數(shù)據(jù)項(xiàng)同類型,可以利用下標(biāo)訪問–例子:NumPy的多維數(shù)組(ndarray)例子:推薦系統(tǒng)中的user-item矩陣商品評分兩個(gè)用戶對三個(gè)商品打分:1u

1

(5);

3

(2)u2

2

(3);

3

(5)請用NumPy構(gòu)造矩陣A.

mat

=np.array(

[[5,0,2],[0,3,5]B.

mat

=np.array(

[[5,np.nan,2],[nnan,3,5]])關(guān)系數(shù)據(jù)(Relational

Data)列columns行rows簡單的關(guān)系數(shù)據(jù):單表數(shù)據(jù)行:表示一條記錄(Record)列:表示一個(gè)屬性(Attribute)使用pandas表示單表數(shù)據(jù)關(guān)系數(shù)據(jù)(Relational

Data)關(guān)系數(shù)據(jù)庫:將數(shù)據(jù)表示為做個(gè)彼此可關(guān)聯(lián)的表格ER模型組織數(shù)據(jù)表格、屬性、主外鍵文本數(shù)據(jù)自然語言是人們交流信息最為自然的表達(dá)方式互聯(lián)網(wǎng)網(wǎng)頁、論壇評論等企業(yè)文檔聊天記錄·缺少結(jié)構(gòu)支持,給文本分析處理帶來巨大挑戰(zhàn)理解詞語、實(shí)體、句子、關(guān)系等自然語言的語義鴻溝圖數(shù)據(jù)頂點(diǎn)一般表示實(shí)體或者屬性值頂點(diǎn)之間的邊表示被連接的兩個(gè)頂點(diǎn)間的關(guān)系實(shí)例–社交網(wǎng)絡(luò)–知識圖譜教練創(chuàng)始人請你預(yù)言該俱樂部在不就的將來會:分裂為兩個(gè)俱樂部團(tuán)結(jié)在創(chuàng)始人的周圍圖數(shù)據(jù):直觀地理解群體的行為例:美國高中生戀愛關(guān)系圖(邊代表二人在18個(gè)月內(nèi)戀愛過)圖片來源:[Bearman

et

al.,American

Journal

of

Sociology,2004]時(shí)序數(shù)據(jù)

隨時(shí)間不斷變化或累計(jì)的數(shù)據(jù)每個(gè)數(shù)據(jù)項(xiàng)有時(shí)間戳

關(guān)注一段時(shí)間內(nèi)的數(shù)據(jù)值變化、關(guān)注異常值新的數(shù)據(jù)價(jià)值更高多用于監(jiān)控傳感等場景鍵值對

鍵值對靈活定義屬性,每行可以有多個(gè)不同的屬性–例子,用戶畫像通過鍵直接訪問值

簡單的如Hashtable,Map等數(shù)據(jù)結(jié)構(gòu)多媒體數(shù)據(jù)圖像、視頻、音頻等多種媒體類型的混合更關(guān)注語義處理復(fù)雜,計(jì)算代價(jià)高數(shù)據(jù)量相對更大在自媒體應(yīng)用中普遍存在大數(shù)據(jù)-多模態(tài)數(shù)據(jù)并存以關(guān)系數(shù)據(jù)為代表的結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)量占比低于20%數(shù)據(jù)價(jià)值相對高以文本為代表的非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)量占比高于80%數(shù)據(jù)價(jià)值相對低需要融合結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)信息抽取實(shí)體鏈指與數(shù)據(jù)融合從文本數(shù)據(jù)中抽取結(jié)構(gòu)化信息從非結(jié)構(gòu)化數(shù)據(jù)中提取強(qiáng)語義的信息:For

years,

Microsoft

Corporation

CEO

Bill

Gates

was

against

opensource.

But

today

heappears

to

havechanged

his

mind.

"Wecan

be

open

source.

Welove

the

concept

ofshared

source,"

said

Bill

Veghte,

a

Microsoft

VP."That"s

a

super-important

shift

for

us

interms

of

codeaccess.“Richard

Stallman,founder

of

the

Free

Software

Foundation,countered

saying…Bill

GatesBill

VeghteCEO

MicrosoftVP

MicrosoftRichard

Stallman

Founder

Free

Soft..PEOPLEName

Title

OrganizationSelect

NameFrom

PEOPLEWhere

Organization=

‘Microsoft’Bill

GatesBill

Veghte25從文本中抽取信息示例:肺炎患者求助超話XYZX棟Y單元Z樓1397xxx60271341xxx1935轉(zhuǎn)發(fā)?。。 舅谛^(qū)、社區(qū)】漢陽區(qū)麒麟路麒麟社區(qū)\n求助!請使用Python的re庫抽取屬性名和取值,粘貼到討論對話框中從文本中抽取信息示例:肺炎患者求助超話XYZX棟Y單元Z樓1397xxx60271341xxx1935數(shù)據(jù)采集案例考慮一個(gè)場景:請你基于數(shù)據(jù)分析原因你要采集哪些數(shù)據(jù)來支撐你的分析?數(shù)據(jù)采集:Where

to

Collect你要采集哪些數(shù)據(jù)來支撐你的分析?內(nèi)部數(shù)據(jù)產(chǎn)品數(shù)據(jù)庫(關(guān)系數(shù)據(jù))例如:iPhone不同型號,及在不同銷售地的定價(jià)系統(tǒng)日志(文本數(shù)據(jù))例如:用戶在蘋果官網(wǎng)搜索、購買iPhone及其周邊的歷史文檔數(shù)據(jù)(Word,Excel,PDF,CSV)例如:銷售渠道匯總來的表格數(shù)據(jù)多媒體數(shù)據(jù)(視頻、音頻、圖片)數(shù)據(jù)采集:Where

to

Collect你要采集哪些數(shù)據(jù)來支撐你的分析?外部數(shù)據(jù)–網(wǎng)頁數(shù)據(jù)數(shù)據(jù)采集:Where

to

Collect你要采集哪些數(shù)據(jù)來支撐你的分析?外部數(shù)據(jù)網(wǎng)頁數(shù)據(jù)Web

API數(shù)據(jù)采集:Where

to

Collect你要采集哪些數(shù)據(jù)來支撐你的分析?外部數(shù)據(jù)網(wǎng)頁數(shù)據(jù)Web

API開放數(shù)據(jù)(Open

Data)數(shù)據(jù)采集:Where

to

Collect你要采集哪些數(shù)據(jù)來支撐你的分析?外部數(shù)據(jù)網(wǎng)頁數(shù)據(jù)Web

API開放數(shù)據(jù)(Open

Data)知識圖譜(DBpedia)數(shù)據(jù)的分類結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)采集:How

to

Collect按數(shù)據(jù)源類型進(jìn)行分類來自CSV文件來自JSON文件來自網(wǎng)頁Web

Pages來自關(guān)系數(shù)據(jù)庫(如MySQL)來自HDFS來自Web

API來自O(shè)pen

Data網(wǎng)站了解掌握從CSV文件讀取數(shù)據(jù)擴(kuò)展閱讀:/pandas-read-csv/

CSV的全稱是Comma-separated

values,是一種用逗號分隔的方式來表示與存儲表格數(shù)據(jù)的文件格式技能包使用Python

Pandas讀取CSV文件/pandas-docs/stable/reference/api/pandas.read_json.html從JSON文件讀取數(shù)據(jù)閱讀:/pandas-docs/stable/reference/api/pandas.readJSON是一種存儲嵌套數(shù)據(jù)的文件格式(類似Python中的List,Dict)技能包使用Python

Pandas讀取JSON文件從網(wǎng)頁獲取數(shù)據(jù)訪問網(wǎng)頁urllib2

(/2/library/urllib2.html)request

(http://docs.python-/en/master/)從網(wǎng)頁獲取數(shù)據(jù)解析網(wǎng)頁(Parsing)正則表達(dá)式解析

re

Beautiful

Soup(/software/BeautifulSoup/)lxml

(http://lxml.de/)從網(wǎng)頁獲取數(shù)據(jù)解析網(wǎng)頁(Parsing)正則表達(dá)式解析

re

Beautiful

Soup(/software/BeautifulSoup/)lxml

(http://lxml.de/)閱讀https://www.pythoncentral.io/python-beautiful-soup-example-yahoo-financ從網(wǎng)頁獲取數(shù)據(jù)網(wǎng)頁數(shù)據(jù)獲取套裝Scrapy

(/)網(wǎng)頁數(shù)據(jù)獲取經(jīng)驗(yàn)談勞動(dòng)力密集型:網(wǎng)頁“千站千面”橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同不識廬山真面目,邊吐老血邊coding閱讀/blog/2017/07/web-scraping-in-python-usi從關(guān)系數(shù)據(jù)庫獲取數(shù)據(jù)以MySQL數(shù)據(jù)庫為例創(chuàng)建連接寫SQL語句執(zhí)行SQL語句解析結(jié)果/doc/connector-

python/en/connector-python-examples.htmlRecap:不同類型的數(shù)據(jù)與數(shù)據(jù)模型人們?nèi)绾卫斫馀c表達(dá)數(shù)據(jù)計(jì)算機(jī)如何存儲與處理數(shù)據(jù)數(shù)據(jù)模型三要素

數(shù)據(jù)結(jié)構(gòu):儲存在數(shù)據(jù)庫中對象類型的集合,作用是描述數(shù)據(jù)庫組成對象以及對象之間的聯(lián)系

數(shù)據(jù)操作:指對數(shù)據(jù)庫中各種對象實(shí)例允許執(zhí)行的操作的集合,包括操作及其相關(guān)的操作規(guī)則

數(shù)據(jù)完整性約束條件:指在給定的數(shù)據(jù)模型中,數(shù)據(jù)及其聯(lián)系所遵守的一組通用的完整性規(guī)則,它能保證數(shù)據(jù)的正確性和一致性提綱數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)分析數(shù)據(jù)模型數(shù)據(jù)準(zhǔn)備數(shù)據(jù)分析數(shù)據(jù)準(zhǔn)備的基本步驟數(shù)據(jù)準(zhǔn)備的定位數(shù)據(jù)離散化數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)選擇為什么要做數(shù)據(jù)清洗與集成?現(xiàn)實(shí)世界中,數(shù)據(jù)通常是臟的

Garbage

In,

Garbage

Out–數(shù)據(jù)存在錯(cuò)誤和不一致為什么要做數(shù)據(jù)清洗與集成?Garbage

In,

Garbage

Out現(xiàn)實(shí)世界中,數(shù)據(jù)通常是臟的數(shù)據(jù)存在錯(cuò)誤和不一致數(shù)據(jù)存在缺失(Missing)[Gill

et

al;

Univ

of

Oxford

20為什么要做數(shù)據(jù)清洗與集成?現(xiàn)實(shí)世界中,數(shù)據(jù)通常是臟的

Garbage

In,

Garbage

Out數(shù)據(jù)存在錯(cuò)誤和不一致數(shù)據(jù)存在缺失(Missing)名稱/屬性的二義性人大MichaelJordan數(shù)據(jù)清洗與集成的主要任務(wù)將文本拆分成不同的屬性(Fields) 解決分隔符問題例:教師列表

Ju

Fan:Associate

Prof.,Computer

Science

|

35補(bǔ)充缺失的數(shù)據(jù)例:如果Ju

Fan的年齡信息缺失,應(yīng)該如何填充呢?平均值填充、用最近似教師年齡、貝葉斯估計(jì)同一實(shí)體不同表示的識別例:iPhone

2

vs

iPhone

2nd

generation格式轉(zhuǎn)換問題日期的表示:20190329,03/29/2019,29/03/2019異常值檢測例:Salary=-10;Age=222請寫Python代碼幫助范老師進(jìn)行文本拆分,輸出一個(gè)字符串?dāng)?shù)組數(shù)據(jù)清洗與集成的主要任務(wù)將文本拆分成不同的屬性(Fields)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論