




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)與金融
實訓操作手冊
1
目錄
-、“案例六綜合實訓-大數(shù)據(jù)與金融”3
(一)理論導入3
1、量化交易(投資方法)3
2、算法交易(自動交易、黑盒交易或機器交易)3
3.量化策略3
4、量化選股3
5、股票回測4
(二)實驗設計4
1、股票時間序列數(shù)據(jù)采集4
2、繪制股票成交量的時間序列圖5
3、繪制股票收盤價和成交量的時間序列圖5
4、繪制K線圖(蠟燭圖)6
5、股票指標相關性分析8
6、移動平均線10
(三)實訓操作12
1、選擇案例與任務12
2、添加項目12
3、參數(shù)填寫13
4、代碼執(zhí)行14
5、查看結(jié)果14
二、”案例七綜合實訓-大數(shù)據(jù)與電商”16
(一)理論導入16
1、數(shù)據(jù)化運營的重要意義16
2、數(shù)據(jù)化運營的兩種方式16
3、數(shù)據(jù)化運營的工作流程17
(-)實驗設計19
1、白酒商品數(shù)據(jù)采集19
2、白酒商品評價數(shù)采集19
3、數(shù)據(jù)清洗19
4、五糧液用戶評論分析20
2
5、數(shù)據(jù)可視化20
(三)實訓操作27
1、選擇案例與任務27
2、添加項目27
3、參數(shù)填寫27
4、代碼執(zhí)行27
5、查看結(jié)果28
三、財務大數(shù)據(jù)28
【任務實施】28
一、“案例六綜合實訓I-大數(shù)據(jù)與金融”
(一)理論導入
1、量化交易(投資方法)
以先進的數(shù)學模型替代人為的主觀判斷,利用計算機技術從龐大的歷史數(shù)據(jù)
中海選能帶來超額收益的多種“大概率”事件以制定策略,極大地減少了投資者
情緒波動的影響,避免在市場極度狂熱或悲觀的皆況下作出非理性的投資決策。
量化交易一般會經(jīng)過海量數(shù)據(jù)仿真測試和模擬操作等手段進行檢驗,并依據(jù)
一定的風險管理算法進行倉位和資金配置,實現(xiàn)風險最小化和收益最大化,但往
往也會存在一^定的潛在風險。
2、算法交易(自動交易、黑盒交易或機器交易)
通過設計算法,利用計算機程序發(fā)出交易指令的方法。在交易中,程序可以
決定的范圍包括交易時間的選擇、交易的價格,甚至包括最后需要成交的資產(chǎn)數(shù)
量。
3、量化策略
使用計算機作為工具,通過一套固定的邏輯來分析、判斷和決策。量化策略
既可以自動執(zhí)行,也可以人工執(zhí)行。
一個完整的策略需要包含輸入、策略處理邏輯、輸出;策略處理邏輯需要考
慮選股、擇時、倉位管理和止盈止損等因素。
4、量化選股
3
用量化的方法選擇確定的投資組合,期望這樣的投資組合可以獲得超越大盤
的投資收益。
常用的量化選股模型:多因子選股模型、行業(yè)輪動選股、風格輪動模型、資
金流模型、動量反轉(zhuǎn)模型、一致預期模型、趨勢跟蹤選股等。
5、股票回測
將交易策略在歷史數(shù)據(jù)中進行合理驗證的過程。
股票回測的意義:策略篩選、策略優(yōu)化、策略驗證。
(二)實驗設計
1、股票時間序列數(shù)據(jù)采集
在東方財富網(wǎng)中,采集“比亞迪”2020年的股票歷史數(shù)據(jù),包含了開盤價、
最高價、最低價、收盤價、成交量、成交額、振幅、漲跌額、漲跌幅和換手率這
9種指標。
股票指標名稱指標含義
開盤價每個交易日開市后的第一筆每股買賣成交價格
最高價
最高價是好的賣出價格,最低價是好的買進價格,可根據(jù)價格極
差判斷股價的波動程度和是否超出常態(tài)范圍
最低價
最后一筆交易前一分鐘所有交易的成交量加權平均價,無論當天
收盤價
股價如何振蕩,最終將定格在收盤價上
指一個時間單位內(nèi)對某項交易成交的數(shù)量,可根據(jù)成交量的增加
成交量
幅度或減少幅度來判斷股票趨勢,預測市場供求關系和活躍程度
指當天(已)成交股票的金額總數(shù),成交量的多少,不僅取決于
成交額市場的投資熱情,還取決與相應產(chǎn)品的吸引力大小,以及投資者
對該產(chǎn)品的熟悉程度。
指股票開盤后的當日最高價和最低價之間的差的絕對值與昨日收
振幅
盤價的百分比,在一定程度上表現(xiàn)股票的活躍程度。
是指當日股票價格與前一日收盤價格(或前一日收盤指數(shù))相比
漲跣額
的漲跌數(shù)值。
漲跌幅是對漲跌值的描述,用%標識,漲跌幅=漲跌值/昨收盤*100機當
4
前交易日最新成交價(或收盤)與前一交易日收盤價相比較所產(chǎn)
生的數(shù)值。在中國股市對漲跌停做出了限制,因此有“漲跌停板”
的說法。
,,換手率”也稱“周轉(zhuǎn)率”,指在一定時間內(nèi)市場中股票轉(zhuǎn)手買
換手率
賣的頻率,是反映股票流通性強弱的指標之一
2、繪制股票成交量的時間序列圖
繪制股票2020年的日成交量的時間序列圖。
以時間為橫坐標,每日的成交量為縱坐標,做折線圖,可以觀察股票成交量
隨時間的變化情況。使用Matplotlib的作圖工具進行畫圖。
注意:文檔編寫時,采集的數(shù)據(jù)為比亞迪股票2020年216天的數(shù)據(jù),實訓時采集的數(shù)
據(jù)為實時數(shù)據(jù)(數(shù)據(jù)量比文檔展示的數(shù)據(jù)量多),所以操作手冊中的圖與分析結(jié)論與實訓是
可能有出入,屬于正?,F(xiàn)象。
圖1-1股票成交量的時間序列圖
從圖中可知,比亞迪股票價在1-2月交易活躍,3-6月進入低迷狀態(tài),7月
成交量有回升趨勢,但后續(xù)8月未能保持,9月開始成交量呈現(xiàn)穩(wěn)步上升的狀態(tài)。
3、繪制股票收盤價和成交量的時間序列圖
繪制股票在2020年1-6月的日收盤價和日成交量的時間序列圖,因為它們
5
的數(shù)值差異很大,所以采用兩套縱坐標系來做圖。
圖1-2股票收盤價和成交量的時間序列圖
結(jié)合收盤價進行分析,可知股票收盤價格曲線與成交量曲線走勢并不完全一
致,1月至5月的收盤價圍繞這50這一水平線上線波動,6月以來,收盤價整體
趨于穩(wěn)定增長,結(jié)合政策與企業(yè)經(jīng)營資訊來看,受到國家“十四五”規(guī)劃中對新
能源產(chǎn)業(yè)的利好影響,加上企業(yè)從7月以來銷量持續(xù)上升,企業(yè)股票也一路斜升,
直驅(qū)200元。
4、繪制K線圖(蠟燭圖)
(1)K線圖理論
繪制方法:首先找到該日或某一周期的最高和最低價,垂直地連成一條直線;
然后再找出當日或某一周期的開市和收市價,把這二個價位連接成一條狹長的長
方柱體。假如當日或某一周期的收市價較開市價為高(即低升高收),我們便以
紅色來表示,或是在柱體上留白,這種柱體就稱之為“陽線”。如果當日或某一周
期的收市價較開市價為低(即高開低收),我們則以綠色表示,又或是在住柱上
涂黑色,這柱體就是"陰線”了。
表示意義:能夠全面透徹地觀察到市場的真正變化。我們從K線圖中,既可
看到股價(或大市)的趨勢,也同時可以了解到每日市況的波動情形。
6
最高價
上影線
收食價
陽線實體
開意價
T影線一
最低價
陽線
圖1-3K線圖
(2)K線圖繪制
使用mplfinance模塊中的candlestickohlc()函數(shù)繪制K線圖。
繪制股票在2020年16月份每日的開盤價,最高價,最低價,收盤價的K
線圖。
該圖紅色代表上漲,綠色代表下跌。
2020年開盤價、最高價、最低價和收盤價的K線圖
200-
180-
160-
140-
120-
100-
80-
60-
40-
圖1-4比亞迪股票K線圖
7
5、股票指標相關性分析
(1)相關關系分析
選取部分代表性的指標,并使用pandas.scatter_matrix()函數(shù),將各項指
標數(shù)據(jù)兩兩關聯(lián)做散點圖,對角線是每個指標數(shù)據(jù)的直方圖。指標包括成交量,
振幅,漲跌幅,漲跌額,換手率。從圖中可以明顯發(fā)現(xiàn)成交量和換手率有非常明
顯的線性關系;漲跌幅和漲跌額有明顯的線性關系。所以我們可以將換手率、漲
跌額這兩個指標去除,這里使用了相關性關系來實現(xiàn)數(shù)據(jù)降維。
750000■
500000-
250000■
10■
饕
里5.
10-
爨
粉0-
麥
-10-
10■
麥
協(xié)5°-
&2.5-
,
-,
。00
00O
0OO
吊M
0Z
S振幅漲跌幅
交
成
澧
圖1-5散點圖矩陣
注意:相關表和相關圖可反映兩個變量之間的相互關系及其相關方向,但無
法確切地表明兩個變量之間相關的程度。
(2)相關系數(shù)(Correlationcoefficient)分析
8
相關系數(shù)是用以反映變量之間相關關系密切程度的統(tǒng)計指標。
簡單相關系數(shù):又叫相關系數(shù)或線性相關系數(shù),一般用字母「表示,用來度量兩個變蚩間的線性關系。
定義式111
X,Y)
y/Var\X]Var\Y]
其中,Cov(X.Y)為X與Y的協(xié)方差,Var[X協(xié)X的方差,Vag為Y的方差
我們可以使用numpy.corrcof()來直接計算各指標數(shù)據(jù)間的相關系數(shù)。
成交量、振幅、漲跌幅、漲跌額、換手率。
[[1.0.739451340.299638210.273641860.99999368]
[0.739451341.0.325267860.299952350.73963618]
[0.299638210.325267861.0.917639280.30000447]
[0,273641860.299952350.917639281.0.27370261]
[0.999993680.739636180.300004470.273702611.]]
看數(shù)字還是不夠方便,所以繼續(xù)將上述相關系數(shù)矩陣轉(zhuǎn)換成圖形,使生
matplotlib.pyplot.matshow()將矩陣可視化。如下圖所示,其中用顏色來代表
相關系數(shù)。
圖1-6矩陣展示
9
從圖中可以看出,。和4的相關系數(shù)非常大,即成交量和轉(zhuǎn)手率強烈正相關,
查看相關系數(shù)矩陣,數(shù)值為1;2和3相關系數(shù)也比較大,即漲跌幅和漲跌額強
烈正相關,查看相關系數(shù)矩陣,其數(shù)值為0.92。
相關性分析總結(jié):用矩陣圖表的方式分析多個指標或觀察指標間的相關系數(shù)
矩陣可以迅速找到了強相關的指標。
6、移動平均線
移動平均線(MovingAverage,MA)是用統(tǒng)計分析的方法,將一定時期內(nèi)的
證券價格(指數(shù))加以平均,并把不同時間的平均值連接起來,形成一根MA,
用以觀察證券價格變動趨勢的一種技術指標。使用股票數(shù)據(jù)中每日的收盤價,算
出5日均價和20日均價,并將均價的折線圖(也稱移動平均線)與K線圖畫在
一起。
詵取該股票2020年1月至6月的數(shù)據(jù)進行模擬。
圖1-7移動平均線
移動平均線具有抹平短期波動的作用,更能反映長期的走勢。觀察上圖,比
較5日均線和20日均線,特別是關注它們的交叉點,這些是交易的時機。移動
平均線策略,最簡單的方式就是:當5日均線從下方超越20日均線時,買入股
票,當5日均線從上方越到20日均線之下時,賣出股票°
10
為了找出交易的時機,我們計算5日均價和20日均價的差值,并取其正負
號,當圖中水平線出現(xiàn)跳躍的時候就是交易時機。為了更方便觀察,上述計算得
到的均價差值,再取其相鄰日期的差值,得到信號指標。當信號為1時,表示買
入股票;當信號為T時,表示賣出股票;當信號為0時,不進行任何操作c
圖1-8信號指標
從上圖中看出,一共有兩輪買進和賣出的時機。
看一下下這兩輪交易詳情:
datepriceoperation
422020-03-1060.11SeiI
582020-04-0157.06Buy
852020-05-1457.63SeiI
982020-06-0260.94Buy
上述表格列出了交易日期、操作和當天的價格。分析發(fā)現(xiàn)第一輪的交易中賣
出價格高于買入價格,可進行交易;第二輪中交易的賣出價都小于買入價,不可
進行交易。
如果考慮更長的時間跨度,比如2年、5年,并考慮更長的均線,比如將20
日均線和50日均線比較;雖然過程中也有虧損的時候,但贏的概率更大。
11
(三)實訓操作
1、選擇案例與任務
在【案例選擇】下拉列表中,選擇“案例六綜合實訓-大數(shù)據(jù)與金融”,點
擊任務一按鈕,進入“比亞迪股票數(shù)據(jù)采集”任務,如圖1-9。
圖1-9比亞迪股票數(shù)據(jù)采集
2、添加項目
①點擊【新建】按鈕,新增項目,系統(tǒng)加載一個“未命名”項目。②單擊選
中項目,鼠標右鍵,對項目進行【重命名】設置,③完成后點擊保存按鈕,保存
項目,如圖l-10o
12
草Jl'lthni就」的大政也推浦擬仿門系哈V國念0O(!)
8HA*令?一文?????
ti?W
眼《?*■
r-1
全MHHB弓施療
UJ
@?0嶺析g
C2ttMnJWt
圖ITO添加項目
3、參數(shù)填寫
①點擊【任務描述】預計根據(jù)下發(fā)的教案,完成任務。②點擊【數(shù)據(jù)向?qū)А浚?/p>
彈出關鍵詞替換彈窗,如圖卜3。③對每一關鍵詞填入正確的參數(shù),④然后點擊
確認,將參數(shù)傳入系統(tǒng)代碼模板中,如圖1-40⑤點擊【保存】按鈕,保存代碼
數(shù)據(jù)。
圖1-11數(shù)據(jù)向?qū)?/p>
13
網(wǎng)“分析數(shù)跳采一
開發(fā)語言:Python■?rtt保存或行注91凄名數(shù)事向39由政塞
re
frep^yjllRMComection
xa9orxev?jtf
w>njec<\
bead-I
'Uwr-JUent's'lotlllVB.O(Vlt^ovrXT10.0IxnM.xM>也l?VeXM/6JT?36iXHHL,Hk?do)Quom/8^a42?.75Safari^J7.
def*OK_h*dlc?(event.ct?*ac?)t
w;-'http:〃pwK>u,.e6Mcr”.Ripi/WitBVMM?S,mfr7ll240%*^8a)1573186l8619a??f,eld8l?fl*Xf2*2aK
dra二(?QMe^a.c?t(url?
<H?r?.?9irchCadtfa":(.?^))\\>data*mS>.craJp《l>.re],B()',**>
-Moulg^(dd)
lxw?-4^?,jsonCkhmr)
Ute=11nM[2059。
<te*a_lirt?U
forheinhehe1
h-Z?卬】K(/)
datLlm.append<h>
cxnnCcmcfion((YTdX))
cursor=ccra^cursor0
-'D?PTML£IFEXISTSyo003.l224/
cursor,execute(del.gD
圖1-12數(shù)據(jù)向?qū)?輸入?yún)?shù)后
4、代碼執(zhí)行
完成參數(shù)填寫且保存后,即可提交代碼至服務器進行執(zhí)行,點擊【執(zhí)行】按
鈕,系統(tǒng)提示“已執(zhí)行,請稍后查看執(zhí)行結(jié)果”。
網(wǎng)站分忻
開發(fā)法言:卜
ython■新■保存胞行注am名故家向33出畋方
lapoxtre
fr<?(rmysqlx^sctComecticn
iWrtrequests
iBportjron
h?M-(
A?tl*1UWC?9/V?!?”,XEW.1tl??<1
已嶙行.麗衽?羯行絡軍
d>f*a^_hvull?c(?%vrrttccr*?x
url=*Mtp?//puA2af.eas...cyll240M??45W?30lS?3.!tte!?19CnR24fieldil=fWXf2B2CfMl
4r?reqwitK.(ur)fh?ad?rrh*?d)-t?Kt
&re.dearchf'dm':?.??!)\X>',dit,te.S).gco<p(l).i?placer)r">
dracjwn-jroi.lo?dF(dcO
lifttt-dat*_jMn('klir0?]
Me-linw(2(69:1
-0
fo:heinhehex
h-he.splitC?')
5Uut?append(h>
cc<r?-Ccriwction<(Yr9X))
cu:fc*=?rrkcurior0
&LR1-‘圖獷TA06IFMISTSyoOW.l2K/
cu:gcc?.JMCUS(dal.2)
圖1-13代碼執(zhí)行
5、查看結(jié)果
執(zhí)行代碼后,①鼠標單擊選中項目然后鼠標右鍵,②點擊【查看結(jié)果】,彈
出結(jié)果查看彈窗,如圖1T4。
14
開發(fā)Bl含:■??tt/F?行疾■?日P931B8
比ovmm電■金名I?|m??
(1)改名彝:yimot3.12240斂―216
圖1-14查看結(jié)果
注意:其余任務的操作方法與“任務一”的操作一致,在此不再贅述。注
意:操作時,需跳轉(zhuǎn)到當前任務中操作,如需進行任務二,點擊任務二按鈕進
入任務區(qū)域,不然會導致實訓內(nèi)容不正確。
15
二、“案例七綜合實訓I-大數(shù)據(jù)與電商”
(-)理論導入
數(shù)據(jù)化運營是指通過數(shù)據(jù)化的工具、技術和方法,對運營過程中的各個環(huán)節(jié)
進行科學分析、引導和應用,從而達到優(yōu)化運營效果和效率、降低成本、提高效
益的目的。
運營是一個范圍“彈性”非常大的概念,最大可以延伸到所有公司的事務管
理,最小可能只包括網(wǎng)站運營管理工作。
1、數(shù)據(jù)化運營的重要意義
數(shù)據(jù)化運營的核心是運營,所有數(shù)據(jù)工作都是圍繞運營工作鏈條展開的,逐
步強化數(shù)據(jù)對于運營工作的驅(qū)動作用。數(shù)據(jù)化運營的價值體現(xiàn)在對運營的輔助、
提升和優(yōu)化上,甚至某些運營工作已經(jīng)逐步數(shù)字化、自動化、智能化。
具體來說,數(shù)據(jù)化運營的意義如下:
1)提高運營決策效率。在信息瞬息萬變的時代,抓住轉(zhuǎn)瞬即逝的機會對企業(yè)
而言至關重要。決策效率越高意味著可以在更短的時間內(nèi)做出決策,從而跟上甚
至領先競爭對手。數(shù)據(jù)化運營可使輔助決策更便捷,使數(shù)據(jù)智能引發(fā)主動決策思
考,從而提前預判決策時機,并提高決策效率。
2)提高運營決策正確性。智能化的數(shù)據(jù)工作方式,可以基于數(shù)據(jù)科學方法進
行數(shù)據(jù)演練,并得出可量化的預期結(jié)果,再配合決策層的豐富經(jīng)驗,會提高運營決
策的正確性。
3)優(yōu)化運營執(zhí)行過程。數(shù)據(jù)化運營可以通過標準口徑的數(shù)據(jù)信息和結(jié)論,為
運營部門提供標準統(tǒng)一、目標明確的KPI管理,結(jié)合數(shù)據(jù)化的工作方法和思路,
優(yōu)化運營過程中的執(zhí)行環(huán)節(jié),從而降低溝通成本、提高工作效率、提升執(zhí)行效果。
4)提升投資回報。數(shù)據(jù)化運營過程中,通過對持續(xù)的正確工作目標的樹立、
最大化工作效率的提升、最優(yōu)化工作方法的執(zhí)行,能有效降低企業(yè)冗余支出,提升
單位成本的投資回報。
2、數(shù)據(jù)化運營的兩種方式
從數(shù)據(jù)發(fā)揮作用的角度來看,數(shù)據(jù)化運營分為輔助決策式數(shù)據(jù)化運營和數(shù)據(jù)
驅(qū)動式數(shù)據(jù)化運營。
(1)輔助決策式數(shù)據(jù)化運營
16
輔助決策式數(shù)據(jù)化運營是運營的決策支持,它是以決策主題為中心的,借助
計算機相關技術輔助決策者通過數(shù)據(jù)、模型、知識等進行業(yè)務決策,起到幫助、
協(xié)助和輔助決策者的目的。例如,通過為決策者提供商品促銷銷量信息,對企業(yè)的
促銷活動提供有關訂貨、銷售等方面的支持。
(2)數(shù)據(jù)驅(qū)動式數(shù)據(jù)化運營
數(shù)據(jù)驅(qū)動式數(shù)據(jù)化運營是指整個運營運作流程以最大化結(jié)果為目標,以關鍵
數(shù)據(jù)為觸發(fā)和優(yōu)化方式,將運營業(yè)務的工作流程、邏輯、技巧封裝為特定應用,
借助計算機技術并結(jié)合企業(yè)內(nèi)部流程和機制,形成一體化的數(shù)據(jù)化工作流程。例
如,個性化推薦就是一種數(shù)據(jù)驅(qū)動數(shù)據(jù)化運營方式。
輔助決策式數(shù)據(jù)化運營和數(shù)據(jù)驅(qū)動式數(shù)據(jù)化運營是兩個層次的數(shù)據(jù)應用,數(shù)
據(jù)驅(qū)動相對于輔助決策的實現(xiàn)難度更高、數(shù)據(jù)價,直體現(xiàn)更大。
?輔助決策式數(shù)據(jù)化運營為抄務決策方服務,整個過移都由運營人員掌控,
數(shù)據(jù)是輔助角色。
?數(shù)據(jù)驅(qū)動式數(shù)據(jù)化運營的過程由數(shù)據(jù)掌控,數(shù)據(jù)是主體,實現(xiàn)該過程需要
IT、自動化系統(tǒng)、算法等支持,數(shù)據(jù)驅(qū)動具有自主導向性、自我驅(qū)動性和效果導
向性。
由于數(shù)據(jù)和流程本身會存在缺陷,同時運營業(yè)務通常都有強制性規(guī)則的需
求,因此即使在數(shù)據(jù)驅(qū)動式數(shù)據(jù)化運營過程中也會加入人工干預因素。但即使如
此,數(shù)據(jù)作為數(shù)據(jù)驅(qū)動的核心是不變的,也就是說,數(shù)據(jù)是決策主體本身。
3、數(shù)據(jù)化運營的工作流程
數(shù)據(jù)驅(qū)動式數(shù)據(jù)化運營工作包含數(shù)據(jù)和運營兩個主體,在實際工作過程中需
要二者協(xié)同。在某些大型工作項目上,還有可能涉及與IT部門、信息中心等部
門的聯(lián)動。其工作流程分為3個階段:
(1)笫1階段:數(shù)據(jù)需求溝通
該階段主要包括需求產(chǎn)生和需求溝通兩個步驟。
1)需求產(chǎn)生:由運營部門產(chǎn)生的某些數(shù)據(jù)化運營需求,例如預測商品銷量、
找到異常訂單、確定營銷目標人群名單等。
2)需求溝通:針對運營部門提出的需求進行面對面溝通和交流,溝通主要
包含3方面:一是業(yè)務需求溝通,包括需求產(chǎn)生的背景、要解決的問題、預期達
17
到的效果等;二是數(shù)據(jù)現(xiàn)狀溝通,包括數(shù)據(jù)存儲環(huán)境、主要字段、數(shù)據(jù)字典、數(shù)
據(jù)量、更新頻率、數(shù)據(jù)周期等,如果沒有數(shù)據(jù)則需要制定數(shù)據(jù)采集規(guī)則并開始采
集數(shù)據(jù),該過程中可能需要IT部門的協(xié)助;三是數(shù)據(jù)與分析的關聯(lián)性溝通,根
據(jù)與運營人員的溝通,了解業(yè)務背景下哪些是常見的、帶有業(yè)務背景的數(shù)據(jù)、不
同場景會導致數(shù)據(jù)如何變化、分析中會涉及哪些關鍵字段或場景數(shù)據(jù)等,業(yè)務人
員豐富的經(jīng)驗會幫助數(shù)據(jù)工作者少走很多彎路。
(2)第2階段:數(shù)據(jù)分析建模
從這一階段開始進入正式的數(shù)據(jù)工作流程,包括獲取數(shù)據(jù)、數(shù)據(jù)預處理、數(shù)
據(jù)分析建模和數(shù)據(jù)結(jié)論輸出4個步驟。
1)獲取數(shù)據(jù):數(shù)據(jù)化運營分析所需的數(shù)據(jù)需要經(jīng)過特定授權從數(shù)據(jù)庫或文
件中得到。
2)數(shù)據(jù)預處理:在該過程中對數(shù)據(jù)進行質(zhì)量檢駱、樣本均衡、分類匯總、
合并數(shù)據(jù)集、刪除重復項、分區(qū)、排序、離散化、標準化、過濾變量、轉(zhuǎn)置、查
找轉(zhuǎn)換、脫敏、轉(zhuǎn)換、抽樣、異常值和缺失值處理等。
3)數(shù)據(jù)分析建模:運用多種數(shù)據(jù)分析和挖掘方法,對數(shù)據(jù)進行分析建模。
方法包括統(tǒng)計分析、OLAP分析、回歸、聚類、分類、關聯(lián)、異常檢測、時間序
列、協(xié)同過濾、主題模型、路徑分析、漏斗分析等。
4)數(shù)據(jù)結(jié)論輸出:數(shù)據(jù)結(jié)論的揄出有多種方式,常見的方式是數(shù)據(jù)分析或
挖掘建模報告,另外還包括Excel統(tǒng)計結(jié)果、數(shù)據(jù)API輸出、數(shù)據(jù)結(jié)果返回數(shù)據(jù)
庫、數(shù)據(jù)結(jié)果直接集成到應用程序中進行自動化運營(例如短信營銷)。
(3)第3階段:數(shù)據(jù)落地應用該階段是數(shù)據(jù)化運營落地的關鍵階段,前期所
有的準備和處理工作都通過該階段產(chǎn)生價值。該階段包括數(shù)據(jù)結(jié)論溝通、數(shù)據(jù)部
署應用及后續(xù)效果監(jiān)測和反饋3個步驟。
1)數(shù)據(jù)結(jié)論溝通:對手輸出為報告、Excel統(tǒng)計結(jié)果等形式的內(nèi)容,通常
都需要與運營對象進行深入溝通,主要溝通的內(nèi)容是將通過數(shù)據(jù)得到的結(jié)論和結(jié)
果與業(yè)務進行溝通,通過溝通來初步驗證結(jié)論的正確性、可靠性和可行性,并對
結(jié)果進行修正。如果沒有可行性,那么需要返回第2階段重新開始數(shù)據(jù)分析建模
流程。
2)數(shù)據(jù)部署應用:經(jīng)過溝通具有可行性的數(shù)據(jù)結(jié)論,可直接應用到運營執(zhí)
18
行環(huán)節(jié)。例如,將預測結(jié)果作為下一個月的KPI目標,將選擇出來的用戶作為重
點客戶進行二次營銷。
3)后續(xù)效果監(jiān)測和反饋:大多數(shù)的數(shù)據(jù)化運營分析都不是“一次性”的,
尤其當已經(jīng)進行部署應用之后,需要對之前的數(shù)據(jù)結(jié)論在實踐中的效果做二次驗
證,若有必要則需要進行結(jié)論的再次修正和意見反饋。
(二)實驗設計
1、白酒商品數(shù)據(jù)采集
(1)數(shù)據(jù)采集
在京東商城中,采集白酒類目下的商品數(shù)據(jù),數(shù)據(jù)指標包括產(chǎn)品重量(kg)
‘價格',‘儲存方法‘包裝','包裝清單’品牌‘,'商品產(chǎn)地’商品名
稱‘,'商品毛重‘,‘商品編號‘,'存儲方法‘容量',’店鋪‘,’度數(shù)‘標題
'省份','等級','規(guī)格‘,’貨號','適用人群','酒精度'釀造工藝‘,'
鏈接'香型,將數(shù)據(jù)儲存在MongoDB中。
(2)數(shù)據(jù)處理
將商品信息數(shù)據(jù)從MongoDB中導入到mysql數(shù)據(jù)庫,以便進行后續(xù)的數(shù)據(jù)處
理、統(tǒng)計與分析。
2、白酒商品評價數(shù)采集
(1)數(shù)據(jù)采集
由于京東商城不展示商品的銷售數(shù)量,采用商品的評論數(shù)代替銷量,爬取商
品中的評論數(shù),包括全部評價、好評、中評、差評數(shù)。
(2)數(shù)據(jù)處理
將商品評價數(shù)據(jù)從MongoDB中導入到mysql數(shù)據(jù)庫,以便進行后續(xù)的數(shù)據(jù)處
理、統(tǒng)計與分析。
3、數(shù)據(jù)清洗
查看采集的白酒商品數(shù)據(jù),對數(shù)據(jù)進行清洗
從商品名稱中提取“度數(shù)”數(shù)據(jù),統(tǒng)一規(guī)范化“香型”、“品牌”等數(shù)據(jù),
刪除非白酒產(chǎn)品等垃圾數(shù)據(jù)。
19
4、五糧液用戶評論分析
(1)用戶評論內(nèi)容采集
商品評價是最能反映產(chǎn)品好壞的標桿,通過采集五糧液商品的要陪你過戶評
論,研究用戶對產(chǎn)品的關注程度以及品牌。
(2)評論分詞
使用snownlp模塊對評論進行分詞,并通過Counter()函數(shù)統(tǒng)計分詞詞頻。
(3)詞云圖繪制
對用戶評價進行可視化,使用詞云圖呈現(xiàn),用wordcloud包的Wordcloud()
函數(shù)實現(xiàn)。
5、數(shù)據(jù)可視化
使用poworhi對商品數(shù)據(jù)進行可視化分析,powpr比操作方法詳見“案例
一單項實訓|-數(shù)據(jù)采集”中任務一的操作手冊,在此不再贅述。
(1)銷量與銷售額分析
①銷量
京東平臺上共有68種白酒品牌,銷量前十的品牌占據(jù)了整個市場銷售總量
的84.7%??梢姡M者受品牌知名度和品牌信任度的影響,對于知名大眾化品
牌的選擇遠遠超過小眾品牌。平臺中銷量最高的品牌為牛欄山,因其價格較低,
打破傳統(tǒng)高端白酒對市場的封鎖,銷量高于瀘州老窖等五個知名高端品牌,累計
銷量達800萬件,位居第一;近年來,白酒市場消費正向大眾化、平民化發(fā)展,
因此,汾酒、紅星等主打低價白酒的品牌銷售量也相對較大。
20
②銷售額
從銷售額來看,排名前五的均為知名高端白酒品牌,其中五糧液的銷售額遠
高于其他品牌,占全平臺白酒銷售總額的16.15%,其原因可以歸結(jié)于其品牌產(chǎn)
品數(shù)量較多、價格范圍覆蓋面大、知名度高,從而獲得了從高端到低端不同層次
消費者的喜愛。
結(jié)合銷量發(fā)現(xiàn),銷量大并不意味著銷售額也大。如銷量排名第一的牛欄山銷
售額排名在第四位,低廉的價格是其銷售額相對不高的主要原因;
(2)消賽傾向分析
21
①香型
隨著科學技術的進步、釀酒工業(yè)的發(fā)展,白酒的香型也更加豐富,從人們熟
知的濃香型、醬香型、清香型的三種發(fā)展到數(shù)十種。數(shù)據(jù)顯示,京東上售賣的白
酒仍主要集中為濃香、醬香和清香三種傳統(tǒng)香型,合計占比92.25%。其中又以
濃香型最多,遠高于其他香型。
占商品編號的計數(shù)的%GT(按香型)
[―3.51%(3.51%)
匿
?鳳百型
?齦郁香型
?兼百型
?濃香型
?清看型
消費者在購買時同樣更青睞濃香型、清香型和醬香型三種香型,其中清香型
銷量最高,說明清香型白酒在市場上是最普遍也是消費者更傾向購買的白酒香
型
22
占全部評價的%GT(按香型)VR???
「0.78%(0.78%)
香型
?鳳香型
■則凝
46.76%(46.76%)
?濃香型
?清曾型
②度數(shù)
從度數(shù)來看,呈現(xiàn)度數(shù)越低、銷量越少的趨勢。消費者更傾向于購買5D度
以上的白酒,其銷量占平臺總銷量的72.12%。俗話說“酒是陳的香”,而酒精
度40度以下的低度白酒在存放一段時間后會因酯類物質(zhì)水解導致口味寡淡,且
日常生活中消費者存在購買白酒以備日后飲用的暗況,因此消費者更多傾向于購
買高度白酒。
23
占翎B評價的%GT(按度數(shù)分組)
6.40%(6.4%)廠0Q0%9%)
度數(shù)分組
?35-39度
?35度以下
?40-49度
?50度以上
?其他
銷量排名前的白酒度數(shù)均在40度及以上,其中52-53度的白酒最受歡迎。
由于水分子和酒精分子締合最好的度數(shù)是在52-53度,且這個度數(shù)的白酒口感
比較協(xié)調(diào),能夠品嘗出白酒豐富的層次感,所以銷量最高的白酒都是在52-53度
左右O
24
全部評價(按du_value和du_value)
du.value?0?42?43?45*48?50?52?53?56?62
70
60:
50
a.40
?
w30
20
10
0
0百萬2百萬4百萬6百萬8百萬10百萬12百萬
全部評價
(3)價格分析
①價格與銷量
平臺中白酒的銷量呈現(xiàn)隨價格的增加而減少的趨勢。售價低于200元的白
酒銷量占37.72%,遠超其余價格區(qū)間,而價格在千元以上的高端白酒銷量僅占
比15.18隊說明部分消費者雖有購買高端白酒的需求,但大部分消費者在購買
白酒時更注重仍為價格因素。
25
占全部評價的%GT(按價格分組)
價格分組
?1000-12007E
?1200UUZ
?2004)0元
■200元以下
?400-600元
■600-800元
?800-100(沅
(4)評論分析
商品評價是最能反映產(chǎn)品好壞的標桿。五糧液有白酒種類多、價格分布廣的
特點,是一個比較典型且值得研究的品牌。報告采集了京東網(wǎng)中消費者對于五糧
液的產(chǎn)品的評論數(shù)據(jù)匯成詞云圖。詞云圖數(shù)據(jù)顯示,“設計”、“包裝”、“口
感”、“速度”等標簽表明消費者對比較重視這幾個方面。同時“好”、“不錯”
這幾個標簽表明了消費者對于五糧液白酒的認可。
26
便宜京
艮復家鼻到東
開爆住
?屣
氐土彝髯
a
課lp
雪l
賽老他
□□
致^
r
—
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工保密協(xié)議合同
- 礦權轉(zhuǎn)讓居間合同
- 房產(chǎn)出售委托協(xié)議書
- 旅游服務合作協(xié)議
- 公路工程投資合伙協(xié)議
- 人教版五年級下冊數(shù)學求最大公因數(shù)練習300題及答案
- 鐵肩中學門衛(wèi)合同8篇
- 第1課 殖民地人民的反抗斗爭(教學設計) 九年級歷史下冊同步高效課堂(部編版)
- 第十章 第4節(jié) 跨學科實踐:制作微型密度計(教學設計)2024-2025學年度人教版(2024)物理八年級下冊
- 房屋健康監(jiān)測設備安裝協(xié)議
- 儲能項目工具【Excel計算表】用戶側(cè)儲能電站投資收益分析表(修正版)
- 汽車駕駛員高級工題庫與答案
- 《網(wǎng)絡安全防護項目教程》課件項目4 數(shù)據(jù)庫安全防護
- 2023年血液安全技術核查指南(醫(yī)療機構)
- 手術室標本管理及送檢評分標準
- 幫朋友貸款免責協(xié)議書范本
- 工地試驗室建設方案(模板)
- 營銷經(jīng)理勞務合同
- 新概念英語第二冊考評試卷含答案(第73-80課)
- 《物流無人機垂直起降場選址與建設規(guī)范(征求意見稿)》
- 中醫(yī)腕踝針技術
評論
0/150
提交評論