大數(shù)據(jù)應(yīng)用基礎(chǔ)統(tǒng)計(jì)學(xué)_第1頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)統(tǒng)計(jì)學(xué)_第2頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)統(tǒng)計(jì)學(xué)_第3頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)統(tǒng)計(jì)學(xué)_第4頁
大數(shù)據(jù)應(yīng)用基礎(chǔ)統(tǒng)計(jì)學(xué)_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)1目錄批判性思維統(tǒng)計(jì)學(xué)思維A/B測(cè)試統(tǒng)計(jì)學(xué)方法分類2懂統(tǒng)計(jì)學(xué)有什么用?能更好地辨別各種分析。3熟悉一下常見的批判性思維4歧義語言經(jīng)常是模糊的。有些詞是多義詞。聽眾要結(jié)合上下文弄明白發(fā)言者的每個(gè)詞的確切意思。發(fā)言者要界定清楚那些多義詞的確切含義。5因果關(guān)系以先后論因果:A在B之后發(fā)生,不見得說明A會(huì)導(dǎo)致B很多事情發(fā)生的原因其實(shí)不止一個(gè)不應(yīng)盲目以結(jié)果好壞判斷決定的優(yōu)劣分析的結(jié)論不一定只有一個(gè)6證據(jù)與信息源發(fā)言者有時(shí)把個(gè)人經(jīng)歷、典型個(gè)案、專家意見作為證據(jù)。這些證據(jù)都可靠嗎?發(fā)言者是否省略了重要的數(shù)據(jù)信息源可靠嗎?發(fā)言者所引用的數(shù)據(jù)是否來歷不明7證據(jù)從眾心理:大家都認(rèn)為如此,就一定如此嗎?共識(shí)有可能是危險(xiǎn)的。就算有數(shù)百萬人聲稱某件蠢事是對(duì)的,這件蠢事也不會(huì)因此成為聰明之舉。虛假類比——他總玩游戲但是上MIT了,你跟他都是人,所以你總玩游戲也能上MIT。樣本能代表總體嗎?樣本有代表性嗎?樣本足夠大嗎?8個(gè)人經(jīng)驗(yàn)可靠嗎?你是否糾纏于沉沒成本?為什么我們?cè)囘^衣服后一般就會(huì)買下來?為什么經(jīng)驗(yàn)有時(shí)讓人變蠢?為什么拿錘子的人會(huì)把一切看成釘子?為什么自己做的菜吃起來更香?為什么我們會(huì)認(rèn)為現(xiàn)狀最好?9分析一下發(fā)言者的背景和目的應(yīng)該試圖了解發(fā)言者的背景、并判斷其可能想要達(dá)到的目的。發(fā)言者是否試圖轉(zhuǎn)移別人的注意力,回避真正的問題。為什么推銷員說出產(chǎn)品缺陷時(shí),我們也須謹(jǐn)慎?顯眼的不一定等于是重要的為什么我們不要購買包裝過于精美的產(chǎn)品?為什么要忽略討人喜歡的推銷員?10典型的統(tǒng)統(tǒng)計(jì)學(xué)思思維11重視變異異性應(yīng)高度關(guān)關(guān)注變異異性,不不要用平均數(shù)數(shù)來掩蓋蓋異常值值。在社會(huì)會(huì)上,對(duì)對(duì)平均值值的濫用用隨處可可見。平均值就就像安眠眠藥,把你催催眠,但但你沒有注意意到變異異性,就有可可能帶來來損失。。比如,一一個(gè)富翁翁走入一一家坐滿滿了窮人人的酒吧吧,酒吧吧里人均均收入將將迅速提提升,但但每個(gè)窮窮人并沒沒有因此此致富。。比如,有有兩家公公司的年年均增長(zhǎng)長(zhǎng)率都相相同,但但是其中中一家每每年增長(zhǎng)長(zhǎng)率很穩(wěn)穩(wěn)定,而而另一家家的每年年的增長(zhǎng)長(zhǎng)率不斷斷上下波波動(dòng),那那么顯然然,兩家家公司的的資金需需求就截截然不同同了。12重視組間間差異如果組間間存在差差異,就就應(yīng)該把把幾個(gè)組組分開,,而不應(yīng)應(yīng)合并起起來統(tǒng)計(jì)計(jì)。不同的組有時(shí)時(shí)是不具具有可比比性的。13不要過分分在意小小概率事事件不要過分分在意小小概率事事件:遭遭遇空難難和中彩彩票其實(shí)實(shí)都是小小概率事事件,發(fā)發(fā)生的可可能性很很小,所所以不必為了了活命而而懼怕坐坐飛機(jī),也不必必為了賺賺錢而玩玩彩票。。在個(gè)體體遇到醫(yī)醫(yī)療健康康相關(guān)的的問題,或者企企業(yè)家遇到經(jīng)營(yíng)營(yíng)管理問問題的時(shí)時(shí)候,都都容易以以偏概全全,認(rèn)為為個(gè)人體體驗(yàn)到的的就是總總體的全全局的情情況。另一方面面,如果果你覺得得奇跡的的發(fā)生是是天意,,你就錯(cuò)錯(cuò)了。幾幾乎不可可能發(fā)生生的事件也有有發(fā)生的的必然性。。14盡量提高高預(yù)測(cè)精精度在有監(jiān)督督學(xué)習(xí)中中,應(yīng)努努力減少假陰陰性和假假陽性,,兩者都都要盡量量減少。比如,在通過過分析網(wǎng)網(wǎng)上數(shù)據(jù)據(jù)識(shí)別恐恐怖分子子時(shí),如如果寧可可錯(cuò)殺三三千,不不可放過過一個(gè),,那么很很可能會(huì)會(huì)冤枉很很多好人人。15重視隨機(jī)機(jī)對(duì)照試試驗(yàn)和回回歸分析析相關(guān)關(guān)系系并不等等同于因因果關(guān)系系。最強(qiáng)的用于檢檢測(cè)因果果關(guān)系的的統(tǒng)計(jì)學(xué)學(xué)武器:隨隨機(jī)對(duì)照照試驗(yàn)無法進(jìn)行行隨機(jī)對(duì)對(duì)照試驗(yàn)驗(yàn)時(shí)該怎怎么辦??做回回歸分析析。16回歸分析析中的遺遺漏變量量偏差在回歸分分析時(shí),,有時(shí)會(huì)會(huì)出現(xiàn)變量遺漏漏偏差。比比如,有有研究認(rèn)認(rèn)為“常常打高爾爾夫易患患心臟病病、癌癥癥和關(guān)節(jié)節(jié)炎”——真的嗎??其實(shí)是是因?yàn)榇虼蚋郀柗蚍蛘吣挲g齡更大,,疾病多多只是因因?yàn)槟挲g齡大而已已。一些教育育學(xué)者就就常常用用數(shù)據(jù)說說話,聲聲稱電子子游戲會(huì)會(huì)加大孩孩子的暴暴力傾向向,卻遺漏了暴力傾傾向加大大有著多多重誘因因。家庭庭教育、、父母性性格及行行為習(xí)慣慣所起到到的作用用更大。。17循環(huán)論證證即便存在在因果關(guān)關(guān)系,因因與果之之間可能能會(huì)存在在雙向影影響。需需要在得得出結(jié)論論前把這這一點(diǎn)考考慮到。。是否存在在循環(huán)論論證?18統(tǒng)計(jì)學(xué)思思維的通通俗入門門書《看穿一切切數(shù)字的的統(tǒng)計(jì)學(xué)學(xué)》《赤裸裸的的統(tǒng)計(jì)學(xué)學(xué)》《數(shù)據(jù)統(tǒng)治治世界》19A/B測(cè)試A/B測(cè)試是互聯(lián)網(wǎng)網(wǎng)產(chǎn)品設(shè)設(shè)計(jì)人員員最熟悉悉的網(wǎng)頁頁優(yōu)化方法法,能夠夠?qū)Ρ炔徊煌姹颈镜脑O(shè)計(jì)計(jì),選取取更吸引引用戶眼眼球的那那一款,,以便增增加用戶戶點(diǎn)擊、、回訪、、購買等等行為,,或者增增加轉(zhuǎn)化化率注冊(cè)冊(cè)率等。。為了搞搞清楚楚哪個(gè)個(gè)功能能或設(shè)設(shè)計(jì)更更好,,每個(gè)個(gè)網(wǎng)站站或移移動(dòng)應(yīng)應(yīng)程序序的數(shù)數(shù)據(jù)科科學(xué)家家都離離不開開A/B測(cè)試工工具。。A/B測(cè)試有有點(diǎn)類類似于于統(tǒng)計(jì)學(xué)學(xué)里面面的隨隨機(jī)對(duì)對(duì)照實(shí)實(shí)驗(yàn)。。20A/B測(cè)試的的重要要性不少互互聯(lián)網(wǎng)網(wǎng)巨頭頭都是是A/B測(cè)試的的忠實(shí)實(shí)信徒徒,這這其中中就包包括Google、Amazon、Bing、Netflix等。搜索引引擎、、有推薦薦系統(tǒng)統(tǒng)的網(wǎng)站、、大型型門戶戶網(wǎng)站站往往往非常常倚重重A/B測(cè)試。。這種種公司司的網(wǎng)網(wǎng)站設(shè)設(shè)計(jì)很很多時(shí)時(shí)候是是數(shù)據(jù)據(jù)驅(qū)動(dòng)動(dòng)的。。谷歌連連工具具欄上上的顏顏色選選擇也也要A/B測(cè)試。21A/B測(cè)試的的步驟驟使用A/B測(cè)試首首先需需要建建立一一個(gè)測(cè)測(cè)試頁頁面((variationpage),這這個(gè)頁頁面可可能在在標(biāo)題題字體體、背背景顏顏色、、措辭辭等方方面與與原有有頁面面(controlpage)有所不不同。。然后將這兩兩個(gè)頁頁面以以隨機(jī)機(jī)的方方式同同時(shí)推推送給給所有有瀏覽覽用戶戶。接下來來分別統(tǒng)統(tǒng)計(jì)兩兩個(gè)頁頁面的的用戶戶轉(zhuǎn)化化率,,即可可清晰晰的了了解到到兩種種設(shè)計(jì)計(jì)的優(yōu)優(yōu)劣。。22A/B測(cè)試怎怎樣識(shí)識(shí)別用用戶它通過過Cookie或用戶戶名識(shí)識(shí)別用用戶。。它對(duì)同同一個(gè)個(gè)用戶戶展現(xiàn)現(xiàn)同一一個(gè)版版本。。所以以,同同一個(gè)個(gè)用戶戶不會(huì)會(huì)發(fā)現(xiàn)現(xiàn)不同同的測(cè)測(cè)試版版本。。不過過,如如果你你換臺(tái)臺(tái)電腦腦,可可能就就會(huì)發(fā)發(fā)現(xiàn)網(wǎng)網(wǎng)站的的不同同版本本。23A/B測(cè)試的局限限性必須在在有大大量被被測(cè)用用戶的的前提提下,,才是是有意意義的的。很很多用用戶少少的網(wǎng)網(wǎng)站不不適合合做這這種測(cè)測(cè)試。。它是為為了驗(yàn)驗(yàn)證已已有產(chǎn)產(chǎn)品想想法。。你只只有知知道A方案和和B方案分分別是是什么么,才才能去去比較較這兩兩種方方案。。你在A和B之間做做比較較的時(shí)時(shí)候,,可能能會(huì)忽忽略了了其他他很多多可能能更好好的方方案24A/B測(cè)試的基本本注意意事項(xiàng)項(xiàng)A/B測(cè)試必必須是是單變量一般都都著眼眼于轉(zhuǎn)轉(zhuǎn)化率率注意控制訪訪問各各個(gè)版版本的的人數(shù)數(shù),大大多數(shù)數(shù)情況況下希希望將將訪問問者平平均分分配到到各個(gè)個(gè)不同同的版版本上上。不一定定僅限限于分分成兩兩個(gè)組組。分分成多多個(gè)組組也可可以。。要確保保兩個(gè)個(gè)組的的用戶戶是來來自同同一個(gè)個(gè)總體體的,,也就就是說說它們們的特特征要要相同同。否否則,,組間間的轉(zhuǎn)轉(zhuǎn)化率率的差差異到到底是是由于于用戶戶本身身的差差異造造成的的,還還是真真的由由于A和B兩種方方案的的不同同而造造成的的,就就很難難說清清楚了了。25你可以以對(duì)比比不同同標(biāo)題題或文文案的的效果果26你還可可以對(duì)比不同圖圖片的的效果果27你可以以對(duì)比比不同同按鈕鈕設(shè)計(jì)計(jì)的效效果例如,,“立即購購買?。。˙uyNow!)””按鈕鈕在某個(gè)個(gè)主頁頁上效果果不佳。。我們們可以以嘗試改改變按按鈕的的形狀狀、大大小、、顏色色或者者位置。。28A/B測(cè)試服服務(wù)商商的出出現(xiàn)有些公公司幫幫助網(wǎng)網(wǎng)站或或移動(dòng)動(dòng)應(yīng)用用更便便捷地地做A/B測(cè)試::Optimizely、Leanplum、Splitforce、PredictiveEdge等。這種工工具可可以幫幫助小小白用用戶測(cè)測(cè)試網(wǎng)網(wǎng)站的的不同同版本本。用用戶可可以輕輕松地地測(cè)試試不同同版本本的對(duì)對(duì)比效效果,,從而而選擇擇出效效果最最好的的網(wǎng)頁頁版本本,或或者選選出最最適合合某種種特定定訪客客的網(wǎng)網(wǎng)頁版版本。。這種測(cè)測(cè)試工工具能能幫助助營(yíng)銷銷人員員測(cè)試試和優(yōu)優(yōu)化網(wǎng)網(wǎng)站,,非常常適合合銷售售、市市場(chǎng)、、公關(guān)關(guān)等人人員使使用。。有了了這種種工具具,營(yíng)營(yíng)銷人人員不不一定定要求求助于于公司司IT人員。。這種公公司的的收費(fèi)費(fèi)依據(jù)可可以是是:參加加測(cè)試的的用戶戶數(shù)量29A/B測(cè)試服服務(wù)商商的出出現(xiàn)Optimizely、PredictiveEdge都是2010年前后后成立立的,,成立立之初初都是是幫網(wǎng)網(wǎng)站做做A/B測(cè)試的的。近近來才才開始始幫app做測(cè)試試。將將來的的趨勢(shì)勢(shì)是,,它們們還會(huì)會(huì)幫可可穿戴戴設(shè)備備、實(shí)實(shí)體零零售店店做測(cè)測(cè)試。。有些公公司專專門幫幫助移移動(dòng)app做A/B測(cè)試::Leanplum(2012年成立立)、、Splitforce。30A/B測(cè)試服服務(wù)商商的出出現(xiàn)這些公公司的的創(chuàng)始始人大大多之之前具具有主主要的的互聯(lián)聯(lián)網(wǎng)產(chǎn)產(chǎn)品的的測(cè)試試的經(jīng)經(jīng)驗(yàn)。例如,Leanplum的兩位位創(chuàng)始始人之之前在在谷歌歌做測(cè)測(cè)試工工作。。Optimizely的創(chuàng)始始人曾曾擔(dān)任任GoogleChrome產(chǎn)品經(jīng)經(jīng)理,,并曾曾擔(dān)任任奧巴巴馬競(jìng)競(jìng)選活活動(dòng)的的網(wǎng)站站分析析主管管。31App推送領(lǐng)域的的A/B測(cè)試服服務(wù)A/B測(cè)試在在應(yīng)用用推送送領(lǐng)域域也有有運(yùn)用用。例例如,,app消息推推送服服務(wù)商商(swrve、個(gè)推推等))開通通了A/B測(cè)試功功能。。3233互聯(lián)網(wǎng)網(wǎng)巨頭頭也提提供A/B測(cè)試工工具對(duì)于網(wǎng)網(wǎng)站來來說::谷歌歌的WebsiteOptimizer或者VWO(VisualWebsiteOptimizer)對(duì)于app來說::AmazonAppstore、GooglePlay34網(wǎng)頁推推送領(lǐng)域域的A/B測(cè)試服服務(wù)FacebookParse增加了了一項(xiàng)全全新的的功能能--ParsePushExperiments。35網(wǎng)頁推推送領(lǐng)領(lǐng)域的的A/B測(cè)試服服務(wù)在ParsePushExperiments功能下,開開發(fā)者者可輕輕松地地創(chuàng)建建用于于推送送通知知的A/B測(cè)試,,這樣樣他就就能對(duì)對(duì)數(shù)據(jù)據(jù)進(jìn)行行分析析然后后了解解怎樣樣的內(nèi)內(nèi)容以以及怎怎樣的的時(shí)機(jī)機(jī)才是是最有有效的的。36網(wǎng)頁推推送領(lǐng)領(lǐng)域的的A/B測(cè)試服服務(wù)開發(fā)者者可在在測(cè)試試結(jié)束束之后后通過過數(shù)據(jù)據(jù)分析析選擇擇反響響更好好的那那組通通知內(nèi)內(nèi)容進(jìn)進(jìn)行推推送。。37統(tǒng)計(jì)學(xué)學(xué)方法法38常見的的統(tǒng)計(jì)計(jì)方法法描述性性統(tǒng)計(jì)計(jì):這是是最基基本的的一類類統(tǒng)計(jì)計(jì)方法法。方差分分析(ANOVA)因子分分析(factoranalysis)回歸(regression):這這是最最常用用的一一種。。OLS回歸::適于于因變變量是是連續(xù)續(xù)值的的情形形。廣義線線性模模型(generalizedlinearmodels):主主要包包括邏邏輯回回歸((logisticregression)和泊松松回歸歸(poissonregression)。它它們適適于因因變量量不是是連續(xù)續(xù)值的的情形形。生存分分析((survivalanalysis)判別分分析((discriminantanalysis)39T檢驗(yàn)它往往往用于于比較較兩個(gè)個(gè)組的的轉(zhuǎn)化化率、、訪問問次數(shù)數(shù)等是是否有有明顯顯差異異。具具體有有兩種種:對(duì)照組組和干干預(yù)組組這兩兩個(gè)組組的用用戶群群體的的對(duì)比比:采采用獨(dú)獨(dú)立組組樣本本T檢驗(yàn)。。比如,,可以以看看看兩組組用戶戶的轉(zhuǎn)轉(zhuǎn)化率率是否否有明明顯差差異。。比較同同一組用戶戶在運(yùn)運(yùn)營(yíng)活活動(dòng)的的前后后的訪訪問活活躍度度的差差異::采用用配對(duì)對(duì)組樣樣本T檢驗(yàn)。。這種檢檢驗(yàn)有有助于于說明明運(yùn)營(yíng)營(yíng)活動(dòng)動(dòng)是否否明顯顯提升升了用用戶的的訪問活活躍度度。40方差分分析方差分分析用用來檢檢驗(yàn)多多個(gè)總總體的的均值值是否否相等等。換換言之之,它它可以以確定定各總總體的的均值值之間間是否否存在在差異異。它用來來研究究分類類型自自變量量對(duì)數(shù)數(shù)值型型(連連續(xù)型型)因因變量量的影影響。。它可看看成是是t檢驗(yàn)的的擴(kuò)展展。t檢驗(yàn)用用于兩兩組連連續(xù)型型因變變量的的比較較;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論