數(shù)分必備干貨,64個數(shù)據(jù)分析常用術(shù)語詳解_第1頁
數(shù)分必備干貨,64個數(shù)據(jù)分析常用術(shù)語詳解_第2頁
數(shù)分必備干貨,64個數(shù)據(jù)分析常用術(shù)語詳解_第3頁
數(shù)分必備干貨,64個數(shù)據(jù)分析常用術(shù)語詳解_第4頁
數(shù)分必備干貨,64個數(shù)據(jù)分析常用術(shù)語詳解_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)分必備干貨|64個數(shù)據(jù)分析常用術(shù)語詳解1、絕對數(shù)和相對數(shù)絕對數(shù):是反應(yīng)客觀現(xiàn)象總體在一定時間、一定地點下的總規(guī)模、總水平的綜合性指標,也是數(shù)據(jù)分析中常用的指標。比如年GDP,總?cè)丝诘鹊?。相對?shù):是指兩個有聯(lián)系的指標計算而得出的數(shù)值,它是反應(yīng)客觀現(xiàn)象之間的數(shù)量聯(lián)系緊密程度的綜合指標。相對數(shù)一般以倍數(shù)、百分數(shù)等表示。相對數(shù)的計算公式:相對數(shù)=比較值(比數(shù))/基礎(chǔ)值(基數(shù))2、百分比和百分點百分比:是相對數(shù)中的一種,它表示一個數(shù)是另一個數(shù)的百分之幾,也稱為百分率或百分數(shù)。百分比的分母是100,也就是用1%作為度量單位,因此便于比較。百分點:是指不同時期以百分數(shù)的形式表示的相對指標的變動幅度,1%等于1個百分點。3、頻數(shù)和頻率頻數(shù):一個數(shù)據(jù)在整體中出現(xiàn)的次數(shù)。頻率:某一事件發(fā)生的次數(shù)與總的事件數(shù)之比。頻率通常用比例或百分數(shù)表示。4、比例與比率比例:是指在總體中各數(shù)據(jù)占總體的比重,通常反映總體的構(gòu)成和比例,即部分與整體之間的關(guān)系。比率:是樣本(或總體)中各不同類別數(shù)據(jù)之間的比值,由于比率不是部分與整體之間的對比關(guān)系,因而比值可能大于1。5、倍數(shù)和番數(shù)倍數(shù):用一個數(shù)據(jù)除以另一個數(shù)據(jù)獲得,倍數(shù)一般用來表示上升、增長幅度,一般不表示減少幅度。番數(shù):指原來數(shù)量的2的n次方。6、同比和環(huán)比同比:指的是與歷史同時期的數(shù)據(jù)相比較而獲得的比值,反應(yīng)事物發(fā)展的相對性。環(huán)比:指與上一個統(tǒng)計時期的值進行對比獲得的值,主要反映事物的逐期發(fā)展的情況。7、變量變量來源于數(shù)學,是計算機語言中能儲存計算結(jié)果或能表示值抽象概念。變量可以通過變量名訪問。8、連續(xù)變量在統(tǒng)計學中,變量按變量值是否連續(xù)可分為連續(xù)變量與離散變量兩種。在一定區(qū)間內(nèi)可以任意取值的變量叫連續(xù)變量,其數(shù)值是連續(xù)不斷的,相鄰兩個數(shù)值可作無限分割,即可取無限個數(shù)值。如:年齡、體重等變量。9、離散變量離散變量的各變量值之間都是以整數(shù)斷開的,如人數(shù)、工廠數(shù)、機器臺數(shù)等,都只能按整數(shù)計算。離散變量的數(shù)值只能用計數(shù)的方法取得。10、定性變量又名分類變量:觀測的個體只能歸屬于幾種互不相容類別中的一種時,一般是用非數(shù)字來表達其類別,這樣的觀測數(shù)據(jù)稱為定性變量。可以理解成可以分類別的變量,如學歷、性別、婚否等。11、均值即平均值,平均數(shù)是表示一組數(shù)據(jù)集中趨勢的量數(shù),是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù)。12、中位數(shù)對于有限的數(shù)集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數(shù)。如果觀察值有偶數(shù)個,通常取最中間的兩個數(shù)值的平均數(shù)作為中位數(shù)。13、缺失值它指的是現(xiàn)有數(shù)據(jù)集中某個或某些屬性的值是不完全的。14、異常值指一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。15、方差是衡量隨機變量或一組數(shù)據(jù)時離散程度的度量。概率論中方差用來度量隨機變量和其數(shù)學期望(即均值)之間的偏離程度。統(tǒng)計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數(shù)據(jù)和期望值相差的度量值。16、標準差又常稱均方差,是離均差平方的算術(shù)平均數(shù)的平方根,用σ表示。標準差是方差的算術(shù)平方根。標準差能反映一個數(shù)據(jù)集的離散程度。平均數(shù)相同的兩組數(shù)據(jù),標準差未必相同。17、皮爾森相關(guān)系數(shù)皮爾森相關(guān)系數(shù)是用來反映兩個變量線性相關(guān)程度的統(tǒng)計量。相關(guān)系數(shù)用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關(guān)強弱的程度。r的絕對值越大表明相關(guān)性越強。18、PV(PageView)頁面瀏覽量指某段時間內(nèi)訪問網(wǎng)站或某一頁面的用戶的總數(shù)量,通常用來衡量一篇文章或一次活動帶來的流量效果,也是評價網(wǎng)站日常流量數(shù)據(jù)的重要指標。PV可重復(fù)累計,以用戶訪問網(wǎng)站作為統(tǒng)計依據(jù),用戶每刷新一次即重新計算一次。19、UV(UniqueVisitor)獨立訪客指來到網(wǎng)站或頁面的用戶總數(shù),這個用戶是獨立的,同一用戶不同時段訪問網(wǎng)站只算作一個獨立訪客,不會重復(fù)累計,通常以PC端的Cookie數(shù)量作為統(tǒng)計依據(jù)。20、Visit訪問指用戶通過外部鏈接來到網(wǎng)站,從用戶來到網(wǎng)站到用戶在瀏覽器中關(guān)閉頁面,這一過程算作一次訪問。21、BounceRate跳出率指用戶通過鏈接來到網(wǎng)站,在當前頁面沒有任何交互就離開網(wǎng)站的行為,這就算作此頁面增加了一個“跳出”,跳出率一般針對網(wǎng)站的某個頁面而言。跳出率=在這個頁面跳出的用戶數(shù)/PV22、退出率一般針對某個頁面而言。指用戶訪問某網(wǎng)站的某個頁面之后,從瀏覽器中將與此網(wǎng)站相關(guān)的所有頁面全部關(guān)閉,就算此頁面增加了一個“退出“。退出率=在這個頁面退出的用戶數(shù)/PV23、Click點擊一般針對付費廣告而言,指用戶點擊某個鏈接、頁面、banner的次數(shù),可重復(fù)累計。比如我在PC端看到一則新聞鏈接點進去看了一會就關(guān)了,過了一會又點進去看了一遍,這就算我為這篇新聞貢獻兩次點擊。24、avr.time平均停留時長指某個頁面被用戶訪問,在頁面停留時長的平均值,通常用來衡量一個頁面內(nèi)容的質(zhì)量。avr.time=訪客數(shù)量/用戶總停留時長25、CTR點擊率指某個廣告、Banner、URL被點擊的次數(shù)和被瀏覽的總次數(shù)的比值。一般用來考核廣告投放的引流效果。CTR=點擊數(shù)(click)/被用戶看到的次數(shù)26、Conversionrate轉(zhuǎn)化率指用戶完成設(shè)定的轉(zhuǎn)化環(huán)節(jié)的次數(shù)和總會話人數(shù)的百分比,通常用來評價一個轉(zhuǎn)化環(huán)節(jié)的好壞,如果轉(zhuǎn)化率較低則需優(yōu)化該轉(zhuǎn)化環(huán)節(jié)。轉(zhuǎn)化率=轉(zhuǎn)化會話數(shù)/總會話數(shù)27、漏斗通常指產(chǎn)生目標轉(zhuǎn)化前的明確流程,比如在淘寶購物,從點擊商品鏈接到查看詳情頁,再到查看顧客評價、領(lǐng)取商家優(yōu)惠券,再到填寫地址、付款,每個環(huán)節(jié)都有可能流失用戶,這就要求商家必須做好每一個轉(zhuǎn)化環(huán)節(jié),漏斗是評價轉(zhuǎn)化環(huán)節(jié)優(yōu)劣的指標。28、投資回報率

(ROI:ReturnOnInvestment)反映投入和產(chǎn)出的關(guān)系,衡量我這個投資值不值得,能給到我多少價值的東西(非單單的利潤),這個是站在投資的角度或長遠生意上看的。其計算公式為:投資回報率(ROI)=年利潤或年均利潤/投資總額×100%,通常用于評估企業(yè)對于某項活動的價值,ROI高表示該項目價值高。29、重復(fù)購買率指消費者在網(wǎng)站中的重復(fù)購買次數(shù)30、流失分析

(ChurnAnalysis)描述哪些顧客可能停止使用公司的產(chǎn)品/業(yè)務(wù),以及識別哪些顧客的流失會帶來最大損失。流失分析的結(jié)果用于為可能要流失的顧客準備新的優(yōu)惠。31、顧客細分&畫像

(CustomerSegmentation&Profiling)根據(jù)現(xiàn)有的顧客數(shù)據(jù),將特征、行為相似的顧客歸類分組。描述和比較各組。32、顧客的生命周期價值

(LifetimeValue,LTV)顧客在他/她的一生中為一個公司產(chǎn)生的預(yù)期折算利潤。33、購物籃分析

(MarketBasketAnalysis)識別在交易中經(jīng)常同時出現(xiàn)的商品組合或服務(wù)組合,例如經(jīng)常被一起購買的產(chǎn)品。此類分析的結(jié)果被用于推薦附加商品,為陳列商品的決策提供依據(jù)等。34、實時決策

(RealTimeDecisioning,RTD)幫助企業(yè)做出實時(近乎無延遲)的最優(yōu)銷售/營銷決策。比如,實時決策系統(tǒng)(打分系統(tǒng))可以通過多種商業(yè)規(guī)則或模型,在顧客與公司互動的瞬間,對顧客進行評分和排名。35、留存/顧客留存

(Retention/CustomerRetention)指建立后能夠長期維持的客戶關(guān)系的百分比。36、相關(guān)性分析

(Correlationanalysis)是一種數(shù)據(jù)分析方法,用于分析變量之間是否存在正相關(guān),或者負相關(guān)。37、生存分析

(SurvivalAnalysis)估測一名顧客繼續(xù)使用某業(yè)務(wù)的時間,或在后續(xù)時段流失的可能性。此類信息能讓企業(yè)判斷所要預(yù)測時段的顧客留存,并引入合適的忠誠度政策。38、算法

(Algorithms)可以完成某種數(shù)據(jù)分析的數(shù)學公式。39、商業(yè)智能

(BusinessIntelligence)分析數(shù)據(jù)、展示信息以幫助企業(yè)的執(zhí)行者、管理層、其他人員進行更有根據(jù)的商業(yè)決策的應(yīng)用、設(shè)施、工具、過程。40、分類分析

(Classificationanalysis)從數(shù)據(jù)中獲得重要的相關(guān)性信息的系統(tǒng)化過程;這類數(shù)據(jù)也被稱為元數(shù)據(jù)(metadata),是描述數(shù)據(jù)的數(shù)據(jù)。41、聚類分析

(Clusteringanalysis)它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性。42、對比分析

(Comparativeanalysis)在非常大的數(shù)據(jù)集中進行模式匹配時,進行一步步的對比和計算過程得到分析結(jié)果。43、數(shù)據(jù)分析

(DataAnalysis)是指根據(jù)分析目的,用適當?shù)姆治龇椒肮ぞ?,對?shù)據(jù)進行處理與分析,提取有價值的信息,形成有效結(jié)論的過程。44、數(shù)據(jù)處理

(DataProcessing)數(shù)據(jù)處理是指根據(jù)數(shù)據(jù)分析的目的,將收集到的數(shù)據(jù)進行加工、整理,形成適合數(shù)據(jù)分析的樣式,它是數(shù)據(jù)分析前必不可少的階段。45、數(shù)據(jù)挖掘

(Datamining)數(shù)據(jù)挖掘是通過使用復(fù)雜的模式識別技術(shù),從而找到有意義的模式,并得出大量數(shù)據(jù)的見解。46、數(shù)據(jù)清洗

(Datacleansing)對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。47、數(shù)據(jù)質(zhì)量

(DataQuality)有關(guān)確保數(shù)據(jù)可靠性和實用價值的過程和技術(shù)。高質(zhì)量的數(shù)據(jù)應(yīng)該忠實體現(xiàn)其背后的事務(wù)進程,并能滿足在運營、決策、規(guī)劃中的預(yù)期用途。48、數(shù)據(jù)建模

(Datamodelling)使用數(shù)據(jù)建模技術(shù)來分析數(shù)據(jù)對象,以此洞悉數(shù)據(jù)的內(nèi)在涵義。49、數(shù)據(jù)集

(Dataset)大量數(shù)據(jù)的集合。50、判別分析

(Discriminantanalysis)將數(shù)據(jù)分類,按不同的分類方式,可將數(shù)據(jù)分配到不同的群組,類別或者目錄。是一種統(tǒng)計分析法,可以對數(shù)據(jù)中某些群組或集群的已知信息進行分析,并從中獲取分類規(guī)則。51、探索性分析

(Exploratoryanalysis)在沒有標準的流程或方法的情況下從數(shù)據(jù)中發(fā)掘模式。是一種發(fā)掘數(shù)據(jù)和數(shù)據(jù)集主要特性的一種方法。52、機器學習

(Machinelearning)人工智能的一部分,指的是機器能夠從它們所完成的任務(wù)中進行自我學習,通過長期的累積實現(xiàn)自我改進。53、網(wǎng)絡(luò)分析

(Networkanalysis)分析網(wǎng)絡(luò)或圖論中節(jié)點間的關(guān)系,即分析網(wǎng)絡(luò)中節(jié)點間的連接和強度關(guān)系。54、異常值檢測

(Outlierdetection)異常值是指嚴重偏離一個數(shù)據(jù)集或一個數(shù)據(jù)組合總平均值的對象,該對象與數(shù)據(jù)集中的其他它相去甚遠,因此,異常值的出現(xiàn)意味著系統(tǒng)發(fā)生問題,需要對此另加分析。55、模式識別

(PatternRecognition)通過算法來識別數(shù)據(jù)中的模式,并對同一數(shù)據(jù)源中的新數(shù)據(jù)作出預(yù)測56、預(yù)測分析

(Predictiveanalysis)大數(shù)據(jù)分析方法中最有價值的一種分析方法,這種方法有助于預(yù)測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網(wǎng)站,做某些事情或者產(chǎn)生某種行為。通過使用各種不同的數(shù)據(jù)集,例如歷史數(shù)據(jù),事務(wù)數(shù)據(jù),社交數(shù)據(jù),或者客戶的個人信息數(shù)據(jù),來識別風險和機遇。57、回歸分析

(Regressionanalysis)確定兩個變量間的依賴關(guān)系。這種方法假設(shè)兩個變量之間存在單向的因果關(guān)系(譯者注:自變量,因變量,二者不可互換)。58、路徑分析

(Routinganalysis)針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優(yōu)路徑,以達到降低燃料費用,提高效率的目的。59、情感分析

(SentimentAnalysis)通過算法分析出人們是如何看待某些話題。60、SQL在關(guān)系型數(shù)據(jù)庫中,用于檢索數(shù)據(jù)的一種編程語言。61、時序分析

(Timeseriesanalysis)分析在重復(fù)測量時間里

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論