版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
六西格瑪統(tǒng)計(jì)工具介紹(二)——2014年2月六西格瑪統(tǒng)計(jì)工具介紹(二)——2014年2月精益六西格瑪理論體系全景圖客戶流程描述控制計(jì)劃測(cè)量系統(tǒng)控制過(guò)程能力分析多變量分析實(shí)驗(yàn)設(shè)計(jì)VoC分析失效模式分析流程圖(I/O)因果矩陣統(tǒng)計(jì)過(guò)程控制定性分析定量分析頭腦風(fēng)暴+KJ失效樹(shù)魚(yú)骨圖Why-Why分析PFMEA對(duì)標(biāo)分析訪談現(xiàn)場(chǎng)調(diào)研流程觀察……回歸分析軟件使用項(xiàng)目管理精益六西格瑪意識(shí)統(tǒng)計(jì)基礎(chǔ)精益工具基本圖表精益六西格瑪持續(xù)改進(jìn)體系精益六西格瑪推行綜合管理精益六西格瑪理論體系全景圖客戶流程描述控制計(jì)劃測(cè)量系統(tǒng)過(guò)程能課程大綱假設(shè)檢驗(yàn)概述相關(guān)與回歸課程大綱假設(shè)檢驗(yàn)概述統(tǒng)計(jì)基礎(chǔ)-數(shù)據(jù)類型計(jì)數(shù)型數(shù)據(jù)(離散型數(shù)據(jù),屬性型數(shù)據(jù)):通常表示事物的分類不良品數(shù)量/不良率缺陷品數(shù)量/缺陷率機(jī)器A,機(jī)器B,機(jī)器C白班/中班/夜班計(jì)量型數(shù)據(jù)(連續(xù)型數(shù)據(jù)):通常是通過(guò)測(cè)量?jī)x器測(cè)量得到的數(shù)據(jù)壓力時(shí)間長(zhǎng)度重量統(tǒng)計(jì)基礎(chǔ)-數(shù)據(jù)類型計(jì)數(shù)型數(shù)據(jù)(離散型數(shù)據(jù),屬性型數(shù)據(jù)):通常目錄假設(shè)檢驗(yàn)相關(guān)基礎(chǔ)概念總體參數(shù)及樣本統(tǒng)計(jì)量推定置信區(qū)間假設(shè)檢驗(yàn)介紹目的與意義假設(shè)檢驗(yàn)概念介紹假設(shè)檢驗(yàn)原理假設(shè)檢驗(yàn)步驟假設(shè)檢驗(yàn)常見(jiàn)路徑雙樣本T與配對(duì)T的區(qū)別討論及問(wèn)答目錄假設(shè)檢驗(yàn)相關(guān)基礎(chǔ)概念假設(shè)檢驗(yàn)相關(guān)基礎(chǔ)概念總體參數(shù)與樣本統(tǒng)計(jì)量s=樣本標(biāo)準(zhǔn)差X=樣本平均值
參數(shù)
估計(jì)統(tǒng)計(jì)量
=總體平均值=總體標(biāo)準(zhǔn)差抽樣(Sampling)AABDDDCCCCBAAAAAAABBBBBBCCCCCCDDDDDDD總體標(biāo)本假設(shè)檢驗(yàn)相關(guān)基礎(chǔ)概念總體參數(shù)與樣本統(tǒng)計(jì)量s=樣本標(biāo)準(zhǔn)差X=估計(jì)的概念點(diǎn)估計(jì):通過(guò)抽樣用一個(gè)具體的值估計(jì)總體的參數(shù)舉例:通過(guò)抽樣調(diào)查中秋月餅的保質(zhì)期是3個(gè)月點(diǎn)估計(jì)的種類:平均的估計(jì)、標(biāo)準(zhǔn)差、方差的估計(jì)、比率的估計(jì)等區(qū)間估計(jì):通過(guò)抽樣用一個(gè)具體的值估計(jì)總體的參數(shù)舉例:通過(guò)抽樣調(diào)查中秋的月餅的保質(zhì)期是1-6個(gè)月估計(jì)的概念點(diǎn)估計(jì):通過(guò)抽樣用一個(gè)具體的值估計(jì)總體的參數(shù)置信區(qū)間置信區(qū)間的概念(ConfidenceInterval)誤差是α,相同樣本量的樣本重復(fù)抽樣測(cè)量樣本中存在實(shí)際總體參數(shù)的可能性的區(qū)間,即100(1-α)%置信水平(ConfidenceLevel)是指區(qū)間估計(jì)時(shí),能夠包含總體參數(shù)的能力水平,即1-α。=0.5(50%)=0.1(10%)信賴水準(zhǔn)信賴區(qū)間誤差置信區(qū)間置信區(qū)間的概念(ConfidenceInterva置信區(qū)間90%的置信區(qū)間舉例如下圖如下圖總體平均為μ,連續(xù)抽取10個(gè)樣本,其中有一個(gè)樣本不包含總體平均95%置信區(qū)間的解釋:大約100個(gè)置信區(qū)間中有95個(gè)會(huì)包含總體參數(shù),或者我們有95%的把握確定總體參數(shù)在置信區(qū)間內(nèi)通常我們計(jì)算95%的置信區(qū)間
總體的平均樣本
1樣本
2
樣本
10μ置信區(qū)間90%的置信區(qū)間舉例如下圖總體的平均樣本1μ置信區(qū)間置信區(qū)間的計(jì)算通用公式:置信區(qū)間C.I.=統(tǒng)計(jì)量±K*S(標(biāo)準(zhǔn)偏差)統(tǒng)計(jì)量=平均值、方差、Cp等K=統(tǒng)計(jì)分布常數(shù)正態(tài)分布的置信區(qū)間公式(σ知道的時(shí)候):樣本的置信區(qū)間公式(σ不知道,只能計(jì)算S):樣本的平均遵循t分布置信區(qū)間置信區(qū)間的計(jì)算置信區(qū)間Minitab中置信區(qū)間的計(jì)算這些都可以計(jì)算出置信區(qū)間置信區(qū)間Minitab中置信區(qū)間的計(jì)算這些都可以計(jì)算出置信區(qū)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)的目的假設(shè)檢驗(yàn)是對(duì)差異較小的情形進(jìn)行差異性比較,從而通過(guò)數(shù)據(jù)作出客觀的判斷。是為了解決選擇的困難性假設(shè)檢驗(yàn)的意義用統(tǒng)計(jì)的方法,通過(guò)數(shù)據(jù)進(jìn)行客觀的判斷把我決策的風(fēng)險(xiǎn),提高決策水準(zhǔn)假設(shè)檢驗(yàn)是我們政府部門(mén)最需要的工具之一。假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)的目的假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)的概念對(duì)觀測(cè)的樣本資料分析后對(duì)總體差異的估計(jì)是作出選擇與否判斷的統(tǒng)計(jì)性方法假設(shè)檢驗(yàn)術(shù)語(yǔ)假設(shè)設(shè)定:對(duì)要進(jìn)行判斷的情況進(jìn)行假設(shè)設(shè)定H0
-NullHypothesis:說(shuō)明沒(méi)有變化或者差異的設(shè)定Ha-AlternativeHypothesis:說(shuō)明有變化或者差異的設(shè)定假設(shè)設(shè)定練習(xí):為了確認(rèn)小學(xué)生男女身高是否有差異為了確認(rèn)小學(xué)生男生比女生高為了確認(rèn)小學(xué)生身高和性別是否有相關(guān)性假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)的概念假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)的種類單邊檢驗(yàn)One-sidedhypothesis雙邊檢驗(yàn)Two-sidedhypothesis假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)的種類假設(shè)檢驗(yàn)的兩種錯(cuò)誤第1種
錯(cuò)誤
(TypeⅠError,α-風(fēng)險(xiǎn))不顧NullHypothesis真實(shí).NullHypothesis放棄的錯(cuò)誤把良品判斷為不良的時(shí)候(誤判)既,可以說(shuō)生產(chǎn)者危險(xiǎn)1-α就是置信區(qū)間第2種錯(cuò)誤(TypeⅡError,β-風(fēng)險(xiǎn)):
不顧NullHypothesis假的.NullHypothesis接受的錯(cuò)誤不良品當(dāng)成良品的時(shí)候(漏失)即,可以說(shuō)顧客危險(xiǎn)1-β是檢定力,即檢出能力假設(shè)檢驗(yàn)的兩種錯(cuò)誤假設(shè)檢驗(yàn)的兩種錯(cuò)誤說(shuō)明你的判定接受Ho真實(shí)情況Ho
對(duì)Ho
錯(cuò)I類錯(cuò)誤
(α-風(fēng)險(xiǎn))II類錯(cuò)誤(β-風(fēng)險(xiǎn))正確正確拒絕Ho假設(shè)檢驗(yàn)的兩種錯(cuò)誤說(shuō)明你的判定接受Ho真Ho對(duì)Ho錯(cuò)I假設(shè)檢驗(yàn)的兩種錯(cuò)誤舉例陪審團(tuán)的判決他無(wú)罪事實(shí)實(shí)際清白他有罪實(shí)際有罪正確正確清白的人進(jìn)監(jiān)獄罪犯逍遙法外I類錯(cuò)誤
(α-風(fēng)險(xiǎn))后果:II類錯(cuò)誤(β-風(fēng)險(xiǎn))后果:假設(shè)檢驗(yàn)的兩種錯(cuò)誤舉例陪審團(tuán)的判決他無(wú)罪事實(shí)實(shí)際清白他有罪實(shí)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)原理假設(shè)檢驗(yàn)其實(shí)是個(gè)比較的過(guò)程兩種假設(shè)的比較,是A還是B?我們總是用H0
來(lái)說(shuō)話我們的初衷多數(shù)時(shí)候是想看區(qū)別和差異,所以我們總是想放棄H0
放棄H0
的決策不會(huì)總是正確的,任何決定都會(huì)有風(fēng)險(xiǎn)但風(fēng)險(xiǎn)的高低及嚴(yán)重度,會(huì)影響我們決策于是我們很急切的指導(dǎo),我們做出放棄H0的決策的風(fēng)險(xiǎn)有多大?于是我們通過(guò)抽樣數(shù)據(jù)進(jìn)行運(yùn)算,算出放棄H0的決策的風(fēng)險(xiǎn)的大小就是我們長(zhǎng)見(jiàn)的P值(P-value)假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)原理假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)原理(續(xù))知道了做出放棄H0的決策的風(fēng)險(xiǎn)的大小,那么風(fēng)險(xiǎn)小于多少時(shí)我們才敢于做出放棄H0的決策呢?于是我們需要提前設(shè)定一個(gè)風(fēng)險(xiǎn)判斷標(biāo)準(zhǔn)α而根據(jù)我們承受力的大小及后果的嚴(yán)重度,這個(gè)標(biāo)準(zhǔn)各有不同,0.01、0.05、0.1等但我們通常設(shè)定α為0.05這也就是我們通常拿P值和0.05進(jìn)行大小比較的原因。如果P>0.05接受H0;P<0.05放棄H0(PLowH0Go)理解練習(xí)為什么正態(tài)檢驗(yàn),等方差檢驗(yàn)P要大于0.05?假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)原理(續(xù))假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)原理(續(xù))α(SignificanceLevel)置信水平:風(fēng)險(xiǎn)判斷標(biāo)準(zhǔn)P-value做出放棄H0的決策犯錯(cuò)誤的最大風(fēng)險(xiǎn)值
p值
Ho選擇域Ho棄卻域
Ho選擇域Ho棄卻域
p值P值<α放棄H0認(rèn)為有差異或影響
P值>α接受H0
不能做決策
,不能說(shuō)有差異TPT
αTPT
α假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)原理(續(xù))p值Ho選擇域Ho棄卻域假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)步驟假設(shè)
設(shè)定檢定統(tǒng)計(jì)量選擇留意水準(zhǔn)
決定p-value計(jì)算(棄卻域
,檢定統(tǒng)計(jì)量
計(jì)算)判定(統(tǒng)計(jì)結(jié)論)p-value<
時(shí)
Ho棄卻實(shí)際結(jié)論遵循假設(shè)檢驗(yàn)路徑圖假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)步驟假設(shè)設(shè)定檢定統(tǒng)計(jì)量選擇留意水準(zhǔn)決Stat-Tables-Chi-squareTestStat-BasicStats-2proportionStat-BasicStats-1proportionHo:m1=m2H1:m11m2Stat-BasicStats-2-Samplet“assumeequalvariances”“假定等方差選擇按鈕”選擇Ho:M1=M(中值)H1:M11M(中值)Stat-Nonparametric-1Sample-Sign或者Stat-Nonparametric-1Sample-Wilcoxon數(shù)據(jù)形態(tài)檢驗(yàn)假設(shè)檢定One-wayANOVA計(jì)數(shù)型數(shù)據(jù)Chi-square檢定Ho:m1=m2=m3=...H1:至少一個(gè)是不一樣Stat-Anova-One-wayHo:跟隨正態(tài)分布,H1:不是正態(tài)分布Stat-BasicStat-NormalityTest置信水平
=0.05時(shí)候:P-值>0.05時(shí)
Ho接受P-值<0.05時(shí)
Ho放棄正態(tài)數(shù)據(jù)標(biāo)準(zhǔn)偏差的置信區(qū)間一個(gè)總體兩個(gè)以上的總體2Samplet(方差相等)2Samplet(方差不相等)
1Samplet或者1SampleZHo:m1=m(平均值)H1:m11m(平均值)Stat-BasicStats-1Sample-t(s不知道時(shí)候)1SampleZ(s知道時(shí)候)1Sample-Sign或者
1Sample-WilcoxonMann-WhitneyTest兩個(gè)以上的總體兩個(gè)母集團(tuán)1-Proportion2-Proportion一個(gè)總體兩個(gè)總體兩個(gè)以上的總體非正態(tài)數(shù)據(jù)等
方差YesNoKruskal-WallisTest一個(gè)總體一個(gè)總體兩個(gè)以上的總體Ho:M1=M2H1:M11M2Stat-Nonparametric-Mann-WhitneyHo:M1=M2=M3=...H1:至少一個(gè)是不一樣Stat-Nonparametric-Kruskal-WallisHo:m1=m2H1:m11m2Stat-BasicStats-2-Samplet“assumeequalvariances”“假定等方差選擇按鈕”
不選擇TestforEqualVariances(Levene’sTest)TestforEqualVariances(FTestorBartlett’sTest)Ho:s1=s2=s3=...H1:至少有一個(gè)不一樣Stat-Anova-TestforEqualVariances兩個(gè)總體比較的時(shí)候
用F-testHo:s1=s(標(biāo)準(zhǔn)差)H1:s11s(標(biāo)準(zhǔn)差)標(biāo)準(zhǔn)差的置信區(qū)間使用Minitab路徑Stat-BasicStatistics-DisplayDescriptiveStats計(jì)量型數(shù)據(jù)數(shù)據(jù)穩(wěn)定性研究(控制圖)配對(duì)T(PairedT)Ho:D=0(差值)H1:D10(差值)要對(duì)差值進(jìn)行正態(tài)性檢驗(yàn)Minitab路徑Stat-BasicStatistics–Pairedttest(配對(duì)T)假設(shè)檢驗(yàn)-常用路徑圖Stat-Tables-Chi-squareTest假設(shè)檢驗(yàn)-單樣本T檢驗(yàn)假設(shè)檢驗(yàn)-單樣本T檢驗(yàn)“單樣本t檢驗(yàn)”解決什么問(wèn)題?典型的問(wèn)題為:
“我們抽取了新坐席員Bob的30通電話錄音數(shù)據(jù),想知道坐席員A的話后整理時(shí)長(zhǎng)的平均值是否剛好等于考核要求的25秒?”當(dāng)然問(wèn)題也可以是“Bob的平均整理時(shí)長(zhǎng)大于25秒嗎?”或者“Bob的平均整理時(shí)長(zhǎng)剛好小于25秒嗎?”“單樣本t檢驗(yàn)”解決什么問(wèn)題?典型的問(wèn)題為:建立零假設(shè)和備選假設(shè):
平均整理時(shí)間等于目標(biāo)值 平均整理時(shí)間不等于目標(biāo)值決定顯著性水平:
=0.05(5%)隨機(jī)抽取30通電話的整理時(shí)間數(shù)據(jù)作為樣本選取適合方法計(jì)算P值(參考下頁(yè)詳細(xì)步驟)依據(jù)P值結(jié)果做出結(jié)論按照以下步驟完成如果P值大于或等于0.05,不能推翻零假設(shè)H0如果P值小于a,推翻零假設(shè)H0建立零假設(shè)和備選假設(shè):按照以下步驟完成如果P值大于或等于0.選取適合方法計(jì)算P值——詳細(xì)過(guò)程使用控制圖檢驗(yàn)樣本數(shù)據(jù)穩(wěn)定性樣本量不足,n<25樣本量足夠多,n>25不是正態(tài)分布是正態(tài)分布單樣本T檢驗(yàn)單樣本T檢驗(yàn)單樣本T檢驗(yàn)先把數(shù)據(jù)轉(zhuǎn)換為正態(tài)后再使用單樣本T檢驗(yàn)檢驗(yàn)數(shù)據(jù)正態(tài)性數(shù)據(jù)不穩(wěn)定應(yīng)先解決穩(wěn)定性問(wèn)題NOYES算出P值樣本數(shù)據(jù)n個(gè)選取適合方法計(jì)算P值——詳細(xì)過(guò)程使用控制圖檢驗(yàn)樣本數(shù)據(jù)穩(wěn)定性打開(kāi)文件1-MakingComparison.JMP分析路線圖–單樣本T打開(kāi)文件分析路線圖–單樣本T步驟1:檢驗(yàn)穩(wěn)定性步驟1:檢驗(yàn)穩(wěn)定性步驟1:檢驗(yàn)穩(wěn)定性我們得到什么結(jié)論?是否有任何明顯的變化趨勢(shì)或模式,足以證明數(shù)據(jù)并非來(lái)自單一的總體/流程?步驟1:檢驗(yàn)穩(wěn)定性我們得到什么結(jié)論?是否有任何明顯的變化步驟2:檢驗(yàn)正態(tài)性1234步驟2:檢驗(yàn)正態(tài)性1234步驟2:檢驗(yàn)正態(tài)性P值<0.05,數(shù)據(jù)非正態(tài)P值>0.05,數(shù)據(jù)是正態(tài)步驟2:檢驗(yàn)正態(tài)性P值<0.05,數(shù)據(jù)非正態(tài)步驟3:檢驗(yàn)均值Ho:均值(Bob)=25Ha:均值(Bob)=25我們得到什么結(jié)論?無(wú)法推翻零假設(shè)步驟3:檢驗(yàn)均值Ho:均值(Bob)=25我結(jié)論的陳述由于p值大于臨界置信水平(本例中P=0.3468>0.05),或者說(shuō),由于均值的置信區(qū)間包含了目標(biāo)值,我們可以作出下述結(jié)論:我們沒(méi)有足夠的證據(jù)拒絕零假設(shè)。是否可以說(shuō)零假設(shè)是正確的(Bob的均值=25秒)?不!但是,我們通常在假定零假設(shè)是正確的情況下執(zhí)行操作。結(jié)論的陳述由于p值大于臨界置信水平(本例中P=0.3468>延伸…如果問(wèn)題是:
“Bob的平均整理時(shí)長(zhǎng)大于25秒嗎?”或者“Bob的平均整理時(shí)長(zhǎng)剛好小于25秒嗎?”如何構(gòu)造零假設(shè)和備選假設(shè)?你的結(jié)論是什么?如何利用剛才的結(jié)果?延伸…如果問(wèn)題是:假設(shè)檢驗(yàn)-雙樣本t檢驗(yàn)假設(shè)檢驗(yàn)-雙樣本t檢驗(yàn)“雙樣本t檢驗(yàn)”解決什么問(wèn)題?典型的問(wèn)題為:“我們各抽取了坐席員Bob和Jane的30通電話樣本,想知道坐席員A和B的平均話后整理時(shí)長(zhǎng)是否相等?”當(dāng)然問(wèn)題也可以是“Bob的平均整理時(shí)長(zhǎng)大于Jane的平均整理時(shí)長(zhǎng)嗎?”或者“Bob的平均整理時(shí)長(zhǎng)小于Jane的平均整理時(shí)長(zhǎng)嗎?”“雙樣本t檢驗(yàn)”解決什么問(wèn)題?典型的問(wèn)題為:建立零假設(shè)和備選假設(shè):
Bob的平均值等于Jane的平均值
Bob的平均值不等于Jane的平均值決定顯著性水平:
=0.05(5%)隨機(jī)抽取Bob和Jane各30通電話的整理時(shí)間數(shù)據(jù)作為樣本選取適合方法計(jì)算P值(參考下頁(yè)詳細(xì)步驟)依據(jù)P值結(jié)果做出結(jié)論按照以下步驟完成如果P值大于或等于0.05,不能推翻零假設(shè)H0如果P值小于a,推翻零假設(shè)H0JaneBob:1HJaneBob:0Hm1mm=m建立零假設(shè)和備選假設(shè):按照以下步驟完成如果P值大于或等于0.選取適合方法計(jì)算P值——詳細(xì)過(guò)程使用控制圖檢驗(yàn)樣本數(shù)據(jù)穩(wěn)定性樣本量不足,n<25不是正態(tài)分布是正態(tài)分布數(shù)據(jù)變換為正態(tài)或非參數(shù)檢驗(yàn)雙樣本T檢驗(yàn)檢驗(yàn)數(shù)據(jù)正態(tài)性檢驗(yàn)方差是否相等數(shù)據(jù)不穩(wěn)定應(yīng)先解決穩(wěn)定性問(wèn)題NOYES算出P值樣本數(shù)據(jù)n個(gè)等方差不等方差等方差不等方差雙樣本T檢驗(yàn)雙樣本T檢驗(yàn)*雙樣本T檢驗(yàn)*雙樣本T檢驗(yàn)雙樣本T檢驗(yàn)*數(shù)據(jù)變換為正態(tài)或非參數(shù)檢驗(yàn)方差相等雙樣本T的公式方差不等雙樣本T的公式樣本量足夠多,n>25選取適合方法計(jì)算P值——詳細(xì)過(guò)程使用控制圖檢驗(yàn)樣本數(shù)據(jù)穩(wěn)定性樣本量在獲取數(shù)據(jù)并試圖得出一些陳述之前,我們需要確定進(jìn)行這種檢驗(yàn)數(shù)要多少數(shù)據(jù).記住,我們有一些基于估計(jì)值的抽樣“經(jīng)驗(yàn)方法RulesofThumb’并不要求Bob和Jane的兩組樣本量一定是相同的注意:我們將在以后的模塊中講解樣本量的計(jì)算樣本量在獲取數(shù)據(jù)并試圖得出一些陳述之前,我們需要確定進(jìn)行這工具或統(tǒng)計(jì)
最小樣本量平均值 5-10
標(biāo)準(zhǔn)偏差
25-30
有缺陷的比例(P) 100并且nP>=5
直方圖或帕累托圖
50
散點(diǎn)圖 25
控制圖 20不同工具的樣本量通常:連續(xù)數(shù)據(jù):>30屬性數(shù)據(jù)>100工具或統(tǒng)計(jì) 最小樣本量不同工具的樣本量通常步驟1:檢驗(yàn)穩(wěn)定性步驟1:檢驗(yàn)穩(wěn)定性步驟1:檢驗(yàn)穩(wěn)定性步驟1:檢驗(yàn)穩(wěn)定性步驟2:檢驗(yàn)正態(tài)性123步驟2:檢驗(yàn)正態(tài)性123步驟2:檢驗(yàn)正態(tài)性步驟2:檢驗(yàn)正態(tài)性步驟2:檢驗(yàn)正態(tài)性數(shù)據(jù)是否為正態(tài)分布?小P-Value(<.05),數(shù)據(jù)為非正態(tài)分布注意樣本大小的問(wèn)題步驟2:檢驗(yàn)正態(tài)性數(shù)據(jù)是否為正態(tài)分布?處理數(shù)據(jù)JMP喜歡數(shù)據(jù)按欄輸入我們希望下列表格結(jié)構(gòu):測(cè)量的數(shù)據(jù)至于單獨(dú)的一欄“標(biāo)識(shí)符”在一欄在我們的范例中,我們希望有下列欄:坐席員Operator(用Bob和Jane作為值)話后整理時(shí)長(zhǎng)Time(用所用Bob和Jane的通話時(shí)間值)我們顯然希望這些數(shù)據(jù)按照測(cè)量值和答復(fù)電話的人之間適當(dāng)?shù)年P(guān)系安排.JMP能幫助我們完成這項(xiàng)任務(wù)…處理數(shù)據(jù)JMP喜歡數(shù)據(jù)按欄輸入堆疊數(shù)據(jù)——為下一步進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換數(shù)據(jù)變換堆疊數(shù)據(jù)——為下一步進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換數(shù)據(jù)變換步驟3:等方差檢驗(yàn)步驟3:等方差檢驗(yàn)Ho:s(Bob)=s(Jane)Ha:s(Bob)=s(Jane)步驟3:等方差檢驗(yàn)我們得到什么結(jié)論?P-值!EqualVarianceNotequalvariance方差不等時(shí)的解決方法Ho:s(Bob)=s(Jane)步驟3:等方步驟4:均值檢驗(yàn)步驟4:均值檢驗(yàn)Ho:Mean(Bob)=Mean(Jane)Ha:Mean(Bob)=Mean(Jane)步驟4:均值檢驗(yàn)我們得到什么結(jié)論?Ho:Mean(Bob)=Mean(Jane)步驟結(jié)論的陳述由于P值小于臨界置信水平(本例中P=0.0157<0.05,我們可以作出下述結(jié)論:我們有足夠的證據(jù)拒絕零假設(shè)如果問(wèn)題是:
“Bob的平均整理時(shí)長(zhǎng)大于Jane的平均整理時(shí)長(zhǎng)嗎?”或者“Bob的平均整理時(shí)長(zhǎng)小于Jane的平均整理時(shí)長(zhǎng)嗎?”結(jié)論的陳述由于P值小于臨界置信水平(本例中P=0.0157<假設(shè)檢驗(yàn)–多樣本比較假設(shè)檢驗(yàn)–多樣本比較假設(shè)檢驗(yàn)用于比較2個(gè)或更多數(shù)據(jù)樣本的均值A(chǔ)NOVA檢驗(yàn)陳述的原假設(shè)(nullhypothesis)是所有樣本的均值都相同Ho:
a=b=c=d=eANOVA檢驗(yàn)陳述的備擇假設(shè)(alternatehypothesis)是至少有一個(gè)均值是不同的Ha:至少一對(duì)
是不同的方差分析ANOVA假設(shè)檢驗(yàn)用于比較2個(gè)或更多數(shù)據(jù)樣本的均值方差分析ANOV“方差分析(ANOVA)”解決什么問(wèn)題?典型的問(wèn)題為:“我們各抽取了坐席員Bob,Jane和Walt的各30通電話樣本,想知道坐席員的平均話后整理時(shí)長(zhǎng)是否相等?”“方差分析(ANOVA)”解決什么問(wèn)題?典型的問(wèn)題為:建立零假設(shè)和備選假設(shè):Ho:
Bob=Jane=san三個(gè)坐席員的平均值彼此相等Ha:至少一對(duì)
是不同的至少一個(gè)坐席員得平均值和其他人不同決定顯著性水平:
=0.05(5%)隨機(jī)抽取Bob和Jane各30通電話的整理時(shí)間數(shù)據(jù)作為樣本選取適合方法計(jì)算P值(參考下頁(yè)詳細(xì)步驟)依據(jù)P值結(jié)果做出結(jié)論按照以下步驟完成如果P值大于或等于0.05,不能推翻零假設(shè)H0如果P值小于a,推翻零假設(shè)H0建立零假設(shè)和備選假設(shè):按照以下步驟完成如果P值大于或等于0.選取適合方法計(jì)算P值——詳細(xì)過(guò)程使用控制圖檢驗(yàn)樣本數(shù)據(jù)穩(wěn)定性樣本量不足,n<25不是正態(tài)分布是正態(tài)分布數(shù)據(jù)變換為正態(tài)或非參數(shù)檢驗(yàn)方差分析ANOVA檢驗(yàn)數(shù)據(jù)正態(tài)性檢驗(yàn)方差是否相等數(shù)據(jù)不穩(wěn)定應(yīng)先解決穩(wěn)定性問(wèn)題NOYES算出P值樣本數(shù)據(jù)n個(gè)等方差不等方差等方差不等方差方差分析ANOVAWelch方差分析Welch方差分析方差分析ANOVAWelch方差分析數(shù)據(jù)變換為正態(tài)或非參數(shù)檢驗(yàn)樣本量足夠多,n>25選取適合方法計(jì)算P值——詳細(xì)過(guò)程使用控制圖檢驗(yàn)樣本數(shù)據(jù)穩(wěn)定性步驟1
&2——不再重復(fù)步驟1:穩(wěn)定性檢驗(yàn)分別使用控制圖檢驗(yàn)三名坐席員樣本數(shù)據(jù)的穩(wěn)定性步驟2:正態(tài)性檢驗(yàn)分別使用分布圖檢驗(yàn)三名坐席員樣本數(shù)據(jù)的正態(tài)性步驟1&2——不再重復(fù)步驟1:穩(wěn)定性檢驗(yàn)堆疊數(shù)據(jù)數(shù)據(jù)變換堆疊數(shù)據(jù)數(shù)據(jù)變換步驟3:等方差檢驗(yàn)步驟3:等方差檢驗(yàn)Ho:s(Bob)=s(Jane)=s(Walt)Ha:至少一對(duì)S不相等步驟3:等方差檢驗(yàn)我們得到什么結(jié)論?P-值!Ho:s(Bob)=s(Jane)=s(Wa步驟4:均值檢驗(yàn)步驟4:均值檢驗(yàn)Ho:Mean(Bob)=Mean(Jane)=Mean(Jane)Ha:至少有一對(duì)均值不相等步驟4:均值檢驗(yàn)我們得到什么結(jié)論?Ho:Mean(Bob)=Mean(Jane)=步驟4:均值檢驗(yàn)從左側(cè)圓環(huán)可以觀察到相互之間是否相等步驟4:均值檢驗(yàn)從左側(cè)圓環(huán)可以觀察到相互之間是否相等ANOVA:我們了解到什么?有一個(gè)操作員與其它操作員之間存在差異同樣我們可以從菱形圖看到,Walt用的時(shí)間比其它兩位操作員用的長(zhǎng)一些現(xiàn)在我們需要問(wèn)“為什么?”致使長(zhǎng)于整體周期的根源是CWalt么?你將如何找到答案?ANOVA:我們了解到什么?有一個(gè)操作員與其它操作員之間假設(shè)檢驗(yàn)-非正態(tài)(非參數(shù)檢驗(yàn))假設(shè)檢驗(yàn)-非正態(tài)(非參數(shù)檢驗(yàn))Mann-Whitney檢驗(yàn)查看工作表
2-Non-NormalShipping
中的數(shù)據(jù)我們希望了解在周末和工作天期間發(fā)貨的時(shí)間是否有差異遵循分析路徑圖研究穩(wěn)定性研究形狀研究散布(離散程度)Mann-Whitney檢驗(yàn)查看工作表2-Non-No研究穩(wěn)定性我們得到什么結(jié)論?研究穩(wěn)定性我們得到什么結(jié)論?研究正態(tài)性我們得到什么結(jié)論?研究正態(tài)性我們得到什么結(jié)論?我們得到什么結(jié)論?注意你一定要堆棧數(shù)據(jù).研究等方差性我們得到什么結(jié)論?注意你一定要堆棧數(shù)據(jù).研究等方差性p-值!P值不低,所以我們說(shuō),沒(méi)有差異.Wilcoxon/KruskalWallis檢驗(yàn)p-值!Wilcoxon/KruskalWallis檢p-值!P值不低,所以我們說(shuō),沒(méi)有差異.中位數(shù)檢驗(yàn)p-值!中位數(shù)檢驗(yàn)總結(jié)全面的數(shù)據(jù)分析包括查看穩(wěn)定性,形狀,散布(離散程度),居中(中心趨勢(shì))和相關(guān)性T-檢驗(yàn)(單樣本,雙樣本)檢查居中,ANOVA(2個(gè)或2個(gè)以上樣本)檢查居中等方差檢驗(yàn)檢查離散程度檢驗(yàn)關(guān)系是下一步如要檢查的卡方檢驗(yàn)總結(jié)全面的數(shù)據(jù)分析包括查看穩(wěn)定性,形狀,散布(離散程度),居比例數(shù)據(jù)檢驗(yàn)比例數(shù)據(jù)檢驗(yàn)單比例檢驗(yàn)例:缺陷品率3單比例檢驗(yàn).jmp以前,合同審批發(fā)現(xiàn)的不合格率為12%對(duì)過(guò)程進(jìn)行了變更。從新過(guò)程抽樣300個(gè)產(chǎn)品,其中45個(gè)存在缺陷是不合格品請(qǐng)問(wèn):過(guò)程是否得到了改善單比例檢驗(yàn)例:缺陷品率3單比例檢驗(yàn).jmp單比例檢驗(yàn)步驟1.)
建立備選假設(shè)和零假設(shè)新過(guò)程產(chǎn)生12%或更多的的缺陷率新過(guò)程的缺陷率少于12%單比例檢驗(yàn)步驟1.)建立備選假設(shè)和零假設(shè)新過(guò)程產(chǎn)生12%或單比例檢驗(yàn)步驟2.)
決定顯著性水平
a=0.053.)
隨機(jī)抽取數(shù)據(jù) 抽樣數(shù)量為300
發(fā)現(xiàn)有45個(gè)產(chǎn)品為缺陷品。單比例檢驗(yàn)步驟2.)決定顯著性水平b.)
決定顯著性水平:a=0.05c.)
隨機(jī)抽取數(shù)據(jù):抽樣數(shù)量為300,發(fā)現(xiàn)有45個(gè)為缺陷品。d.)
計(jì)算P值:分析>分布>檢驗(yàn)概率單比例檢驗(yàn)步驟b.)決定顯著性水平:a=0.05單比例檢驗(yàn)步驟e.)
比較P值和顯著性水平:
P-value=0.9507 a=0.05 0.951>0.05f.)
結(jié)論:所以我們不能否定零假設(shè),流程沒(méi)有得到改善!單比例檢驗(yàn)步驟e.)比較P值和顯著性水平:f.)結(jié)論:所以我們不能否定卡方分析卡方分析檢驗(yàn)相互關(guān)系:卡方檢驗(yàn)當(dāng)y和x都是屬性數(shù)據(jù),要檢驗(yàn)相互關(guān)系時(shí)使用我們假設(shè)變量是獨(dú)立的。Ho:數(shù)據(jù)是獨(dú)立的(不相關(guān))Ha:數(shù)據(jù)不獨(dú)立(相關(guān))如果p值<0.05,拒絕Ho還需要滿足以下假定:數(shù)據(jù)是隨機(jī)抽取的對(duì)于正交表中每個(gè)數(shù)據(jù),期望的頻次至少5(不要求每個(gè)觀察的頻次都必須至少為5)這些假定不要求抽樣母體必須是哪種具體分布。檢驗(yàn)相互關(guān)系:卡方檢驗(yàn)當(dāng)y和x都是屬性數(shù)據(jù),要檢驗(yàn)相互關(guān)系卡方檢驗(yàn)解決的典型實(shí)際問(wèn)題一代理公司從美國(guó)四年制大學(xué)隨機(jī)選擇了2500個(gè)在校大學(xué)生發(fā)出調(diào)查表。他們想知道各學(xué)院(大學(xué)內(nèi)的學(xué)院)錄取學(xué)生時(shí)是否獨(dú)立于性別。隨后的表格是1820位的匯總情況。卡方檢驗(yàn)解決的典型實(shí)際問(wèn)題一代理公司從美國(guó)四年制大學(xué)隨機(jī)選擇學(xué)院工程營(yíng)銷教育總計(jì)性別男512357127996女215220389824總計(jì)7275775161820性別是否與學(xué)院有關(guān)?H0:學(xué)院與性別無(wú)關(guān)H1:學(xué)院與性別有關(guān)舉例學(xué)院工程營(yíng)銷教育總計(jì)性別男512357127996女2152方法:使用列聯(lián)表,假設(shè)所有數(shù)據(jù)都相互獨(dú)立檢驗(yàn)標(biāo)準(zhǔn)存在與卡方統(tǒng)計(jì)中iEiEi2)0(2-S=c這里:Oi=
每個(gè)結(jié)果的觀察頻率;Ei=當(dāng)原假設(shè)為真時(shí)我們期望獲得的頻率??ǚ浇y(tǒng)計(jì)方法:iEiEi2)0(2-S=c這里:卡方統(tǒng)計(jì)實(shí)際的數(shù)據(jù)4卡方分析.jmp期望頻率的計(jì)算學(xué)院工程商務(wù)教育總計(jì)性別男512357127996女215220389824總計(jì)7275775161820實(shí)際的數(shù)據(jù)4卡方分析.jmp期望頻率的計(jì)算學(xué)院工程商務(wù)397.851820(996)(727)x=計(jì)算出每個(gè)單元的期望頻率,既假定零假設(shè)成立的條件下,這個(gè)單元格應(yīng)當(dāng)出現(xiàn)的頻率對(duì)于每一個(gè)單元,期望頻率值=列總數(shù)x行總數(shù)總數(shù)之和期望頻率的計(jì)算學(xué)院工程營(yíng)銷教育總計(jì)性別男512357127996女215220389824總計(jì)7275775161820397.851820(996)(727)x=計(jì)算出每個(gè)單計(jì)算卡方值重點(diǎn)大的卡方值值代表著實(shí)際頻率和期望頻率之間的差異很大,這就意味著零假設(shè)游客能不正確273.08233.632)389-233.62(...315.762)357-315.76(397.852)512-397.85(2=+++=ci2)ii0(2EE-S=c卡方計(jì)算O:實(shí)際觀察到的頻率E:期望的頻率計(jì)算卡方值重點(diǎn)大的卡方值值代表著實(shí)際頻率和期望頻率之間的差異273.082=c5.992=臨界的c查卡方表,
=0.05,DF=2.臨界2計(jì)算2c>c所以,我們否定零假設(shè)。因?yàn)楸容^計(jì)算的卡方和臨界值這種查表的方法并不方便,更常使用的方法利用軟件直接計(jì)算卡方值對(duì)應(yīng)的P值(概率值)273.082=c5.992=臨界的c查卡方表,=0.JMP軟件計(jì)算P值用JMP建立列聯(lián)表和P數(shù)值分析>以X擬合YP值JMP軟件計(jì)算P值P值因?yàn)镻值=0.000,小于
=0.05,我們將否定零假設(shè),既學(xué)院招生與性別之間并不是獨(dú)立的,觀察馬賽克圖可以看到教育學(xué)院女生比例較高結(jié)論JMP輸出因?yàn)镻值=0.000,小于=0.05,我們將否定零假設(shè)JMP輸出進(jìn)一步擴(kuò)展使用“對(duì)應(yīng)分析”可以看到,圖中相距比較近說(shuō)明而這之間具有緊密關(guān)系,例如教育學(xué)院和女生而這相距很近,而工程學(xué)院和男生距離很近。說(shuō)明教育女生比例高,工程男生比例高JMP輸出進(jìn)一步擴(kuò)展使用“對(duì)應(yīng)分析”可以看到,圖中相距比較近卡方檢驗(yàn)注釋卡方檢驗(yàn)是我們本周將學(xué)到的“較易分析”工具的一種,但它并不如其他假設(shè)檢驗(yàn)?zāi)菢印案挥卸床炝Α睂傩詳?shù)據(jù)的結(jié)果對(duì)于卡方檢驗(yàn),為了滿足假設(shè),期望頻率必須至少為5如果該值小于5,將告警數(shù)據(jù)必須確保隨機(jī)性注意其他隱藏的因子(X’s)卡方檢驗(yàn)注釋卡方檢驗(yàn)是我們本周將學(xué)到的“較易分析”工具的一種范例:
貸款審批通過(guò)率JMP工作表結(jié)構(gòu)我們的信用審批部處理小宗商業(yè)貸款申請(qǐng)。許多申請(qǐng)得到批準(zhǔn),但有一些被拒絕。部門(mén)經(jīng)理猜想拒絕率可能與該申請(qǐng)是哪天被處理的有關(guān)。她的猜想正確嗎?打開(kāi)文件
5-LoanApproval.JMP
范例:
貸款審批通過(guò)率JMP工作表結(jié)構(gòu)我們的信用審批部范例:
貸款審批通過(guò)率P值<0.05,表明貸款審批時(shí)間和通過(guò)與否存在顯著相關(guān)性,本例中周五貸款通過(guò)率明顯低于其他時(shí)間范例:
貸款審批通過(guò)率P值<0.05,表明貸款審批時(shí)間和范例:
貸款審批通過(guò)率對(duì)應(yīng)分析圖中周五和拒絕距離比較近范例:
貸款審批通過(guò)率對(duì)應(yīng)分析圖中周五和拒絕距離比較近星期五是否不尋常?第一次卡方檢驗(yàn)趨向于顯示星期五與其他工作日不同。我們將通過(guò)把星期一到星期四相加編為一組,按照通過(guò)/不通過(guò)計(jì)算數(shù)目,并與星期五的數(shù)據(jù)相比較。JMP工作表結(jié)構(gòu)星期五是否不尋常?第一次卡方檢驗(yàn)趨向于顯示星期五與其他工作日星期五是否不尋常?P值<0.05,表明周五貸款通過(guò)率確實(shí)和其它天存在顯著差別星期五是否不尋常?P值<0.05,表明周五貸款通過(guò)率確實(shí)和其其他幾天呢?最后,我們不再分析星期五的數(shù)據(jù),只分析星期一到星期四。我們?cè)噲D發(fā)現(xiàn)剩下的幾天之間是否有相互關(guān)系。JMP數(shù)據(jù)表結(jié)構(gòu)其他幾天呢?最后,我們不再分析星期五的數(shù)據(jù),只分析星期一到星其他幾天呢?較高的P值表示剩下的幾天沒(méi)有明顯的相互關(guān)系。星期五才是我們要找的!其他幾天呢?較高的P值表示剩下的幾天沒(méi)有明顯的相互關(guān)系。星期還有哪些情況我能使用卡方檢驗(yàn)?行政流程充滿屬性數(shù)據(jù)-例如:
職能: (Y) 和 (X)人力資源:
病假天數(shù)和員工或部門(mén)財(cái)會(huì):
錯(cuò)誤的費(fèi)用報(bào)告數(shù)和員工或部門(mén)銷售: 失去的銷售額和帳戶或區(qū)域或國(guó)家后勤: 遲到的交貨次數(shù)和配送中心或國(guó)家呼叫中心:錯(cuò)過(guò)的客戶電話數(shù)和公司人員或班次安裝: 反復(fù)服務(wù)電話數(shù)和區(qū)域技術(shù)(fieldtech)采購(gòu): 訂單的交貨天數(shù)和供應(yīng)商庫(kù)存: 零件數(shù)和配送中心
如果你的數(shù)據(jù)成比例或百分比,將其轉(zhuǎn)換為次數(shù)#還有哪些情況我能使用卡方檢驗(yàn)?行政流程充滿屬性數(shù)據(jù)-例如:如實(shí)際意義明確問(wèn)題“我關(guān)心嗎?”P(pán)值可能顯示統(tǒng)計(jì)上的意義樣本容量越大,p值越小對(duì)非常大的樣本容量而言,即使很小的差異或相互關(guān)系通常都比較顯著在實(shí)際上這些細(xì)小的差異可能并不顯著通過(guò)關(guān)注組間差異評(píng)估實(shí)際的顯著性差異是否大到有所影響?如果是,那么在實(shí)際中這些差異就是顯著的。既統(tǒng)計(jì)顯著又實(shí)際顯著的因子可以用于操作流程實(shí)際意義明確問(wèn)題“我關(guān)心嗎?”相關(guān)性分析與簡(jiǎn)單線性回歸相關(guān)性分析與簡(jiǎn)單線性回歸相關(guān)性從這張圖我們可以看出什么?這些變量是否相關(guān)?相關(guān)性從這張圖我們可以看出什么?相關(guān)性:它對(duì)我們意味著什么?當(dāng)我們提到相關(guān)性時(shí),我們?cè)趺聪耄繌V告投入是否與銷售量有關(guān)?資本的利用與定價(jià)是否有關(guān)?你認(rèn)為奧運(yùn)會(huì)溜冰項(xiàng)目?jī)蓚€(gè)裁判員之間有多大的相關(guān)性?為什么當(dāng)我攜帶雨傘時(shí),天色看起來(lái)都不會(huì)下雨呢?相關(guān)性:它對(duì)我們意味著什么?當(dāng)我們提到相關(guān)性時(shí),我們?cè)趺聪耄肯嚓P(guān)性與回歸分析當(dāng)y和x都是連續(xù)數(shù)據(jù),檢驗(yàn)相互關(guān)系時(shí)使用假設(shè)變量不相關(guān)。Ho:數(shù)據(jù)獨(dú)立(不相關(guān))Ha:數(shù)據(jù)不獨(dú)立(相關(guān))如果p值<0.05,拒絕Ho相關(guān)性與回歸分析當(dāng)y和x都是連續(xù)數(shù)據(jù),檢驗(yàn)相互關(guān)系時(shí)使用X數(shù)據(jù)單一X多元XsY數(shù)據(jù)單一Y多元Ys多變量分析(注:此表和多變量圖表不同)X數(shù)據(jù)離散連續(xù)Y數(shù)據(jù)離散連續(xù)卡方檢驗(yàn)邏輯回歸ANOVA均值/中位數(shù)檢驗(yàn)回歸分析X數(shù)據(jù)離散連續(xù)Y數(shù)據(jù)離散連續(xù)多元回歸邏輯回歸多元中位數(shù)檢驗(yàn)2,3,4way...ANOVA邏輯回歸多重何時(shí)使用相關(guān)性和回歸分析X數(shù)據(jù)單一X多元XsY數(shù)據(jù)單一Y多元Ys相關(guān)定義:決定兩個(gè)來(lái)自不同變量源的響應(yīng)(或輸出)之間線性關(guān)系的方法。也代表兩個(gè)變量間的線性關(guān)聯(lián)程度。由一個(gè)相關(guān)系數(shù)(R)來(lái)衡量?jī)蓚€(gè)變量間的聯(lián)系強(qiáng)度,在這里-1R1。按照慣例,R
表示真實(shí)的系數(shù),R表示我們的最佳估算。
相關(guān)定義:決定兩個(gè)來(lái)自不同變量源的響應(yīng)(或輸出)之間線性關(guān)系R值取值范圍從-1.0到+1.0,即-1R1,R值越接近+1或-1說(shuō)明線性相關(guān)性越強(qiáng)R<0意味著一個(gè)負(fù)線性相關(guān),即是Y隨著X的增加而減少。R>0意味著一個(gè)正線性相關(guān),即是Y隨著X的增加而增加。R=-1意味著一個(gè)完全負(fù)線性關(guān)系R=1意味著一個(gè)完全正線性關(guān)系R=0意味著無(wú)線性關(guān)系。相關(guān)系數(shù):RR值取值范圍從-1.0到+1.0,即-1R11009080706050110100908070605040InputOutputR-Squared
=
0.359Y
=
25.7595
+
0.645418XModerate
Positive
Correlation弱的正相關(guān)強(qiáng)的正相關(guān)中等正相關(guān)弱的負(fù)相關(guān)強(qiáng)的負(fù)相關(guān)中等負(fù)相關(guān)散點(diǎn)圖-圖形展示關(guān)系100908070605011010090807060504R應(yīng)該多大:如果你真想知道的話
…依樣本大小,若所得的相關(guān)系數(shù)比表中的值大,則可視為“重要”或統(tǒng)計(jì)顯著R應(yīng)該多大:如果你真想知道的話…依樣本大小,若所得的相關(guān)相關(guān)系數(shù)總的原則:
相關(guān)系數(shù)(r)>.80或者<-.80是強(qiáng)相關(guān)與其他的統(tǒng)計(jì)檢驗(yàn)一樣,相關(guān)性分析的有效性和洞察力與樣本數(shù)量有關(guān)研究中包括越多的樣本,可以界定的弱相關(guān)性在統(tǒng)計(jì)上就越顯著P值用于確定統(tǒng)計(jì)的顯著性相關(guān)系數(shù)總的原則:范例:JMP相關(guān)性打開(kāi)項(xiàng)目文件6-CorrelationExample.JMP范例:JMP相關(guān)性打開(kāi)項(xiàng)目文件6-CorrelatJMP范例–相關(guān)性Y和X有多大相關(guān)性?Y2和X2有多大相關(guān)性?JMP范例–相關(guān)性Y和X有多大相關(guān)性?JMP范例–輸出Y和X顯示了較高的、正的依賴關(guān)系,在10個(gè)樣本情況下這在統(tǒng)計(jì)上是顯著的P值小于0.05相關(guān)性系數(shù)為0.88JMP范例–輸出Y和X顯示了較高的、正的依賴關(guān)系,在1JMP范例–輸出Y2和X2顯示之間沒(méi)有太強(qiáng)的相關(guān)性,10個(gè)樣本情況下這在統(tǒng)計(jì)上是不顯著的P值大于0.05我們需要更多的樣本來(lái)估計(jì)相互關(guān)系!JMP范例–輸出Y2和X2顯示之間沒(méi)有太強(qiáng)的相關(guān)性,1R=0意味著無(wú)線性關(guān)系。R=0并不意味著無(wú)關(guān)系,可能屬于曲線或其他相關(guān)性YXR=0R=0意味著無(wú)線性關(guān)系。YXR=0相關(guān)分析的常見(jiàn)錯(cuò)誤收集數(shù)據(jù)范圍過(guò)窄外推法因果歸屬掩飾真正的相關(guān)或創(chuàng)造虛假的相關(guān)過(guò)多的集中在相關(guān)系數(shù)上相關(guān)分析的常見(jiàn)錯(cuò)誤收集數(shù)據(jù)范圍過(guò)窄收集的數(shù)據(jù)覆蓋范圍過(guò)窄X的范圍越寬就會(huì)產(chǎn)生更佳的估算回歸線。在窄范圍內(nèi)收集數(shù)據(jù)較寬范圍的數(shù)據(jù)可提供一個(gè)較佳估算YXYX錯(cuò)誤1:數(shù)據(jù)覆蓋范圍過(guò)窄收集的數(shù)據(jù)覆蓋范圍過(guò)窄X的范圍越寬就會(huì)產(chǎn)生更佳的估算回歸線數(shù)據(jù)范圍內(nèi)的關(guān)系在其他區(qū)域內(nèi)不一定適用。在數(shù)據(jù)范圍以外對(duì)相關(guān)性進(jìn)行外推
錯(cuò)誤2:外推法數(shù)據(jù)范圍內(nèi)的關(guān)系在其他區(qū)域內(nèi)不一定適用。在數(shù)據(jù)范圍以外對(duì)相關(guān)相關(guān)并不意味著因果,僅僅是兩個(gè)變量間存在的關(guān)系。TotalNumberOfHospitalsInShenzhenNumberOfNewBornBabiesPerMonth錯(cuò)誤3:因果歸屬相關(guān)并不意味著因果,僅僅是兩個(gè)變量間存在的關(guān)系。Total數(shù)據(jù)實(shí)際上是來(lái)自不同的數(shù)據(jù)來(lái)源。掩飾真實(shí)的相關(guān)或創(chuàng)造虛假的相關(guān)+MachineA機(jī)器AMachineB機(jī)器BYX+++++++++錯(cuò)誤4:曲解數(shù)據(jù)數(shù)據(jù)實(shí)際上是來(lái)自不同的數(shù)據(jù)來(lái)源。掩飾真實(shí)的相關(guān)或創(chuàng)造虛假的相過(guò)多的集中于相關(guān)系數(shù)
上圖有相關(guān)系數(shù)R0.7錯(cuò)誤5:過(guò)多的集中于R過(guò)多的集中于相關(guān)系數(shù)上圖有相關(guān)系數(shù)R0.回歸我們經(jīng)常希望用一條直線來(lái)描述相關(guān)性這條直線的方程是什么?這條直線可以在多大程度上恰當(dāng)描述相互關(guān)系?回歸我們經(jīng)常希望用一條直線來(lái)描述相關(guān)性回歸分析定義:回歸是確定一個(gè)響應(yīng)變量(或輸出)與一個(gè)或多個(gè)因變量(或輸入)之間的統(tǒng)計(jì)關(guān)系的方法。回歸分析
用于研究和模擬變量間的關(guān)系的統(tǒng)計(jì)技術(shù)簡(jiǎn)單線性回歸
一個(gè)連續(xù)的Y和
一個(gè)連續(xù)的X之間的關(guān)系多元線性回歸
一個(gè)連續(xù)的Y和
多于一個(gè)連續(xù)的X之間的關(guān)系
Y=?(X1,X2,...Xn)其中:X1到Xn是因變量Y是響應(yīng)變量回歸分析定義:回歸是確定一個(gè)響應(yīng)變量(或輸出)與一個(gè)或多個(gè)回歸與相關(guān)回歸分析回歸分析建立關(guān)于因變量與響應(yīng)變量之間關(guān)系的估計(jì)方程式(公式)。相關(guān)分析量化兩個(gè)變量之間的線性關(guān)系的程度,即等式的適合性如何?vs回歸與相關(guān)回歸分析相關(guān)分析vs一般線性回歸(SLR)數(shù)學(xué)模型 其中:Y=a+bX是預(yù)測(cè)(獨(dú)立)變量是響應(yīng)(非獨(dú)立)變量是Y-軸上的截取值是斜率一般線性回歸一般線性回歸(SLR)數(shù)學(xué)模型 其中:Y=殘差(或誤差)由ei=Yi-(a+bXi)表示最適合的直線即是殘差平方和最小的那條線。本方法假設(shè)X無(wú)誤差ei2是最小值最小平方的方法殘差(或誤差)由ei=Yi-(a+R2=1表示回歸等式與抽樣數(shù)據(jù)完全吻合測(cè)定系數(shù),R2是由回歸線代表y中變異數(shù)量R2=SSRSSTSSR=Si(Yi-Y)2SSE=Si(Yi-Y)2SST=Si(Yi-Y)2SST=SSR+SSE
測(cè)定系數(shù)--R2定義R2=1表示回歸等式與抽樣數(shù)據(jù)完全吻合測(cè)定系數(shù),R2是由回歸分析–圖形法打開(kāi)文件7-Adsandsales.JMP回歸分析–圖形法回歸–擬合直線圖從上圖我們可以看到當(dāng)投入在廣告上的費(fèi)用增加時(shí),銷售量也增加這是直接(正)相關(guān)(r=+.877)的范例我們還能看到線性的等式和R平方值…回歸–擬合直線圖從上圖我們可以看到當(dāng)投入在廣告上的費(fèi)用增R平方:越大越好,說(shuō)明回歸方程有效性有多大,最大值為1調(diào)整R平方:與“R平方”值越接近越好均方根誤差:越小越好,表明方程預(yù)測(cè)的誤差大小回歸分析-JMP輸出說(shuō)明回歸方程的截距和銷售額對(duì)廣告投入都是有顯著作用的R平方:越大越好,說(shuō)明回歸方程有效性有多大,最大值為1回歸分回歸分析-R2計(jì)算-R2決策系數(shù)R2是什么?在前面的范例中,R2
的值為76.8%,這表明:Y中76.8%的變異可以用這個(gè)模型表達(dá)Y中23.2%的變異由其他X變量、測(cè)量變異和噪聲等組成。))1(n/SS())p(n/SS(1(adj)RTotalError2---=回歸分析-R2計(jì)算-R2))1(n/SS())p(n回歸分析-R2在只有一個(gè)輸入變量的線性回歸中,用r2
表示輸出變異性能被輸入解釋的比例。在多元線性回歸中,衡量方法是相似的,但被稱為
“決定系數(shù)”R2。R2
是指輸出的變異性可以被所有輸入變量一起解釋的比例,而不是可以被其中單個(gè)輸入變量解釋的比例。R2>80%,相關(guān)可能顯著50%<R2<80%,需要判斷R2<50%,相關(guān)可能不顯著解釋時(shí),請(qǐng)使用可靠的判斷回歸分析-R2在只有一個(gè)輸入變量的線性回歸中,用r2表回歸分析-R2R2
是由回歸模型解釋可變性的比例評(píng)估擬合性的有用方法(越大越好)R2
的值大,并不保證良好的擬合性!R2
的值小,并不表示變量不重要!用R2進(jìn)行實(shí)際的判斷是根據(jù)對(duì)流程和產(chǎn)品的分析,決定模型是否描述了足夠的變異回歸分析-R2R2是由回歸模型解釋可變性的比例回歸分析的缺陷回歸模型可用于內(nèi)推法,但不能用于在數(shù)據(jù)范圍外的外推法注意一些“X”值的影響注意異常值和壞值,但不要過(guò)快地把這些值從分析中去掉注意“胡亂”的相互關(guān)系或者錯(cuò)誤的結(jié)論為了估計(jì)響應(yīng)“Y”,需要知道預(yù)測(cè)變量“X”回歸分析的缺陷回歸模型可用于內(nèi)推法,但不能用于在數(shù)據(jù)范圍外的異常值的影響如果異常值是一個(gè)壞值,那么模型評(píng)估是錯(cuò)誤的,而且誤差被放大。然而,如果異常值是真實(shí)過(guò)程的一個(gè)值,它不應(yīng)該被去掉。它是關(guān)于過(guò)程的數(shù)據(jù)的有用的一部分。參考你的日志和回歸分析筆記以理解這一點(diǎn)分別評(píng)價(jià)有這一點(diǎn)和沒(méi)有這一點(diǎn)的模型以判定其影響。
X=預(yù)測(cè)器Y=響應(yīng)所發(fā)現(xiàn)的異常值對(duì)回歸系數(shù)的影響是什么?異常值的影響如果異常值是一個(gè)壞值,那么模型評(píng)估是錯(cuò)誤的,而且“X”值的影響在這個(gè)范例中:有影響的點(diǎn)是由于預(yù)測(cè)器X的值異常大評(píng)估數(shù)據(jù),有和沒(méi)有右邊遠(yuǎn)處的那一點(diǎn)
X=預(yù)測(cè)器Y=響應(yīng)沒(méi)有這個(gè)有影響的點(diǎn),這條線會(huì)呈什么樣?“X”值的影響在這個(gè)范例中:X=預(yù)測(cè)器Y=響應(yīng)沒(méi)“X”值的影響如果在分析中,R2的值或者擬合斜率有較大的變化,該點(diǎn)的影響就太大。
X=預(yù)測(cè)器Y=響應(yīng)“X”值的影響如果在分析中,R2的值或者擬合斜率有較大范例:擬合直線圖比較有著相似的斜率,截距和R2的不同模型著眼于圖,確認(rèn)搞清統(tǒng)計(jì)信息的意義!范例:擬合直線圖比較有著相似的斜率,截距和R2的不同模型著眼關(guān)于一座城市的數(shù)據(jù)顯示當(dāng)鸛的種群密度增加時(shí),城市的人口也增加。鸛是否影響人口?01245
X=鳥(niǎo)的數(shù)量Y=城市人口1510
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度高層建筑安全文明施工與應(yīng)急救援合同范本3篇
- 二零二五版商業(yè)美陳策劃與執(zhí)行合同4篇
- 二零二五版股權(quán)交換承諾書(shū)示范范本3篇
- 二零二五版客運(yùn)駕駛員勞動(dòng)合同模板(含試用期)3篇
- 課程設(shè)計(jì)鏈表算法
- 預(yù)制梁場(chǎng)2025年度鋼筋加工勞務(wù)分包合同3篇
- 二零二五年度航空航天產(chǎn)業(yè)投資基金合同292篇
- 2025年度現(xiàn)代農(nóng)業(yè)設(shè)施租賃合同4篇
- 二零二五版建筑電氣系統(tǒng)維修保養(yǎng)服務(wù)協(xié)議2篇
- 混凝土預(yù)制樁施工方案
- 鋪大棚膜合同模板
- 長(zhǎng)亭送別完整版本
- 《鐵路軌道維護(hù)》課件-更換道岔尖軌作業(yè)
- 股份代持協(xié)議書(shū)簡(jiǎn)版wps
- 職業(yè)學(xué)校視頻監(jiān)控存儲(chǔ)系統(tǒng)解決方案
- 《銷售心理學(xué)培訓(xùn)》課件
- 2024年安徽省公務(wù)員錄用考試《行測(cè)》真題及解析
- 你比我猜題庫(kù)課件
- 豐順縣鄉(xiāng)鎮(zhèn)集中式飲用水水源地基礎(chǔ)狀況調(diào)查和風(fēng)險(xiǎn)評(píng)估報(bào)告
- 無(wú)人駕駛航空器安全操作理論復(fù)習(xí)測(cè)試附答案
- 2024年山東省青島市中考語(yǔ)文試卷(附答案)
評(píng)論
0/150
提交評(píng)論