應(yīng)用統(tǒng)計(jì)學(xué)筆記_第1頁
應(yīng)用統(tǒng)計(jì)學(xué)筆記_第2頁
應(yīng)用統(tǒng)計(jì)學(xué)筆記_第3頁
應(yīng)用統(tǒng)計(jì)學(xué)筆記_第4頁
應(yīng)用統(tǒng)計(jì)學(xué)筆記_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、應(yīng)用統(tǒng)計(jì)學(xué)筆記第一章統(tǒng)計(jì)方法一、 統(tǒng)計(jì)依其功能分成理論統(tǒng)計(jì)學(xué)(pure statistics)和應(yīng)用統(tǒng)計(jì)學(xué)(applied statistics):(一) 理論統(tǒng)計(jì)學(xué):指的是創(chuàng)造出一個(gè)可以用于統(tǒng)計(jì)的定理或公式、或?qū)τ诂F(xiàn)有統(tǒng)計(jì)的定理或公式作更合理的解釋。是偏向理論的推論過程和結(jié)果。(二) 應(yīng)用統(tǒng)計(jì)學(xué):指的是如何正確使用理論統(tǒng)計(jì)學(xué)者所創(chuàng)造出來的統(tǒng)計(jì)定理或公式,達(dá)到評(píng)估某一事件的目的,我們只要了解在何種狀況下該用那一個(gè)數(shù)學(xué)方程式或定理,以及該如何解出所需要的數(shù)學(xué)方程式就可以了。是偏向解決實(shí)際問題的推論過程和結(jié)果,協(xié)助各行各業(yè)判斷或預(yù)測(cè)某一特定事件、在未來產(chǎn)生某種結(jié)果的機(jī)會(huì)有多大,是預(yù)測(cè)未來的有效工具

2、。二、 統(tǒng)計(jì)方法的應(yīng)用是為了發(fā)現(xiàn)或解決某一特定群體的問題,這一產(chǎn)生或需要解決問題的特定群體稱為母體(population)、群體或母群體。母體所包含個(gè)體數(shù)量通常都很龐大、或數(shù)量具有不確定性,在正常的狀況下,是不可能讓母體內(nèi)的每一個(gè)個(gè)體在統(tǒng)計(jì)過程中適時(shí)出現(xiàn),因此只能選擇某些個(gè)體當(dāng)作評(píng)估或研究的對(duì)象,選擇個(gè)體的過程稱為抽樣(sampling),所抽到的個(gè)體稱為樣本(sample)或樣品。三、 搜集資料的方法有很多種,視情況而定,大致上可分為三類:(一) 直接從樣本而又不干擾或影響樣本的情況下得到數(shù)據(jù)的方法,稱為調(diào)查法(survey)。(二) 直接從樣本而且必須加入干擾或影響樣本因素的情況下得到數(shù)據(jù)

3、的方法,稱為實(shí)驗(yàn)法(experiment)。(三) 間接得到所要評(píng)估或研究的群體或特性數(shù)據(jù)的方法,稱為文件(docments)應(yīng)用法。四、 用簡短的文字、統(tǒng)計(jì)表、統(tǒng)計(jì)圖或方程式等方式,只能顯示樣本數(shù)據(jù)整體分布的特性,但還夠具體。所以最好能用少數(shù)幾個(gè)數(shù)據(jù)具體表示樣本數(shù)據(jù)的特性,這些能表示樣本數(shù)據(jù)特性的具體數(shù)據(jù),就稱為統(tǒng)計(jì)量(static)或表征數(shù)。例如搜集到的作文成績統(tǒng)計(jì)出甲、乙和丙的總?cè)藬?shù)還算出百分比,或80分以上、7079、6069、60分以下的總?cè)藬?shù)后,還算出平均分?jǐn)?shù)或高低分?jǐn)?shù)之間的差距等,這樣才能具體顯示樣本的整體作文程度。常用的統(tǒng)計(jì)量有百分比、平均數(shù)、中位數(shù)、眾數(shù)、四分位數(shù)、全距、變異

4、數(shù)、標(biāo)準(zhǔn)偏差和變異系數(shù)等。這樣用簡短的文字、統(tǒng)計(jì)表、統(tǒng)計(jì)圖、方程式或統(tǒng)計(jì)量等來描述或分析樣本數(shù)據(jù)特性的方法,稱為描述統(tǒng)計(jì)學(xué)(descriptive statistics),也就是統(tǒng)計(jì)分析的主要內(nèi)容。由樣本得到的群體現(xiàn)象或特性,利用機(jī)率分布,預(yù)測(cè)或判斷母體群體現(xiàn)象或特性的方法和過程,稱為推論統(tǒng)計(jì)學(xué)(inferential statistics)。表示樣本群體現(xiàn)象或特性的數(shù)值稱為統(tǒng)計(jì)量,表示母體群體現(xiàn)象或特性的數(shù)值稱為參數(shù)值(paramenters)或母數(shù)。五、 一般來說不同的樣本,會(huì)得到不同的統(tǒng)計(jì)量,所以統(tǒng)計(jì)量數(shù)值的出現(xiàn)是憑運(yùn)氣或機(jī)會(huì),運(yùn)氣或機(jī)會(huì)出現(xiàn)的可能性大小稱為機(jī)率(probability)

5、,如果把各統(tǒng)計(jì)量數(shù)值出現(xiàn)的機(jī)率按某種規(guī)則性加以排列,排列結(jié)果稱為機(jī)率分布(probability distribution)。如果知道某種統(tǒng)計(jì)量的機(jī)率分布情形,將一次抽樣得到的統(tǒng)計(jì)量數(shù)值,放在機(jī)率分布的適當(dāng)位置上,就能推論出母體具體的群體現(xiàn)象或特性,所以機(jī)率分布是樣本具體的群體現(xiàn)象或特性、推論出母體具體的群體現(xiàn)象或特性的橋梁。例如,一般人常聽到的常態(tài)分布是一種常見的機(jī)率分布,如果高中生的法律常識(shí)測(cè)驗(yàn)成績是常態(tài)分布,則由樣本得到的平均成績?cè)诔B(tài)分布的位置,可以推論出今年高中生的法律常識(shí)是否優(yōu)于往年,其結(jié)果可以作為教育改革的參考。六、 推論母數(shù)主要有二種方法:估計(jì)(estimation)和假設(shè)檢定

6、(hypothesis testing):(一) 估計(jì):是利用統(tǒng)計(jì)量,估算出母體相對(duì)應(yīng)的參數(shù)值。(二) 假設(shè)檢定:是先假設(shè)母體的參數(shù)值,然后用得自樣本的相對(duì)應(yīng)統(tǒng)計(jì)量來檢定假設(shè)的參數(shù)值是否正確。(三) 估計(jì)和假設(shè)統(tǒng)計(jì)最大的不同點(diǎn)就是:估計(jì)是用統(tǒng)計(jì)量當(dāng)作推論基礎(chǔ),而假設(shè)檢定是用所假設(shè)母體的參數(shù)值當(dāng)作推論基礎(chǔ)。(四) 例如,候選人不知道得票率,民調(diào)后得到支持度35%(統(tǒng)計(jì)量),經(jīng)推論后,得到誤差是3%,預(yù)測(cè)其支持度是35% 3%(估計(jì)母數(shù)),這種推論方法稱為估計(jì);候選人先預(yù)測(cè)得票率是40%以上(假設(shè)母數(shù)),民調(diào)后得到支持度是42%(統(tǒng)計(jì)量),經(jīng)推論后,判斷候選人預(yù)測(cè)得票率可能是正確的,這種推論方法稱

7、為假設(shè)檢定。第二章母體與樣本一、 當(dāng)對(duì)某群體中的某些事件發(fā)生興趣時(shí),群體已大致形成,這一特定群體在統(tǒng)計(jì)上稱為母體(population)、群體或母群體。母體可能是具有某種共同特性傾向的一群人或物,換句話說,母體是由許多個(gè)體或基本單元(elements)所組成的。母體依其個(gè)體的組成型態(tài),可分為二種:(一) 有限母體(finite population):母體內(nèi)的個(gè)體數(shù)量是固定而且容易計(jì)數(shù)的,例如村里長選舉以村里內(nèi)的全體合格選民當(dāng)母體,選民總?cè)藬?shù)是固定的而且容易計(jì)量的。(二) 無限母體(infinite popultion):母體內(nèi)的個(gè)體數(shù)量不是固定的或數(shù)量很龐大且不容易計(jì)數(shù)的,就稱為無限母體,例

8、如某快餐連鎖店的消費(fèi)者可能因促銷活動(dòng)而增減,消費(fèi)者總?cè)藬?shù)不是固定的而且不容易計(jì)數(shù)。再如總統(tǒng)選舉以全國的全體合格選民當(dāng)母體,選民總?cè)藬?shù)雖固定但是不容易計(jì)數(shù),所以歸類為無限母體。二、 對(duì)母體內(nèi)的所有個(gè)體搜集數(shù)據(jù),以顯示母體特性的方法稱為普查(census)。例如1995年臺(tái)灣地區(qū)的工商普查、1990年臺(tái)灣地區(qū)人口普查等。普查的結(jié)果將母體的特性用數(shù)量表示出來,則稱為參數(shù)值(parameters)或母數(shù),用以具體表示母體的特性。例如,每次選舉可以視為一欠普查,各候選人的得票數(shù)或得票百分比是母數(shù),用以具體表示該選區(qū)全體選民(母體)的支持傾向,或?qū)δ撤N政見的支持程度,作為將來施政的參考或依據(jù)。三、 統(tǒng)計(jì)方

9、法的優(yōu)點(diǎn)是使用最少的人力、財(cái)力、物力、時(shí)間和金錢,或者只對(duì)最少量的個(gè)體產(chǎn)生破壞性,就能預(yù)估母數(shù)。為了達(dá)到這目標(biāo),所以只能在母體內(nèi)選擇一些個(gè)體作為搜集數(shù)據(jù)的對(duì)象,這些被選到的個(gè)體稱為樣本(sample)。選擇樣本的過程稱為抽樣(sampling)。所以統(tǒng)計(jì)方法是利用對(duì)樣本搜集數(shù)據(jù)取代普查,而又能得到相似母數(shù)的最有效方法。抽樣依據(jù)樣本取得的機(jī)會(huì)是否公平而有二種類型:(一) 隨機(jī)抽樣法(random sampling):是母體中每一個(gè)個(gè)體,在抽之前,并不知道那一個(gè)個(gè)體會(huì)被抽出,但是每一個(gè)個(gè)體每一次被抽到的機(jī)會(huì)是相等的,換句話說,個(gè)體被抽到的機(jī)會(huì)是隨機(jī)的。1. 簡單隨機(jī)抽樣法(simple rando

10、m sampling):將母體中的每一個(gè)個(gè)體按順序編上一個(gè)識(shí)別號(hào)碼后,被抽到的號(hào)碼就是樣本,通常是一次直接抽完所需要的樣本數(shù)。如果母體內(nèi)個(gè)體的數(shù)量不大,而且個(gè)體特性類似時(shí),使用簡單隨機(jī)抽樣法較為恰當(dāng)。2. 系統(tǒng)抽樣法(systematic sampling):將母體中的每一個(gè)體按順序編上一個(gè)識(shí)別號(hào)碼后,優(yōu)先算出抽樣距離(sampling interval),再隨機(jī)抽出一個(gè)號(hào)碼當(dāng)起點(diǎn)或首項(xiàng),然后依照抽樣距離的間隔,按照順序,一次抽完所需要的樣本數(shù)的方法,又稱等距抽樣法。所抽出的樣本號(hào)碼,是以抽樣距離為公差的等差級(jí)數(shù)。抽出第一個(gè)號(hào)碼時(shí),最好使用抽樣距離以下的號(hào)碼,這樣會(huì)比較容易處理,例如,抽樣距離

11、是24,則從1到24號(hào)中隨機(jī)抽出一個(gè)號(hào)碼,如果抽出的號(hào)碼是17號(hào),則第一個(gè)樣本是17號(hào),第二個(gè)樣本是41號(hào)(17+24),依此類推,至所需的樣本數(shù)抽完為止。如果母體內(nèi)個(gè)體的數(shù)量不易確定,則編號(hào)困難,母體內(nèi)個(gè)體特性差異很大時(shí),則容易產(chǎn)生抽樣誤差,抽樣誤差的大小受個(gè)體特性的分布情形及抽樣距離的影響,在這種情況下,較不適合使用系統(tǒng)抽樣法。3. 分層抽樣法(stratified sampling):如果母體中各個(gè)體很明顯的分成幾組不同的性特,為了樣本的代表性,通常將母體中特性相同或相近的個(gè)體集中成一個(gè)小母體(subpopulation),這個(gè)過層稱為分層(stratified)。在這種狀況下,母體被分

12、成二個(gè)以上的小母體,每一個(gè)小母體稱為一層(strata)。層內(nèi)個(gè)體的特性相同或相近,而層與層間個(gè)體的特性則明顯不同。例如,將母體中的男性集中成一層,女性集中成一層,也就是將母體按性別分成二個(gè)小母體。如果母體中各個(gè)體的特性相同或相近,則不可能分層。分層后以層為單位,再利用簡單隨機(jī)抽樣法或系統(tǒng)抽樣法,自各層中按各層所含個(gè)體數(shù)量的比例的比例抽樣法(proportional sampling),抽出各層的樣本數(shù),則必須經(jīng)過加權(quán)(weighting)處理后,才能得到真正代表樣本特性的數(shù)值,所以最好采用比例抽樣法。4. 整體抽樣法(cluster sampling):如果母體中各個(gè)體自然或經(jīng)過人為因素組成

13、幾個(gè)特性相同或類似的次級(jí)團(tuán)體(sub-population),每一個(gè)次級(jí)團(tuán)體稱為一群(cluster)或一束。在這種情況下,母體是由為數(shù)眾多的群或束所組成,群內(nèi)包含許多特性不同的個(gè)體,但群與群間的組織型態(tài)則相同或類似。例如以社會(huì)為母體,則家庭可以視為母體里的群或束。分群后以群為單位編號(hào),再利用簡單隨機(jī)抽樣法或系統(tǒng)抽樣法,抽出所需的群數(shù)當(dāng)做樣本,如果以群的整體特性為研究對(duì)象,則一群視為一個(gè)樣本,否則所抽取群內(nèi)個(gè)體總數(shù)目應(yīng)等于或大于所需樣本數(shù)。例如,研究螞蟻的生態(tài),則每一螞蟻窩就是一個(gè)樣本??偠灾?,利用母體內(nèi)部的組織型態(tài),將母體分成許多類似的群,再抽出其中一些群當(dāng)樣本的方法,稱為整群抽樣法,又稱

14、為集束抽樣法、集群抽樣法、叢束抽樣法、叢集抽樣法或部落抽樣法。特別注意的是通常不再從所抽出的群中再抽出樣本。(二) 非隨機(jī)抽樣法(nonrandom sampling):是母體中每一個(gè)個(gè)體,依實(shí)際狀況故意或任意抽出,每一個(gè)個(gè)體被抽到的機(jī)會(huì)不一定相等,也不一定有被抽到的機(jī)會(huì),換句話說,個(gè)體被抽到的機(jī)會(huì)不是隨機(jī)的。1. 便利抽樣法(convenience sampling):以最容易得到或遇到的個(gè)體當(dāng)樣本的方法,又稱偶遇抽樣法(accidental sampling)。所得到或遇到的樣本不一定具有代表性,而且有些個(gè)體可能永遠(yuǎn)不會(huì)得到或遇到,其公平性值得懷疑。例:由所捕獲的魚類,研究該河流或湖泊的生

15、態(tài)。2. 判斷抽樣法(judgment sampling):抽樣人員主觀從母體選取認(rèn)為適合研究所需樣本的方法,稱為判斷或判定抽樣法,又稱立意抽樣法(purpose sampling)或依意抽樣法。由于是主觀認(rèn)定,所以其公平性和客觀性值得懷疑。例如,教師通常認(rèn)為學(xué)業(yè)成績好的學(xué)生,其品行一定好,辦事能力一定強(qiáng),所以經(jīng)常指定擔(dān)任干部或代表參加各種比賽。第三章資料搜集與整體一、 使用統(tǒng)計(jì)方法的目的,是為了了解母體的某些特性,據(jù)以預(yù)測(cè)或判斷某些事件將來發(fā)生的可能性或機(jī)率,作為決策的參考或依據(jù)。資料指的是將這些特性以簡單的文字或數(shù)據(jù)(data)表示出來,每一種特性稱為一種變項(xiàng)(variable),所以數(shù)據(jù)

16、是由一種以上的變項(xiàng)所組成的。如果是文字變項(xiàng)的數(shù)據(jù),通常稱為質(zhì)性資料(qualitative data),指的是從不同的角度,用不同的簡短文字來描述某一種特性,所以質(zhì)性研究通常包含許多不同文字描述的內(nèi)容,例如滿意度和支持度等。如果是數(shù)字變項(xiàng)的數(shù)據(jù),通常稱為量性數(shù)據(jù)(quantitative data),指的是使用相同的單位,用不同的量度數(shù)據(jù)來描述某一種特性,所以量性數(shù)據(jù)通常包含許多不同單位的數(shù)據(jù),例如身高和所得等??偠灾瑪?shù)據(jù)報(bào)含質(zhì)性數(shù)據(jù)和量性數(shù)據(jù),通常為了處理上的方便,會(huì)將質(zhì)性數(shù)據(jù)量化成量性數(shù)據(jù),所以數(shù)據(jù)通常是數(shù)量化的大量數(shù)據(jù)。二、 使用統(tǒng)計(jì)方法得到的結(jié)果,用以預(yù)測(cè)或判斷某些事件將來發(fā)生的可

17、能性或機(jī)率的準(zhǔn)確性,取決于所搜集資料的準(zhǔn)確性,所以資料搜集過程就很重要。資料就其搜集所得來源的不同,或是經(jīng)過整理分,分為以下:(三) 原始資料(primary data):直接由樣本或原始來源處搜集得到,而且沒有經(jīng)過整理的資料,又稱初級(jí)數(shù)據(jù)或直接數(shù)據(jù),通常是一堆雜亂無章的答案或數(shù)據(jù)。例如由受訪者直接填寫的問卷調(diào)查表,或某公司人事檔案里每一位員工個(gè)人的基本數(shù)據(jù)等。1. 原始數(shù)據(jù)的量度層次(測(cè)量尺度):原始數(shù)據(jù)的搜集,不論使用何種方法,都必須經(jīng)過量度的過程。所謂量度,指的是按照所需數(shù)據(jù)的特性,使用恰當(dāng)?shù)墓ぞ呋騼x器,對(duì)樣本進(jìn)行觀測(cè),把觀測(cè)到的結(jié)果記錄下來的過程。所以如何得到適當(dāng)而合用的數(shù)據(jù),必須考慮

18、各種不同的變項(xiàng)的量度層次(level)或尺度(scale)問題,也就是數(shù)據(jù)的繁簡程度問題,才能使用適當(dāng)?shù)墓ぞ呋騼x器對(duì)樣本搜集數(shù)據(jù)。為了讓使用者有所依循,一般而言,任何一種變項(xiàng)在量度前,都必須考慮是搜集到類別(nominal)、序位(ordinal)、等距(interval)或等比(ratio)等四種量度層次中的那一種層次,這四個(gè)層次(尺度)依序有迭床架屋的情形【也就是說后面的量度層次(測(cè)量尺度)具有前面的那個(gè)特性】,再加上一些額外的特性。變項(xiàng)的量度層次又稱為變項(xiàng)的測(cè)量尺度(scale of measurement)。(1) 類別層次(名目尺度):變項(xiàng)的內(nèi)容是文字型態(tài),屬于質(zhì)性數(shù)據(jù)。將樣本依性質(zhì)

19、分成不同的類型,類型之間有明顯的差別,而且彼此之間可能沒有關(guān)聯(lián),每一個(gè)樣本只能屬于其中一種類型,稱為類別層次,是最基本和最低層次的量度方式。例如,搭乘公交車依據(jù)門上的畫線高度分成要買票和不要買票,將性別分別男性和女性,將血型分成A型、B型、O型及AB型,將職業(yè)分成軍、公、教、工、商、農(nóng)、醫(yī)和其他等。有時(shí)候?yàn)榱朔奖銛?shù)據(jù)的整理,尤其是使用計(jì)算機(jī)整理數(shù)據(jù),通常會(huì)將質(zhì)性數(shù)據(jù)轉(zhuǎn)換成量性數(shù)據(jù),轉(zhuǎn)換的過程是將各種不同的類型,各給予一個(gè)任意不同的代號(hào)或數(shù)據(jù),例如:A. 用01代表A型、B. 02代表B型、C. 03代表O型、D. 04代表AB型等,代號(hào)或數(shù)量可以隨實(shí)際需要而設(shè)定。(2) 序位層次(順序尺度):

20、變項(xiàng)的內(nèi)容是文字型態(tài),通常是屬于質(zhì)性數(shù)據(jù)。樣本除了可以依性質(zhì)分成明顯不同的類型外,類型之間還能夠分出等級(jí)或排出順序,但不容易以數(shù)字確實(shí)表達(dá)出等級(jí)或順序之間的差距,或能以數(shù)字確實(shí)表達(dá)出等級(jí)或順序之間的差距,但并沒有實(shí)用上的價(jià)值,也就是不能或沒有必要量出其差距,稱為序位層次,是次低層次的量度方式。一般問卷設(shè)計(jì)常用李克特量表(Likert scale)或偏好排序;例如,對(duì)顧客滿意度調(diào)查通常分為很滿意、滿意、普通、不滿意和很不滿意等五種等級(jí),但等級(jí)之間的差距,因人而異,并沒有一定的標(biāo)準(zhǔn),因此不能以確定的數(shù)字來表示等級(jí)間的差距;舉行賽跑時(shí),最先到達(dá)的稱為第1名,第二到達(dá)的稱為第2名,第三到達(dá)的稱為第3名

21、,與到達(dá)時(shí)間差距無關(guān),皆可以得到預(yù)設(shè)的獎(jiǎng)勵(lì),類似這樣的問題,只要得到序位層次的量度結(jié)果就可以了。有時(shí)候?yàn)榱朔奖銛?shù)據(jù)整理,尤其是使用計(jì)算機(jī)整理數(shù)據(jù)時(shí),通常會(huì)將質(zhì)性數(shù)據(jù)轉(zhuǎn)換成量性數(shù)據(jù),轉(zhuǎn)換的過程是將各種不同的等級(jí)或順序,各給予一個(gè)任意不同的數(shù)值,例如,A. 用5分代表很滿意。B. 用4分代表滿意。C. 用3分代表普通。D. 用2分代表不滿意。E. 用1分代表很不滿意。 又如運(yùn)動(dòng)會(huì)拿到A. 第1名得5分。B. 第2名得3分。C. 第3名得1分。D. 總分最高分可以得到總錦標(biāo)。(3) 等距層次(區(qū)間尺度):變項(xiàng)的內(nèi)容是數(shù)字型態(tài),屬于量性數(shù)據(jù)。樣本除了可以依性質(zhì)或數(shù)據(jù)分成明顯不同的類型外,類型之間還能夠

22、分出等級(jí)或排出順序,而且有必要能夠以數(shù)字確實(shí)表達(dá)出等級(jí)或順序間的差距,稱為等距層次,是次高層次的量度方式。這層次的量度結(jié)果通常包含數(shù)字和單位,例如:A. 日夜的溫差是5,B. 學(xué)業(yè)成績第1名與第2名相差2.5分,C. 賽跑第1名與第2名相差1.3秒等。(4) 等比層次(比率尺度):變項(xiàng)的內(nèi)容是數(shù)字型態(tài),屬于量性數(shù)據(jù)。樣本除了可以依性質(zhì)或數(shù)據(jù)分成明顯不同的類型外,類型之間還能夠分出等級(jí)或排出順序,能夠以數(shù)字確實(shí)表達(dá)出等級(jí)或順序之間的差距,而且有必要且能夠以數(shù)字確實(shí)表達(dá)出等級(jí)或順序之間的比例,稱為等比層次,是最高層次的量度方式。這層次的量度結(jié)果因?yàn)槭潜戎?,所以通常只有?shù)字沒有單位,例如:A. 這顆

23、樹的高度是那顆樹高度的2倍,B. 他的錢只有他的1/10,C. 他的得票數(shù)是他的1/2等。(5) 層次間的關(guān)系:A. 類別和序位層次的數(shù)據(jù)通常用文字表達(dá)其結(jié)果,屬于質(zhì)性數(shù)據(jù),例如:(A) 用男人比女人多,(B) 他是第1高票,他是第2高票,他是第3高票等來表達(dá),而不用或不能用數(shù)字來表達(dá)的數(shù)據(jù)皆屬之。通常序位層次量度的結(jié)果,可以化簡成類別層次的數(shù)據(jù),但是類別層次量度的結(jié)果,則很不容易推展成序位層次的數(shù)據(jù),例如,可以把滿意度里的很滿意、滿意和普通合并成滿意,把不滿意和很不滿意合并成不滿意,就是把序位層次量度化簡成類別層次的數(shù)據(jù),反之,則行不通。B. 等距和等比層次的數(shù)據(jù)通常用數(shù)字表達(dá)其結(jié)果,屬于量

24、性數(shù)據(jù),例如:(A) 中午的氣溫比早上高3,(B) 講桌的高度是課桌高度的2倍等,可以用數(shù)字來表達(dá)差距或比率的數(shù)據(jù)皆屬之。通常等比層次量度的結(jié)果,可以化簡成序位或類別層次的數(shù)據(jù)。但是類別、序位或等距層次量度的結(jié)果,也很不容易推展成等距層次的數(shù)據(jù)。例如高度可以算出比值或差距,可以排出高度順序,或分出高與矮;如果只知道上公交車要不要買票的高與矮,則很難對(duì)顧客身高排出高度順序,算出比值或差距。C. 等距和等比層次的量度,有其實(shí)質(zhì)上的限制,換句話說,有些變項(xiàng)只能得到等距的量度層次,主要的分別在量度起點(diǎn)0值的真實(shí)意義,如果量度工具起點(diǎn)0值是真正表示沒有,才能作等比層次的度量,例如高度是0cm表示沒有高度

25、,重量是0kg表示沒有重量,所以身高和體重可以作等比層次的量度;如果量度工具起點(diǎn)的0值是隨需要指定的,不是也不能用來表示沒有,則只能作等距層次的量度,例如攝氏0度和華氏0度的0值,是分別視實(shí)際需要訂定的,而且0度也不是表示沒有溫度,所以溫度只能量到等距的層次。D. 總而言之,(A) 等比包含等距、序位和類別層次的數(shù)據(jù),所以包含的訊息(information)最多,在等比層次時(shí),可以作加、減、乘或除的運(yùn)算;(B) 等距包含序位和類別層次的數(shù)據(jù),所以包含的訊息是次多,在等距層次時(shí),只能作加或減的運(yùn)算。(C) 序位層次只包含類別層次的數(shù)據(jù),所以包含的訊息是次少,在序位層次時(shí),只能排出高低或大小。(D

26、) 類別層次包含的訊息是最少,只能分出同或異。(E) 當(dāng)?shù)缺然虻染嗟臄?shù)字?jǐn)?shù)據(jù),轉(zhuǎn)換成序位或類別的文字?jǐn)?shù)據(jù)時(shí),通常可以順利轉(zhuǎn)換。(F) 當(dāng)序位或類別的文字?jǐn)?shù)據(jù),轉(zhuǎn)換成等比或等距的數(shù)字?jǐn)?shù)據(jù)時(shí),必須設(shè)定成數(shù)值,如果設(shè)定值不同,可能得到不同的結(jié)果,這是作轉(zhuǎn)換時(shí)必須特別注意的地方。2. 原始資料的搜集方法:抽出樣本,確定了變項(xiàng)及其量度層次之后,就要考慮用什么方法搜集資料了。通常使用調(diào)查(survey)或?qū)嶒?yàn)(experiment)的方法搜集資料,調(diào)查通常是在最自然的情況下進(jìn)行,而實(shí)驗(yàn)是在控制某些因素下進(jìn)行,依實(shí)際需要選擇使用方法,必要時(shí)也可能同時(shí)進(jìn)行。(1) 調(diào)查:使用調(diào)查方法搜集的目的,是為了得到最自

27、然和最真實(shí)的原始數(shù)據(jù),所以在搜集數(shù)據(jù)的過程中,必須對(duì)樣本不產(chǎn)生任何控制或干擾,使其在最自然的狀況下,提拱所需的數(shù)據(jù)。例如私家偵探的暗中調(diào)查或者在閑聊中取得某些資料等。調(diào)查通常使用訪問(interview)或觀察(observa-tion)二種方法搜集資料。A. 訪問:如果調(diào)查的對(duì)象是人,通常會(huì)利用訪問的方法。訪問前必須根據(jù)樣本和變項(xiàng)的特性,設(shè)計(jì)一份問卷調(diào)查表,如果只有問題而沒有指定答案,稱為開放式(open ended)或非限制式問卷;如果所有問題皆指定答案,稱為封閉式(close ended)或限制性問卷。開放性問卷較容易搜集到完整的數(shù)據(jù),但整理數(shù)據(jù)的過程較為復(fù)雜,而且有可能得不到具體的結(jié)論

28、;封閉式問卷搜集到確定答案的數(shù)據(jù),整理數(shù)據(jù)的過程較為簡單,但有可能得不到真實(shí)的答案。為了實(shí)際上的需要,可能同時(shí)采用部分開放和封閉式的混合式問卷。新設(shè)計(jì)的問卷應(yīng)該符合簡單、明了、容易回答、容易使用和容易處理為原則,而且必須經(jīng)過預(yù)測(cè)的過程,做適當(dāng)?shù)男抻?,以確定問卷的適用性和準(zhǔn)確性。訪問因?yàn)椴捎脝柧硪詥柎鸱绞竭M(jìn)行,通常稱為問卷調(diào)查。訪問方式有當(dāng)面訪問、電話訪問和郵寄(派人分發(fā))問卷訪問。B. 觀察:如果樣本不能回答問題或不必回答問題,通常會(huì)使用觀察的方法搜集資料,換句話說,所搜集的是有關(guān)樣本行為或現(xiàn)象的數(shù)據(jù)。例如,暗中觀察偷竊者的動(dòng)作或表情,恐布電影觀眾的表情等。觀察項(xiàng)目(變項(xiàng))、觀察方法、量度方法

29、和記錄方法,均須事先設(shè)定,并據(jù)以設(shè)計(jì)標(biāo)準(zhǔn)化的表格。表格并沒有一定的格式,以觀察人員容易填寫不會(huì)產(chǎn)生偏差,以及事后容易處理為原則。觀察法通常是在最自然的情況下進(jìn)行(A) 但仍然有讓被觀察者知道的正面觀察法,(B) 不讓觀察者知道的暗中觀察法,(C) 行為或現(xiàn)象發(fā)生時(shí)的直接觀察法,(D) 以現(xiàn)在行為或現(xiàn)象推測(cè)過去行為或現(xiàn)象的間接觀察法,(E) 用觀察員進(jìn)行的人為觀察法,(F) 以及使用特定儀器的儀器觀察法等。觀察法不受樣本是否有被調(diào)查意愿的影響,所以較能客觀和正確的記錄各種外在行為或現(xiàn)象,而且適合使用于人以外的樣本上。但觀察法通常會(huì)受時(shí)間和地點(diǎn)的限制,觀察時(shí)間長且成本高,而且不能觀察內(nèi)在的和過去的

30、行為或現(xiàn)象。(2) 實(shí)驗(yàn):如果想知道統(tǒng)計(jì)結(jié)果會(huì)受那些因素的影響?通常會(huì)針對(duì)這些因素,經(jīng)過特別設(shè)計(jì),然后對(duì)樣本進(jìn)行觀察或量度(measurement),這種方法稱為實(shí)驗(yàn)。這些因素通常會(huì)被分為:A. 自變項(xiàng)(independent variable)又稱為實(shí)驗(yàn)變項(xiàng)(experimental variable)、因(cause)或處理(treatment)。B. 應(yīng)變項(xiàng)(dependent variable)又稱為標(biāo)準(zhǔn)變項(xiàng)(criterion variable)、果(effect)或后測(cè)(posttest)。實(shí)驗(yàn)的目的是為了了解二者之間的因果關(guān)系,在實(shí)驗(yàn)過程中,是操控自變項(xiàng),然后記錄應(yīng)變項(xiàng)的結(jié)果。實(shí)

31、驗(yàn)法通常會(huì)受樣本參加意愿,樣本是否會(huì)受傷害,有些自變項(xiàng)可能不容易加以操控,以及不能大規(guī)?;蜷L期實(shí)驗(yàn)等因素的影響。3. 原始數(shù)據(jù)的完整性:設(shè)計(jì)問卷調(diào)查表、觀察表或?qū)嶒?yàn)表時(shí),必須考慮其周延性(inclusion)(收斂效度探討的問題)和互斥性(exclusion)(區(qū)別效度探討的問題)。以利后續(xù)的資料整理和統(tǒng)計(jì)推論。(1) 周延性:就是任何依據(jù)變項(xiàng)搜集的數(shù)據(jù),都必須包含所有可能出現(xiàn)的答案。例如,使用其他、180公分以上或2000元以下等,以概括不容易劃分清楚或可能很少出現(xiàn)的答案。(2) 互斥性:就是變項(xiàng)與變項(xiàng)之間要有明顯的區(qū)隔或差異,而答案與答案之間也要有明顯的區(qū)隔或差異,不能模糊不清或重復(fù)出現(xiàn),

32、也就是任何數(shù)據(jù)只能有唯一的歸屬。例如不要在問卷同一題中同時(shí)出現(xiàn)普通、差不多和還可以的答案,以免難以決擇,并造成統(tǒng)計(jì)推論的困擾,所以變項(xiàng)或答案之間要有互斥性。4. 原始資料的正確度(信度)和精度(效度):在搜集數(shù)據(jù)的過程中,可能會(huì)產(chǎn)生兩種類型的誤差,影響數(shù)據(jù)的正確度(accuracy)和精度(precision):(1) 抽樣誤差(sampling error):屬于隨機(jī)性誤差(random errors),其出現(xiàn)是隨機(jī)的,沒有一定的規(guī)律或方向,只要使用隨機(jī)抽樣,就一定出現(xiàn)這類誤差,所以是不可避免的誤差,但可以用統(tǒng)計(jì)方法估計(jì)其大小,也可以用增加樣本數(shù)來降低誤差值。隨機(jī)誤差出現(xiàn)的機(jī)率愈高,量度結(jié)果

33、的正確度愈低。正確度是指重復(fù)抽樣后(樣本可能不同),量度結(jié)果的一致性或偏差程度,可以用統(tǒng)計(jì)量和母數(shù)的差異程度來表示,又稱為信度(reliability)。(2) 非抽樣誤差(non-sampling error):是由于人為或測(cè)量儀器不準(zhǔn)確所造成的誤差,通常會(huì)有一定的規(guī)律或方向,所以又稱為系統(tǒng)性誤差(systematic error)。人為誤差包含調(diào)查(實(shí)驗(yàn))員和被調(diào)查(實(shí)驗(yàn))者所引起的誤差。測(cè)量儀器的誤差可以經(jīng)由提高測(cè)量儀器的精密度而改善。非抽樣誤差出現(xiàn)的機(jī)會(huì)愈高,量度結(jié)果的精度愈低。精度是指對(duì)相同樣本重復(fù)量度時(shí),結(jié)果的差異程度,也就能得到正確量測(cè)答案的程度,又稱為效度(validity)。

34、5. 原始資料的整理:整理的方法有二種,分別是人工整理法和計(jì)算機(jī)整理法。6. 原始資料的分類:數(shù)據(jù)報(bào)含文字?jǐn)?shù)據(jù)和數(shù)字?jǐn)?shù)據(jù),而且數(shù)據(jù)通常與時(shí)間、地區(qū)或空間有關(guān),因此,整理數(shù)據(jù)時(shí),必須依據(jù)簡單化和系統(tǒng)化的原則,按照數(shù)據(jù)的特性,分別依序排列成一串?dāng)?shù)字,稱為統(tǒng)計(jì)數(shù)列。換句話說,就是將原始資料整理成統(tǒng)計(jì)數(shù)列。常用的統(tǒng)計(jì)數(shù)列有下列四種:(1) 性質(zhì)數(shù)列(series of attributes):類別或序列層次量度得到的文字?jǐn)?shù)據(jù),屬于分類變項(xiàng)(categorical variable)、定性變項(xiàng)(qualitative variable)或性質(zhì)變項(xiàng),這類變項(xiàng)量度的結(jié)果不能用數(shù)量表示,只能用文字描述特性。但

35、通常為了方便計(jì)算機(jī)處理,會(huì)將量度的結(jié)果加以數(shù)量化。將相同時(shí)間、相同地區(qū)所量得的性質(zhì)變項(xiàng),按數(shù)量化后的特定順序或重要性排列的數(shù)據(jù)或統(tǒng)計(jì)量,稱為性質(zhì)數(shù)列或?qū)傩詳?shù)列,例如八月份臺(tái)北市民對(duì)交通狀況的滿意度數(shù)列。(2) 數(shù)量數(shù)列(series of variates):等距或等比層資量度得到的數(shù)字?jǐn)?shù)據(jù),屬于數(shù)值變項(xiàng)(numerical variable)、計(jì)量變項(xiàng)(quantitative variable)或定量變項(xiàng),這類變項(xiàng)量度的結(jié)果使用數(shù)量來表示,其數(shù)量可能是得自量度儀器的讀數(shù),或者是由量度者依據(jù)主客觀條件自行設(shè)定的值。數(shù)值變項(xiàng)依其數(shù)字表現(xiàn)方式,又分為以下兩種:A. 間斷變項(xiàng)(discrete v

36、ariable):得自可以一個(gè)一個(gè)數(shù)出來的點(diǎn)計(jì)(conting或enumerating)結(jié)果,二個(gè)點(diǎn)計(jì)之間不可能再出現(xiàn)任何數(shù)值,點(diǎn)計(jì)值數(shù)量是有限個(gè)體數(shù)的,所以又稱為有限變項(xiàng),例如,消費(fèi)次數(shù)、投票人數(shù)、搭乘公交車次數(shù)和轉(zhuǎn)車次數(shù)等。B. 連續(xù)變項(xiàng)(continuous variable):得自測(cè)量(measurement)的結(jié)果,二個(gè)測(cè)量值之間可能再出現(xiàn)其他測(cè)量值,測(cè)量值數(shù)量是無限個(gè)數(shù)的,所以又稱為無限變項(xiàng),例如,身高、體重、得票率和人口密度等。(3) 時(shí)間數(shù)列(time series):相同地區(qū)相同特性的性質(zhì)變項(xiàng)或數(shù)值變項(xiàng),按發(fā)生時(shí)間的先后順序排列的數(shù)據(jù)或統(tǒng)計(jì)量,稱為時(shí)間數(shù)列或歷史數(shù)列,例如,民

37、國80年至89年,某公司在臺(tái)北市的營業(yè)額。(4) 空間數(shù)列(spatial series):相同時(shí)間相同特性的性質(zhì)變項(xiàng)或數(shù)值變項(xiàng),按不同地區(qū)的特定順序排列的數(shù)據(jù)或統(tǒng)計(jì)量,稱為空間數(shù)列或地理數(shù)列,例如民國88年,臺(tái)灣地區(qū)各縣市的交通事故件數(shù)。(四) 次級(jí)資料(secondary data):他人搜集的原始資料,經(jīng)過整理分析或簡化后,得到明確、簡單而具體的答案或數(shù)據(jù),稱為次級(jí)數(shù)據(jù)、現(xiàn)成數(shù)據(jù)、二手?jǐn)?shù)據(jù)或間接數(shù)據(jù)。通常次級(jí)資料是得自內(nèi)部報(bào)告或已刊登文獻(xiàn)的結(jié)果,例如侯選人經(jīng)常利用整理后的民調(diào)或傳播媒體刊登的民調(diào),了解支持度或滿意度;經(jīng)銷商告知顧客各廠牌小客車每公里的平均耗油量等。搜集次級(jí)資料的過程,通常

38、是先確定所需的數(shù)據(jù),然后尋找數(shù)據(jù)的可能來源,再著手搜集數(shù)據(jù),最后是判斷數(shù)據(jù)的適用性。次級(jí)數(shù)據(jù)的應(yīng)用也稱為文件(documents)或文獻(xiàn)的應(yīng)用。1. 次級(jí)數(shù)據(jù)通常可以免費(fèi)取得,可以節(jié)省再度搜集類似原始資料的時(shí)間和金錢。而某些原始數(shù)據(jù)不可能或不易搜集,經(jīng)由次級(jí)數(shù)據(jù),仍然可以得到答案。例如政府公布的戶口普查結(jié)果,是屬于不可能得到的原始數(shù)據(jù)的次級(jí)數(shù)據(jù)。2. 次級(jí)數(shù)據(jù)是為了其他目的而整理出來的數(shù)據(jù),其使用單位、整理方法和數(shù)據(jù)時(shí)間,是否適合使用,是值得考慮的問題,而次級(jí)數(shù)據(jù)的正確性往往難以評(píng)估,更使得次級(jí)數(shù)據(jù)的價(jià)值受到限制。但次級(jí)數(shù)據(jù)可由其來源,發(fā)表目的或過程的細(xì)節(jié)是否清楚,判斷其正確性與適用性。補(bǔ)充說

39、明:李克特量表為一種量表設(shè)計(jì)方法,其利用陳述性語句,配合衡量受測(cè)量態(tài)度或意見的選項(xiàng)及分?jǐn)?shù),來衡量屬質(zhì)變量。其步驟如下:(一) 針對(duì)研究命題搜集大量的論點(diǎn)。(例如:開放三通將有利于臺(tái)灣經(jīng)濟(jì)發(fā)展)。(二) 針對(duì)每一個(gè)論點(diǎn)設(shè)定其反映的類別及分?jǐn)?shù)(由同意至不同意可以設(shè)定幾點(diǎn)尺度,尺度的數(shù)目依研究目的及變數(shù)性質(zhì)而定。(三) 將論點(diǎn)隨機(jī)排列。(四) 由研究對(duì)象中選取小樣本,建立基本的數(shù)據(jù)組,將樣本依總分?jǐn)?shù)由大至小排列、分組,計(jì)算各組、各論點(diǎn)的平均值。(五) 選擇組間平均值差異大的論點(diǎn)為問卷題目。第五章 統(tǒng)計(jì)量二、 利用統(tǒng)計(jì)圖、表和統(tǒng)計(jì)量來顯示和描述樣本數(shù)據(jù)特性的方法,稱為敘述統(tǒng)計(jì)學(xué)或描述統(tǒng)計(jì)學(xué)(Descr

40、iptive Statistics),而敘述統(tǒng)計(jì)學(xué)是推論統(tǒng)計(jì)學(xué)的基礎(chǔ),換句話說,必須先算出統(tǒng)計(jì)量,少能據(jù)以推論相關(guān)的母數(shù)。統(tǒng)計(jì)量如何顯現(xiàn)樣本的特性,這必須從原始數(shù)據(jù)著手。分析和觀察所搜集的原始數(shù)據(jù)后,發(fā)現(xiàn)原始數(shù)據(jù)通常可以用二種具體方式來描述其特性:集中趨勢(shì)(central tendency)是位置的測(cè)量和離散趨勢(shì)(dispersive tendency)是散布的測(cè)量。通常利用原始資料的本質(zhì),分別定義出一個(gè)具有代表性的統(tǒng)計(jì)量,用以說明集中趨勢(shì)和離散趨勢(shì)的具體情形。定義和計(jì)算出統(tǒng)計(jì)量的過程和方法,稱為統(tǒng)計(jì)量的測(cè)量(measure)或統(tǒng)計(jì)量的計(jì)算。三、 數(shù)學(xué)運(yùn)算符號(hào):求總和的數(shù)學(xué)符號(hào)是(sigma)

41、,求總乘積的數(shù)學(xué)符號(hào)是(pi)如果看到X則表示 i = 1,2,3,.,n 如果看到X則表示 i = 1,2,3,n四、 位置的測(cè)量:每次考試,在正常的情況下,高分占少數(shù),低分也占少數(shù),大部份人是集中在中間分?jǐn)?shù),身高、體重、所得和消費(fèi)額都有這種情況,而這些都是常見的統(tǒng)計(jì)資料??梢娫假Y料的量度值,會(huì)向某一中間值集中,這種特性稱為中心趨勢(shì)或集中趨勢(shì)(central tendency)。但中間值的范圍大小不一,難以界定,因此找出其中心位置(central location)的中心值,當(dāng)作集中趨勢(shì)或中間值的代表值,這中心值在統(tǒng)計(jì)上稱為集中趨勢(shì)量數(shù)(measures of central tenden

42、cy)、中心位置量數(shù)(measures of central location)或平均數(shù)(means or averages)。常用的集中趨勢(shì)量數(shù)有算術(shù)平均數(shù)(arithmetic mean)、加權(quán)平均數(shù)(weighted mean)、幾何平均數(shù)(geometric mean)、中位數(shù)(median)和眾數(shù)(mode)等。(一) 算術(shù)平均數(shù)又稱樣本平均數(shù)(arithmetic mean):從樣本得到的量度值,其出現(xiàn)的機(jī)率或所占的份量是相同的,在這種狀況下,通常會(huì)將量度值平均分配,每個(gè)樣本會(huì)分配到相同的數(shù)值,這數(shù)值稱為算數(shù)平均數(shù),簡稱平均數(shù),通常位于量度值的中心位置,是最常用的集中趨勢(shì)量數(shù)。算術(shù)

43、平均值是在均勻分配情況下,得到的中心值,如果數(shù)據(jù)中出現(xiàn)異常的極大值或極小值時(shí),算術(shù)平均值會(huì)偏離正常的中心位置,產(chǎn)生誤差,因而影響其代表性。操作型(計(jì)算上)的定義是:將所有量度值X的總和X,除以樣本數(shù)n,得到的商稱為算數(shù)平均數(shù),寫成公式是:例題:利用便利抽樣法,在夜市的面攤訪問10個(gè)消費(fèi)者,其消費(fèi)額分別是3,65,46,78,82,60,70,50,66和95元,求其平均消費(fèi)額(算術(shù)平均數(shù))。答:平均消費(fèi)額(二) 加權(quán)平均數(shù)(eeighted mean):如果從樣本得到的量度值,其出現(xiàn)的機(jī)率或所占的份量是不相同的,在這種情況下,必須先依據(jù)各量度值出現(xiàn)的機(jī)率或份量定出權(quán)數(shù)w(weighted nu

44、mber),再求出權(quán)數(shù)的平均值,而不是樣本的平均數(shù),這種平均數(shù)稱為加權(quán)平均數(shù)。如保險(xiǎn)費(fèi)會(huì)隨年齡或職業(yè)的不同,而有不同的保費(fèi),年齡或職業(yè)是權(quán)數(shù);成績會(huì)隨著平時(shí)成績、期中成績和期末成績所占比例的不同而改變,所占比例是權(quán)數(shù);學(xué)期總平均成績會(huì)隨學(xué)分?jǐn)?shù)不同而改變,學(xué)分?jǐn)?shù)是權(quán)數(shù);計(jì)算各種機(jī)率分布的期望值或變異數(shù),會(huì)隨量度值的出現(xiàn)機(jī)率而改變,出現(xiàn)機(jī)率是權(quán)數(shù)。操作型(計(jì)算上)的定義是:將各量度值x,分別乘其權(quán)數(shù)w,算出各乘積的總和wx,再除以權(quán)數(shù)的總和w、得到的商稱為加權(quán)平均數(shù),例題:某生學(xué)期修國文、統(tǒng)計(jì)、數(shù)學(xué)和藝術(shù)概論四門課,其學(xué)分?jǐn)?shù)依序?yàn)?,3,2和1學(xué)分,其學(xué)期成績依序?yàn)?8,80,75和90分,試用(

45、1)算術(shù)平均數(shù)(2)加權(quán)平均數(shù),計(jì)算并比較學(xué)期總平均成績。答:(1)算術(shù)平均數(shù) (2)加權(quán)平均數(shù) 由于受藝術(shù)概論學(xué)分?jǐn)?shù)及成績的影響,所以算術(shù)平均數(shù)大于加權(quán)平均數(shù)。(三) 幾何平均數(shù)(geometric mean):如果樣本的量度值由小到大排列后,有成為幾何級(jí)數(shù),或稱為等比級(jí)數(shù)的傾向,則其中心值以使用幾何平均數(shù)較具代表性。人口或細(xì)菌的增加率、物價(jià)的變動(dòng)率(price ratio)以及滴定的濃度等,通常具有等比級(jí)數(shù)的傾向,所以使用幾何平均數(shù)當(dāng)作中心值,較為具代表性。在實(shí)際應(yīng)用上,等級(jí)比數(shù)的比值很難完全相等,所以其比值只要在某一范圍就可以;若量度值中有負(fù)值或零值,則不能使用幾何平均數(shù)來運(yùn)算。操作型(

46、計(jì)算上)的定義是:將n個(gè)量度值連續(xù)相乘,得到總乘積X,再對(duì)總乘積開n次方根,稱為幾何平均數(shù)G,寫成公式是例題:某物品5年內(nèi)價(jià)格的變動(dòng)情形如下表,請(qǐng)分別用(1)算術(shù)平均數(shù)(2)幾何平均數(shù),求某物品5年的平均價(jià)格。年度價(jià)格(元)變動(dòng)率851586181.2087201.1188221.1089251.14答:(1)算術(shù)平均數(shù) (2)幾何平均數(shù) (四) 中位數(shù)(median):如果樣本的量度值中出現(xiàn)異常的極大值或極小值時(shí),通常會(huì)用量度值的中項(xiàng)表示中心位置,中項(xiàng)的值稱位中位數(shù)或二分位數(shù),是一個(gè)重要性僅次于算術(shù)平均數(shù)的集中趨勢(shì)量數(shù)。由于中位數(shù)字于數(shù)項(xiàng)的中項(xiàng),也就是中心位置,如果量度值沒有重復(fù)出現(xiàn),則有一

47、半的量度值比中位數(shù)大,另一半的量度值比中位數(shù)小,中位數(shù)通常用以表示薪資所得或產(chǎn)品的壽命等。中位數(shù)的求算步驟如下:1. 將n個(gè)量度值按順序由小到大重新排列。2. 用下列公式求出中項(xiàng):3. 求出中項(xiàng)的對(duì)應(yīng)值,就是中位數(shù),通常用me或md來表示,如果是奇數(shù),則O(md)是整數(shù),可以直接得到對(duì)應(yīng)值;如果n是偶數(shù),則O(md)是小數(shù),假設(shè)O(md) = k.r,k是整數(shù)也是項(xiàng)數(shù),r是小數(shù)點(diǎn)后的整數(shù),必須用下列公式才能得到中位數(shù): 這個(gè)方法稱為數(shù)學(xué)的內(nèi)插法。例題:由某小區(qū)隨機(jī)抽出10戶,其全戶年收入分別為110,98,123,89,105,168,117,107,94和86千元,求(1)算術(shù)平均數(shù)(2)中

48、位數(shù)。答:(1)算術(shù)平均數(shù) (2)將量度值按順序由小到大重新排列:86,89,94,98,105,107,110,117,123,168 求出中項(xiàng) 中位數(shù)在第5.5項(xiàng),其值是 由于受到極大值的影響,中位數(shù)比算術(shù)平均數(shù)更具代表性。(五) 眾數(shù)(mode):如果樣本的量度值會(huì)有種復(fù)出現(xiàn)的情形,則以出現(xiàn)次數(shù)最多次的值當(dāng)作中心值,稱為眾數(shù),以mo表示。眾數(shù)不一定位于中心位置,只能說是最多數(shù)值的集中或串集位置。如果量度值沒有重復(fù)出現(xiàn)的情形,就沒有眾數(shù)。如果有重復(fù)出現(xiàn)的情形,而且有好幾個(gè)是出現(xiàn)相同的次數(shù),就有好幾個(gè)眾數(shù)。眾數(shù)通常用以表示滿意度或得票率等質(zhì)性資料的集中趨勢(shì)。眾數(shù)的求算步驟如下:1. 將n個(gè)量

49、度值按順序由小到大重新排列。2. 找出重復(fù)出現(xiàn)次數(shù)最多的量度值,就是眾數(shù)。例題:隨機(jī)抽出10人,其性別、血型和身高如下表:性別欄內(nèi)1表示男性、2表示女性,血型欄內(nèi)1表示A型、2表示B型、3表示O型、4表示AB型。求(1)性別(2)血型,和(3)身高的眾數(shù)。編號(hào)12345678910性別2111212211血型3211421132身高156163154168172151160166170155答:(1)將量度值按順序由小到大重新排列:1,1,1,1,1,1,2,2,2,2 眾數(shù)mo = 1 ,也就是男性較多。 (2)將量度值按順序由小到大重新排列:1,1,1,1,2,2,2,3,3,4 眾數(shù) m

50、o = 1 ,也就是A型最多。 (3)將量度值按順序由小到大重新排列:151,154,155,156,160,163,166,168,170,172 沒有眾數(shù)。五、 散布的測(cè)量(measures of spread)又稱離勢(shì)(dispersion)或變異性(variability),如果要比較二個(gè)以上母體的差異情形,必須使用相對(duì)分散量數(shù)(measures of relative dispersion)或相對(duì)離勢(shì)量數(shù)。包括了變異數(shù)(variance)、標(biāo)準(zhǔn)偏差(standard deviation)、全距(range)、四分位距(interquartile range)及四分位差(quartil

51、e deviation)。在相對(duì)分散量數(shù)里,最常使用的是變異系數(shù)C.V.,操作型定義是:標(biāo)準(zhǔn)偏差和算術(shù)平均數(shù)的比值。變異系數(shù)沒有單位,變異數(shù)大的,表示其母體內(nèi)個(gè)體特性分散程度或差異性較大。(一) 統(tǒng)計(jì)學(xué)中有一個(gè)重要的概念,就是平均數(shù)并不能顯示統(tǒng)計(jì)數(shù)據(jù)真正的分布狀況,例如下表所示,是A,B,C ,D,E五組分布不同的數(shù)據(jù),但平均數(shù)卻都是4,換言之,平均數(shù)不能表示真正的分布狀況。大多數(shù)統(tǒng)計(jì)數(shù)據(jù)的一個(gè)重要的特征,就是所包含的數(shù)值,并不都是一樣的,這些數(shù)值互相不一樣的程度,也就是數(shù)值之間變差的情形,十分重要。數(shù)值A(chǔ)BCDE1554762464633304534464425304356464237554

52、16平均數(shù)44444 我們?cè)龠M(jìn)一步舉實(shí)例說明,假若有一位不誠實(shí)的土地開發(fā)商,聲稱他所開發(fā)的地均平均氣溫是很舒適的24,這個(gè)數(shù)字可能是正確的,但是實(shí)際上該區(qū)每年有相當(dāng)長的時(shí)間,只有2,當(dāng)然很冷,而全年 有幾個(gè)月又很熱,最高氣溫接近38,此處我們所需要的不只是平均數(shù),也須要知道氣溫波動(dòng)的大小,也就是氣溫變差的量數(shù)。 變差英文叫做variation,亦稱變異,變差的概念在統(tǒng)計(jì)推論中特別重要,例如我們擲一個(gè)均衡的硬幣100次,雖然我們會(huì)期望正面50次,反面50次,要是結(jié)果正面54次,反面46次;或正面49次,反面51次,我們當(dāng)然不會(huì)覺得奇怪,我們很可能將這種情形歸究于機(jī)會(huì)的原因,為了研究所謂的“機(jī)會(huì)”

53、這一個(gè)現(xiàn)象,假若我們擲一個(gè)均衡的硬幣,重復(fù)擲100次,在10次這樣的實(shí)驗(yàn)中,我們得到正面的次數(shù)分別是48,56,50,53,49,46,51,48,44及56,這表示由機(jī)會(huì)產(chǎn)生之波動(dòng),也就是變差的大小,這種知識(shí)很重要,例如我們可能須要知道決定硬幣或擲硬幣的人,是否有問題。變異數(shù)分析法可以視為二母體平均數(shù)差t檢定的延伸,如果采用二平均數(shù)差的t檢定,以三組獨(dú)立樣本為例,就得比較三次,而最重要的是,經(jīng)過三次比較后,顯著水平就會(huì)變大,以=0.5為例,其信賴系數(shù)會(huì)變成(0.95)3 =0.875,因此=1-0.875=0.143。這是多組獨(dú)立樣本采用二平均數(shù)差t檢定時(shí)必須注意的地方,否則可能得到錯(cuò)誤的推

54、論結(jié)果。(二) 要是各個(gè)數(shù)值很靠近其平均數(shù),這些數(shù)值的變差便很小,要是數(shù)值距離其平均數(shù)分散的相當(dāng)遠(yuǎn),其變差便很大,利用數(shù)值離開平均數(shù)的距離來表示變差,好像是很合理,假設(shè)我們有一組數(shù)值X1,X2,X3Xn,其平均數(shù)是,這些數(shù)值與平均數(shù)的差,便是,這就是離均差(deviation from the mean),我們似乎可以用離均差的平均數(shù),作為度量這些數(shù)值變差的數(shù)量,這也許不是個(gè)壞主意,但是離均差的平均數(shù)等于零,不管數(shù)值怎樣的分散,離均差的平均數(shù)總是等于零,即,離均差有些是正的,有些是負(fù)的,平均消化掉了,也就是說,離均差的總和是零,當(dāng)然其平均數(shù)也是零。實(shí)際上我們所觀注的是這些離均差的大小,而不管它

55、們是正的或是負(fù)的,我們可以干脆不管正負(fù)號(hào),用離均差的絕對(duì)值來作變差的數(shù)量,叫做平均差(mean deviation),不幸,這個(gè)量數(shù)有個(gè)缺點(diǎn),由于是絕對(duì)值,不易作理論上的處理,例如,很難作數(shù)學(xué)的研究,也就是在抽樣中,機(jī)會(huì)如何影響平均差的問題。不過,有一個(gè)辦法,可以消掉離均差的正負(fù)號(hào),在理論上,離均差的平方不可能是負(fù)的,除非數(shù)值與平均數(shù)相等,離均差的平方都是正的,數(shù)值與平均數(shù)相等,則都等于零。是以,假設(shè)我們將離均差平方的和,除以n,然后再開方,以補(bǔ)償離均差的平方,我們便得到,這就是標(biāo)準(zhǔn)偏差(standard deviation),所以也叫做均方根離差(root-mean-square devia

56、tion)。大多數(shù)統(tǒng)計(jì)學(xué)者和其他研究人員,習(xí)慣上都對(duì)這個(gè)公式略加修正,用(n-1)來除離均差平方的總和,而不是用n,所以,樣本的標(biāo)準(zhǔn)偏差(sample standard deviation)的計(jì)算公式是:。=樣本平均數(shù),n = 樣本大小。第六章 卡方檢定一、 本章是推論多項(xiàng)分布母體的母數(shù),較實(shí)際的說法是推論二組以上獨(dú)立樣本的母數(shù),重點(diǎn)是推論獨(dú)立樣本的適合度(test of goodness of fit)、獨(dú)立性(test of independence)或齊一性(test of homogeneity)。(一) 在多項(xiàng)分布的情況下,其數(shù)據(jù)是得自類別或序位量度尺度的性質(zhì)數(shù)列,通常是利用點(diǎn)計(jì)的次

57、數(shù)來表示結(jié)果,或利用分組數(shù)據(jù)在各組出現(xiàn)的次數(shù),換句話說,經(jīng)過整理的數(shù)據(jù)是以次數(shù)分配表的型態(tài)出現(xiàn),其推論的重點(diǎn)是推論獨(dú)立樣本所顯現(xiàn)的特性是否符合理論值,或符合想象中的分布型態(tài),這種目的的推論稱為適合度檢定(test of goodness of fit)。(二) 如果是推論獨(dú)立樣本間所顯現(xiàn)的特性是否有相關(guān)性,這種目的的推論就稱為獨(dú)立性檢定(test of independence)。(三) 如果是推論獨(dú)立樣本間所顯現(xiàn)的特性是否有一致或相似性,這種目的推論就稱為齊一性檢定(test of homogeneity)。(四) 而這些檢定都是次X2分布當(dāng)作推論依據(jù),所以統(tǒng)稱為卡方檢定(X2 test 或 Chi-square test)??ǚ綑z定的每組樣本最好皆大于5,否則就必須考慮合并或利用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論