統(tǒng)計學之數(shù)據(jù)的收集與整理_第1頁
統(tǒng)計學之數(shù)據(jù)的收集與整理_第2頁
統(tǒng)計學之數(shù)據(jù)的收集與整理_第3頁
統(tǒng)計學之數(shù)據(jù)的收集與整理_第4頁
統(tǒng)計學之數(shù)據(jù)的收集與整理_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

統(tǒng)計學之數(shù)據(jù)的收集與整理§2數(shù)據(jù)的收集與整理§2·1數(shù)據(jù)的收集一、調(diào)查方案的設計一、調(diào)查目的——“為什么調(diào)查”。二、研究對象、調(diào)查對象、調(diào)查單位——“向誰調(diào)查”。三、調(diào)查項目——“調(diào)查什么”。四、調(diào)查方式和方法——“怎樣調(diào)查”。五、調(diào)查地點和調(diào)查時間——“什么時間、什么地點”。六、組織計劃(具體工作計劃)——“誰做調(diào)查”等等。案例:調(diào)研可以增加商戰(zhàn)的勝算,而失敗的調(diào)研對企業(yè)來說是一場噩夢。上海柴氏寵物食品公司為一次市場調(diào)查付出了三十幾萬元的代價。拿到錯誤的數(shù)據(jù)不如沒有數(shù)據(jù)。2004年底,為了能提高產(chǎn)品在寵物食品市場的競爭力,以前做生意一貫靠經(jīng)驗的柴遠森先生決定為產(chǎn)品設計做消費調(diào)查。為了能夠了解更多的消費信息,柴先生設計了精細的問卷,在上海選擇了1000個樣本,并且保證所有的抽樣在超級市場的寵物組購物人群中產(chǎn)生,內(nèi)容涉及:價格、包裝、食量、周期、口味、配料等6大方面,覆蓋了所能想到的全部因素。2005年初,上海柴氏的新配方、新包裝狗糧產(chǎn)品上市了,短暫的旺銷持續(xù)了一星期,隨后就是全面蕭條,后來產(chǎn)品在一些渠道甚至遭到了抵制。2005年2月初,新產(chǎn)品被迫從終端撤回,產(chǎn)品革新宣布失敗。

公司請了十多個新產(chǎn)品的購買者回來座談,原來,他們拒絕再次購買的原因是寵物不喜歡吃。產(chǎn)品的最終消費者并不是“人”,人只是一個購買者,錯誤的市場調(diào)查方向,決定了調(diào)查結(jié)論的局限,甚至荒謬。調(diào)查的標準時間:資料所屬的時間。時點資料時期資料調(diào)查期限:調(diào)查的工作時間。二、統(tǒng)計調(diào)查的方式和方法

統(tǒng)計調(diào)查的方式統(tǒng)計報表普查重點調(diào)查抽樣調(diào)查統(tǒng)計調(diào)查的方法

原始數(shù)據(jù)搜集方法

次級數(shù)據(jù)搜集方法典型調(diào)查優(yōu)點:數(shù)據(jù)一般比較準確、規(guī)范化程度高;搜集的資料更全面、更系統(tǒng)。缺點:工作量大、耗費大;適用的對象比較狹窄。基本原則:確定普查的標準時間,避免遺漏或重復;登記工作應在整個普查范圍內(nèi)同時進行;統(tǒng)一規(guī)定普查的項目和指標;歷次普查應盡可能保持連貫性。是專門組織的一次性的全面調(diào)查。普查(census):每逢末尾數(shù)字為“1”或“6”的年份進行基本單位普查)

每逢末尾數(shù)字為“0”的年份進行人口普查;每逢末尾數(shù)字為“3”的年份進行第三產(chǎn)業(yè)普查;(每逢末尾數(shù)字為“5”的年份進行工業(yè)普查;每逢末尾數(shù)字為“6”的年份進行農(nóng)業(yè)普查;我國的普查項目:每逢末尾數(shù)字為“3”或“8”的年份進行經(jīng)濟普查。

特點:經(jīng)濟性,節(jié)省人力、物力和財力;時效性強,可迅速、及時地獲取信息;適用面廣,適用于對各個領域、各種問題的調(diào)查;準確性高,產(chǎn)生的誤差可以計算和控制。抽樣調(diào)查(slingsurvey)定義:按照隨機(或非隨機)的原則,從總體中抽取一部分單位作為樣本進行調(diào)查,并根據(jù)樣本調(diào)查結(jié)果來推斷總體數(shù)量特征的一種非全面調(diào)查方式。在佛州的選票最后決出之前,全美國9000多萬張普選選票中,民主黨候選人阿爾.戈爾獲得50,140,140張選票,占49%,喬治.布什獲得49,782,288張,占48%。戈爾領先布什357,932張選票;在全美國538張選舉人票中,戈爾獲得267張;布什獲得246張。此后,小布什在佛羅里達州600多萬張普選選票中以僅多出戈爾537張的優(yōu)勢獲得該州的25張選舉人票,當選美國總統(tǒng)。2000年美國大選2000年,喬治·布什成為繼1888年本杰明·哈里森之后第一位以少數(shù)選民票當選的總統(tǒng)。戈爾在全國大選中領先布什35萬多票,但最終結(jié)果卻要由佛羅里達艱苦漫長的人工點票決定。大選結(jié)束四周以后最高法院以5:4決定停止佛州人工點票,將該州25張總統(tǒng)選舉人票判給布什。2000大選作為美國歷史上最接近、最有爭議和最奇特的選舉而載入史冊。美國歷史上的兩次選舉(一)誰會在1936年的選舉中獲勝?

AlfLondon(蘭登)還是

F.D.R.(羅斯福)?

LiteraryDigest(文學文摘)送出一千萬份問卷后,預測蘭登會贏。而Gallop(蓋洛普)只問了5000人,說羅斯福會贏。最后羅斯福和蓋洛普都贏了,文摘倒閉了。從結(jié)果來看,1936年的選舉是美國歷史上最沒有懸念的選舉。羅斯福以2775萬張選票贏得了46個州,比對手蘭登多1107萬張選票,選舉人票是523票對8票,羅斯福幾乎贏得了所有25萬人口以上的大中城市。蓋洛普將其成果歸因于他們所采用的與傳統(tǒng)抽樣方法不同的配額抽樣。應用這種方法,蓋洛普又成功地預測了1940年1944年美國總統(tǒng)大選的結(jié)果,其聲名鵲起,幾乎成為民意調(diào)查的代名詞。美國歷史上的兩次選舉(二)誰會在1948選舉中獲勝?

ThomasDewey(杜威)還是HarryTruman(杜魯門)?蓋洛普等民調(diào)機構(gòu)都用了5000份問卷,都預測杜威會贏。最后的結(jié)果是杜魯門贏了。他獲得49.5%的普選票,305張選舉人票(2個選舉人改變主意,實際得到303票);杜威獲得45.1%的普選票,187張選舉人票(2個選舉人改變主意,實際得到189票);州權(quán)黨候選人瑟蒙德獲得2.4%的普選票和39張選舉人票;進步黨候選人、前副總統(tǒng)華萊士獲得2.4%的普選票,沒有贏得任何一張選舉人票。這個結(jié)果與蓋洛普民意測驗的結(jié)果正好相反。蓋洛普最后一次的預測是,杜威將贏得49%的普選票,杜魯門只能贏得44%。這也是歷次蓋洛普民意測驗的最大誤差——幾乎整整5個百分點。

美國歷史上最富戲劇性的選舉優(yōu)點:調(diào)查單位少,人力、物力和財力花費少;能及時獲得有關的基本情況。重點調(diào)查(key-pointsurvey)定義:在研究對象的總體中,選取重點單位而進行的一種非全面調(diào)查。重點單位:數(shù)目不多,但被研究的標志值之和在總體所有單位標志值總和中占有很大比重的部分單位。定義:根據(jù)調(diào)查目的和要求,在對所研究現(xiàn)象進行初步分析的基礎上,從中選取有代表性的單位進行的周密細致的調(diào)查。典型調(diào)查(modelsurvey)形式:“解剖麻雀”式“劃類選典”式優(yōu)點:調(diào)查單位少、省時省力;調(diào)查內(nèi)容多,有助于開展深入研究。統(tǒng)計報表(statisticalreportforms)

按調(diào)查對象范圍可分為全面報表和非全面報表。按報送時間長短可分為日報、月報、季報、年報等。按內(nèi)容和報送范圍可分為國家、部門、地方統(tǒng)計報表。按報送方式可分為郵寄報表和電訊報表。定義:按照國家有關法規(guī)的規(guī)定,自上而下地布置、自下而上地逐級提供統(tǒng)計數(shù)據(jù)的一種調(diào)查方式。要求:統(tǒng)計報表要按一定的原始數(shù)據(jù)為基礎,按照統(tǒng)一的表式、統(tǒng)一的指標、統(tǒng)一的報送時間和報送程序進行填報。類型:統(tǒng)計調(diào)查的方法文案資料法訪問法面談調(diào)查調(diào)查郵寄調(diào)查留置調(diào)查日記調(diào)查觀察法報告法次級數(shù)據(jù)原始資料實驗法調(diào)查專業(yè)人士通過訪問知識淵博人士開展探索性調(diào)研,被稱為“關鍵信息提供者技術”(Key-Informanttechnique),也稱“專家意見調(diào)查或主導使用者調(diào)查”(lead-usersurvey)。需要探索性調(diào)研的情景能提供觀點的專業(yè)人士某公司生產(chǎn)的X牌去污劑是市場領導產(chǎn)品,因為生產(chǎn)飽和,該公司希望開發(fā)新產(chǎn)品來逆轉(zhuǎn)下降的利潤消費品市場的主要調(diào)研經(jīng)理和清潔產(chǎn)業(yè)的主要使用者某新成立的非營利組織宗旨為協(xié)助有嚴重身體殘障的人們。該組織在考慮它應該如何制定慈善項目以及該采用何種戰(zhàn)略以獲得公眾的捐助公共服務機構(gòu)官員,比如紅十字會、聯(lián)合募捐會和肌肉萎縮協(xié)會等美國總統(tǒng)候選人在考慮如何在各個選區(qū)有效分配競選資源了解公眾觀點和態(tài)度的州和地方政黨官員硅谷圖像技術公司的燈塔客戶硅谷圖像技術公司(SGI)提供廣泛的高功能計算和先進的圖表解決方案。該公司在2004年的財務年度收入為8.42億美元,其中65%的收入來自美國,25%來自歐洲,10%來自全球其他地區(qū)。SGI認為傳統(tǒng)的市場調(diào)研對收集重大技術演變的信息作用不大。他們派最好的技術人員拜訪行業(yè)專家,或該公司所稱的“燈塔客戶”(lighthousecustomer)。SGI的“燈塔客戶”包括美國國家航天航空局、工業(yè)光魔公司、美國陸軍、波音公司、迪斯尼公司和默克公司。這些公司在高功能計算和圖表解決方案領域內(nèi)的參與程度和專業(yè)素養(yǎng)使得他們成為驗證換代產(chǎn)品的最佳選擇。SGI的技術人員花費大量時間來訪問燈塔客戶并了解他們?nèi)绾问褂肧GI的機器或他們希望如何更好地使用機器。比如,SGI在和工業(yè)燈魔公司與太平洋數(shù)據(jù)影像公司的互動中發(fā)現(xiàn)了仿真影像的需要。SGI開發(fā)出高功能計算機,可以制作《終結(jié)者2:審判日》中的電子怪人、《侏羅紀公園》中的恐龍。燈塔客戶幫助SGI一直保持在高功能計算機行業(yè)的領導地位。焦點人群訪問(Focusgroupinterview)可用于調(diào)研消費者關于新產(chǎn)品概念的觀點、識別網(wǎng)上購物者評價網(wǎng)站時采用的標準、觀察對潛在促銷主題的反響、消費者問卷調(diào)查中包括的問題等眾多情景。由組織者(moderator)以相當自然和非結(jié)構(gòu)化的方式將某一主題介紹給一組受訪者或客戶。受訪者(通常8~12人)就給定主題開展非正式的討論。觀察法(Observationalmethod)采用人工或機械方式來觀察人們在購物或消費情景中的實際行為或發(fā)生的事件。觀察法調(diào)研方式對于評估產(chǎn)品使用、光顧商店的頻率、媒體使用、在特定網(wǎng)站花費的時間、有監(jiān)護人陪同或無人陪同的兒童的購買行為等非常有用。日本的經(jīng)理們常常拜訪批發(fā)商和零售商以感受市場。他們通過觀察結(jié)果來改善營銷戰(zhàn)略。許多美國公司開始基于觀察法的調(diào)研來設計產(chǎn)品。惠而浦公司在觀察全球使用者后為其產(chǎn)品設計了新控制設施。樂柏美公司定期派遣員工到客戶家庭訪問觀察家庭存儲的做法。福特汽車公司通過人口影像資料來收集觀察數(shù)據(jù)。二手資料(Secondarydata)仔細審核合適的二手數(shù)據(jù)是快速且便宜地開展探索性調(diào)研以獲得寶貴觀點的方式。獲得的觀點為進一步的調(diào)研提供正確的聚焦。有時通過分析二手數(shù)據(jù)得出的觀點甚至可能會取消后續(xù)調(diào)研,即從外部數(shù)據(jù)來源的二手數(shù)據(jù)完全足以制定最終決策。二手數(shù)據(jù)中發(fā)現(xiàn)低卡飲食潮流[MinuteMaid美汁源]創(chuàng)立于美國,是可口可樂公司旗下的第一果汁飲料品牌。但其營銷主管托瑞發(fā)現(xiàn),在1999年和2004年之間,美國人消費的橙汁下降10.8%。其中主力家庭(每年消費超過12.5加侖或更多)的消費數(shù)量顯著下降。自從20世紀20年代橙汁產(chǎn)品問世,它一直是美國的主流飲品。作為早餐飲料,也和咖啡混搭。如今橙汁到底怎么啦?為確認銷量下降的原因,托瑞和他的小組很大程度上采用了二手數(shù)據(jù),包括營養(yǎng)雜志和期刊。他們發(fā)現(xiàn),10%的消費者是因為卡路里、碳水化合物和蔗糖的考慮而減少橙汁飲用量。其中,4%的消費者是因為低卡飲食潮流而減少橙汁飲用量。通過使用二手數(shù)據(jù),托瑞不僅可以更好地了解消費者的食品購買習慣與飲食習慣,還明確了橙汁消費減少的原因。同時,他識別出客戶的潛在需求還沒有得到滿足:低卡的橙汁飲品。于是,為迎合市場機會,美汁源公司開發(fā)出低卡產(chǎn)品(MinuteMaidPremiumLight),該產(chǎn)品熱量只有普通橙汁的一半?!?·2數(shù)據(jù)的整理數(shù)據(jù)的預處理數(shù)據(jù)的排序

數(shù)據(jù)的篩選數(shù)據(jù)的審核數(shù)據(jù)的審核

1、對于第一手數(shù)據(jù)資料:完整性:統(tǒng)計單位是否遺漏;項目、指標是否填寫齊全。準確性:數(shù)據(jù)是否與實際相符;計算是否正確。2、對于第二手數(shù)據(jù)資料:完整性、準確性;適用性:審核來源、口徑、背景材料。時效性:若數(shù)據(jù)過于滯后,失去研究意義。審核方法:邏輯檢查——適用于品質(zhì)數(shù)據(jù)。

計算檢查——適用于數(shù)量數(shù)據(jù)。一、

統(tǒng)

組作用:1、劃分現(xiàn)象的類型2、反映總體內(nèi)部結(jié)構(gòu)和比例關系3、研究社會經(jīng)濟現(xiàn)象之間的依存關系正依存關系負依存關系

概念:根據(jù)統(tǒng)計研究的需要,將所有數(shù)據(jù)按照某種標志分成不同的組別。

二、選擇分組標志的依據(jù)

根據(jù)研究目的選擇分組標志;選擇反映事物本質(zhì)區(qū)別的標志;

根據(jù)經(jīng)濟發(fā)展變化及歷史條件選擇分組標志。目的分組標志研究企業(yè)生產(chǎn)內(nèi)部結(jié)構(gòu)生產(chǎn)部門了解生產(chǎn)計劃完成情況計劃完成程度掌握盈虧情況利潤水平了解生產(chǎn)技術力量狀況職工技術等級、技術裝備水平工業(yè)企業(yè)分組標志的選擇每戶月收入/元戶數(shù)800以下110800~12004501200~16003951600以上245合計1200每戶人均月收入/元戶數(shù)400以下130400~600350600~800520800以上200合計1200研究某地區(qū)居民家庭生活水平,可按每戶月收入和每戶人均月收入分別分組如下:三、統(tǒng)計分組的類型(一)按標志的特征劃分:1、按品質(zhì)標志分組2、按數(shù)量標志分組

(二)按標志的多少劃分:

1、簡單分組:只選擇一個標志進行簡單分組。多次簡單分組形成平行分組體系。

2、復合分組:選擇兩個或兩個以上標志結(jié)合起來進行層疊分組,形成復合分組體系。四、次

數(shù)

布(frequencydistribution)次數(shù)分布數(shù)列:按某種標志對數(shù)據(jù)進行分組后,再計算出所有數(shù)據(jù)在各組中出現(xiàn)的頻數(shù)或頻率,就形成了次數(shù)分布數(shù)列。

分組標志頻數(shù)頻率(%)………合計總體單位數(shù)100頻數(shù)(次數(shù)):分布在各組內(nèi)的數(shù)據(jù)個數(shù)。各組次數(shù)之和等于總次數(shù),即總體單位數(shù)。

頻率(比重):各組頻數(shù)與全部頻數(shù)之和的比值。各組頻率之和等于1或100%。

研究對象人數(shù)百分比(%)初犯者193.7屢犯者173.3非違法者48493.1合計520100.1在社會秩序與安全研究中,對某社區(qū)青少年犯罪狀況統(tǒng)計結(jié)果如下表所示:次數(shù)分布數(shù)列的種類

按分組標志的性質(zhì)劃分品質(zhì)數(shù)列:按品質(zhì)標志分組的次數(shù)分布數(shù)列。

變量數(shù)列:按數(shù)量標志分組的次數(shù)分布數(shù)列。

組距數(shù)列:以變量值的一定變動范圍(區(qū)間)為一組。單項數(shù)列:以每個變量值為一組。通常只適合于離散變量,且變量值較少的情況。等距數(shù)列:適用于變量值分布比較均勻的情況

異距數(shù)列:變量值的分布很不均衡。通常適用于連續(xù)變量及變量值較多的離散變量。按組距是否相等劃分按民族分組人數(shù)(人)比重(%)漢族回族藏族1440660900482230合計100表1表2按年齡段分組人數(shù)(人)比重(%)老中青1446690482230合計300100按家庭人口數(shù)分組/人戶數(shù)180224035004120560合計1000按從業(yè)人員數(shù)分組/人企業(yè)數(shù)50以下20549150~999005100~4996576500~9996841000及以上547合計222303某區(qū)居民家庭按人口數(shù)分組所形成的頻次分布:某市企業(yè)法人單位按從業(yè)人員數(shù)分組所形成的頻次分布:按每戶月平均收入分組(元)戶數(shù)(戶)比重(%)1000以下1000~20002000~30003000~40004000~50005000以上2049955040267.117.533.917.914.39.3合計280100五、變量數(shù)列的編制

變量的類型:決定分布數(shù)列的類型。

全距(Range):最大值與最小值之差。

組數(shù)(Intervals)與組距(Classwidth)組限(Classlimits)組中值(Classmidpoint)累計次數(shù)(Cumulativefrequencies)頻數(shù)密度(Frequencydensity)累計頻率(Cumulativepercentages)組數(shù)與組距

組數(shù):數(shù)列分組的數(shù)目。組數(shù)的確定應以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為原則。

組距:在組距數(shù)列中,用變量值的一定區(qū)間(范圍)代表一個組,每個區(qū)間的寬度稱為組距。

對同一總體而言,組距越大,組數(shù)越少;組距越小,組數(shù)越多。

組數(shù)=全距/組距組距=全距/組數(shù)組數(shù)的多少與組距大小有關。如何確定組數(shù)與組距?異距數(shù)列中,組距的確定主要根據(jù)所研究事物的分布特征。

等距數(shù)列中,組距與組數(shù)的確定都可利用Sturges經(jīng)驗公式。A、若先求組距,再求組數(shù)B、若先求組數(shù),再求組距斯特奇斯經(jīng)驗公式:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論