從計(jì)數(shù)到大數(shù)據(jù)-中國(guó)統(tǒng)計(jì)學(xué)會(huì)_第1頁(yè)
從計(jì)數(shù)到大數(shù)據(jù)-中國(guó)統(tǒng)計(jì)學(xué)會(huì)_第2頁(yè)
從計(jì)數(shù)到大數(shù)據(jù)-中國(guó)統(tǒng)計(jì)學(xué)會(huì)_第3頁(yè)
從計(jì)數(shù)到大數(shù)據(jù)-中國(guó)統(tǒng)計(jì)學(xué)會(huì)_第4頁(yè)
從計(jì)數(shù)到大數(shù)據(jù)-中國(guó)統(tǒng)計(jì)學(xué)會(huì)_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì):從計(jì)數(shù)到大數(shù)據(jù)□鮮祖德/文統(tǒng)計(jì)無(wú)時(shí)不在,從結(jié)繩記事到今天的大數(shù)據(jù),統(tǒng)計(jì)作為人們認(rèn)識(shí)客觀世界的工具,也在不斷創(chuàng)新,統(tǒng)計(jì)學(xué)作為一門(mén)系統(tǒng)研究數(shù)據(jù)的學(xué)科,在不斷豐富與完善。大數(shù)據(jù)時(shí)代來(lái)臨,統(tǒng)計(jì)如何應(yīng)對(duì)新的挑戰(zhàn)與機(jī)遇?我們回顧歷史,不忘初心,以開(kāi)放的態(tài)度、創(chuàng)新的精神和不懈的努力,繼續(xù)前進(jìn),讓統(tǒng)計(jì)在大數(shù)據(jù)的舞臺(tái)上,發(fā)揮更大的作用。普遍的定義認(rèn)為, 統(tǒng)計(jì)學(xué)是關(guān)于數(shù)據(jù)的科學(xué), 研究如何收集數(shù)據(jù),并科學(xué)地推斷總體特征。普查作為最古老的數(shù)據(jù)收集方法,已經(jīng)有數(shù)千年的歷史,據(jù)記載, 2200多年前的西漢時(shí)期,中國(guó)開(kāi)展了第一次人口普查。17世紀(jì)中葉,統(tǒng)計(jì)學(xué)誕生,并在 18、19世紀(jì)不斷發(fā)展,特別是與研究不確定性的概率論的結(jié)合,產(chǎn)生了現(xiàn)代意義上的統(tǒng)計(jì)學(xué):數(shù)理統(tǒng)計(jì)學(xué)。1895年提出抽樣調(diào)查方法并在后來(lái) 30多年完善后,作為一種更及時(shí)、更經(jīng)濟(jì)的數(shù)據(jù)收集方法,被廣泛應(yīng)用于經(jīng)濟(jì)、社會(huì)、科學(xué)等各個(gè)領(lǐng)域??梢哉f(shuō), 20世紀(jì)期間,傳統(tǒng)的普查與新產(chǎn)生的抽樣調(diào)查,作為兩大數(shù)據(jù)收集方法體系,共同應(yīng)用于對(duì)社會(huì)經(jīng)濟(jì)發(fā)展的測(cè)量,發(fā)揮了重要作用。21世紀(jì)大數(shù)據(jù)的出現(xiàn), 各種來(lái)源、 各種形式的電子化數(shù)據(jù)的大爆發(fā),靜態(tài)的、定時(shí)的傳統(tǒng)數(shù)據(jù)收集方法,面臨新的、動(dòng)態(tài)的、組合的

大數(shù)據(jù)的挑戰(zhàn)和機(jī)遇,統(tǒng)計(jì)思維和數(shù)據(jù)收集方法也將不斷創(chuàng)新。從統(tǒng)計(jì)學(xué)誕生的300多年的歷程看,統(tǒng)計(jì)學(xué)發(fā)展的歷史就是統(tǒng)計(jì)思維和統(tǒng)計(jì)方法不斷創(chuàng)新的歷史,這種創(chuàng)新是圍繞著關(guān)于數(shù)據(jù)的兩大核心問(wèn)題展開(kāi)的:如何收集數(shù)據(jù)和如何分析數(shù)據(jù)。本文通過(guò)回顧重要階段性的幾個(gè)片斷,思考統(tǒng)計(jì)創(chuàng)新是如何發(fā)生的, 重點(diǎn)談大數(shù)據(jù)與統(tǒng)計(jì)的關(guān)系,以及會(huì)帶來(lái)的新變化。計(jì)數(shù):統(tǒng)計(jì)的萌芽在世界著名的科普著作《從一到無(wú)窮大》一書(shū)開(kāi)頭,講述了一個(gè)發(fā)生在原始部落里的故事:兩個(gè)匈牙利貴族決定做一次關(guān)于數(shù)的游戲——誰(shuí)說(shuō)出了最大的數(shù)誰(shuí)就贏,第一個(gè)貴族說(shuō)出了他能想到的最大的數(shù)“3”,第二個(gè)貴族苦思冥想后,表示認(rèn)輸了,他想象不出比 3更大的數(shù)。這個(gè)故事的真假無(wú)從考證,但可以說(shuō)明在人們公認(rèn)的以“結(jié)繩記事”為計(jì)數(shù)開(kāi)始之前,數(shù)的大小概念已經(jīng)產(chǎn)生。但由于還不能“計(jì)數(shù)”,甚至還不能將數(shù)的概念與 10個(gè)指頭相對(duì)應(yīng)(這在今天相當(dāng)于歲孩子的水平) ,否則,第二個(gè)貴族會(huì)毫不猶豫地伸出雙手說(shuō)出 10。計(jì)數(shù)是從結(jié)繩記事開(kāi)始的,當(dāng)然也可以用其他如石頭、木棍、貝殼等,或者在地上、壁上劃痕線等方式。這些是在文字發(fā)明之前,人們使用的記事和計(jì)數(shù)的方法。 人類(lèi)最早的統(tǒng)計(jì)實(shí)際上是一種計(jì)數(shù)活動(dòng),這在《易系辭下》 中有所記載, 古代印加人也存有記載; 從上古時(shí)代,就已經(jīng)開(kāi)始使用結(jié)繩的方法,“事大,大結(jié)其繩,事小,小結(jié)其繩,之

就已經(jīng)開(kāi)始使用結(jié)繩的方法,“事大,大結(jié)其繩,事小,小結(jié)其繩,之多少,隨物眾寡”,也即根據(jù)事件的性質(zhì)、規(guī)?;蚱鋽?shù)量的不同系不同多少,隨物眾寡”,也即根據(jù)事件的性質(zhì)、規(guī)?;蚱鋽?shù)量的不同系不同的繩結(jié),這種方法古老原始,卻有效,對(duì)于古代人來(lái)說(shuō),這些大大小小的繩結(jié)、多多少少的劃痕是他們回憶過(guò)去的唯一線索。隨著生產(chǎn)活動(dòng)、戰(zhàn)爭(zhēng)等的規(guī)模越來(lái)越大,結(jié)繩記事已經(jīng)不能記事了,要么沒(méi)有那么多繩,要么是對(duì)那些繩結(jié)的意義的解釋?zhuān)ㄒ簿褪墙裉斓脑獢?shù)據(jù)的概念)需要更多的想象和更復(fù)雜的繩結(jié),原始部落的首領(lǐng)們可以看到養(yǎng)了多少牛羊,甚至可以平均分配給每一個(gè)人,卻無(wú)法記錄下來(lái)。有了文字后,計(jì)數(shù)才真正成為一種工具,反映客觀經(jīng)濟(jì)活動(dòng)及其“普查”,更應(yīng)該“普查”,更應(yīng)該“為就誕生了,有多少人口,有多少土地,有多少俘虜,通過(guò)計(jì)數(shù)與匯總就可以心中有數(shù)。 據(jù)考古發(fā)現(xiàn), 公元前 3000年前,兩河流域就已經(jīng)有了這樣的數(shù)據(jù)和匯總計(jì)算的符號(hào)。 當(dāng)然,這與其說(shuō)是 “普查”說(shuō)是“計(jì)數(shù)” ,但其產(chǎn)生的意義是非常重大的,就像恩格斯說(shuō)的,了計(jì)數(shù),不僅要有可以計(jì)數(shù)的對(duì)象,還要有一種在考察對(duì)象時(shí),撇開(kāi)對(duì)象的其他一切特性而僅僅考慮到數(shù)字的能力” ,這也就是抽象的數(shù)字的概念,實(shí)物的多少與數(shù)的對(duì)應(yīng)關(guān)系的確立,并建立了運(yùn)算規(guī)則,為統(tǒng)計(jì)學(xué)的誕生與發(fā)展奠定了基礎(chǔ),這也是統(tǒng)計(jì)的萌芽,充分表明了客觀世界就是一個(gè)“數(shù)及數(shù)的關(guān)系的和諧系統(tǒng)” 。數(shù)的游戲:概率計(jì)算關(guān)于數(shù)的游戲自古就有,而這些游戲主要就是賭博:不確定性帶來(lái)的收益。不管是抽簽、還是投擲錢(qián)幣、擲骰子、斗紙牌,各種不同形式的以“不確定性”為基礎(chǔ)的賭博,實(shí)際上都是“數(shù)”的游戲,這當(dāng)然也開(kāi)始引起了學(xué)者們的注意和研究。 到了15世紀(jì)的歐洲,賭博游戲非常流行。最早研究賭博問(wèn)題的是 1477年出版的意大利詩(shī)人但丁的《神曲》一書(shū)的注釋本,描述了投擲三顆骰子可能出現(xiàn)的各種點(diǎn)數(shù)問(wèn)題。從16世紀(jì)中葉開(kāi)始,學(xué)者們開(kāi)始研究賭博中的概率問(wèn)題。 意大利人加爾達(dá)偌(1501-1576)是一位數(shù)學(xué)家,也是一個(gè)精明的賭徒, 他寫(xiě)的《機(jī)會(huì)游戲》一書(shū),是在他去世近 100年后才出版的。他計(jì)算了投擲2顆或者 3顆骰子時(shí),究竟有多少種可能性得出投擲的骰子面朝上的數(shù)字之和為某一數(shù)(比如 10),這在當(dāng)時(shí)對(duì)排列組合所知甚微的情況下, 是非常難得的。 意大利天文學(xué)家伽利略 (1564-1642)研究了同樣的問(wèn)題,并寫(xiě)了一篇論文給出了圓滿的解答,算出了所有點(diǎn)數(shù)的可能性,如在投擲三顆骰子時(shí),出現(xiàn)的數(shù)字之和為 9和10,各有 6種不同的組合法。這個(gè)問(wèn)題在今天是一個(gè)很簡(jiǎn)單的排列組合問(wèn)題,但在當(dāng)時(shí),誰(shuí)掌握了這一秘密,誰(shuí)就可能成為更精明的賭徒。到了17世紀(jì)中葉, 兩位法國(guó)大數(shù)學(xué)家帕斯卡 (1623-1662)、費(fèi)馬(1601-1665)開(kāi)始研究丟骰子賭博中的規(guī)律性問(wèn)題。他們利用通信,幾經(jīng)研究,解決了著名的“得點(diǎn)問(wèn)題” (也稱(chēng)“分賭術(shù)”問(wèn)題) ,通過(guò)對(duì)這個(gè)問(wèn)題的研究,早期概率的計(jì)算從簡(jiǎn)單計(jì)數(shù)進(jìn)入了比較精確的計(jì)算階段,這也被認(rèn)為是概率論的起源。從此,更多的學(xué)者們開(kāi)始研究概率及計(jì)算問(wèn)題,從研究賭博開(kāi)始的古典概率,在不確定性的科學(xué)研究上,逐步建立了一套科學(xué)完整的體系:概率論。統(tǒng)計(jì)學(xué)的誕生:讓數(shù)據(jù)說(shuō)話統(tǒng)計(jì)學(xué)誕生的大背景是在 15世紀(jì),由于歐洲地中海沿岸商品經(jīng)濟(jì)的發(fā)展以及思想、技術(shù)的進(jìn)步,從中世紀(jì)封建社會(huì)內(nèi)部產(chǎn)生的資本主義及發(fā)展。資本主義商品經(jīng)濟(jì)的產(chǎn)生和發(fā)展,人們對(duì)數(shù)據(jù)的認(rèn)識(shí)不僅僅是賭博游戲,而是對(duì)事物規(guī)律性的認(rèn)識(shí)。 之前,往往是滿足“計(jì)數(shù)”的需要,記錄歷史,回答“干了什么”,而資本主義商品經(jīng)濟(jì)的發(fā)展則要滿足“生產(chǎn)”的需要了,不僅要記錄歷史,還要預(yù)測(cè)未來(lái),回答“要干什么”。除此之外,還有一些原因也促進(jìn)了統(tǒng)計(jì)學(xué)的誕生: 如為了商業(yè)的冒險(xiǎn)行為,包括商業(yè)投機(jī)和航海商業(yè),保險(xiǎn)業(yè)的興起等。統(tǒng)計(jì)學(xué)的誕生及發(fā)展使人們對(duì)數(shù)據(jù)規(guī)律性的認(rèn)識(shí)上了一個(gè)大臺(tái)階。作為統(tǒng)計(jì)學(xué)的起端,幾乎同時(shí)發(fā)生了兩個(gè)劃時(shí)代的重大事件:一是格朗特( 1620-1674)1662年發(fā)表的《關(guān)于死亡公報(bào)的自然和政治觀察》(簡(jiǎn)稱(chēng)《觀察》 ),二是威廉?配第( 1623T687)1672年發(fā)表的《政治算術(shù)》 。這兩部著作都被認(rèn)為是統(tǒng)計(jì)學(xué)的鼻祖, 他們各自研究的重點(diǎn)不同,后來(lái)的學(xué)者們往往站在不同的角度進(jìn)行評(píng)價(jià)?!队^察》利用英國(guó)倫敦每周公布的死亡人數(shù)及相關(guān)人口資料,分析了60多年中居民死亡原因及與人口變動(dòng)的關(guān)系, 用了大量表格、算,提出了人口男女性別的大數(shù)法則,編制了人口統(tǒng)計(jì)分析壽命表及人口推算方法等,這在今天看來(lái),是統(tǒng)計(jì)工作的基礎(chǔ)環(huán)節(jié)——統(tǒng)計(jì)匯

總與描述性分析,但在當(dāng)時(shí),確是開(kāi)創(chuàng)性地利用公布的有限數(shù)據(jù),分析推斷了倫敦人口的總體分布與特征。威廉?配第的《政治算術(shù)》崇尚讓數(shù)據(jù)說(shuō)話,依據(jù)數(shù)據(jù)分析更廣泛的社會(huì)、經(jīng)濟(jì)問(wèn)題(不局限于人口分析) ,而不只是依靠思辨或空洞的推演,正如他自己所說(shuō):“與只使用比較級(jí)和最高級(jí)的詞語(yǔ)以及單純作思維論證相反,我采用數(shù)字、重量和尺度等術(shù)語(yǔ)來(lái)闡述我的觀點(diǎn)。他的兒子把該書(shū)獻(xiàn)給國(guó)王時(shí)說(shuō): “書(shū)中論述了凡是政府事務(wù)以及有關(guān)君主榮譽(yù)、 百姓幸福和國(guó)家昌盛的事項(xiàng), 都可以用算術(shù)的一般法則證實(shí)?!笨梢哉f(shuō),這種方法, 就是用一種普通的科學(xué)原理解釋錯(cuò)綜復(fù)雜的世界?!笨梢哉f(shuō),《政治算術(shù)》是把培根的實(shí)證科學(xué)思想和方法,通過(guò)數(shù)據(jù)的分析,運(yùn)用到了廣泛的社會(huì)經(jīng)濟(jì)領(lǐng)域。威廉?配第對(duì)統(tǒng)計(jì)的貢獻(xiàn)還在于強(qiáng)調(diào)典型調(diào)查作用,在數(shù)據(jù)分析中更多地使用分組法、平均數(shù)、相對(duì)數(shù)、統(tǒng)計(jì)推斷等,他還先見(jiàn)地提出計(jì)算整個(gè)國(guó)家的國(guó)民收入與國(guó)民財(cái)富,并對(duì)英國(guó)國(guó)民收入進(jìn)行詳細(xì)估算。有了統(tǒng)計(jì)學(xué)帶來(lái)的數(shù)據(jù)分析方法,就有了后來(lái)的經(jīng)濟(jì)學(xué)、社會(huì)學(xué)等,亞當(dāng)斯密的《國(guó)富論》是 1776年發(fā)表的,比《政治算術(shù)》晚了100多年。19世紀(jì)末 20世紀(jì)初開(kāi)始建立起來(lái)的數(shù)理統(tǒng)計(jì)理論和抽樣調(diào)查方法的推廣應(yīng)用, 更是廣泛應(yīng)用于自然科學(xué)、 經(jīng)濟(jì)學(xué)和社會(huì)科學(xué)等。“統(tǒng)計(jì)時(shí)代” :雜亂無(wú)章數(shù)據(jù)背后的規(guī)律19世紀(jì)初上半葉,統(tǒng)計(jì)學(xué)逐漸取代“國(guó)勢(shì)學(xué)”、“政治算術(shù)”,作為近代文化發(fā)達(dá)的標(biāo)志之一,就是統(tǒng)計(jì)開(kāi)始大量于社會(huì)經(jīng)濟(jì)自然科學(xué)各個(gè)方面并形成了統(tǒng)計(jì)發(fā)展史的高潮,后來(lái)被稱(chēng)之為“統(tǒng)計(jì)時(shí)代”、“統(tǒng)計(jì)狂熱時(shí)代”,一切讓數(shù)據(jù)說(shuō)話成為一種理念、一種時(shí)尚,就像今天誰(shuí)各個(gè)方面并形成了統(tǒng)計(jì)發(fā)展史的高潮,后來(lái)被稱(chēng)之為“統(tǒng)計(jì)時(shí)代”、“統(tǒng)計(jì)狂熱時(shí)代”,一切讓數(shù)據(jù)說(shuō)話成為一種理念、一種時(shí)尚,就像今天誰(shuí)不說(shuō)大數(shù)據(jù),誰(shuí)就落伍了一樣。這個(gè)時(shí)代的中心人物是比利時(shí)統(tǒng)計(jì)學(xué)家、數(shù)學(xué)家、天文學(xué)家凱特勒(1796-1874)。他的主要貢獻(xiàn)有:一是系統(tǒng)提出統(tǒng)計(jì)規(guī)律性研究,認(rèn)為統(tǒng)計(jì)學(xué)不僅要記述各國(guó)的國(guó)情,研究社會(huì)現(xiàn)象的靜態(tài),而且要研究社會(huì)生活的動(dòng)態(tài),從而觀察社會(huì)發(fā)展的規(guī)律。他提出要探索在紛繁雜亂的大量偶然性現(xiàn)象的背后所隱藏的必然規(guī)律。二是促進(jìn)了統(tǒng)計(jì)學(xué)與概率論的結(jié)合,使統(tǒng)計(jì)學(xué)進(jìn)入新的發(fā)展階段——現(xiàn)代統(tǒng)計(jì)學(xué)階段。在此之前,研究國(guó)家社會(huì)經(jīng)濟(jì)現(xiàn)象的統(tǒng)計(jì)學(xué)與研究賭博起來(lái)的概率論是風(fēng)馬牛不相及的兩個(gè)學(xué)科,要說(shuō)清楚他們的結(jié)合,還必須先說(shuō)說(shuō)一條最重要的曲線:正態(tài)分布曲線。這條曲線很好看,又好用,從天文觀察到人體測(cè)量,在自然界中無(wú)處不在,在當(dāng)時(shí)作為誤差分析的有力武器達(dá)到了登峰造極的地步,使得人們?cè)陔s亂無(wú)章的數(shù)據(jù)背后,能夠發(fā)現(xiàn)秩序和規(guī)律性。凱特勒在19世紀(jì) 30年代主持建立比利時(shí)統(tǒng)計(jì)局后,發(fā)現(xiàn)以往被人們認(rèn)為雜亂無(wú)章的、毫無(wú)規(guī)律可循的社會(huì)現(xiàn)象,也如同自然界一樣具有規(guī)律性。他收集了大量關(guān)于人體測(cè)量的數(shù)據(jù),開(kāi)創(chuàng)性地提出用正態(tài)曲線擬合方法判斷人體測(cè)量數(shù)據(jù)的同質(zhì)性問(wèn)題,隨后應(yīng)用于各種數(shù)據(jù)分析,為正態(tài)曲線的應(yīng)用拓展了廣闊的統(tǒng)計(jì)平臺(tái), 也導(dǎo)致后來(lái)涌現(xiàn)了社會(huì)統(tǒng)計(jì)學(xué)、生物統(tǒng)計(jì)學(xué)、農(nóng)業(yè)實(shí)驗(yàn)學(xué)、經(jīng)濟(jì)統(tǒng)計(jì)學(xué)等統(tǒng)計(jì)流派。統(tǒng)計(jì)學(xué)發(fā)展百花

齊放,數(shù)據(jù)的天空次序井然。這個(gè)時(shí)代另一個(gè)顯著的特點(diǎn)是政府官方統(tǒng)計(jì)的建立與發(fā)展,其主要原因除了統(tǒng)計(jì)科學(xué)的不斷完善外,還因?yàn)殡S著社會(huì)經(jīng)濟(jì)發(fā)展,各國(guó)政府、民間機(jī)構(gòu)對(duì)統(tǒng)計(jì)數(shù)據(jù)有大量需求。凱特勒的另一個(gè)貢獻(xiàn)是推動(dòng)了國(guó)際統(tǒng)計(jì)組織合作。由于大量的統(tǒng)計(jì)機(jī)構(gòu)的建立,民間研究團(tuán)體的涌現(xiàn),各種被利用的數(shù)據(jù)增多,統(tǒng)計(jì)學(xué)家們面臨一些共同的問(wèn)題,包括統(tǒng)計(jì)的標(biāo)準(zhǔn)、個(gè)體的界定、數(shù)據(jù)的質(zhì)量等基本問(wèn)題,也包括統(tǒng)計(jì)資料的交流、統(tǒng)計(jì)理論和方法的推廣與傳播等,都需要各國(guó)統(tǒng)計(jì)學(xué)家的共同研究。在凱特勒等的努力下,1851傳播等,都需要各國(guó)統(tǒng)計(jì)學(xué)家的共同研究。在凱特勒等的努力下,18511853年主持召開(kāi)了第一次會(huì)議。這是國(guó)際統(tǒng)計(jì)學(xué)會(huì)(ISI)的前身,1887年,ISI在羅馬召開(kāi)了第一次會(huì)議,1853年主持召開(kāi)了第一次會(huì)議。這是國(guó)際統(tǒng)計(jì)學(xué)會(huì)(ISI)的前身,1887年,ISI在羅馬召開(kāi)了第一次會(huì)議,自1938年起,每?jī)赡暾匍_(kāi)一次,后來(lái)改名為世界統(tǒng)計(jì)大會(huì)(WSC)。到目前已召開(kāi)了60屆,對(duì)統(tǒng)計(jì)學(xué)的發(fā)展和推年在倫敦成立了第一個(gè)國(guó)際統(tǒng)計(jì)組織——國(guó)際統(tǒng)計(jì)大會(huì),動(dòng)各國(guó)統(tǒng)計(jì)工作發(fā)揮了很大的作用。大數(shù)據(jù):新資源、新機(jī)會(huì)大數(shù)據(jù)是人類(lèi)自身產(chǎn)生的一種新的“自然”資源,與支撐傳統(tǒng)經(jīng)濟(jì)發(fā)展的自然資源,如土地、石油、煤、水等不同,這種人造“自然”資源越用越多,越用越便宜,越用越有價(jià)值,以知識(shí)、創(chuàng)新、ICT、IT、21DT為主要特征的新經(jīng)濟(jì)的發(fā)展更多是依靠這種新資源??梢哉f(shuō),世紀(jì)的競(jìng)爭(zhēng)是數(shù)據(jù)的競(jìng)爭(zhēng),誰(shuí)擁有了大數(shù)據(jù),誰(shuí)就占領(lǐng)了制高點(diǎn),誰(shuí)就擁有洞見(jiàn)的能力,誰(shuí)就能引領(lǐng)未來(lái)。21與傳統(tǒng)統(tǒng)計(jì)學(xué)研究的數(shù)據(jù)比, 大數(shù)據(jù)有幾個(gè)特點(diǎn): 一是數(shù)據(jù)量大。按有關(guān)機(jī)構(gòu)測(cè)算,全球數(shù)據(jù)量每?jī)赡攴环?。這還不是主要問(wèn)題,因?yàn)槟柖ɡ肀砻?,?shù)據(jù)處理能力每18個(gè)月就可以翻一番。 二是數(shù)據(jù)類(lèi)型多。數(shù)據(jù)不僅僅是數(shù)字,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),特別是互聯(lián)網(wǎng)和通訊技術(shù)的迅速發(fā)展,電子商務(wù)和社交網(wǎng)絡(luò)的廣泛應(yīng)用,網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理空間位置、網(wǎng)上交易等成為新的數(shù)據(jù)形式。三是數(shù)據(jù)上云。大數(shù)據(jù)已經(jīng)無(wú)法用傳統(tǒng)的存儲(chǔ)、計(jì)算方式來(lái)處理,數(shù)據(jù)上云意味著,可以通過(guò)網(wǎng)絡(luò),依托于云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和虛擬化等技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行整合、挖掘,從技術(shù)上看,大數(shù)據(jù)與云計(jì)算就像一對(duì)孿生兄弟或者一枚硬幣的正反面一樣密不可分。除了上述三個(gè)特點(diǎn)外,一般認(rèn)為大數(shù)據(jù)還有兩個(gè)特點(diǎn):速度和價(jià)值。一般將數(shù)據(jù)量 (Volume)、數(shù)據(jù)類(lèi)型(Variety)、速度(Velocity)和價(jià)值( Value)稱(chēng)為“ 4V”,刻畫(huà)了大數(shù)據(jù)的基本特征。哈佛大學(xué)口? 金教授說(shuō): “大數(shù)據(jù)是一場(chǎng)革命, 龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開(kāi)始了量化進(jìn)程,無(wú)論學(xué)術(shù)界、商業(yè)還是政府,所有領(lǐng)域都將開(kāi)始這種進(jìn)程。 ”今天, 我們進(jìn)入了信息社會(huì), 面臨著大數(shù)據(jù)時(shí)代的來(lái)臨,云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)終端及可穿戴設(shè)備高度發(fā)達(dá)與融合,不管你是誰(shuí)、不管你愿意不愿意,都要與數(shù)據(jù)打交道,要么在生產(chǎn)數(shù)據(jù),要么在接收數(shù)據(jù),不管身在何處,你已經(jīng)被“大數(shù)據(jù)”了。從日常生活到國(guó)家宏觀調(diào)控,我們面臨的都將是各種數(shù)據(jù)。如何在各種各樣的數(shù)據(jù)中進(jìn)行深入的分析和挖掘,發(fā)現(xiàn)這些數(shù)據(jù)當(dāng)中隱藏的更深刻的規(guī)律和現(xiàn)象,就能更好地服務(wù)于政府決策和社會(huì)各方面的需求,大數(shù)據(jù)的真正價(jià)值就體現(xiàn)在這里。國(guó)際上很多組織和國(guó)家,特別是發(fā)達(dá)國(guó)家,都已經(jīng)把大數(shù)據(jù)的開(kāi)發(fā)應(yīng)用提高到戰(zhàn)略的高度來(lái)研究。聯(lián)合國(guó)《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》(2012)認(rèn)為: “大數(shù)據(jù)像納米技術(shù)和量子計(jì)算一樣帶來(lái)了根本性的變革,將會(huì)塑造21世紀(jì)?!笔澜缃?jīng)濟(jì)論壇發(fā)布的 《大數(shù)據(jù)、 大影響:TOC\o"1-5"\h\z國(guó)際發(fā)展的新動(dòng)向》 稱(chēng):“大數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類(lèi)別, 就像貨幣或黃金一樣。 ”維克托在 《大數(shù)據(jù)時(shí)代—生活、 工作與思維的大變革》中說(shuō):“大數(shù)據(jù)時(shí)代將帶來(lái)思維變革、 商業(yè)變革和管理變革, 隨著大數(shù)據(jù)在商業(yè)等領(lǐng)域嶄露頭角,一場(chǎng)為發(fā)掘和利用數(shù)據(jù)價(jià)值的競(jìng)賽正在全球上演,人類(lèi)將面臨根本性的時(shí)代變革。 ”大數(shù)據(jù)時(shí)代,我國(guó)優(yōu)勢(shì)明顯。第一,從政策層面,我國(guó)已經(jīng)出臺(tái)并實(shí)施了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》和《中國(guó)制造 2025》。第二,我國(guó)是世界第一人口大國(guó),第二大經(jīng)濟(jì)體,有 1500多萬(wàn)個(gè)法人單位,1800多萬(wàn)個(gè)產(chǎn)業(yè)活動(dòng)單位, 還有大量其他經(jīng)濟(jì)主體不斷涌現(xiàn)。 人口和經(jīng)濟(jì)規(guī)模決定了我國(guó)是一個(gè)數(shù)據(jù)資源大國(guó)。第三,我國(guó)是一個(gè)網(wǎng)絡(luò)大國(guó),截至2016年6月,中國(guó)互聯(lián)網(wǎng)普及率達(dá)到 51.7%,網(wǎng)民規(guī)模達(dá) 7.1億,手機(jī)網(wǎng)民規(guī)模達(dá) 6.56億,一大批互聯(lián)網(wǎng)企業(yè)、 大數(shù)據(jù)企業(yè)正在改變著傳統(tǒng)的生產(chǎn)生活方式。第四,大數(shù)據(jù)時(shí)代與我國(guó)經(jīng)濟(jì)發(fā)展新常態(tài)正處在一個(gè)歷史的交匯口,提質(zhì)增效、轉(zhuǎn)型升級(jí)為加快大數(shù)據(jù)的應(yīng)用提供了機(jī)遇,同時(shí),以大數(shù)據(jù)開(kāi)發(fā)為基礎(chǔ)的一大批產(chǎn)業(yè)將形成新的經(jīng)濟(jì)增長(zhǎng)點(diǎn),推動(dòng)新經(jīng)濟(jì)的發(fā)展,實(shí)現(xiàn)動(dòng)能轉(zhuǎn)換。大數(shù)據(jù)催生統(tǒng)計(jì)創(chuàng)新普查和抽樣調(diào)查是傳統(tǒng)的兩大數(shù)據(jù)收集方法。普查不需要統(tǒng)計(jì)學(xué)方法進(jìn)行推斷估計(jì),因?yàn)橥ㄟ^(guò)普查,已經(jīng)取得了所有個(gè)體數(shù)據(jù)和總體的實(shí)際分布,這也是為什么人類(lèi)開(kāi)始懂得計(jì)數(shù)就開(kāi)始進(jìn)行普查。抽樣調(diào)查是利用抽樣理論解決如何科學(xué)設(shè)計(jì)樣本,取得樣本個(gè)體數(shù)據(jù),并科學(xué)地推斷總體分布及特征。無(wú)論是普查還是抽樣調(diào)查,其核心問(wèn)題之一是要取得準(zhǔn)確的“個(gè)體數(shù)據(jù)” 。但在大數(shù)據(jù)時(shí)代,一切皆可量化,一切皆可記錄,如何利用更全面、更及時(shí)、更經(jīng)濟(jì)的網(wǎng)絡(luò)電子化數(shù)據(jù),以及通過(guò)對(duì)這些數(shù)據(jù)使用新的分析及挖掘技術(shù), 產(chǎn)生新的見(jiàn)解和認(rèn)識(shí),是我們面臨的重大機(jī)遇。大數(shù)據(jù)和統(tǒng)計(jì)思維與方法等有明顯的不同,主要表現(xiàn)在以下八個(gè)方面:一是“問(wèn)題驅(qū)動(dòng)” 與“數(shù)據(jù)驅(qū)動(dòng)” 。收集數(shù)據(jù)是開(kāi)展統(tǒng)計(jì)分析的前提,傳統(tǒng)的普查或抽樣調(diào)查是先確定普查或調(diào)查目的,然后再根據(jù)目的相應(yīng)要求和經(jīng)費(fèi)確定普查或調(diào)查的方法和樣本量的大小。 也就是說(shuō),傳統(tǒng)統(tǒng)計(jì)方法設(shè)計(jì)是針對(duì)研究問(wèn)題而收集數(shù)據(jù),提出假設(shè),再進(jìn)行統(tǒng)計(jì)檢驗(yàn)和推斷。 這種用有限數(shù)據(jù)驗(yàn)證先驗(yàn)假定, 通常是基于分布理論,以一定的概率為保證, 其邏輯關(guān)系是 “分布理論 -概率保證 -總體推斷”而大數(shù)據(jù)強(qiáng)調(diào)的是全體數(shù)據(jù),總體特征一般不再需要根據(jù)分布理論進(jìn)

行推斷。不僅如此,還可以根據(jù)全面數(shù)據(jù)和實(shí)際分布來(lái)判斷其中出現(xiàn)某類(lèi)情況的可能性有多大,其邏輯關(guān)系變成了“實(shí)際分布 -總體特征概率判斷” ,也即概率不再是事先預(yù)設(shè), 而是基于實(shí)際分布得出的判斷。在大數(shù)據(jù)時(shí)代,由于有足夠的數(shù)據(jù),足夠的變量,可以采用人工智能等來(lái)進(jìn)行數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn),廣泛開(kāi)展各種探索性研究,其結(jié)論與發(fā)現(xiàn)是通過(guò)數(shù)據(jù)分析獲得的,也就是數(shù)據(jù)驅(qū)動(dòng),用數(shù)據(jù)決策和用數(shù)據(jù)創(chuàng)新。二是“我問(wèn)你答”與“我取你有” 。統(tǒng)計(jì)報(bào)表、調(diào)查問(wèn)卷是目前全世界開(kāi)展普查、調(diào)查收集數(shù)據(jù)的主要載體。這種方式是通過(guò)結(jié)構(gòu)化的“我(如采用報(bào)表將被調(diào)查對(duì)象的行為轉(zhuǎn)化為可用的數(shù)據(jù), 這種方式的根本特征“我(如采用問(wèn)你答” ,需要被調(diào)查者高度配合, 包括對(duì)問(wèn)題的正確理解和如實(shí)回答填報(bào),否則,數(shù)據(jù)質(zhì)量難以保證。但在“大數(shù)據(jù)”時(shí)代,數(shù)據(jù)來(lái)源于信息技術(shù)記錄下的原始數(shù)據(jù), 這些數(shù)據(jù)的參與僅僅依賴(lài)于測(cè)量方法企業(yè)生產(chǎn)記錄、大量行政記錄、 GPS定位測(cè)量、超市收銀管理系統(tǒng)、ETC電子收費(fèi)系統(tǒng)) ,充分利用電子記錄大數(shù)據(jù)為政府統(tǒng)計(jì)所用,“我取你有”的方式,取得更及時(shí)、真實(shí)的原始數(shù)據(jù),由專(zhuān)業(yè)統(tǒng)計(jì)人員根據(jù)統(tǒng)計(jì)制度計(jì)算統(tǒng)計(jì)指標(biāo)數(shù)據(jù),也減少了統(tǒng)計(jì)調(diào)查和報(bào)表整理的中間環(huán)節(jié),數(shù)據(jù)質(zhì)量將會(huì)大大提高。三是“因果聯(lián)系” 與“相關(guān)分析” 。傳統(tǒng)統(tǒng)計(jì)主要通過(guò)建立模型探求變量之間的因果關(guān)系,并基于模型對(duì)因變量進(jìn)行預(yù)測(cè),即預(yù)先假定事物之間存在某種因果關(guān)系,然后在此假定的基礎(chǔ)上構(gòu)建模型并驗(yàn)證假定存在的因果關(guān)系。存在的問(wèn)題往往是,變量間的因果關(guān)系具有時(shí)效性,存在“此一時(shí),彼一時(shí)”的情況,是在特殊條件和前提假定下的關(guān)系,結(jié)論的時(shí)效性與適用性較為有限。而相關(guān)關(guān)系具有更加普遍和本質(zhì)的內(nèi)涵,有因果關(guān)系必有相關(guān)關(guān)系,有相關(guān)關(guān)系未必有因果關(guān)系。在大數(shù)據(jù)背景下,數(shù)據(jù)分析不再探求特定條件下確定性很強(qiáng)的因果關(guān)系,而是更加關(guān)注普遍意義的相關(guān)關(guān)系。從超大量數(shù)據(jù)中發(fā)現(xiàn)各種真實(shí)存在的相關(guān)關(guān)系,更加直觀、更貼近個(gè)體、更容易被理解和接受,可以發(fā)現(xiàn)事物發(fā)展?jié)撛诘囊?guī)律, 具有一定的“智能性”,某種程度上超越了傳統(tǒng)統(tǒng)計(jì)研究的因果關(guān)系,因此,相關(guān)分析是大數(shù)據(jù)時(shí)代的重要工作。四是“樣本抽選”與“總體描述” 。以統(tǒng)計(jì)推斷為主要特征的現(xiàn)代統(tǒng)計(jì)學(xué)研究主要內(nèi)容是不斷改進(jìn)樣本抽樣方法和參數(shù)設(shè)計(jì),從而對(duì)總體的特征進(jìn)行描述。囿于數(shù)據(jù)收集以及客觀條件的限制,總是希望通過(guò)盡可能少的樣本來(lái)了解總體。在這種背景下,產(chǎn)生了各式各樣的抽樣調(diào)查技術(shù)和參數(shù)估計(jì)方法。在分層情況下,樣本的數(shù)量往往不能有效地減少。大數(shù)據(jù)時(shí)代,樣本就是被記錄的所有數(shù)據(jù),從這個(gè)意義上講,樣本就是總體。通過(guò)對(duì)所有與事物相關(guān)的數(shù)據(jù)進(jìn)行分析,既有利于了解總體,又有利于了解局部細(xì)微??偟膩?lái)講,傳統(tǒng)的統(tǒng)計(jì)抽樣調(diào)查方法存在的不足可以在大數(shù)據(jù)時(shí)代得到改進(jìn)。大數(shù)定律告訴我們,隨著樣本數(shù)量的增加,樣本平均數(shù)越來(lái)越接近總體,而大數(shù)據(jù)已經(jīng)描述了總體信息。。長(zhǎng)期以來(lái),我國(guó)政府統(tǒng)計(jì)是以五是“數(shù)據(jù)煙囪”與“數(shù)據(jù)平臺(tái)”部門(mén)為中心展開(kāi)的,相互隔離形成了行業(yè)垂直的信息化體系,在地方。長(zhǎng)期以來(lái),我國(guó)政府統(tǒng)計(jì)是以上形成了條塊分割的“信息孤島”,形成一個(gè)個(gè)“數(shù)據(jù)煙囪”,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,數(shù)據(jù)指標(biāo)不規(guī)范,數(shù)據(jù)平臺(tái)重復(fù)建設(shè)。大數(shù)據(jù)特別是與之相關(guān)聯(lián)云計(jì)算,為信息整合提供了新的契機(jī),有助于建立政府信息共享數(shù)據(jù)平臺(tái),提高政府行為的透明度,有效提高政府的公信力,以大數(shù)據(jù)助推政府決策科學(xué)化。大數(shù)據(jù)的應(yīng)用將改變政府統(tǒng)計(jì)部門(mén)的工作模式,整合現(xiàn)有的分散于各職能部門(mén)中的來(lái)源的數(shù)據(jù)采集制度,實(shí)現(xiàn)工商、質(zhì)監(jiān)、勞動(dòng)、人社等部門(mén)的數(shù)據(jù)注冊(cè)、查詢、共享和交換,在一個(gè)數(shù)據(jù)平臺(tái)(包括標(biāo)準(zhǔn)、指標(biāo)、數(shù)據(jù)庫(kù)等),能夠揭示傳統(tǒng)技術(shù)方式難以展現(xiàn)的關(guān)聯(lián)關(guān)系,會(huì)問(wèn)題提供新的手段,有助于建立現(xiàn)代化的政府統(tǒng)計(jì)調(diào)查體系,最大限度地發(fā)掘這些數(shù)據(jù)資源的價(jià)值,提高政府統(tǒng)計(jì)部門(mén)的生產(chǎn)力,建立“用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”的管理體制機(jī)制,提升政府治理能力。六是“以小見(jiàn)大”與“以大見(jiàn)小”計(jì)是研究結(jié)構(gòu)化“小數(shù)據(jù)”個(gè)體樣本數(shù)據(jù)進(jìn)而分析推斷總體特征。通過(guò)對(duì)各種來(lái)源各種結(jié)構(gòu)數(shù)據(jù)(特別是各種電子網(wǎng)絡(luò)數(shù)據(jù))實(shí)時(shí)進(jìn)行整合、量化、關(guān)聯(lián)、識(shí)別等,發(fā)現(xiàn)其個(gè)體特征,進(jìn)而對(duì)總體進(jìn)行任意細(xì)分的描述。七是“記錄歷史”與“預(yù)測(cè)未來(lái)”“統(tǒng)計(jì)是動(dòng)態(tài)的歷史,歷史是靜態(tài)的統(tǒng)計(jì)。也揭示了統(tǒng)計(jì)的基本功能,那就是記錄歷史。這當(dāng)然是非常重要的,“行政記錄”,完善多種信息為有效處理復(fù)雜社,其優(yōu)勢(shì)在于“以小見(jiàn)大”。統(tǒng)計(jì)學(xué)是關(guān)于數(shù)據(jù)的科學(xué),統(tǒng),通過(guò)設(shè)計(jì)抽取大數(shù)據(jù)的優(yōu)勢(shì)在于 “以大見(jiàn)小” ,。德國(guó)統(tǒng)計(jì)學(xué)家斯勒茲曾說(shuō)過(guò):”這是在 300多年前說(shuō)的,、即時(shí)性等特點(diǎn),采用智能統(tǒng)計(jì)研究的任務(wù)就是為了發(fā)現(xiàn)、即時(shí)性等特點(diǎn),采用智能統(tǒng)計(jì)研究的任務(wù)就是為了發(fā)現(xiàn)也是預(yù)測(cè)的基礎(chǔ)。統(tǒng)計(jì)預(yù)測(cè)就是利用歷史數(shù)據(jù)建模、外推進(jìn)行預(yù)測(cè),這里包含了一個(gè)假定的前提,就是未來(lái)的發(fā)展趨勢(shì)是按照歷史數(shù)據(jù)呈現(xiàn)的規(guī)律變化的,或者在對(duì)未來(lái)可能的選擇,改變參數(shù)進(jìn)行人為的調(diào)整。這種預(yù)測(cè)方法和思路,對(duì)于今天快速變化發(fā)展的社會(huì)經(jīng)濟(jì)狀況,特別是很多不可預(yù)測(cè)的突發(fā)事件的影響,顯然是不適應(yīng)的。技術(shù)與創(chuàng)新成為時(shí)代的主題,新產(chǎn)業(yè)、新業(yè)態(tài)、新模式等新經(jīng)濟(jì)層出不窮,未來(lái)的經(jīng)濟(jì)發(fā)展不能完全用歷史的模式來(lái)描述,這也要求有新的預(yù)測(cè)方法。大數(shù)據(jù)時(shí)代,各種傳感器和網(wǎng)絡(luò)設(shè)施遍布社會(huì)的各個(gè)角落,而這些數(shù)據(jù)是實(shí)時(shí)的、動(dòng)態(tài)的,具有“零延遲”計(jì)算、實(shí)時(shí)計(jì)算等方法,極大地提高了數(shù)據(jù)的時(shí)效性和預(yù)測(cè)質(zhì)量。特別是,隨著電子商務(wù)、互聯(lián)網(wǎng)金融、社交網(wǎng)絡(luò)等的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論