精選答案
統(tǒng)計(jì)學(xué)的英文statistics最早源于現(xiàn)代拉丁文statisticum collegium(國(guó)會(huì))以及意大利文statista(國(guó)民或政治家)。德文Statistik,最早是由Gottfried Achenwall于1749年使用,代表對(duì)國(guó)家的資料進(jìn)行分析的學(xué)問(wèn),也就是“研究國(guó)家的科學(xué)”。在十九世紀(jì)統(tǒng)計(jì)學(xué)在廣泛的數(shù)據(jù)以及資料中探究其意義,并且由John Sinclair引進(jìn)到英語(yǔ)世界。
統(tǒng)計(jì)學(xué)是一門很古老的科學(xué),一般認(rèn)為其學(xué)理研究始于古希臘的亞里斯多德時(shí)代,迄今已有兩千三百多年的歷史。它起源于研究社會(huì)經(jīng)濟(jì)問(wèn)題,在兩千多年的發(fā)展過(guò)程中,統(tǒng)計(jì)學(xué)至少經(jīng)歷了“城邦政情”,“政治算數(shù)”和“統(tǒng)計(jì)分析科學(xué)”三個(gè)發(fā)展階段。所謂“數(shù)理統(tǒng)計(jì)”并非獨(dú)立于統(tǒng)計(jì)學(xué)的新學(xué)科,確切地說(shuō):它是統(tǒng)計(jì)學(xué)在第三個(gè)發(fā)展階段所形成的所有收集和分析數(shù)據(jù)的新方法的一個(gè)綜合性名詞。概率論是數(shù)理統(tǒng)計(jì)方法的理論基礎(chǔ),但是它不屬于統(tǒng)計(jì)學(xué)的范疇,而屬于數(shù)學(xué)的范疇。[1] 與“城邦政情”階段沒(méi)有很明顯的分界點(diǎn),本質(zhì)的差別也不大。
![統(tǒng)計(jì)學(xué)的發(fā)展過(guò)程](http://m.tengyi66.com/images/a158.jpg)
“政治算術(shù)”的特點(diǎn)是統(tǒng)計(jì)方法與數(shù)學(xué)計(jì)算和推理方法開(kāi)始結(jié)合。分析社會(huì)經(jīng)濟(jì)問(wèn)題的方式更加注重運(yùn)用定量分析方法。
1690年英國(guó)威廉·配弟出版《政治算數(shù)》一書(shū)作為這個(gè)階段的起始標(biāo)志。
威廉·配第用數(shù)字,重量和尺度將社會(huì)經(jīng)濟(jì)現(xiàn)象數(shù)量化的方法是近代統(tǒng)計(jì)學(xué)的重要特征。因此,威廉·配第的《政治算術(shù)》被后來(lái)的學(xué)者評(píng)價(jià)為近代統(tǒng)計(jì)學(xué)的來(lái)源,威廉·配第本人也被評(píng)價(jià)為近代統(tǒng)計(jì)學(xué)之父。
配第在書(shū)中使用的數(shù)字有三類:
第一類是對(duì)社會(huì)經(jīng)濟(jì)現(xiàn)象進(jìn)行統(tǒng)計(jì)調(diào)查和經(jīng)驗(yàn)觀察得到的數(shù)字.因?yàn)槭軞v史條件的限制,書(shū)中通過(guò)嚴(yán)格的統(tǒng)計(jì)調(diào)查得到的數(shù)據(jù)少,根據(jù)經(jīng)驗(yàn)得出的數(shù)字多;
第二類是運(yùn)用某種數(shù)學(xué)方法推算出來(lái)的數(shù)字。其推算方法可分為三種: 平均數(shù)為基礎(chǔ)進(jìn)行推算的方法”; 第三類是為了進(jìn)行理論性推理而采用的例示性的數(shù)字。配第把這種運(yùn)用數(shù)字和符號(hào)進(jìn)行的推理稱之為“代數(shù)的算法”。從配第使用數(shù)據(jù)的方法看,“政治算數(shù)”階段的統(tǒng)計(jì)學(xué)已經(jīng)比較明顯地體現(xiàn)了“收集和分析數(shù)據(jù)的科學(xué)和藝術(shù)”特點(diǎn),統(tǒng)計(jì)實(shí)證方法和理論分析方法渾然一體,這種方法即使是現(xiàn)代統(tǒng)計(jì)學(xué)也依然繼承。[2] 在“政治算術(shù)”階段出現(xiàn)的統(tǒng)計(jì)與數(shù)學(xué)的結(jié)合趨勢(shì)逐漸發(fā)展形成了“統(tǒng)計(jì)分析科學(xué)”。
![統(tǒng)計(jì)學(xué)的發(fā)展過(guò)程](http://m.tengyi66.com/images/a435.jpg)
十九世紀(jì)末,歐洲大學(xué)開(kāi)設(shè)的“國(guó)情紀(jì)要”或“政治算數(shù)”等課程名稱逐漸消失,代之而起的是“統(tǒng)計(jì)分析科學(xué)”課程。當(dāng)時(shí)的“統(tǒng)計(jì)分析科學(xué)”(Science of statistical analysis)課程的內(nèi)容仍然是分析研究社會(huì)經(jīng)濟(jì)問(wèn)題。
“統(tǒng)計(jì)分析科學(xué)”課程的出現(xiàn)是現(xiàn)代統(tǒng)計(jì)發(fā)展階段的開(kāi)端. 1908年,“學(xué)生”氏(William Sleey Gosset的筆名Student)發(fā)表了關(guān)于t分布的論文,這是一篇在統(tǒng)計(jì)學(xué)發(fā)展史上劃時(shí)代的文章。它創(chuàng)立了小樣本代替大樣本的方法,開(kāi)創(chuàng)了統(tǒng)計(jì)學(xué)的新紀(jì)元。
現(xiàn)代統(tǒng)計(jì)學(xué)的代表人物首推比利時(shí)統(tǒng)計(jì)學(xué)家奎特萊(Adolphe Quelet),他將統(tǒng)計(jì)分析科學(xué)廣泛應(yīng)用于社會(huì)科學(xué),自然科學(xué)和工程技術(shù)科學(xué)領(lǐng)域,因?yàn)樗钚沤y(tǒng)計(jì)學(xué)是可以用于研究任何科學(xué)的一般研究方法.
現(xiàn)代統(tǒng)計(jì)學(xué)的理論基礎(chǔ)概率論始于研究賭博的機(jī)遇問(wèn)題,大約開(kāi)始于1477年。數(shù)學(xué)家為了解釋支配機(jī)遇的一般法則進(jìn)行了長(zhǎng)期的研究,逐漸形成了概率論理論框架。在概率論進(jìn)一步發(fā)展的基礎(chǔ)上,到十九世紀(jì)初,數(shù)學(xué)家們逐漸建立了觀察誤差理論,正態(tài)分布理論和最小平方法則。于是,現(xiàn)代統(tǒng)計(jì)方法便有了比較堅(jiān)實(shí)的理論基礎(chǔ)。[1] 統(tǒng)計(jì)學(xué)(statistics):收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)。
![統(tǒng)計(jì)學(xué)的發(fā)展過(guò)程](http://m.tengyi66.com/images/a568.jpg)
描述統(tǒng)計(jì)(descriptive statistics):研究數(shù)據(jù)收集、處理和描述的統(tǒng)計(jì)學(xué)方法。
推斷統(tǒng)計(jì)(inferential statistics):研究如何利用樣本數(shù)據(jù)來(lái)推斷總體特征的統(tǒng)計(jì)學(xué)方法。
變量(variable):每次觀察會(huì)得到不同結(jié)果的某種特征。
分類變量(categorical variable):觀測(cè)結(jié)果表現(xiàn)為某種類別的變量。
順序變量(rank variable):又稱有序分類變量,觀測(cè)結(jié)果表現(xiàn)為某種有序類別的變量。
數(shù)值型變量(metric variable):又稱定量變量,觀測(cè)結(jié)果表現(xiàn)為數(shù)字的變量。
均值(mean):均值也就是平均數(shù),有時(shí)特指算術(shù)平均數(shù),這是相對(duì)其他方式計(jì)算的均值,求法是先將所有數(shù)字加起來(lái),然后除以數(shù)字的個(gè)數(shù),這是測(cè)量集中趨勢(shì),或者說(shuō)平均數(shù)的一種方法。
中位數(shù)(median):也就是選取中間的數(shù),要找中位數(shù),首先需要從小到大排序,排序后,再看中間的數(shù)字是什么。
眾數(shù)(mode):眾數(shù)也就是數(shù)據(jù)集中出現(xiàn)頻率最多的數(shù)字 為了將統(tǒng)計(jì)學(xué)應(yīng)用到科學(xué),工業(yè)以及社會(huì)問(wèn)題上,我們由研究母體開(kāi)始。這可能是一個(gè)國(guó)家的人民,石頭中的水晶,或者是某家特定工廠所生產(chǎn)的商品。一個(gè)母體甚至可能由許多次同樣的觀察程序所組成;由這種資料收集所組成的母體我們稱它叫時(shí)間序列。
為了實(shí)際的理由,我們選擇研究母體的子集代替研究母體的每一筆資料,這個(gè)子集稱做樣本。以某種經(jīng)驗(yàn)設(shè)計(jì)實(shí)驗(yàn)所搜集的樣本叫做資料。資料是統(tǒng)計(jì)分析的對(duì)象,并且被用做兩種相關(guān)的用途:描述和推論。描述統(tǒng)計(jì)學(xué)處理有關(guān)敘述的問(wèn)題:資料是否可以被有效的摘要,不論是以數(shù)學(xué)或是圖片表現(xiàn),以用來(lái)代表母體的性質(zhì)?基礎(chǔ)的數(shù)學(xué)描述包括了平均數(shù)和標(biāo)準(zhǔn)差。圖像的摘要?jiǎng)t包含了許多種的表和圖。
推論統(tǒng)計(jì)學(xué)被用來(lái)將資料中的數(shù)據(jù)模型化,計(jì)算它的機(jī)率并且做出對(duì)于母體的推論。這個(gè)推論可能以對(duì)/錯(cuò)問(wèn)題的答案所呈現(xiàn)(假設(shè)檢定),對(duì)于數(shù)字特征量的估計(jì)(估計(jì)),對(duì)于未來(lái)觀察的預(yù)測(cè),關(guān)聯(lián)性的預(yù)測(cè)(相關(guān)性),或是將關(guān)系模型化(回歸)。其他的模型化技術(shù)包括變異數(shù)分析(ANOVA),時(shí)間序列,以及數(shù)據(jù)挖掘。
相關(guān)的觀念特別值得被拿出來(lái)討論。對(duì)于資料集合的統(tǒng)計(jì)分析可能顯示兩個(gè)變量(母體中的兩種性質(zhì))傾向于一起變動(dòng),好像它們是相連的一樣。舉例來(lái)說(shuō),對(duì)于人收入和死亡年齡的研究期刊可能會(huì)發(fā)現(xiàn)窮人比起富人平均來(lái)說(shuō)傾向擁有較短的生命。這兩個(gè)變量被稱做相關(guān)的。但是實(shí)際上,我們不能直接推論這兩個(gè)變量中有因果關(guān)系;參見(jiàn)相關(guān)性推論因果關(guān)系(邏輯謬誤)。
如果樣本足以代表母體的,那么由樣本所做的推論和結(jié)論可以被引申到整個(gè)母體之上。最大的問(wèn)題在于決定樣本是否足以代表 整個(gè)母體。統(tǒng)計(jì)學(xué)提供了許多方法來(lái)估計(jì)和修正樣本和收集資料過(guò)程中的隨機(jī)性(誤差),如同上面所提到的透過(guò)經(jīng)驗(yàn)所設(shè)計(jì)的實(shí)驗(yàn)。參見(jiàn)實(shí)驗(yàn)設(shè)計(jì)。
要了解隨機(jī)性或是機(jī)率必須具備基本的數(shù)學(xué)觀念。數(shù)理統(tǒng)計(jì)(通常又叫做統(tǒng)計(jì)理論)是應(yīng)用數(shù)學(xué)的分支,它使用機(jī)率論來(lái)分析并且驗(yàn)證統(tǒng)計(jì)的理論基礎(chǔ)。
任何統(tǒng)計(jì)方法是有效的只有當(dāng)這個(gè)系統(tǒng)或是所討論的母體滿足方法論的基本假設(shè)。誤用統(tǒng)計(jì)學(xué)可能會(huì)導(dǎo)致描述面或是推論面嚴(yán)重的錯(cuò)誤,這個(gè)錯(cuò)誤可能會(huì)影響社會(huì)政策,醫(yī)療實(shí)踐以及橋梁或是核能發(fā)電計(jì)劃結(jié)構(gòu)的可靠性。
即使統(tǒng)計(jì)學(xué)被正確的應(yīng)用,結(jié)果對(duì)于不是專家的人來(lái)說(shuō)可能會(huì)難以陳述。舉例來(lái)說(shuō),統(tǒng)計(jì)資料中顯著的改變可能是由樣本的隨機(jī)變量所導(dǎo)致,但是這個(gè)顯著性可能與大眾的直覺(jué)相悖。人們需要一些統(tǒng)計(jì)的技巧(或懷疑)以面對(duì)每天日常生活中透過(guò)引用統(tǒng)計(jì)數(shù)據(jù)所獲得的資訊。 測(cè)量的尺度
統(tǒng)計(jì)學(xué)一共有四種測(cè)量的尺度或是四種測(cè)量的方式。這四種測(cè)量(名目、順序、等距、等比)在統(tǒng)計(jì)過(guò)程中具有不等的實(shí)用性 。
等比尺度(Ratio measurements)擁有零值及資料間的距離是相等被定義的;
等距尺度(Interval measurements)資料間的距離是相等被定義的但是它的零值并非絕對(duì)的無(wú)而是自行定義的(如智力或溫度的測(cè)量);
順序尺度( Ordinal measurements)的意義并非表現(xiàn)在其值而是在其順序之上;
名目尺度(Nominal measurements)的測(cè)量值則不具量的意義。 以下列出一些有名的統(tǒng)計(jì)檢定方法以及可供驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)的程序
Fisher最小顯著差異法(Fisher's Least Significant Difference test )
學(xué)生t檢驗(yàn)(Student's t-test)
曼-惠特尼 U 檢定(Mann-Whitney U)
回歸分析(regression analysis)
相關(guān)性(correlation)
皮爾森積矩相關(guān)系數(shù)(Pearson product-moment correlation coefficient)
史匹曼等級(jí)相關(guān)系數(shù)(Spearman's rank correlation coefficient )
卡方分布(chi-square )
創(chuàng)立時(shí)期
德國(guó)的斯勒茲曾說(shuō)過(guò):“統(tǒng)計(jì)是動(dòng)態(tài)的歷史,歷史是靜態(tài)的統(tǒng)計(jì)”??梢?jiàn)統(tǒng)計(jì)學(xué)的產(chǎn)生與發(fā)展是和生產(chǎn)的發(fā)展、社會(huì)的進(jìn)步緊密相聯(lián)的。
統(tǒng)計(jì)學(xué)的萌芽產(chǎn)生在歐洲,17世紀(jì)中葉至18世紀(jì)中葉是統(tǒng)計(jì)學(xué)的創(chuàng)立時(shí)期。在這一時(shí)期,統(tǒng)計(jì)學(xué)理論初步形成了一定的學(xué)術(shù)派別,主要有國(guó)勢(shì)學(xué)派和政治算術(shù)學(xué)派。