《女士品茶:20世纪统计怎样变革了科学》作为统计学史的入门书籍其实是不合适的,萨尔斯伯格的序言 写的不错,但很多东西他并没有讲出来,讲透。 国内的教科书大多是从数学的角度,而不是从统计的角度讲这个问题,开头就是讲赌博,让人丈二和尚摸不着头脑。 《探索性数据分析》陈希儒老先生写的序,有人说写的很好,我看过以后,还是不开窍。(也许陈先生把数学忘了,可能会写的清楚点) 那到底是怎么回事呢? 19世纪初之前,误差分析和统计学是两个风马牛不相及的两个学科。统计学的产生最初与“编制国情报告”有关,主要服务于政府部门。 统计学面对的是统计数据,是对多个不同对象的测量;而误差分析研究的是观测数据,是对同一个对象的多次测量。因此观测数据和统计数据在当时被认为两种不同行为获取得到的数据 ,适用于观测数据的规律未必适用于统计数据。19世纪的统计数据分析处于一个很落后的状态,和概率论没有多少结合。而概率论的产生主要和赌博相关,发展过程中与误差分析紧密联系,而与当时的统计学交集非常小。 将统计学与概率论真正结合起来推动数理统计学发展的便是我们的统计学巨星凯特勒Adolphe Quetelet (1796-1874) 。 1831年,凯特勒参与主持新建比利时统计总局的工作。他开始从事有关人口问题的统计学研究。在这种研究中,凯特勒发现,以往被人们认为杂乱无章的、偶然性占统治地位的社会现象,如同自然现象一样也具有一定的规律性。凯特勒搜集了大量关于人体生理测量的数据,如体重、身高与胸围等,并使用概率统计方法来对数据进行数据分析。但是当时的统计分析方法遭到了社会学家的质疑,社会学家们的反对意见主要在于:社会问题与科学实验不同,其数据一般由观察得到,无法控制且经常不了解其异质因素,这样数据的同质性连带其分析结果往往就有了问题,于是社会统计工作者就面临一个如何判断数据同质性的问题。凯特勒大胆地提出: 【把一批数据是否能很好地拟合正态分布,作为判断该批数据同质的标准。】 凯特勒提出了一个使用正态曲线拟合数据的方法,并广泛的使用正态分布去拟合各种类型的数据。由此,凯特勒为正态分布的应用拓展了广阔的舞台。正态分布如同一把屠龙刀,在他的带领下,学者们挥舞着这把宝刀在各个领域披荆斩棘,攻陷了人口、领土、政治、农业、工业、商业、道德等社会领域,并进一步攻占天文学、数学、物理学、生物学、社会统计学及气象学等自然科学领域。 正态分布的下一个推动力来自生物学家高尔顿,当正态分布与生物学联姻时,近代统计学迎来了一次大发展。受凯特勒的启发,他对正态分布怀有浓厚的兴趣,开始使用正态分布去拟合人的身高、胸围、以至考试成绩等各类数据,发现正态分布拟合得非常好。他因此相信正态曲线是适用于无数情况的一般法则。 The gathering of anything that might be called social statistics is often dated from John Graunt(1662) 约翰•格朗特 analysis of the London Bills of Mortality, which tabulated birth and death data collected by London parishes. The beginnings of the systematic collection of population statistics (now called demography) occurred in the mid-18th century, often attributed to Johann Peter Süssmilch in 1741. Data on moral variables began to be collected and disseminated by various state agencies (most notably in France and Britain) in the early 19th century, and were widely used in debates about social reform. 亲,把威廉配第先放一边去吧。我们来讨论一下 “道德统计学”。 最狭义的道德统计学通常是指反映社会病理学的(social pathology in groups of people)统计数值数据。 例子包括对 犯罪 crimes (against persons and property) ,文盲, 自杀 ,非婚生子,流产,离婚,卖淫,往往被称为19世纪的贫困化的经济学的情形。 比利时的Adolphe Quetelet (1796-1874),一位通才,建立了”道德统计“这个概念(Moralstatistik,wikipedia上都没有,法语是statistique morale)将人们的特征属性和社会行为用数字统计表达出来。在对人口的研究中加入数学的成分(比如犯罪率的计算),使用概率和多变量表格,并提出”一般人“的概念(根据各种统计特征的平均值)。总的来说,就是将人们的行为和社会事实用数字总结出来 “道德统计学”中还有一位很特殊的人物。前面说过,约翰•格朗特 的代表著作是《关于死亡表的自然与政治的观察》(1662),在格朗脱工作的影响下,德国牧师约翰·彼得·苏斯密尔希(Johann Peter Süssmilch,1707~1767)继续研究人口数据中的规律,写了一本书叫做《神的秩序》(1741)。他在这本书中比格朗脱进了一步,明确提出,数据中隐藏的规律(他称之为“神定的秩序”)必须在大量的数据中才能揭示出来。所以统计史公认他是明确倡导大量观察法的第一人。有人说他是军队牧师,我暂时没有找到资料。 到这里,教材就很好写了, 由于资产阶级制度日趋腐朽堕落,社会里出了很多变态,经过大量的数据统计,发现变态是有规律的 ,不拉不拉不拉。 《Mind on statistics 》 一书中说,Mathematics as to statistics is something like hammer, nails, wood as to a house, it's just the material and tools but not the house itself。 概率论和统计应该分开来讲,其实这是两门不同的学科。 美国统计协会(American Statistical Association)和美国数学学会(Mathematical Association of American)的联合课程委员会就曾建议,任何统计的入门课程,都应该“强调如何去做统计思考”而且内容应该“多一些数据和观念,少一点公式和推导过程”。 1992年11月我国国家技术监督局颁布的GB/T14745-92 《学科分类与代码》中,将统计学与数学、经济学等学科并列上升为一级学科,把包括原属社会学科领域和自然科学领域的各种统计学归并为一门统计学。 按萨维奇(L.J.Savage)的说法: 统计学基本上是寄生的,靠研究其他领域内的工作而生存,这不是对统计学表示轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生虫就不能消化它们的食物。 这就是我关于统计的一点粗浅思考。 参考资料: 科学松鼠会 《正态分布的前世今生》 注:这篇文章作为入门文章是我所见的最好的。 大场景描述最好的是这本书《The Taming of chance 》(中文名:驯服偶然),我写这篇文字的时候并没有参看这本书,我写完以后才发现的。之所以推荐,毕竟人家是科班出身的,哈金教授任教于 加拿大多伦多大学 科学技术哲学与科学史系,撰写此书花了十年并且有基金会资助。俺就是一个体户,“道德统计学”主要发展在法国、德国、比利时,很多资料都很陈旧了,资料不好找,语言也是障碍。有哈金教授的书,当然很好啊。 ××××××××××××××××××××××××××××××××××××××××××××××× 人口统计 CENSUS 这个词本身源于拉丁语 CENSERE,指税金。罗马的人口统计是有第6世罗马王 图利乌斯(S.Tullius,公元前578~ 前534)建立的,当时称之为监察官(CENSORS)的罗马官吏为了课税和决定能参战的男子人数,每5年负责做一次人口和财产的登记。 统计学 STATISTICS 这个术语的词根,在拉丁语中是 STATUS(国家)的意思。 State(城邦)一词来自拉丁文status一词,按照政治学的说法,伦理学和政治学是密不可分的。 统计学一直被认为是作为国家权术的一种科学,其作用就是成为政府的耳目。19世纪上半叶,随着欧洲社会急剧的工业化,民众的关心开始集中在与人们社会境况有关的问题上,这期间,特别是1830~1850年间,一些国家创立了统计学会,而且“为了说明一个社会的状况与繁荣富裕程度,以收集数据并整理发表”为目的,很多国家还设置了统计办公室。法国于1800年创设了世界上第一个中央统计局。 然而,原始数据通常是含有杂质并让人感到混淆的,要使其具有易懂的解释并能用于各种政治决策,就必须对原始数据进行适当的归纳整理。最先进行这种尝试的是约翰•格朗特(John Graunt 1620~1674)。 第一本对概率论与统计学作广泛充分讨论的著作,是1713年由伯努利(Jacob Bernoulli)出版的《猜度术》(Ars Conjectandi)。 这本书分成四个部分,前三个部分讨论排列、组合和流行的赌博游戏之概率理论。在第四个部分,伯努利陈述了这些数学概念在例如政治、经济或死亡率等领域有更严肃及更有价值的应用。然则我们必须收集多少数据,才能合理地相信从数据所做出结论是正确的? (例如,为了要正确预测选举的结果,我们需对多少公民进行民意调查)?伯努利证明了:样本愈大,结论正确的可能性愈高。而这,正是现在称之为「大数法则」的著名定理。 中国文献中比较有名的文章有: 《管子》第二十四篇《问第》,一口气提出了60多个要进行调查的问题,涉及到经济、政治等社会生活的各个方面。 《商君书·去强篇》说:“强国知十三数:境内仓廪之数,壮男壮女之数,老弱之数,官、士之数,以言说取食者之数,利民(靠谋利为生的商人)之数,马、牛、刍稾(饲料)之数。不知国十三数,地虽利,民虽众,国愈弱至削。” 原文:强国知十三数:竟内仓、口之数,壮男、壮女之数,老、弱之数,官、士之数,以言说取食者之数,利民之数,马、牛、刍藁之数。欲强国,不知国十三数,地虽利,民虽众,国愈弱至削。 ××××××××××××××××××××××××××××××××××××××××××××××× 陈希孺先生1934年2月11日出生于长沙市北湘江之滨的一个农民家庭(今属望城县),因病医治无效,于2005年8月8日21点5分在北京肿瘤医院逝世,享年71岁。