注册 登录
爱吱声 返回首页

就爱抬杠的个人空间 http://aswetalk.net/bbs/?2403 [收藏] [复制] [分享] [RSS]

日志

“统计数字会撒谎”之平均值的迷思

热度 9已有 1550 次阅读2012-6-12 21:37 |个人分类:读书笔记| 数字, 统计, 平均值

平均数是什么?这似乎是一个很简单的问题,小学生都会。但作为统计来说,平均数却是一个很容易被人误导的问题。简单的说,我们平时看到的至少有以下几种概念:算数平均,中位数和众值。

 

算数平均是最好理解的,也是我们平常意义上的平均数。中位数是指这样一个数,在所有的样本里,一半的值在它之上,而另一半在它之下。众数是一个很少用到的概念,它的定义也很简单:在所有样本里出现最多的那个数。在正态分布里,这三种平均数会落在同一个点上。

 

 平均数里最为人所诟病的就是人均收入问题,本书的作者也是用收入问题进行了举例。假如一个公司的总裁宣称,他们企业员工的平均收入是多少多少时,你应该好好思考一下他的前提条件。假如这个数字是中位数,可以获得的信息是显而易见的,一半员工收入超出这个数字,另一半则不到。假如是算数平均,这就完全取决于收入的分布情况。假如比尔盖茨在你们小区买了房子,你当然可以自豪地宣称本小区业主的平均财产超过一亿美元,虽然大家看不出来这和你到底有什么关系。假如用了中位数这个概念,多了一个比尔盖茨,几乎不会对结果产生任何影响。

 

在微博里,论坛上,这个问题几乎和地域之争一样,会定期来访。用google搜索“平均工资 质疑”的关键字,就有896,000条结果。统计局一公布平均工资,无论是国家统计局,还是地方统计局,就会有大批人出来说自己拖了统计局的后腿,而且每次都会拿比尔盖茨举例子,就像我一样。

 

按照统计局网站上的说明:


“城镇非私营单位在岗职工平均工资的调查频率为每季度调查一次,其统计范围涵盖了包括全部国有单位、城镇集体单位,以及联营经济、股份制经济、外商投资经济、港澳台投资经济单位在内的约150万家单位,采用全面调查的方式收集数据,涉及在岗职工约1.23亿人。

 

  城镇私营单位就业人员平均工资的调查频率为每年度调查一次,其统计范围涵盖约460万家私营法人单位。具体是指内资法人单位中自然人投资设立或由自然人控股的私营有限责任公司、私营股份有限公司、私营合伙企业和私营独资企业。采用抽样调查的方式搜集数据,抽样比约10%,涉及就业人员约8000万人。

 

  平均工资=报告期城镇单位工资总额÷报告期城镇单位平均人数。”


非私营单位是全面调查,私营单位抽样10%,力度不可谓不大。但一搞算术平均,好比把满汉全席混到一起当盖浇饭卖,都说不出是什么味道。最后只能说,总体上增长多少多少,按行业分是何种比例等等。


至少在本书里,美国的统计数字五十年代就用了中位数。就在前两天,美联储公布了家庭财富报告:美国家庭净财富中位数是7万7300美元(没有看错小数点一半家庭在此以下,含房产),合48万7千人民币。


报告同时指出最高10%家庭财富中位数是119万,最低20%中位数是6,200,整整193倍。2007年是138倍,2001年是106倍。


国家统计局明明有足够的素材,公布中位数是完全没有问题的。对此,国家统计局的解释是工资统计自五十年代就有,为了保持和历史数据的对比,只能继续公布算数平均数云云。我真是有点同情统计局的发言人,这话说出来也不怕难为情。


至于到底为什么,这事真不能细说。


 

 


膜拜

鸡蛋
8

鲜花

路过

雷人

开心
1

感动

难过

刚表态过的朋友 (9 人)

发表评论 评论 (2 个评论)

回复 煮酒正熟 2012-6-13 00:26
I think the best way (or the least mis-leading way) to present the income data or most other type of data is to use combination of bins, minimum, median, and maximum, just as the U.S. does, as you cited.

For example,
income bins ---- min ---- median ---- max
top 0.1% -- 1000mm -- 5000mm -- 100000mm
0.1%-1% ------ 10mm -----50mm --- 999mm
1%-5%
5%-10%
10%-25%
25%-50%
50%-75%
bottom 25%
回复 就爱抬杠 2012-6-13 08:54
煮酒正熟: I think the best way (or the least mis-leading way) to present the income data or most other type of data is to use combination of bins, minimum, medi ...
是啊,是这个意思。但不敢哦,怕公布出来差距还要大

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2024-11-23 04:12 , Processed in 0.029006 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部