全部帖子
规章条例
资料共享
问题求助
信息公告
突发感慨
文章评论
专题评论

[文章评论] 甘犁教授的回复:以公开科学的抽样调查揭示真实的中国(大家怎么看?)

被回复的文章: Unkown
评论时间: 2013/1/25 19:59:06 |  最近被回复时间: 2013/2/16 17:27:05 |  浏览次数: 5208 |  跟帖次数: 6
作者: struggle12 |  标签: 基尼系数

 针对李老师的评论,甘犁教授做了一些回应。仅从回应的文章看,可能甘教授只是阅读了岳老师和李老师在华尔街日报上的那篇文章,而没有阅读另外的四篇文章。我个人觉得甘教授的某些理由有些牵强。不过由于个人能力有限,不宜多说。 

原文地址:http://cn.wsj.com/gb/20130125/OPN150813.asp


自西南财经大学中国家庭金融调查与研究中心(CHFS)发布《中国收入不均报告》以来,受到社会各界关注,也听到不同声音。CHFS从一开始就秉持公开透明的原则,在多场合多次详细介绍其调查设计和实施过程,欢迎一切基于事实、有理有据的质疑,并针对质疑给予积极客观的回复。

但是,《我们更应该相信谁的基尼系数?》一文(以下简称《我》文)作者没有很好地了解中国家庭金融调查的实施过程,对我们的基尼系数存在明显缺陷的结论是完全站不住脚的。其质疑主要集中在抽样方案设计是否合理,以及住户收入收集是否准确两个方面。对此,我们做出如下说明。

关于抽样设计的说明

 

CHFS抽样方案设计和调查实施经过了充分讨论和科学论证。《我》文对CHFS的抽样设计和实施的理解并不准确,导致其文中所描述的问题很大程度上是错误的。

《我》文认为CHFS 抽样方案中的8438户的样本量太小,存在较大的抽样误差,同时判断“县市样本主要集中在东部,村/居委会样本明显偏重落后地区的村委会和发达地区的居委会”。这显然是一种主观臆断。

首先,为了保证受访户的隐私和私人信息,我们并没有公开受访户的个人信息,甚至其所属的县市都没有公开。《我》文所描述的样本存在偏差的依据不知是从何而来。

其次,虽然CHFS抽取出县市样本中东部样本比重较总体高,但是“村委会偏重于落后地区,忽略中等收入的地区”的说法显然是错误的。很难想象作者是如何从样本的东、中、西分布中得到这样的结论的。

最后,根据CHFS的研究目的,我们在抽样设计中希望多抽取富裕地区和富裕家庭,这肯定会造成样本中富裕地区和富裕家庭的比重相对较大。但是,在推断总体时,我们针对抽样设计进行了权重的调整,由此得到的结论不存在因为抽样设计造成的偏差。这是抽样设计和调查实施的基本常识,是世界上所有抽样调查统计中常用的办法,不知《我》文作者为何有此质疑?

8438户的样本量是否能很好地反映总体情况是一个统计学基础问题,在我们之前对不同质疑的回复中已经多次提及。在严格随机抽样的前提下,抽样误差随样本量的增加以几何级数递减。如果用8438户来推断总体均值,抽样误差约是总体标准差的1%,已经可以比较精确地推断总体。我们的抽样严格按照随机抽样过程进行设计,调查实施过程也严格按照随机抽样原则更换样本。样本量的数量大小并不能作为衡量一个调查准确与否的依据,这一点从国内外的其他调查就能看出。例如CGSS(中国综合社会调查)2006年的样本量约为10000户,SCF(美国消费金融调查)2007年之前25年的样本量为4000户,PSID(美国收入动态跟踪调查)2005年的样本量为5000户。我们认为,在合理、随机的抽样方案设计和严格的调查实施过程下,8000多户样本完全能够准确反映全国的总体水平。

《我》文中提到:“住户样本的选择给予高房价居委会更大的权重,同时低估的农村住户的样本”。这样的论断完全混淆了样本分配和权重的概念。在城市地区,CHFS收集了各社区的平均住房价格信息,以此作为社区富裕程度的衡量指标。在此基础上,根据住房价格由高到低将各社区分成四个组,在住房价格最高的组分配50户样本;而在住房价格最低的组分配25个样本。对于富裕社区多分配样本,并不是给予富裕社区更大权重,而是为了保证以更大的可能性获得高收入的样本,进而能够更加准确的反映家庭收入与财富的分布。

与《我》文的理解相反,我们在计算相关指标时,都根据抽样设计进行了权重调整。这一权重是根据抽样设计中,每户家庭被抽取的概率进行计算的。换言之,抽样时多投放富裕家庭样本,在计算中富裕家庭的相对重要性就减少,其所代表的家庭户数也就相应低于其他收入层次的家庭。以此类推,每个收入层次的家庭都有对应的权重,反映了其能够代表的全国家庭数量。正是通过这一调整,我们能更准确的从样本推断总体的信息,这也是抽样调查的基本常识。

在完全随机抽样下,由于富裕家庭的比例很低,其被抽中的概率也很低。可以想象,如果数据中没有包含富裕家庭样本,是无论如何也不能正确反映总体的。但是采取了偏向富裕家庭的样本分配,就能够保证样本中包含相当部分富裕家庭,进而可以通过权重的调整来反映总体的实际情况。

关于收入数据准确与否? 

《我》文中,关于CHFS收入数据存在明显缺陷的说法也是站不住脚的。CHFS数据全面地收集了受访家庭的每一项收入,包含所有家庭成员全年的税后现金收入和实物收入。具体包括五部分:工资薪金收入、农业生产净收入、工商业生产经营净收入、投资性收入和转移性收入。CHFS关于受访家庭的收入信息是非常细致而准确的。

首先,在2011年的调查访问中,由于CHFS调查问卷较长,出于调查时间成本和数据质量的考虑,CHFS只询问了受访者(最了解家庭财务信息的成员)及其配偶的收入信息。但在随后进行的短问卷季度回访中,CHFS补充询问了受访家庭所有家庭成员的工资薪金收入及家庭总收入,并据此对2011年调查访问的收入数据进行了校准。通过与季度回访问卷数据的比较和校准,我们有充分的理由相信,CHFS关于家庭收入的数据是可靠的。据此计算得到的城镇居民人均工资薪金收入为1.08万,略低于国家统计局公布的城镇居民人均工资薪金收入1.37万。

其次,关于CHFS数据很难准确计算“农户自产自用农产品收入以及非农经营收入”的说法是没有依据的。CHFS调查很明确地询问了受访家庭在上一年所有农业生产项目生产的农产品按市场价格计算的总价值,以及上一年从事农业生产经营的总成本,并据此计算农业生产的净收入。在工商业生产经营项目部分,问卷明确询问了受访家庭在上一年的项目净利润,以及受访家庭在这些工商业生产经营项目中所占的份额,并据此计算受访家庭的工商业生产经营项目净收入。根据CHFS数据推算,2011年全国拥有工商业生产经营项目的家庭总数约为5840万,这与国家工商行政管理总局公布的“企业与个体工商户总数”5010万相当接近。所以,我们有理由相信,在工商业生产经营收入的调查上,CHFS数据也是非常可靠的。

最后,我们有充分的证据表明,CHFS高素质高学历的访员以他们尽职尽责、具有创造力的的出色工作打动了受访者,得到了受访户的积极配合。CHFS的收入数据,特别是高收入家庭的收入,是相对可靠的。此外,CHFS在农村地区的拒访率仅3.2%,配合程度相当高。因此更没有理由怀疑农村家庭收入数据的准确性。

记账数据比一次性回忆数据更加准确? 

《我》文提到,“国家统计局通过日记账方式收集样本户收入和支出信息,比西南财大采取的一次性回忆的数据收集方法更为准确。”这种说法毫无事实根据。

从收入指标统计的全面性和准确性上看,国家统计局的日记账数据收集方式与CHFS的回忆式问卷数据收集方式孰好孰坏并无定论,也没有研究对二者的优劣进行系统论证。相反,在调查和统计领域中,回忆性数据收集方法是主流,而日记账的方式很少采用的原因除了成本问题外,还在于日记账方式存在如下缺陷:

第一,记账式调查的拒访率高,引起很大的样本偏差。年轻家庭和高收入家庭群体的自我保护意识较强,不愿接受或没时间进行日记账调查的比例非常高。同样,干部家庭、私营企业主等收入信息隐密性较强的家庭,更是难以接受日记账式的调查。此外,也很难想象高收入家庭会很好的配合日记账的调查方式。因此,以日记账为调查方式的住户调查往往将高收入群体排除在外,其样本代表性存在很大的问题。

第二,对记账指标的理解不一致会造成较大的数据偏差。由于日记账的方式没有访员在现场对指标进行讲解和梳理,也没有计算机系统对前后不一致的信息进行自动提示,因此受访者很容易出现理解偏差,进而引起指标的不准确。而对于文化程度较低的农村居民,该现象会更为严重。

第三,日记账的数据缺乏监督机制,更容易产生数据错报。由于记账指标繁杂且记账时间较长,受访户往往由于记账负担过重而少报或胡乱报,严重影响数据收集的质量。

而在CHFS采用的回忆式调查中,日记账式存在的上述问题都能够在一定程度上得以控制:一方面,CHFS访员具有熟练的入户技巧和坚持不懈的精神,CHFS的拒访率,尤其是城市拒访率相当低,抽样的随机性在较大程度上得以保持;另一方面,CHFS的访员经过了严格的访问技巧培训,具有熟练的访问技巧和认真负责的访问态度,能够将非抽样误差降尽可能降低,从保证数据质量。

事实上,国内外绝大部分主流调研都采取了回忆式的数据收集方式。以美国为例,消费者金融数据调查(SCF)和消费者消费情况调查(CEX)以及有追踪调查“标杆”的美国收入动态跟踪调查(PSID),均采用了回忆式数据收集方式。而中国的大部分社会调查,如中国家庭动态跟踪调查(CFPS)、中国综合社会调查(CGSS)和中国健康与养老跟踪调查(CHARLS)同样采用了回忆式的数据收集方式。

与上述国内外颇具影响力的大型社会调查相似,CHFS选用了回忆式数据收集方式收集样本户收入和支出信息,从而确保得到更准确更具代表性的数据。《我》文针对回忆式数据收集方式的质疑恰恰反应了其对调查方法的片面理解。

CHFS数据没有高估基尼系数

根据CHFS数据,家庭年可支配收入超过55.9万,则位居前1%;超过17.5万,则位居前5%;超过10.7万,则位居前10%。我们认为这样的收入分布大致反应了中国社会收入的真实情况,CHFS数据并未高估基尼系数。《我》文作者也应该公布自己认为的更为合理的收入分布,供社会各界比较与讨论。

我们高兴地看到国家统计局时隔多年再次发布基尼系数。国家统计局马建堂局长最近指出:“规范的民间调查,应该是官方统计的重要的、有益的补充。”我们认为,如果真到要做到这点,统计局也应该公开其调查过程与原始数据,便于比较与补充。在发达国家,既有官方的统计,更有几百家规范的民间调查。绝大多数抽样调查,虽然各有侧重,但大都公开其调查过程和原始数据,互为印证、互为补充,以期能全面把握真实的情况。

中国家庭金融调查在中国家庭资产的调查上填补了空白。国内还有其他少数几家机构在进行类似但各有侧重的全国性抽样调查。我们真诚地希望更多机构加入这个行列,以公开和科学的抽样调查来揭示多样而又飞速变化的中国。

(本文作者甘犁是西南财经大学中国家庭金融调查与研究中心主任,文中所述仅代表他的个人观点。)

(本文版权归道琼斯公司所有,未经许可不得翻译或转载。)
  选择页码:   每页显示个数:
[帖子ID: 49] (对帖子 48 的回复) 对帖子:《甘犁教授的回复:以公开科学的抽...》的回复
回复时间: 2013/1/25 23:46:11 |  最近修改时间: 2013/1/25 23:46:59 | 
回复者: jgwang |  标签: 回复帖子

都上了华尔街日报了,这个争论走出国门了。尽管不认同甘教授的观点,但还是支持这样的讨论,由此我们才能更加接近真理。

[帖子ID: 50] (对帖子 49 的回复) 对帖子:《对帖子:《甘犁教授的回复:以公...》的回复
回复时间: 2013/1/26 13:21:11 |  最近修改时间: 2013/1/26 13:21:11 | 
回复者: struggle12 |  标签: 回复帖子

 同意。合理的学术讨论是有益的。

[帖子ID: 51] (对帖子 50 的回复) 对帖子:《对帖子:《对帖子:《甘犁教授的...》的回复
回复时间: 2013/1/31 9:55:06 |  最近修改时间: 2013/1/31 9:55:06 | 
回复者: lightingstar |  标签: 回复帖子

 甘犁教授 以高房价的小区(人)数来推算 富人的比例,再按这个比例调权重,来解决抽不到高收入群体的困境,这样是否合适?有没有更好的办法

[帖子ID: 64] (对帖子 50 的回复) 对帖子:《对帖子:《对帖子:《甘犁教授的...》的回复
回复时间: 2013/2/14 22:10:09 |  最近修改时间: 2013/2/14 22:10:09 | 
回复者: setupgame |  标签: 回复帖子

这里似乎反复强调他们的基尼系数过大,是由于发掘出了高收入群体的隐瞒收入。可我想知道的是他们那些看起来过低的低收入群体收入又是怎么回事,他们到底统计出了多大比例的负收入?

还有,想请教一下,统计学上对于负收入应该怎么处理?因为一些投资失败造成的负收入人群不是一般意义理解的穷人,可他们的负收入金额往往又很大,会造成低收入群体的平均收入畸低

[帖子ID: 65] (对帖子 64 的回复) 对帖子:《对帖子:《对帖子:《对帖子:《...》的回复
回复时间: 2013/2/16 17:24:11 |  最近修改时间: 2013/2/19 18:30:33 | 
回复者: struggle12 |  标签: 回复帖子

我个人觉得, 甘犁教授运用以金融资产为目的的调查数据,得到的所谓基尼系数并不具有全国代表性。

关于“负收入”问题,从我仅有的水平看,貌似是要视具体的情况而定的。如果是考虑纯收入整体的分布特征,貌似有时候可以直接去掉。但需要仔细考察收入结构的时候,负收入就不能这么处理了。希望有更厉害的人能有一个更详细的阐述。

[帖子ID: 66] (对帖子 51 的回复) 对帖子:《对帖子:《对帖子:《对帖子:《...》的回复
回复时间: 2013/2/16 17:27:05 |  最近修改时间: 2013/2/16 17:27:05 | 
回复者: struggle12 |  标签: 回复帖子

小区的人数比例是围观层面的,这与全国性的富人比例应该不能等同吧。很多富人在很多小区有多套住宅,也有很多富人在郊区有自己的别墅。这些统计都太复杂了。简单考一个或几个小区的富人比例来用作权重。个人觉得不合适。

人的发展经济学研究中心2018年度研究项目招标通知