全部帖子
规章条例
资料共享
问题求助
信息公告
突发感慨
文章评论
专题评论

[文章评论] 对文章:《对《中国家庭收入不平等报告》的...》的评论

被回复的文章: 罗楚亮:对《中国家庭收入不平等报告》的评论
评论时间: 2012/12/26 17:03:24 |  最近被回复时间: 2012/12/26 17:03:24 |  浏览次数: 4830 |  跟帖次数: 0
作者: struggle12 |  标签: 文章评论

 以下转自人大经济论坛的某个帖子:

http://bbs.pinggu.org/thread-2153951-1-1.html

 

中国家庭金融调查的抽样问题

xiangt516

如下的第二阶段抽样是有问题的:
“第一,按照各市县的非农人口比例的分位数,将各市县分成5个组。分组的依据是各市县非农人口比重20%、40%、60%和80%的分位数。
第二,在非农人口比例最大的市县组中,居委会和村委会分配的样本比例是4:0。
第三,在非农人口比例次大的市县组中,居委会和村委会分配的样本比例是3:1。
第四,以此类推,在非农人口比例最低的市县组中,居委会和村委会分配的样本比例是0:4”
抽样比例和收入水平(在这里以非农人口比例代表)正相关,那么必然收入水平两端的抽样比例过大。即,在富有的地方抽取富有的,在贫穷的地方抽取贫穷的。
所以,这个调查出来的基尼系数如此高,就不足为奇了。

 

ciang

这个论断需要的前提太多了,你需要把他们一个个理出来。
1,各市县非农人口的比例是怎样分布的?前20%和后20%分别是多少?
2,村委会和居委会的城乡定义是怎样分布的?

如果按照居委会样本:村委会样本=0:4的比例来抽样时,抽出来的城乡人口比例刚好和后20%市县的城乡人口比例相等,这个抽样就是没问题的。

 

xiangt516

我的推断是这样的:

非农人口比例大一般意味着比较富裕,在这些富裕的县抽城市家庭,意味着在富裕群体中抽富裕部分,而不是平均的在富裕群体中抽样。这部分的富裕程度被过度代表了。
同样的在非农人口比例小的县,贫穷程度被过度代表了。
综合起来,收入分布的两个极被过度代表了,那么基尼系数肯定更大了。

不知道,我说明白没? 

 

xiangt516

一个简单的例子,比如两个县,每个县有1个居委会和1个村委会。非农人口比例大的县则抽取居委会,非农人口比例小的县则抽取村委会。
一般来说,非农人口比例大的县更富有,而居委会一般比村委会富有。
那么,上述抽样就是将富有群体中的富人抽出,将贫穷群体中的穷人抽出,必然使得收入分配更不平均了。

 

ciang

你这个例子和他的抽样在假设和方法上都不同。
首先,非农比例大的市县,居委会也会更多。
其次,他不是让居委会和村委会的个数比例恒定,而是让从居委会抽取的人数和村委会抽取的人数的比例恒定。
所以,不搞清楚我第一个帖子提出的两个问题,是没办法做判断的。

 

xiangt516

我也不知道是你不清楚,还是我不清楚。
“按照各市县的非农人口比例的分位数,将各市县分成5个组。”这意味着将所有由第一阶段抽出的县市按照非农人口比例分组,非农人口比例大的一组,非农人口比例小的一组。例如,非农人口占80%的为1组,非农人口占20%的1组。
村委会和居委会一般就是按照城乡分开吧,而且我们似乎也可以假定,平均上说,居委会的收入高于村委会。
那么,在非农人口比例大的县多抽居委会,则必然意味着在富裕的县多抽富裕的人。这就是我说的过度代表问题。
我这里的逻辑应该是没错误的吧。这也和他们得出来的基尼系数过高的事实相一致。

 

ciang

你这里搞错了很多点。
第一,不是非农人口80%是一组,而是是非农人口在80%分位数的为一组,这一组的非农人口可能是90%也可能只有60%,不把3000多个县市区的非农人口分布搞清楚,这个问题你是不知道的。
第二,村委会和居委会并不一定是区分了城乡,这点你可以从(http://www.stats.gov.cn/tjbz/cxfldm/2010/index.html)里面看,看看多少居委会是乡村,多少村委会是城镇。当然这个问题不是最重要。
第三,在非农人口比例大的县,居委会也一定多,居委会里住的人也一定多,在这里多抽居委会的人,只是让抽出来的居委村委比例、城乡比例都和本县比例相似,除非他普遍地存在在一个居委村委半对半的地方抽了80%居委20%村委这种情况,否则就不存在任何过度代表。

 

小概率事件

这是一个抽样设计中oversampling的问题。其关键就在于多抽取处于收入分布两端的样本,这样可以避免完全随机抽样设计下极端值样本过少产生的推 断偏误。显然,这样的抽样方式不能直接用来代表总体,而必须经过抽样权重的调整。经过权重调整后,样本不仅对总体有代表性,而且由于数据中极端样本数据比 完全随机下抽样的多,对总体的代表性还可能更好。
CHFS数据中提供了抽样权重的变量(swgt)供使用者在计算中进行加权调整(目前国内其他公开调查都没有公布权重),所有官方公布的数据也都是基于抽样加权的结果。

 

余略

 

 

 

 

  选择页码:   每页显示个数:
人的发展经济学研究中心2018年度研究项目招标通知