[提要] 当前,雾霾问题深深地影响着人们的生活,为了治理雾霾,我们需要估计出各地区的二氧化硫排放量。本文以我国各地区的二氧化硫排放量为研究对象,选取各地区的煤炭消耗量为辅助变量,分别采用简单随机抽样、分层抽样和PPS抽样,估计方法选择简单估计,并比较各种抽样估计方法的估计效果,由最终的估计结果得出:PPS抽样的估计效果最好,分层抽样次之,简单随机抽样的估计效果最差。
关键词:二氧化硫排放量;抽样方法;估计方法;效果比较
中图分类号:C811 文献标识码:A
收录日期:2017年6月25日
一、引言
近年来,“雾霾”问题成为人们关注的热点。2016年雾霾天气调查报告显示,在中国大城市当中,只有不到1%的城市达到世界卫生组织制定的空气质量标准,也就是说雾霾问题已经成为我国比较严峻的问题之一。雾霾加重,导致公路管制、机场港口关闭,不仅如此,雾霾也会导致人体呼吸道疾病,使人们的生产生活受到极大的影响。因此,准确地测度污染物在空气中的含量,尤其是二氧化硫的含量变得十分迫切。
二、简单随机抽样及其估计量
(一)定义。从总体为N个单元中,一次性地抽取n个单元,使得每一个单元被抽中的概率都为1/n,n个不同单元组成的样本被抽中的概率也都相等。
(二)实施方法
1、确定样本容量
(1)首先采用上一年的统计数据,抽取30%的数据(大约10个样本数据)进行小型试验,然后根据随机数表抽取随机数,最后确定抽中的省市为:内蒙古、江西、山东、陕西、吉林、贵州、甘肃、重庆、福建、广东。
(2)依据公式n=■和△■=Z■■(其中,S2为上一年的总体方差,v(■)为样本均值,Z■=1.96),由此确定此次的样本容量n=10。
2、抽取样本。利用随机数表抽取n=9的样本,抽取的9个省市分别为:辽宁、吉林、黑龙江、浙江、安徽、山东、四川、云南、陕西。
(三)估计方法
总体均值估计量:■=■■y■=800063.21
总体总值估计量为:■=N■=■■y■=24001896.3
均值方差估计:v(■)=■s■=12361466383
总值方差估计:■(■)=N■■s■=1.11253×10■
全国平均二氧化硫排放量■的95%置信区间为:
[■-t■■,■+t■■]=[582146.2321,1017980.188]
三、分层抽样及其估计量
(一)定义。分层抽样是将总体的N个单元按照一定的原则分为互不交叉的L层,每一层包含的单元数分别N1,N2,…,NL,且N=■N■,然后再在每一层中独立进行简单随机抽样,各层抽取的样本量分别为:n1,n2,…,nL,抽取总的样本数为n=■n■。
(二)实施办法
1、确定样本量。分层抽样中的简单随机抽样的样本量确定为10。
2、抽取样本
(1)运用聚类分析的方法将总体进行分类,可以分为三层。第一层是北京、天津、吉林、上海、福建、海南、青海、宁夏;第二层是黑龙江、浙江、安徽、江西、湖北、湖南、广东、广西、重庆、四川、云南、陕西、甘肃、新疆;第三层是河北、山西、内蒙古、辽宁、江苏、山东、河南、贵州。
(2)根据每层的样本总数占总体样本总数的比重进行简单随机抽样,因此第一层抽取3个样本,第二层抽取4个样本,第三层抽取3个样本,共10个样本。
(3)在每一层中用简单随机抽样的方法进行抽样,根据随机数表,第一层抽取上海、青海、吉林;第二层抽取广西、湖北、黑龙江、湖南;第三层抽取贵州、山西、内蒙古。
(三)估计方法
总体均值估计:■■=■W■■■=■■N■■■=699099.8542
总体总值估计:■■=■N■■■=20972995.6
均值方差估计量:■(■■)=■W■■■s■■=4008927154
总值方差估计量:■(■■)=■N■(N■-n■)■=3.6080×10■
全国平均二氧化硫排放量■的95%的置信区间为:[■■-t■■,■■+t■■]=[636843.3,761356.7]
四、PPS抽样及其估计量
(一)定义。PPS抽样法,又称按规模大小成比例的概率抽样或按容量比例概率抽样法,它是一种有放回的不等概率抽样。设总体中有N个单元,第i个单元规模大小为Mi,那么总体的规模大小即为M■=■M■,第i个单元被抽中的概率为Z■=■=■,这种抽样方法被称为PPS抽样。
(二)实施方法
1、样本容量确定。和简单随机抽样一样,样本容量为n=10。
2、抽取样本。PPS抽样的实施方法主要有拉希里法、累积总和法、规模累积等距抽选法、分裂法。本文选取2011年全国各省市煤炭消耗量为辅助变量,并进行累积,利用规模累计等距抽样的方法抽取10个省市做样本,分别是北京、天津、辽宁、上海、浙江、山东、河南、湖南、四川、甘肃。
(1)计算总体总量的估计量。则汉森-赫维茨估计量:■■=■■■=23905012
总体总值的方差估计:V(■■)=■■■(■-■■)■=■■(■-■)■=6.80844×10■
全国二氧化硫总排放量■■的95%的置信区间:[■■-t■■,■■+t■■]=[18790786,29019238]
(2)总体均值的估计。总体均值是将总体总量和总体单元数的比值,所以用汉森-赫维茨(Hansen-Hurwitz)估计量除以N就可以得到总体均值的估计量:■■=■■■=766833.7
方差的估计量为:v(■■)=■■■■(■- ■■)■=■■(■-■)■=2564934576
全国平均二氧化硫排放量■的95%的置信区间为:[■■-t■■,■■+t■■]=[666359.5,747307.9]
五、效果比较
通过比较分析简单随机抽样、分层抽样、PPS抽样下的简单估计抽样的效果,由表1不难看出,在本例中,PPS抽样的估计效果最好,分层抽样次之,简单随机抽样的效果最差。(表1)
六、结论
在对全国二氧化硫排放量估计中,由于各地区总体单元之间的差别很大,因此采用PPS抽样方法及分层抽样方法的效果要优于简单随机抽样。但在总体样本差异不明显的时候不适合采用PPS和分层抽样法。
分层抽样经常需要与其他方法配合使用。在估计方法的选取上,本文引入了各地区煤炭消耗量作为辅助变量,在简单随机抽样中,比率估计和回归估计要优于简单估计,因为当辅助变量与调查变量有较强的相关性,采用比率估计和回归估计会提高估计精度。
在分层抽样中,采用联合比率估计和联合回归估计要优于分别比率估计和分别回归估计,因为各层样本容量较小,而采用分别比率估计和分别回归估计时必须用到各层的辅助变量均值或总值等信息,这样会造成估计的较大偏差。
(作者单位:西北师范大学经济学院)
主要参考文献:
[1]金勇进,杜子芳,蒋妍.抽样技术(第三版)[M].北京:中国人民大学出版社,2012.
[2]倪佳勋.抽样调查[M].桂林:广西师范大学出版社,2002.
[3]徐国祥.统计预测和决策[M].上海:上海财经大学出版社,2012.
[4]李培军.不等概率抽样估计的原理与应用[J].辽宁师范大学学报(自然科学版),2004.12.
|