统计学原理要点十二:抽样调查及抽样平均误差
一、抽样调查
(一)抽样调查概念
广义的抽样调查:凡是抽取一部分单位进行观察,并根据结果推断全体的都是抽样调查,包括非随机抽样、随机抽样。
- 非随机抽样:由调查者根据自己的认识和判断,选取若干个有代表性的单位,根据观察的结果推断全体。
- 随机抽样:按照随机原则从总体中抽取部分单位,并运用数理统计的原理,以被抽取的那部分单位的数量特征推断总体特征。
狭义的抽样调查指随机抽样。
随机原则:总体单位进入样本的概率相等,抽样调查会产生抽样误差,抽样误差可计算、可控。
(二)相关基本概念及理论依据
1.总体
总体:也称全及总体(N),所要认识对象的全体,由具有同一性质的许多单位组成。分为变量总体、属性总体,如图:
2.抽样总体
抽样总体:也称样本( ),从全及总体中随机抽取的单位。一般而言 ≥ 称为大样本, ≤ 称为小样本。社会经济现象的抽样调查多取大样本自然实验观察则多取小样本。
3.全及指标
全及指标:根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标。全及指标唯一确定,通常用大写字母表示。
思考:全及指标为何唯一确定?「总体的唯一性」
- 对于变量总体,其总体平均数、总体方差为:
- 属性总体:全及总体各个单位的标志只能用文字描述,如产品合格率,此时应计算结构相对指标:
4.抽样指标
抽样指标为随机变量,不唯一确定,通常用小写字母表示。
思考:抽样指标为何为随机变量?「样本的随机性」
5.大数定律
- 切比雪夫大数定律:当n足够大时,独立同分布的一系列随机变量的算术平均数接近数学期望,即平均数具有稳定性。该定律提供了用样本平均数估计总体平均数的理论依据。
- 贝努利大数定律:当n足够大时,事件A发生的频率接近其发生的概率,即频率具有稳定性。该定律提供了用频率代替概率的理论依据。
6.中心极限定理
- 辛钦中心极限定理:
辛钦中心极限定理补充说明:
- 德莫佛-拉普拉斯中心极限定理:
二、抽样平均误差
(一)概念
抽样误差:样本指标\overline x或p与总体指标\overline X或P之间数量上的差别:
统计误差分为可以避免的登记误差、不可避免的代表性误差「样本不能完全代表总体而产生的样本指标与总体指标之间的误差」。
代表性误差包括偏差以及随机误差(抽样误差),随机误差中的抽样平均误差是研究的重点。
(二)抽样平均误差的计算
抽样平均误差u_{\overline x}、u_p:所有可能的样本指标和总体指标的标准差。
以抽样平均数的抽样平均误差u_{\overline x}为例,样本指标为样本均值\overline x,总体指标为总体均值\overline X,根据无偏性原则,所有样本均值的均值为总体均值,即E(\overline x)=\overline X。根据抽样平均误差的定义,有:
基于以下原因,该公式为理论公式,实际计算一般不用,也无法计算:
应如何计算?从抽样平均误差的影响因素入手。
(三)抽样平均误差的影响因素
- 抽样平均数的抽样平均误差:
- 抽样成数的抽样平均误差:
总体标准差 \sigma 未知,取得总体标准差 \sigma 的途径:
- 用过去全面调查或抽样调查的资料,若同时有 个 的资料,应选用数值较大的那个;
- 用样本标准差 \sigma_i 代替总体标准差 \sigma ;
- 在大规模调查前,先组织小规模的试验性的调查来确定样本标准差 \sigma_i ,代替 \sigma ;
- 用估计的材料。
例:根据灯泡使用寿命资料,计算抽样平均误差:
不重复抽样下抽样平均误差的数值一定小于重复抽样下抽样平均误差。
在实际工作中,在没有掌握总体单位数的情况下、或者总体单位数N很大时,一般均用重复抽样平均误差公式来计算不重复抽样的平均误差。
三、练习
(一)单选题
(二)多选题
参考资料:
[1]李洁明、祁新娥.《统计学原理》[M].上海:复旦大学出版社出版,2019.