统计学中计算抽样的方法涉及多种技术,具体选择取决于研究目的、数据特性和可用资源。以下是主要抽样方法及其计算逻辑的总结:
简单随机抽样(SRS)
每个个体被选中的概率相等,常用随机数表或计算机生成随机数实现。
若总体为$N$,样本量为$n$,则样本均值的期望$E(bar{X}) = mu$,方差$Var(bar{X}) = frac{sigma^2}{n}$。
系统抽样
将总体按顺序编号,每隔固定间隔(如每10个取1个)抽取样本,公式为:
$$X_i = X_0 + i cdot k$$
其中$X_0$为起始点,$k$为间隔,$i$为样本索引。
分层抽样(Stratified Sampling)
将总体按特征分为若干层(如省份、年龄组等),在每层内独立进行随机抽样,公式为:
$$n_h = n cdot frac{N_h}{N}$$
其中$N_h$为第$h$层的规模,$N$为总体规模,$n_h$为第$h$层的样本量。
拉丁超立方抽样(LHS)
在多维空间中均匀分布抽取样本,通过分层思想提高效率,适用于高维数据。
方便抽样(Convenience Sampling)
依据易获取性选择样本,如街头调查,代表性较低但操作简便。
判断抽样(Judgmental Sampling)
由专家根据经验选择样本,常用于小规模研究。
基本公式 :
$$n = frac{Z^2 cdot sigma^2}{E}$$
其中$Z$为标准正态分布的分位数(如$Z=1.96$对应95%置信度),$sigma^2$为总体方差,$E$为允许误差。
分层调整 :
若分层后层间差异较大,需对每层单独计算样本量并求和。
数据预处理 :需清理异常值、重复值,确保数据质量。
误差控制 :样本量应满足统计功效要求,通常建议至少为总体的5%或30条数据。
软件工具 :可使用R、Python等工具进行复杂抽样设计和分析。
通过合理选择抽样方法并计算样本量,可有效控制误差,提高统计推断的准确性。