样本的数字特征是用于描述数据集中心位置、离散程度和分布形态的统计量,主要包括以下几类:
平均数
样本所有观测值之和除以观测值个数,反映数据的平均水平。
$$bar{X} = frac{1}{n} sum_{i=1}^n X_i$$
中位数
将样本观测值按大小顺序排列后,位于中间位置的值。若样本个数为偶数,则取中间两个数的算术平均值。
众数
样本观测值中出现次数最多的数,反映数据的集中趋势。
方差
观测值与平均数之差的平方和与观测值个数的比值,衡量数据的分散程度。
$$s^2 = frac{1}{n-1} sum_{i=1}^n (X_i - bar{X})^2$$
标准差
方差的非负平方根,单位与原始数据一致。
$$s = sqrt{s^2}$$
极差
样本中最大值与最小值之差,反映数据的波动范围。
四分位数间距(IQR)
上四分位数与下四分位数之差,描述中间50%数据的离散情况。
偏度
描述数据分布偏离对称程度的指标,正值表示右偏,负值表示左偏。
峰度
描述数据分布尖峭或平坦程度的指标,正值表示尖峰分布,负值表示平峰分布。
样本总和 :所有观测值之和。
样本k阶原点矩 :反映数据分布的某些特性,如偏度和峰度的计算基础。
变异系数 :标准差与平均数的比值,用于比较不同数据集的离散程度。
样本数字特征是总体数字特征的无偏估计,通过样本特征可以推断总体的集中趋势、离散程度和分布形态。例如:
用样本均值估计总体均值
用样本方差估计总体方差
用样本分布直方图估计总体密度曲线
以上特征的综合应用有助于全面理解数据特征,为进一步分析(如假设检验、回归分析)提供基础。