极差(Range)
数据集中最大值与最小值之差,反映数据分布范围。 公式:$R = X{max} - X{min}$
优点:计算简单,但仅依赖极端值,易受异常值影响。
四分位距(Interquartile Range, IQR)
上四分位数(Q3)与下四分位数(Q1)之差,反映中间50%数据的离散程度。 公式:$IQR = Q3 - Q1$
优点:不受极端值影响,适用于顺序型数据。
标准差(Standard Deviation)
数据与均值差值的平方和的平均值的平方根,衡量数据波动大小。 公式:$sigma = sqrt{frac{1}{n}sum_{i=1}^{n}(X_i - mu)^2}$
优点:综合反映数据离散情况,应用广泛。
方差(Variance)
数据与均值差值的平方和的平均值,标准差的平方。 公式:$sigma^2 = frac{1}{n}sum_{i=1}^{n}(X_i - mu)^2$
优点:与标准差类似,但单位是原始数据单位的平方。
变异系数(Coefficient of Variation, CV)
标准差与均值的比值,用于比较不同均值数据集的离散程度。 公式:$CV = frac{sigma}{mu} times 100%$
优点:消除量纲影响,便于跨数据集比较。
平均绝对偏差(Mean Absolute Deviation, MAD)
数据与均值差值的绝对值的平均值,反映平均偏离程度。 公式:$MAD = frac{1}{n}sum_{i=1}^{n}|X_i - mu|$
优点:计算简单,对异常值敏感度低于标准差。
异众比率(Mode Deviation Ratio)
非众数组频数占总频数的比例,衡量众数代表性。 公式:$d_m = frac{sum f_i - f_m}{sum f_i}$
适用:分类数据(如性别、职业等)。
峰度(Kurtosis)
反映数据分布陡峭程度,正值表示尖峰分布,负值表示平峰分布。 公式:$K = frac{sigma^4}{nsigma^2}$
优点:补充分布形态信息,但计算较复杂。
MACD(Moving Average Convergence Divergence) :通过两条移动平均线差值判断趋势,非离散指标但常与离散指标结合使用。- RSI(Relative Strength Index) :评估买卖力量强度,超买信号(RS>70)或超卖信号(RS<30)。
总结 :
描述数据波动 :极差、标准差、方差;
衡量分布范围 :极差、四分位距;
比较不同数据集 :变异系数;
特殊场景 :异众比率(分类数据)、峰度(分布形态)。选择指标时需结合数据类型和分析目标,例如金融分析中常结合MACD、RSI等技术指标与基础离散指标综合判断。