在统计学中,尤其是在回归分析领域,残差平方和(Residual Sum of Squares, RSS)和回归平方和(Regression Sum of Squares, SSR)是衡量模型拟合程度的重要指标。它们不仅用于评估模型的解释能力,还为后续的假设检验和模型选择提供了基础。
一、基本概念
在回归分析中,我们通常通过一个自变量或多个自变量来预测一个因变量。为了衡量模型对数据的拟合效果,我们需要计算一些关键的平方和。
- 总平方和(Total Sum of Squares, SST):表示因变量所有观测值与其均值之间的差异的平方和,反映了数据的总体变异。
- 回归平方和(SSR):表示由回归模型解释的部分,即模型预测值与因变量均值之间的差异的平方和。
- 残差平方和(RSS):表示未被模型解释的部分,即实际观测值与模型预测值之间的差异的平方和。
这三个平方和之间存在一个重要的关系:
$$
SST = SSR + RSS
$$
这个等式说明了总变异可以分解为由模型解释的部分和未被解释的部分。
二、残差平方和(RSS)
残差平方和是指所有观测值与模型预测值之间的差异的平方和。其数学表达式如下:
$$
RSS = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2
$$
其中:
- $ y_i $ 是第 $ i $ 个观测值;
- $ \hat{y}_i $ 是根据回归模型得到的第 $ i $ 个预测值;
- $ n $ 是样本数量。
RSS 越小,说明模型对数据的拟合越好,因为残差越小,意味着预测值与实际值越接近。
三、回归平方和(SSR)
回归平方和表示模型所解释的变异部分,即模型预测值与因变量均值之间的差异的平方和。其公式为:
$$
SSR = \sum_{i=1}^{n}(\hat{y}_i - \bar{y})^2
$$
其中:
- $ \hat{y}_i $ 是模型预测值;
- $ \bar{y} $ 是因变量的平均值;
- $ n $ 是样本数量。
SSR 反映了模型对数据变化的解释能力。SSR 越大,说明模型能够更好地解释因变量的变化。
四、总平方和(SST)
总平方和是因变量所有观测值与均值之间的差异的平方和,计算公式如下:
$$
SST = \sum_{i=1}^{n}(y_i - \bar{y})^2
$$
SST 表示因变量的总变异,它不依赖于任何模型,而是数据本身的特性。
五、相关系数与判定系数
在实际应用中,我们常常用 判定系数 $ R^2 $ 来衡量模型的拟合优度,其定义为:
$$
R^2 = \frac{SSR}{SST} = 1 - \frac{RSS}{SST}
$$
$ R^2 $ 的取值范围在 0 到 1 之间,值越大表示模型对数据的解释能力越强。
六、总结
在统计学中,残差平方和(RSS)和回归平方和(SSR)是理解回归模型拟合效果的核心概念。通过计算这些指标,我们可以评估模型的准确性,并进一步进行模型比较和优化。掌握这些公式的含义及其相互关系,对于从事数据分析、经济建模或社会科学研究的人来说具有重要意义。