SME-OLS

2025-09-09

数学

2.9k 词

OLS 三个式子

真实值与残差 (residual)

定义：
- ：第 i 个样本的真实观测值；
- ：回归模型给出的预测值；
- ：残差（residual），是“真实值 - 预测值”。

总体模型（理论模型）

形式：
- ：总体的真实参数（未知）；
- ：随机误差项，捕捉未观测因素和随机性。

这是 理想中的经济学/统计学关系，但参数和误差分布我们不知道。

样本估计模型（回归方程）

形式：
- ：由样本数据计算出来的 OLS 估计量（估计）；
- ：预测值（fitted value）。

在样本数据上估计出来的拟合直线。

三者关系梳理

总体模型（理论层面）

——描述数据的真实生成机制。
样本模型（估计层面）

——用 OLS 得到的估计直线，代替未知的真实直线。
残差（误差的样本体现）

——衡量预测值与观测值的差距。

b和之间的联系

二者的关系

在统计学上, 和是的 无偏估计量：
这意味着：如果我们无限次重复抽样并每次计算，它们的平均值会等于真实参数。

直观理解

β：真理（总体直线），但我们看不见；
b：猜测（样本直线），是用数据近似出来的；
b 不是 β，但在长期来看，bb的平均会逼近 β。

Least squares estimates

对β进行求偏导：

对 $（）$ 进行化简：

对（2）进行化简：

带入（3）到（4）

Properties of the fitted regression line

性质4：

性质6：

协方差的定义里一定要减去均值（否则只是内积，不是协方差）；

因为，所以：

$$\mathrm{Cov}(\hat{y}i, e_i) = \frac{1}{n-1} \sum{i=1}^n (\hat{y}_i - \bar{\hat{y}}) e_i$$

这就说明了：协方差公式里确实要减去的均值，只是因为残差的均值为 0，才只剩下。

Sample Correlation coefficient

回归分析中的作用

在 一元线性回归中：

也就是说，相关系数的平方等于判定系数，它衡量模型对因变量 y 变异的解释程度。
因此，相关系数不仅衡量关系强弱，还能告诉我们回归直线“拟合好不好”。

变量筛选与建模

在多元回归前，研究者会用相关系数矩阵查看自变量之间的相关性。
- 高度相关 → 多重共线性风险。
- 低相关 → 变量之间独立性更强，更适合一起放入模型。

Assessing the OLS estimator

unbiasedness of the estimator

有意思的是:
这里证明无偏是先证明再到,前面计算最小二乘法是先用换元

variance of an estimator

Goodness-of-fit

在一元线性回归中，我们有经典的三分解：

SST (Total Sum of Squares)：总平方和，度量 y 总的变异性。
SSR (Regression Sum of Squares)：回归平方和，被回归模型解释的那部分变异。
SSE (Error Sum of Squares)：残差平方和，模型没有解释掉的部分。

The Gauss–Markov theorem

这些构造的非 OLS 估计量没法实际拟合，它们的唯一用处就是作为参照物，帮助我们理解为什么 OLS 是 “Best Linear Unbiased Estimator”。

Coefficient of determination(判定系数)

一元回归：既可以理解为 x 与 y 的相关性平方；
所有回归：也可以理解为 y 与预测值的相关性平方；

什么时候减什么时候减去

1. 当减去的情况

出现在 方差分解 (SST = SSR + SSE) 里。

为什么这里是而不是

因为我们在分解的是因变量 y 的总变异性：
这里必须用，保证三项加起来正好等于总平方和 SST。
直观理解：我们关心的是回归线解释了多少 y 的变动，而 y的均值才是参照点。

2. 当减去的情况

出现在 协方差或相关系数的定义里：

为什么要用？

因为相关系数的定义是基于 各自变量与自己的均值之差，不能随意换成别的均值。
所以在计算 y 和的相关性时：
- y 要减去，
- 要减去。

分类

标签

SME-OLS

OLS 三个式子

真实值与残差 (residual)

总体模型（理论模型）

样本估计模型（回归方程）

三者关系梳理

b和之间的联系

二者的关系

直观理解

Least squares estimates

Properties of the fitted regression line

性质4：

性质6：

Sample Correlation coefficient

回归分析中的作用

变量筛选与建模

Assessing the OLS estimator

unbiasedness of the estimator

variance of an estimator

Goodness-of-fit

The Gauss–Markov theorem

Coefficient of determination(判定系数)

什么时候减什么时候减去

1. 当减去的情况

2. 当减去的情况

分类

标签

OLS 三个式子

真实值与残差 (residual)

总体模型（理论模型）

样本估计模型（回归方程）

三者关系梳理

b和之间的联系

二者的关系

直观理解

Least squares estimates

Properties of the fitted regression line

性质4：

性质6：

Sample Correlation coefficient

回归分析中的作用

变量筛选与建模

Assessing the OLS estimator

unbiasedness of the estimator

variance of an estimator

Goodness-of-fit

The Gauss–Markov theorem

Coefficient of determination(判定系数)

什么时候减什么时候减去

1. 当 减去 的情况

2. 当 减去 的情况

1. 当减去的情况

2. 当减去的情况