SME-OLS

2.9k 词

OLS 三个式子

真实值与残差 (residual)

  • 定义

    • :第 i 个样本的真实观测值;

    • :回归模型给出的预测值;

    • :残差(residual),是“真实值 - 预测值”。

总体模型(理论模型)

  • 形式
    • :总体的真实参数(未知);

    • :随机误差项,捕捉未观测因素和随机性。

这是 理想中的经济学/统计学关系,但参数和误差分布我们不知道。

样本估计模型(回归方程)

  • 形式

    • :由样本数据计算出来的 OLS 估计量(估计);

    • :预测值(fitted value)。

在样本数据上估计出来的拟合直线

三者关系梳理

  1. 总体模型(理论层面)

    ——描述数据的真实生成机制。

  2. 样本模型(估计层面)

    ——用 OLS 得到的估计直线,代替未知的真实直线。

  3. 残差(误差的样本体现)

    ——衡量预测值与观测值的差距。

b和之间的联系

二者的关系

  • 在统计学上,​ 和 ​ 的 无偏估计量

  • 这意味着:如果我们无限次重复抽样并每次计算​,它们的平均值会等于真实参数

直观理解

  • β:真理(总体直线),但我们看不见;

  • b:猜测(样本直线),是用数据近似出来的;

  • b 不是 β,但在长期来看,bb的平均会逼近 β。

Least squares estimates

image.png

对β进行求偏导:

进行化简:

对(2)进行化简:

带入(3)到(4)

image.png

Properties of the fitted regression line

image.png

性质4:

image.png

性质6:

协方差的定义里一定要减去均值(否则只是内积,不是协方差);

因为 ,所以:

$$\mathrm{Cov}(\hat{y}i, e_i) = \frac{1}{n-1} \sum{i=1}^n (\hat{y}_i - \bar{\hat{y}}) e_i​$$

这就说明了:协方差公式里确实要减去​ 的均值,只是因为残差的均值为 0,才只剩下 ​。

Sample Correlation coefficient

image.png

回归分析中的作用

  • 一元线性回归中:

    也就是说,相关系数的平方等于判定系数 ,它衡量模型对因变量 y 变异的解释程度。

  • 因此,相关系数不仅衡量关系强弱,还能告诉我们回归直线“拟合好不好”。

变量筛选与建模

  • 在多元回归前,研究者会用相关系数矩阵查看自变量之间的相关性。

    • 高度相关 → 多重共线性风险。

    • 低相关 → 变量之间独立性更强,更适合一起放入模型。

Assessing the OLS estimator

image.png

image.png

unbiasedness of the estimator

有意思的是:
这里证明无偏是先证明再到,前面计算最小二乘法是先用换元

image.png

variance of an estimator

image.png

Goodness-of-fit

在一元线性回归中,我们有经典的三分解:

  • SST (Total Sum of Squares):总平方和,度量 y 总的变异性。

  • SSR (Regression Sum of Squares):回归平方和,被回归模型解释的那部分变异。

  • SSE (Error Sum of Squares):残差平方和,模型没有解释掉的部分。

The Gauss–Markov theorem

image.png

image.png

这些构造的非 OLS 估计量没法实际拟合,它们的唯一用处就是作为参照物,帮助我们理解为什么 OLS 是 “Best Linear Unbiased Estimator”。

Coefficient of determination(判定系数)

image.png

image.png

  • 一元回归: 既可以理解为 x 与 y 的相关性平方;

  • 所有回归:也可以理解为 y 与预测值 的相关性平方;

什么时候减什么时候减去

1. 当 减去 的情况

出现在 方差分解 (SST = SSR + SSE) 里。

为什么这里是 而不是

  • 因为我们在分解的是因变量 y 的总变异性:

  • 这里必须用 ,保证三项加起来正好等于总平方和 SST。

  • 直观理解:我们关心的是回归线解释了多少 y 的变动,而 y的均值才是参照点。

2. 当 减去 的情况

出现在 协方差或相关系数的定义里:

为什么要用

  • 因为相关系数的定义是基于 各自变量与自己的均值之差,不能随意换成别的均值。

  • 所以在计算 y 和 的相关性时:

    • y 要减去

    • 要减去