OLS 三个式子
真实值与残差 (residual)
定义:
:第 i 个样本的真实观测值; :回归模型给出的预测值; :残差(residual),是“真实值 - 预测值”。
总体模型(理论模型)
- 形式:
:总体的真实参数(未知); :随机误差项,捕捉未观测因素和随机性。
这是 理想中的经济学/统计学关系,但参数
样本估计模型(回归方程)
形式:
:由样本数据计算出来的 OLS 估计量(估计 ); :预测值(fitted value)。
在样本数据上估计出来的拟合直线。
三者关系梳理
总体模型(理论层面)
——描述数据的真实生成机制。
样本模型(估计层面)
——用 OLS 得到的估计直线,代替未知的真实直线。
残差(误差的样本体现)
——衡量预测值与观测值的差距。
b和 之间的联系
二者的关系
在统计学上,
和 是 的 无偏估计量: 这意味着:如果我们无限次重复抽样并每次计算
,它们的平均值会等于真实参数 。
直观理解
β:真理(总体直线),但我们看不见;
b:猜测(样本直线),是用数据近似出来的;
b 不是 β,但在长期来看,bb的平均会逼近 β。
Least squares estimates

对β进行求偏导:
对
对(2)进行化简:
带入(3)到(4)

Properties of the fitted regression line

性质4:

性质6:
协方差的定义里一定要减去均值(否则只是内积,不是协方差);
因为
$$\mathrm{Cov}(\hat{y}i, e_i) = \frac{1}{n-1} \sum{i=1}^n (\hat{y}_i - \bar{\hat{y}}) e_i$$
这就说明了:协方差公式里确实要减去
Sample Correlation coefficient

回归分析中的作用
在 一元线性回归中:
也就是说,相关系数的平方等于判定系数
,它衡量模型对因变量 y 变异的解释程度。 因此,相关系数不仅衡量关系强弱,还能告诉我们回归直线“拟合好不好”。
变量筛选与建模
在多元回归前,研究者会用相关系数矩阵查看自变量之间的相关性。
高度相关 → 多重共线性风险。
低相关 → 变量之间独立性更强,更适合一起放入模型。
Assessing the OLS estimator


unbiasedness of the estimator
有意思的是:
这里证明无偏是先证明

variance of an estimator

Goodness-of-fit
在一元线性回归中,我们有经典的三分解:
SST (Total Sum of Squares):总平方和,度量 y 总的变异性。
SSR (Regression Sum of Squares):回归平方和,被回归模型解释的那部分变异。
SSE (Error Sum of Squares):残差平方和,模型没有解释掉的部分。
The Gauss–Markov theorem


这些构造的非 OLS 估计量没法实际拟合,它们的唯一用处就是作为参照物,帮助我们理解为什么 OLS 是 “Best Linear Unbiased Estimator”。
Coefficient of determination(判定系数)


一元回归:
既可以理解为 x 与 y 的相关性平方; 所有回归:
也可以理解为 y 与预测值 的相关性平方;
什么时候减 什么时候减去
1. 当 减去 的情况
出现在 方差分解 (SST = SSR + SSE) 里。
为什么这里是
因为我们在分解的是因变量 y 的总变异性:
这里必须用
,保证三项加起来正好等于总平方和 SST。 直观理解:我们关心的是回归线解释了多少 y 的变动,而 y的均值才是参照点。
2. 当 减去 的情况
出现在 协方差或相关系数的定义里:
为什么要用
因为相关系数的定义是基于 各自变量与自己的均值之差,不能随意换成别的均值。
所以在计算 y 和
的相关性时: y 要减去
, 要减去 。