1. 线性回归模型基础
- 线性模型定义: 一个模型是否为”线性”,取决于它对于参数
β
是否是线性的,而非自变量X
。如果模型对所有参数的偏导数结果中不包含参数本身,那么该模型就是线性的。 - 模型基本形式:
- 简单线性回归:
- 多元线性回归:
- 其中,
y
是因变量,X
是自变量,β
是待估计的参数,ε
是代表随机性的误差项。
- 简单线性回归:
2. 参数估计方法:如何找到最优的β?
方法一:最小二乘法 (Least Squares Estimation)
这个方法的核心思想是找到能让残差平方和 (Sum of Squared Errors, SSE) 最小的参数值。
- 目标函数: 最小化
- 求解:通过对所有
β
参数求偏导,并令其等于0,可以得到一组方程,称为正规方程 (Normal Equations)。 - 简单线性回归的解:
- 多元线性回归的解 (矩阵形式):
- 当自变量矩阵
X
是列满秩时,解是唯一的: - 当
X
不是列满秩时,需要使用广义逆 (g-inverse) 来求解。
- 当自变量矩阵
方法二:最大似然估计 (Maximum Likelihood Estimation, MLE)
这个方法从概率角度出发,寻找能让当前观测数据出现概率最大的参数值。
- 核心假设: 误差项
ε
服从均值为0,方差为σ²
的正态分布。 - 求解: 构建似然函数
L
,并通过最大化其对数形式ln(L)
来求解参数。 - 重要结论: 在误差服从正态分布的假设下,MLE 的解与最小二乘法的解完全相同。
3. 模型评估与性质
- 估计量性质:
- 通过最小二乘法得到的参数估计值
b₀
和b₁
都是真实参数β₀
和β₁
的无偏估计。 - 讲义中推导了
b₀
和b₁
的方差。
- 通过最小二乘法得到的参数估计值
- 拟合优度 (Goodness of Fit):
- R² (决定系数) 是衡量模型拟合好坏的关键指标。
,其中RSS
是残差平方和。R²
的值介于0和1之间,越接近1代表模型拟合得越好。
- 几何意义:
- 最小二乘法在几何上等价于将因变量向量
y
正交投影到由自变量向量构成的空间range(X)
上。最终的预测值ŷ
就是这个投影。
- 最小二乘法在几何上等价于将因变量向量