线性回归

1.1k 词

1. 线性回归模型基础

  • 线性模型定义: 一个模型是否为”线性”,取决于它对于参数 β 是否是线性的,而非自变量 X。如果模型对所有参数的偏导数结果中不包含参数本身,那么该模型就是线性的。
  • 模型基本形式:
    • 简单线性回归:
    • 多元线性回归:
    • 其中,y 是因变量,X 是自变量,β 是待估计的参数,ε 是代表随机性的误差项。

2. 参数估计方法:如何找到最优的β?

方法一:最小二乘法 (Least Squares Estimation)

这个方法的核心思想是找到能让残差平方和 (Sum of Squared Errors, SSE) 最小的参数值。

  • 目标函数: 最小化
  • 求解:通过对所有 β 参数求偏导,并令其等于0,可以得到一组方程,称为正规方程 (Normal Equations)
  • 简单线性回归的解:
  • 多元线性回归的解 (矩阵形式):
    • 当自变量矩阵 X 是列满秩时,解是唯一的:
    • X 不是列满秩时,需要使用广义逆 (g-inverse) 来求解。
方法二:最大似然估计 (Maximum Likelihood Estimation, MLE)

这个方法从概率角度出发,寻找能让当前观测数据出现概率最大的参数值。

  • 核心假设: 误差项 ε 服从均值为0,方差为 σ²正态分布
  • 求解: 构建似然函数 L,并通过最大化其对数形式 ln(L) 来求解参数。
  • 重要结论: 在误差服从正态分布的假设下,MLE 的解与最小二乘法的解完全相同

3. 模型评估与性质

  • 估计量性质:
    • 通过最小二乘法得到的参数估计值 b₀b₁ 都是真实参数 β₀β₁无偏估计
    • 讲义中推导了 b₀b₁ 的方差。
  • 拟合优度 (Goodness of Fit):
    • R² (决定系数) 是衡量模型拟合好坏的关键指标。
    • ,其中 RSS 是残差平方和。
    • 的值介于0和1之间,越接近1代表模型拟合得越好。
  • 几何意义:
    • 最小二乘法在几何上等价于将因变量向量 y 正交投影到由自变量向量构成的空间 range(X) 上。最终的预测值 ŷ 就是这个投影。