一维线性回归

最后更新于:2023年2月24日 下午

给定 \((x_1, y_1), \cdots (x_n, y_n)\),求 \(y = k x + b\),使得下面式子最小

\[ \sum_{i = 1}^n (x_i k + b - y_i)^2 \]

用矩阵的语言刻画一下

\(X = \begin{pmatrix} x_1, \cdots, x_n \\ 1, \cdots, 1\end{pmatrix}^T\)\(Y = (y_1, \cdots, y_n)^T\), 则

\[ \sum_{i = 1}^n (x_i k + b - y_i)^2 = | X \begin{pmatrix} k \\ b \end{pmatrix} - Y|^2 \]

根据最小二乘理论(最短的向量必然垂直于子空间)

\[ X^T X \begin{pmatrix} k \\ b \end{pmatrix} = X^T Y \]

\[ \begin{pmatrix} \sum x_i^2 & \sum x_i \\ \sum x_i & n \end{pmatrix} \begin{pmatrix} k \\ b \end{pmatrix} = \begin{pmatrix} \sum x_i y_i \\ \sum y_i \end{pmatrix} \]

解得

\[ k = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2} \quad b = \frac{\sum x_i^2 \sum y_i - \sum x_i \sum x_i y_i}{n \sum x_i^2 - (\sum x_i)^2} \]

\(x, y\) 互换得到 \(\hat{k}\)

\(\hat{k}\) 有意义的前提为 \((y_1, \cdots, y_n)\) 不为常数

\[ \hat{k} = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum y_i^2 - (\sum y_i)^2} \]

\(k \hat{k} \leq 1\),且 \(k \hat{k} = 1\) 当且仅当 \((x_i, y_i)\) 在一条直线上

我们可以模仿内积空间中 \(|(x, y)|^2 \leq |x|^2 |y|^2\) 的证明。

我们定义

\[ (x, y) \doteq n \sum x_i y_i - \sum x_i \sum y_i \]

显然它满足

  • \((x, x) \geq 0\), \((x, x) = 0\) 当且仅当 \(x = \lambda \cdot 1_n\)
  • \((x, y) = (y, x)\)
  • \((x, ay + bz) = a(x, y) + b(y, z)\)

注意它并不构成内积空间

\[ (y - a x, y - ax) \geq 0, \quad \forall a \in \mathbb{R} \]

\[ a^2(x, x) - 2a(x, y) + (y, y) \geq 0, \quad \forall a \in \mathbb{R} \]

由于对于具体的 \(x\), \((x, x) > 0\), 所以 \(|(x, y)|^2 \leq |x|^2 |y|^2\)

\(k \hat{k} \leq 1\), 且 \(k\hat{k} = 1\) 当且仅当 存在 \(a\) 使得 \(y - ax = \lambda 1_n\)\((x_i, y_i)\) 在一条直线上