一维线性回归
最后更新于:2023年2月24日 下午
给定 \((x_1, y_1), \cdots (x_n, y_n)\),求 \(y = k x + b\),使得下面式子最小
\[ \sum_{i = 1}^n (x_i k + b - y_i)^2 \]
用矩阵的语言刻画一下
令 \(X = \begin{pmatrix} x_1, \cdots, x_n \\ 1, \cdots, 1\end{pmatrix}^T\),\(Y = (y_1, \cdots, y_n)^T\), 则
\[ \sum_{i = 1}^n (x_i k + b - y_i)^2 = | X \begin{pmatrix} k \\ b \end{pmatrix} - Y|^2 \]
根据最小二乘理论(最短的向量必然垂直于子空间)
\[ X^T X \begin{pmatrix} k \\ b \end{pmatrix} = X^T Y \]
即
\[ \begin{pmatrix} \sum x_i^2 & \sum x_i \\ \sum x_i & n \end{pmatrix} \begin{pmatrix} k \\ b \end{pmatrix} = \begin{pmatrix} \sum x_i y_i \\ \sum y_i \end{pmatrix} \]
解得
\[ k = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2} \quad b = \frac{\sum x_i^2 \sum y_i - \sum x_i \sum x_i y_i}{n \sum x_i^2 - (\sum x_i)^2} \]
\(x, y\) 互换得到 \(\hat{k}\)
\(\hat{k}\) 有意义的前提为 \((y_1, \cdots, y_n)\) 不为常数
\[ \hat{k} = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum y_i^2 - (\sum y_i)^2} \]
则 \(k \hat{k} \leq 1\),且 \(k \hat{k} = 1\) 当且仅当 \((x_i, y_i)\) 在一条直线上
我们可以模仿内积空间中 \(|(x, y)|^2 \leq |x|^2 |y|^2\) 的证明。
我们定义
\[ (x, y) \doteq n \sum x_i y_i - \sum x_i \sum y_i \]
显然它满足
- \((x, x) \geq 0\), \((x, x) = 0\) 当且仅当 \(x = \lambda \cdot 1_n\)
- \((x, y) = (y, x)\)
- \((x, ay + bz) = a(x, y) + b(y, z)\)
注意它并不构成内积空间
\[ (y - a x, y - ax) \geq 0, \quad \forall a \in \mathbb{R} \]
即
\[ a^2(x, x) - 2a(x, y) + (y, y) \geq 0, \quad \forall a \in \mathbb{R} \]
由于对于具体的 \(x\), \((x, x) > 0\), 所以 \(|(x, y)|^2 \leq |x|^2 |y|^2\)
即 \(k \hat{k} \leq 1\), 且 \(k\hat{k} = 1\) 当且仅当 存在 \(a\) 使得 \(y - ax = \lambda 1_n\) 即 \((x_i, y_i)\) 在一条直线上