![机器学习:从公理到算法](https://wfqqreader-1252317822.image.myqcloud.com/cover/786/920786/b_920786.jpg)
4.1 线性回归
回归函数可以选择的表示很多。但是根据奥卡姆剃刀准则,应该选择简单而又可行的回归函数。显然,如果可行,线性函数是最简单的回归函数。当回归函数F采用线性模型表示时,我们称该类模型为线性回归(linear regression)。如图4.1所示的简单一元线性回归模型,图中圆圈表示数据点,一元线性回归就是求图中的直线,这条直线能够较好地表示输入数据和输出数据的关系。一元线性方程有如下形式:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00036.jpg?sign=1739529250-7rMA70FOHLVE52DEjkkVqoFT0NrnueWN-0-a8ea32ea3337e44a7da19adfa1176b5b)
其中,系数w,b∈ℝ称为回归系数(regression coefficient),根据类一致性准则,为了最小化D(f(X),F(X)),最常用的方法是采用最小二乘的形式,所以,一元线性回归函数的损失函数为:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00037.jpg?sign=1739529250-Fnz7etQ8hnqYysIZF8gXSn7ddqemfIYt-0-59b556c8568813eb0c9d76ede53525fb)
其中为
对应的观测值,此时,求解一元线性回归函数的问题转化为一个优化问题,即求解:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00033.jpg?sign=1739529250-mL7WKO09MSBQkEnM50Q4fOippD0T6q59-0-6e4e371350a600db04fee823212edd23)
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00038.jpg?sign=1739529250-4IQLaaqJmWwBxemLbuG2NIWpM6FcAE8K-0-d75ddaef1a4afc3fafef4a7209635490)
图4.1 一元线性回归示意图
为了最优化目标函数(4.4),对b和w求偏导,令导数为零,即:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00034.jpg?sign=1739529250-vZXC9y3y8zavqL7fEoqrtcn0v0hmvRZp-0-9f2d42a18c14f1f83fa496503eae6988)
可求得:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00035.jpg?sign=1739529250-MX54NubdYCrMLqKPXA7TGlu7BCqoY2rZ-0-fffd3af191d6ebd3bf6282d1528d65b4)
其中。
下面举例说明该回归模型的使用方法。
例4.1 假设我们试图对某一社区中个人的受教育程度(用表示)对年平均收入(用
表示)的影响进行研究。我们从该社区中随机收集到11名个体的受教育年限(单位:年)和年平均收入(单位:千元)数据(见表4.1)。请利用该数据判断最佳线性回归模型。(精确到小数点后两位)
表4.1 某小区11名个人的年平均收入与受教育年限
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00042.jpg?sign=1739529250-P1OCDDe2lyeyDvtmDlmOhzyu8Gkj5cMG-0-bcfa0d66660f66127f5dbbf22d0af7b5)
解 因为已知数据只有一个输入特征,所以设回归函数为y=wx+b,利用式(4.6),计算各分量。由表4.1可得:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00039.jpg?sign=1739529250-8cQ2fmVdR2toEYxIsStmYgbP91DICrwv-0-ed6b7e90a398d62d528ec85ec300fa13)
所以,
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00040.jpg?sign=1739529250-KPSzqypcN7b51mfiHbUuRmfPxXSAwE1u-0-fc9263f33fc23e81a85729641c6e6e1b)
故所求的线性回归方程为:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00041.jpg?sign=1739529250-R53xuZZ2ZI31bAOWeTZeyjBH0vxd0t1Z-0-82c8d35b30d228786847cc7e56b9c30d)
当输入数据有p个特征时,给定如下方程进行数据拟合
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00048.jpg?sign=1739529250-rYhLhb5WCI76Xy0xXMv73MnHAwAPUtfJ-0-cec57e8144d1a34650fc010f49575711)
其中为输入的p维列向量,w∈ℝp为方程系数,b为截距。为了最小化D(f(X),F(X)),最常用的方法是采用最小二乘的形式。对于N个样本,则给定误差平方为
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00049.jpg?sign=1739529250-q3WCUPPDbAxWRqzsv7xxQOlziA5PUrhp-0-7df9389929c4f6e970124ce2a1aacf33)
为了表示方便,令A为(p+1)×N的矩阵且第一行为全1的向量,A的第二行至p+1行数据对应于训练数据的输入,B∈ℝN为N个训练数据的输出,w*=(b,wT)T∈ℝp+1,则式(4.11)可写成如下形式
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00043.jpg?sign=1739529250-gIU15szI8mTQr8IaXvMi9qjmXjB19JSX-0-4755bb383ba2eca5603dc48a165a03b0)
最小化上式求解w*就是对w求偏导数,有
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00044.jpg?sign=1739529250-RvYyIJttbo8dSzGOh1nWq5B0eboqoDn2-0-5865452c4a5ef389b52b088aeba92586)
若A为行满秩矩阵,则AAT为正定矩阵,因此可求得w*的闭式解为:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00045.jpg?sign=1739529250-RS8c8PMrcQyeWiQK6ET8PCxZysNNtW7c-0-000b0301edb6709f227fe218e8323572)
以上介绍的回归模型输出只有一个一元变量。当输出本身就是多个(d个)一元变量,会获得如下的线性模型
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00046.jpg?sign=1739529250-sS8PxpYr6HIhzfFU6uGkQrGq0SEv4PCk-0-696f9c66986bc4b420a26887a92aaf4b)
其中B∈ℝd×N为输出矩阵,A∈ℝ(p+1)×N为输入矩阵,并且其第一行为全1,W∈ℝ(p+1)×d为系数矩阵。为了最小化D(f(X),F(X)),与式(4.11)的形式类似,有
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00047.jpg?sign=1739529250-RRoBNCDd5YT8Nt5ns9RZADtWnk1jVXvT-0-2ed60d1bef7d9d2ed5ad386bdc6fc9ab)
通过对W求导,可以获得其闭式解为
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00050.jpg?sign=1739529250-fyyKkoRPEzFyhrKV8emP3OaEwdJG7jmF-0-bc279f9a18e2fe8595e1f583966310cd)
线性回归模型是最简单的回归模型,可以很简单地扩充成广义线性模型,如,g是一个可逆的单调函数。比较常用的是对数线性回归,此时,