![机器学习:从公理到算法](https://wfqqreader-1252317822.image.myqcloud.com/cover/786/920786/b_920786.jpg)
3.1 密度估计的参数方法
如果已经知道p(x)所在的分布族p(x|θ),此时的密度估计问题变成估计θ。简单说来,此时即为密度估计的参数方法。在此情形下,,SimX(x,θ)=p(x|θ)。假设对θ得到估计
,则可设
。
3.1.1 最大似然估计
在此情形下,如果对于θ的信息一无所知,则可以假设对θ得到估计。因此,类紧致准则希望最大类内相似度,由此得到目标函数(3.1)。显然,
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00012.jpg?sign=1739529474-iLtGomCyjMc7uOFRCMXZZk60VlBFRx4s-0-c3cfdd0a4e757a0c6b3c3eebf0cd4c20)
为了简化计算,对公式(3.1)两边取负自然对数,求最大变为求最小,得到如下目标函数:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00013.jpg?sign=1739529474-h1D5wNRzZUVbw9NHc8LJN5m4GuZr1bzt-0-990fb710f23e66b2c007ee52f6102f3c)
显然,最大化目标函数(3.1)是最大似然估计。因此,类紧致准则可以导出常见的最大似然估计。
• 高斯密度估计
假设,其中
。根据公式(3.2),我们可以得到如下目标函数(3.3):
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00009.jpg?sign=1739529474-VXQABPJVzr8BWLExp31HUAN93ySFAwSv-0-1750499551fbcdf61c6e4eb2cadd45fd)
因此,计算目标函数(3.3)的一阶导数,令其等于零可以得到最优估计。
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00010.jpg?sign=1739529474-RcCEQDxd1j4c2JwRC2559z2IZbfqRmFu-0-bf485c72ab7bc4c621dad57dcfab965b)
解方程(3.4),可以得到
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00011.jpg?sign=1739529474-nByUt8DIGe7QdthtQFtfB039ZxfQGDmy-0-d68b906b03a3d82814a5d6b9559d8bdf)
令,其中
按照以上的办法,同样可以得出
的估计。
• n元多项分布估计
假设∀k,xk,x都是只取1,2,…,c其中之一的随机变量,如果,其中x=[l1,l2,…,lc],
,∀i,li∈{0,1},
1,∀i,
并且
。易知,∀k,xk,x可以表示成一个c维的0,1的向量,这里,如果xk=i,则记作(xk)i=1,否则(xk)i=0。显然,
,因此,可以知道
。
根据公式(3.2),我们可以得到如下目标函数(3.6):
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00014.jpg?sign=1739529474-N4k0zPiS6GPkDeVLIqLkgUd6P0XGuISi-0-39ad90fc6cb3230f75b44c4d809bfdf2)
根据拉格朗日乘子法,要得到目标函数(3.6)在条件下的最小值,只需令如下函数(3.7)的一阶导数为零:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00015.jpg?sign=1739529474-jpgLwpQp3BkRyvc8lrXJfrogajZ6oCvG-0-80a52f75eaa26f2c9dca77dbe9486704)
由此得到方程(3.8):
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00016.jpg?sign=1739529474-9uGyrWBDoOSfD8bIkUoB3LQyokX3RGCr-0-b91cc414a528cfc6f81aa8a437839aa5)
注意到,由方程(3.8)可以得到λ=N。
据此,解方程(3.8)可以得到如下估计:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00017.jpg?sign=1739529474-h5617Z3g6aIsCdhxYHxsMXTqCN1iqlJ4-0-5cb8325ce9f300e3107a8a433b02cc3d)
3.1.2 贝叶斯估计
需要特别指出的是,在参数估计情形下,类可以用θ来表示。有时候,基于历史经验,人们不仅知道分布的形式,甚至会对θ的信息有所了解。比如,当谈到许海峰的手枪射击成绩时,人们会有先验估计;当谈起烟台苹果莱阳梨,人们一般也会有先验印象。甚至朋友交往,第一印象也对人们后续交往影响巨大。实际上,日常所说的声誉,就是一种对于事物的先验印象。如果θ的信息完全确定,就不需要通过观察抽样样本来估计了,或者说观察已经影响不了人们对于θ的信息。这近似于信仰或者崇拜。
一般情形下,人们对于θ的信息有所了解,但是该信息会随着观察的积累增多而改变,具有不确定性。因此,对θ的信息先验了解程度,可以用假设θ服从p(θ|θ0)分布来表示,p(θ|θ0)反映了人们对于θ的了解程度,θ0是事先确定的值。换一种说法,p(θ|θ0)反映了θ与固定值θ0的相似度,即Sim(θ,θ0)=p(θ|θ0)。理论上,应该选择与固定值θ0最相似的θ值。如果无限相似,即变成信仰,此时观察改变不了θ的估计。如果不是无限相似,则观察可以改变对于θ的估计。
假设对θ得到估计,根据以上的分析,设
,
。因此,类紧致准则希望最大类内相似度,由此得到目标函数(3.1)。同时,如果假设输入类表示为θ0,类一致性准则要求考虑最大化如下约束(3.10):
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00018.jpg?sign=1739529474-HV7ExU4yt6nZk6TDOeL938CFPRuAlxcT-0-8fc88d60e4a4b3bf54fe3d69415aa55b)
这是一个典型的多目标函数优化问题。一个自然的想法是合成为单目标函数优化问题。
由此,综合考虑类一致性准则和类紧致性准则,应该最大化目标函数(3.11):
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00019.jpg?sign=1739529474-RLJSp6oX3dTd3IsUNcD9v5S0MtdZWFxw-0-9b1aa331931b6a9823eee0a2c5fbba37)
显然,如果只最大化目标函数(3.10),则与观察数据无关。如果先验随着观察数据的增加而不同,最大化目标函数(3.11)即是常见的贝叶斯估计。因此,类紧致准则与贝叶斯估计也联系密切。
• 高斯密度的贝叶斯估计
假设∀k,xk∈Rp,x∈Rp,,其中
其中
。
根据公式(3.11),应该最小化目标函数(3.12):
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00020.jpg?sign=1739529474-1kDkSyv5L6QB4tSKHBNfyriPjcpRjpQg-0-2b13e0dc8fad0805d4d565070597f830)
因此,计算目标函数(3.12)的一阶导数,令其等于零可以得到最优估计。
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00021.jpg?sign=1739529474-yCj6jFtYV5pa85OwEE3tR9prUkP5MEVA-0-2d6c8318e81ec513550dc38fe84163fe)
解方程(3.13),可以得到
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00022.jpg?sign=1739529474-F33QcASCzntIlhaRJbxgBHht6rkPcRz5-0-7caa5e49f01603738703dc8d01eaa45d)
如果,其中
,按照以上的办法,同样可以得出
的估计。
• n元多项分布的贝叶斯估计
假设∀k,xk,x都是只取1,2,…,c其中之一的随机变量,如果,其中x=[l1,l2,…,lc],
,∀i,li∈{0,1},
,
并且
。易知,∀k,xk,x可以表示成一个c维的0,1向量,这里,如果xk=i,则记作(xk)i=1,否则(xk)i=0。显然,∀k,
,因此,可以知道
,其中
。
根据公式(3.11),应该最小化如下目标函数(3.15):
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00026.jpg?sign=1739529474-eOACCWG7Lfibrj4xUYdc52adPVHKczVt-0-03bdb6d83cfeb11783a6ba98d3e92702)
根据拉格朗日乘子法,要得到目标函数(3.15)在条件下的最小值,只需令如下函数(3.16)的一阶导数为零。
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00023.jpg?sign=1739529474-c8NFqfDzM2qwmSUb04QdMhN4OsVtOIu8-0-4b708bb65b2fb5c0a3acda5afc5e4b8d)
由此得到方程(3.17)。
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00024.jpg?sign=1739529474-0MInnUKAuPCxzhzhMeB17q75aoY5zpnW-0-a876c01e1bd502d21427620c0f42fa82)
解方程(3.17)可以得到如下估计:
![](https://epubservercos.yuewen.com/589E71/10150113804150701/epubprivate/OEBPS/Images/image-00025.jpg?sign=1739529474-uSBA3cWAINKVPkCoBQxvWbEn7dseF1hC-0-0534b7626430a6b2da0a36eff10065a8)
称为Dirichlet分布,其中
,∀pi>0,∀αi>0。