小言_互联网的博客

极大似然估计与贝叶斯估计

424人阅读  评论(0)

极大似然估计

核心思想

已知某个随机变量的样本集合X符合某种概率分布,但是这个分布的超参数 θ \theta 还未知。此时即可通过极大似然估计得到 θ ^ \hat \theta ,令估计得到的 θ ^ \hat \theta 使得这个样本集合出现的概率最大。即
θ ^ = arg max θ P ( D θ ) \hat{\boldsymbol{\theta}}=\arg \max _{\boldsymbol{\theta}} P(D | \boldsymbol{\theta})
也就是说参数是自变量,集合出现的概率是应变量。

一般步骤

写出似然函数
L ( θ i ) = i = 1 N f ( x i , θ 1 , θ 2 θ n ) L\left(\theta_{i}\right)=\prod_{i=1}^{N} f\left(x_{i}, \theta_{1}, \theta_{2} \dots \theta_{n}\right)
对似然函数取对数
ln L ( θ i ) \ln L\left(\theta_{i}\right)
θ i \theta_i 求偏导数
θ t ln L ( θ ) \frac{\partial}{\partial \theta_{t}} \ln L(\theta)
解似然方程组
θ t ln L ( θ ) = 0 \frac{\partial}{\partial \theta_{t}} \ln L(\theta)=0

具体实例

来推导下面正态分布中,概率密度函数的参数 μ \mu 的极大似然估计。概率密度函数如下
f ( x ) = 1 2 π σ exp ( ( x μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)
按照上面所给的一般步骤,第一步求各个样本 x i x_i 出现的概率之积,也就是似然函数:
L ( μ ) = i = 1 n f ( x i , μ ) = i = 1 n 1 2 π σ exp ( ( x i μ ) 2 2 σ 2 ) \mathrm{L}(\mu)=\prod_{i=1}^{n} f\left(x_{i}, \mu\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right)
第二步对似然函数取对数
ln L ( μ ) = n ln ( 2 π σ ) 1 2 σ 2 i = 1 n ( x i μ ) 2 \ln \mathrm{L}(\mu)=-\mathrm{n} \ln (\sqrt{2 \pi} \sigma)-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}
第三步对所有的自变量(超参数)求偏导数,这里只有一个自变量也就是 μ \mu ,所以对其求导即可:
μ ln L ( μ ) = 1 σ 2 i = 1 n ( x i μ ) \frac{\partial}{\partial \mu} \ln \mathrm{L}(\mu)=-\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)
第四部解似然方程(多个自变量超参数的时候就是解方程组)
μ ln L ( μ ) = 0 μ ^ = 1 n i = 1 n x i = x ˉ \frac{\partial}{\partial \mu} \ln \mathrm{L}(\mu)=0 \Rightarrow \hat{\mu}=\frac{1}{n} \sum_{i=1}^{n} x_{i}=\bar{x}

贝叶斯估计

核心思想

已知某个随机变量的样本集合X符合某种概率分布,但是这个分布的超参数 θ \theta 还未知。此时即可通过贝叶斯估计得到 θ ^ \hat \theta ,通过已经发生的样本集合X(也可以理解为数据集D)找到对应概率最大的那个 θ ^ \hat \theta 。即
P ^ ( θ D ) = P ( θ ) P ( D θ ) P ( D ) \hat{P}(\theta | D)=\frac{P(\theta) P(D | \theta)}{P(D)}
而极大似然估计求取的目标是找到最大的那个 P ^ ( D θ ) \hat{P}(D | \theta) 。这就是极大似然估计和贝叶斯估计不一样的地方
贝叶斯估计的基础条件就是认为参数 θ \theta 本身就符合某个概率分布,这就解释了上式中的 P ( θ ) P(\theta) ,这是一个先验概率分布。而 P ( D θ ) P(D | \theta) 似然函数 P ( θ D ) P(\theta | D) 后验概率分布

一般步骤

第一步是得出表达式,其他步骤和极大似然估计的一般步骤部分相同。

具体实例

求解下面正态分布的参数 μ \mu 的贝叶斯估计,假设已知 μ \mu 的先验分布是正态分布 N ( 0 , τ 2 ) N(0, \tau^2) ,根据数据集(也就是n个样本)写出贝叶斯估计。正态分布概率密度函数如下
f ( x ) = 1 2 π σ exp ( ( x μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)
首先写出待求的已知样本集情况下参数分布的表达式,也就是 P ^ ( θ D ) \hat{P}(\theta | D)
P ( μ x 1 , x 2 x n ) = P ( μ , x 1 , x 2 x n ) P ( x 1 , x 2 x n ) = P ( μ ) P ( x 1 , x 2 x n μ ) P ( x 1 , x 2 x n ) \mathrm{P}\left(\mu | \mathrm{x}_{1}, \mathrm{x}_{2} \ldots \mathrm{x}_{\mathrm{n}}\right)=\frac{P\left(\mu, \mathrm{x}_{1}, \mathrm{x}_{2} \ldots \mathrm{x}_{\mathrm{n}}\right)}{P\left(\mathrm{x}_{1}, \mathrm{x}_{2} \ldots \mathrm{x}_{\mathrm{n}}\right)}=\frac{P(\mu) P\left(\mathrm{x}_{1}, \mathrm{x}_{2} \ldots \mathrm{x}_{\mathrm{n}} | \mu\right)}{P\left(\mathrm{x}_{1}, \mathrm{x}_{2} \ldots \mathrm{x}_{\mathrm{n}}\right)}
由于数据集都是假设独立同分布,所以上式等价于:
P ( μ ) P ( x 1 μ ) P ( x n μ ) P ( μ , x 1 , x 2 x n ) d μ \frac{P(\mu) P\left(x_{1} | \mu\right) \ldots P\left(x_{n} | \mu\right)}{\int {P\left(\mu, x_{1}, x_{2} \ldots x_{n}\right) d \mu}}
分母是样本集的全概率,也就是每一个参数 μ \mu 的情况下样本集发生的概率,将其求和(离散情况)或积分(连续情况)。这是一个常数。
所以只要关注分子,也就是似然函数和先验分布的乘积就行了,这里两者的差别就更加明显了,可见数学表达式上,贝叶斯估计比极大似然主要也就多了一个参数的先验分布
那么接下来就是延续求解步骤第一步的内容,代入具体表达式后第一步写出表达式步骤即可结束:
P ( μ x 1 , x 2 x n ) = k 1 2 π τ exp ( μ 2 2 τ 2 ) i = 1 n 1 2 π σ exp ( ( x i μ ) 2 2 σ 2 ) \mathrm{P}\left(\mu | \mathrm{x}_{1}, \mathrm{x}_{2} \ldots \mathrm{x}_{\mathrm{n}}\right)=\mathrm{k} \frac{1}{\sqrt{2 \pi} \tau} \exp \left(-\frac{\mu^{2}}{2 \tau^{2}}\right) \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right)
之后是第二步取对数:
ln P ( μ / x 1 , x 2 x n ) = k μ 2 2 τ 2 + i = 1 n ( ( x i μ ) 2 2 σ 2 ) \ln \mathrm{P}\left(\mu / \mathrm{x}_{1}, \mathrm{x}_{2} \ldots \mathrm{x}_{\mathrm{n}}\right)=\mathrm{k}^{\prime}-\frac{\mu^{2}}{2 \tau^{2}}+\sum_{i=1}^{n}\left(-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right)
然后是第三步求导:
μ ln P ( μ / x 1 , x 2 , x n ) = μ τ 2 + i = 1 n x i μ σ 2 \frac{\partial}{\partial \mu} \ln \mathrm{P}\left(\mu / \mathrm{x}_{1}, \mathrm{x}_{2}, \ldots \mathrm{x}_{\mathrm{n}}\right)=-\frac{\mu}{\tau^{2}}+\sum_{i=1}^{n} \frac{x_{i}-\mu}{\sigma^{2}}
最后是第四部解方程或者方程组:
μ τ 2 + i = 1 n x i μ σ 2 μ ^ = i = 1 n x i n + σ 2 τ 2 -\frac{\mu}{\tau^{2}}+\sum_{i=1}^{n} \frac{x_{i}-\mu}{\sigma^{2}} \Rightarrow \hat{\mu}=\frac{\sum_{i=1}^{n} x_{i}}{n+\frac{\sigma^{2}}{\tau^{2}}}

总结

当n趋向于无穷大的时候,贝叶斯估计就是极大似然估计,但是当n很小的时候,贝叶斯估计就会比极大似然估计准确(前提是先验分布是对的)。


转载:https://blog.csdn.net/nstarLDS/article/details/104964081
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场