极大似然估计
核心思想
已知某个随机变量的样本集合X符合某种概率分布,但是这个分布的超参数
θ
θ还未知。此时即可通过极大似然估计得到
θˆ
θ^,令估计得到的
θˆ
θ^使得这个样本集合出现的概率最大。即
θˆ=argmaxθP(D∣θ)
θ^=argθmaxP(D∣θ)
也就是说参数是自变量,集合出现的概率是应变量。
一般步骤
写出似然函数
L(θi)=∏Ni=1f(xi,θ1,θ2…θn)
L(θi)=i=1∏Nf(xi,θ1,θ2…θn)
对似然函数取对数
lnL(θi)
lnL(θi)
对
θi
θi求偏导数
∂∂θtlnL(θ)
∂θt∂lnL(θ)
解似然方程组
∂∂θtlnL(θ)=0
∂θt∂lnL(θ)=0
具体实例
来推导下面正态分布中,概率密度函数的参数
μ
μ的极大似然估计。概率密度函数如下
f(x)=12π√σexp(−(x−μ)22σ2)
f(x)=2π
σ1exp(−2σ2(x−μ)2)
按照上面所给的一般步骤,第一步求各个样本
xi
xi出现的概率之积,也就是似然函数:
L(μ)=∏ni=1f(xi,μ)=∏ni=112π√σexp(−(xi−μ)22σ2)
L(μ)=i=1∏nf(xi,μ)=i=1∏n2π
σ1exp(−2σ2(xi−μ)2)
第二步对似然函数取对数:
lnL(μ)=−nln(2π−−√σ)−12σ2∑ni=1(xi−μ)2
lnL(μ)=−nln(2π
σ)−2σ21i=1∑n(xi−μ)2
第三步对所有的自变量(超参数)求偏导数,这里只有一个自变量也就是
μ
μ,所以对其求导即可:
∂∂μlnL(μ)=−1σ2∑ni=1(xi−μ)
∂μ∂lnL(μ)=−σ21i=1∑n(xi−μ)
第四部解似然方程(多个自变量超参数的时候就是解方程组)
∂∂μlnL(μ)=0⇒μˆ=1n∑ni=1xi=x¯
∂μ∂lnL(μ)=0⇒μ^=n1i=1∑nxi=xˉ
贝叶斯估计
核心思想
已知某个随机变量的样本集合X符合某种概率分布,但是这个分布的超参数
θ
θ还未知。此时即可通过贝叶斯估计得到
θˆ
θ^,通过已经发生的样本集合X(也可以理解为数据集D)找到对应概率最大的那个
θˆ
θ^。即
Pˆ(θ∣D)=P(θ)P(D∣θ)P(D)
P^(θ∣D)=P(D)P(θ)P(D∣θ)
而极大似然估计求取的目标是找到最大的那个
Pˆ(D∣θ)
P^(D∣θ)。这就是极大似然估计和贝叶斯估计不一样的地方。
贝叶斯估计的基础条件就是认为参数
θ
θ本身就符合某个概率分布,这就解释了上式中的
P(θ)
P(θ),这是一个先验概率分布。而
P(D∣θ)
P(D∣θ)是似然函数,
P(θ∣D)
P(θ∣D)是后验概率分布。
一般步骤
第一步是得出表达式,其他步骤和极大似然估计的一般步骤部分相同。
具体实例
求解下面正态分布的参数
μ
μ的贝叶斯估计,假设已知
μ
μ的先验分布是正态分布
N(0,τ2)
N(0,τ2),根据数据集(也就是n个样本)写出贝叶斯估计。正态分布概率密度函数如下
f(x)=12π√σexp(−(x−μ)22σ2)
f(x)=2π
σ1exp(−2σ2(x−μ)2)
首先写出待求的已知样本集情况下参数分布的表达式,也就是
Pˆ(θ∣D)
P^(θ∣D):
P(μ∣x1,x2…xn)=P(μ,x1,x2…xn)P(x1,x2…xn)=P(μ)P(x1,x2…xn∣μ)P(x1,x2…xn)
P(μ∣x1,x2…xn)=P(x1,x2…xn)P(μ,x1,x2…xn)=P(x1,x2…xn)P(μ)P(x1,x2…xn∣μ)
由于数据集都是假设独立同分布,所以上式等价于:
P(μ)P(x1∣μ)…P(xn∣μ)∫P(μ,x1,x2…xn)dμ
∫P(μ,x1,x2…xn)dμP(μ)P(x1∣μ)…P(xn∣μ)
分母是样本集的全概率,也就是每一个参数
μ
μ的情况下样本集发生的概率,将其求和(离散情况)或积分(连续情况)。这是一个常数。
所以只要关注分子,也就是似然函数和先验分布的乘积就行了,这里两者的差别就更加明显了,可见数学表达式上,贝叶斯估计比极大似然主要也就多了一个参数的先验分布。
那么接下来就是延续求解步骤第一步的内容,代入具体表达式后第一步写出表达式步骤即可结束:
P(μ∣x1,x2…xn)=k12π√τexp(−μ22τ2)∏ni=112π√σexp(−(xi−μ)22σ2)
P(μ∣x1,x2…xn)=k2π
τ1exp(−2τ2μ2)i=1∏n2π
σ1exp(−2σ2(xi−μ)2)
之后是第二步取对数:
lnP(μ/x1,x2…xn)=k′−μ22τ2+∑ni=1(−(xi−μ)22σ2)
lnP(μ/x1,x2…xn)=k′−2τ2μ2+i=1∑n(−2σ2(xi−μ)2)
然后是第三步求导:
∂∂μlnP(μ/x1,x2,…xn)=−μτ2+∑ni=1xi−μσ2
∂μ∂lnP(μ/x1,x2,…xn)=−τ2μ+i=1∑nσ2xi−μ
最后是第四部解方程或者方程组:
−μτ2+∑ni=1xi−μσ2⇒μˆ=∑ni=1xin+σ2τ2
−τ2μ+i=1∑nσ2xi−μ⇒μ^=n+τ2σ2∑i=1nxi
总结
当n趋向于无穷大的时候,贝叶斯估计就是极大似然估计,但是当n很小的时候,贝叶斯估计就会比极大似然估计准确(前提是先验分布是对的)。
转载:
https://blog.csdn.net/nstarLDS/article/details/104964081