密度估计:在给定有限观测集合
x
1,x
2,...,x
N的情况下,对随机变量
x
的概率分布
p(x
)进行建模。假设所有数据点独立同分布,
伯努利分布(bernoulli)
伯努利试验:只有两种结果的单次随机试验,如掷一枚硬币。
伯努利分布(0-1分布、两点分布):进行一次伯努利试验,表示单个二元变量
x∈{0,1}的分布,使用单个连续变量
μ∈[0,1]表示
x=1的概率。则
p(x=1∣μ)=μ,p(x=0∣μ)=1−μ。合并这两个式子为下式:
Bern(x∣μ)=μx(1−μ)1−x。
伯努利分布的均值为
E[x]=∑Bern(x∣μ)x=μ,
方差为
var[x]=E[(x−E(x)2)]=∑(x−μ)2Bern(x∣μ)=(1−μ)2μ+μ2(1−μ)=μ(1−μ),
伯努利分布是单次伯努利试验的观测结果,二项分布是N次独立重复伯努利试验的结果。伯努利分布关于
μ的共轭先验是
beta分布。
二项分布(binomial)
现在进行了N次伯努利试验,得到观察结果
D={x1,x2,...,xN}。则似然函数为
P(D∣μ)=∏n=1Np(xn∣μ)=∏n=1Nμxn(1−μ)1−xn
对数似然函数为
lnP(D∣μ)=∑n=1Nlnp(xn∣μ)=∑n=1N[xnlnμ+(1−xn)ln(1−μ)]
对数似然函数对
μ求导得
∂μ∂lnP(D∣μ)=∑n=1Nμxn−1−μ1−xn=∑n=1Nμ(1−μ)xn−μ
令导数等于0,得
μML=N1∑n=1Nxn
令
m为N次独立重复试验中
x=1出现的次数,则
μML=Nm
二项分布给出了
N次伯努利试验中出现了
m次
x=1的概率质量函数:
Bin(m∣N,μ)=(mN)μm(1−μ)N−m,m=1,2,…,N,
其中
(mN)=m!(N−m)!N!为二项式系数。
二项分布的均值为
E[x]=∑m=0NmBin(x∣N,μ)=Nμ,
方差为
var[x]=Nμ(1−μ)
N=1时二项分布变为伯努利分布,当
N很大时近似为高斯(?见PRML686页)。二项分布关于
μ的共轭先验是
beta分布。
beta分布
共轭先验:如果后验分布与先验分布属于同类,则先验分布与后验分布称为共轭分布(conjugate distributions),先验分布称为共轭先验(conjugate prior)。
Beta(μ∣a,b)=Γ(a)+Γ(b)Γ(a+b)μa−1(1−μ)b−1,0≤μ≤1
其中
Γ是gamma函数,
Γ(x)=∫0∞μx−1e−μdμ,满足
Γ(x+1)=xΓ(x),
Γ(0)=1。当x为自然数时
Γ(x)=(x−1)!
beta分布满足
∫0∞Beta(μ∣a,b)dμ=1
beta分布的均值
E[μ]=a+ba
方差
Var[μ]=(a+b)2(a+b+1)ab
后验概率:
p(μ∣m,l,a,b)∝μa+m−1(1−μ)b+l−1,其中
l=N−m
这是另一个beta分布,写成标准形式为:
p(μ∣m,l,a,b)=Γ(a+m)Γ(b+l)Γ(a+m+b+l)μa+m−1(1−μ)b+l−1
即二项分布的共轭先验beta分布通过
a→a+m和
b→b+l得到后验分布。
如果二项分布的先验分布是beta分布,则其后验分布也为beta分布,两者构成共轭分布。作为先验分布的beta分布的参数
a,b又称为超参数。使用共轭分布的好处是便于从先验分布计算后验分布。
多项分布(multinomial)
单次试验:
p(x∣μ)=∏k=1Kμkxk
其中
μk≥0,
∑k=1Kμk=1
N次试验:
D={x1,…,xN}
p(D∣x)=∏n=1N∏k=1Kμkxnk=∏k=1Kμk∑nxnk=∏k=1Kμkmk,其中
mk=∑nxnk,表示
xk=1出现的次数,这也是多项分布的充分统计量。
为了从观察值中估计多项分布的参数,这里构造带限制条件
∑k=1Kμk=1的拉格朗日函数:
L(μ1,…,μK,λ)=p(D∣x)+λ(∑k=1K−1)
=∏k=1Kμkmk+λ(∑k=1K−1)
取对数得:
lnL(μ1,…,μK,λ)=∑k=1Kmklnuk+λ(∑k=1K−1)
对
uk求导得:
∂μk∂lnL(μ1,…,μK,λ)=∑k=1Kμkmk+λ
令上式=0,得:
μk=−λmk
将上式带入
∑k=1Kμk=1得:
∑k=1K−λmk=−λ∑k=1Kmk=1
得
λ=−∑k=1Kmk=−N
则参数
μ的最大似然估计
μkML=Mmk
多项分布:
Multi(m1,m2,…,mK∣μ,N)=(m1m2…mKN)∏k=1Kμkmk,其中
(m1m2…mKN)=(m1!m2!…mK!N!)是多项式参数,满足
∑k=1Kmk=N
多项分布是一种多元离散随机变量的概率分布,是二项分布的扩展。假设重复进行n次独立随机试验,每次实验可能出现的结果有k种,第i种结果出现的概率为
μi,第
i种结果出现的次数为
mi。如果用随机变量
X=(X1,X2,…,XK)表示试验所有可能出现的次数,其中
Xi表示第
i种结果出现的次数,那么随机变量
X服从多项分布。
Dirichlet分布
若多元连续随机变量
μ
=(μ1,…,μK)的概率密度函数为
p(μ∣α)=Γ(α1)…Γ(αK)Γ(α0)∏k=1Kμkαk−1
其中
∑k=1Kαk=1,
α0=∑k=1Kαk
则称随机变量
μ服从参数为
α的狄利克雷分布,记作
μ∼Dir(α)
狄利克雷分布作为多项分布的先验分布时,其后验概率:
p(μ∣D,α)∝p(D∣μ)p(μ∣α)∝∏k=1Kμkαk+mk−1
这是另一个Dirichlet分布,写成标准的形式为:
p(μ∣D,α)=Dir(μ∣α+m)=Γ(α1+m1)…Γ(αK+mK)Γ(α0+N)∏k=1Kμkαk+mk−1
如果多项分布的先验分布是狄利克雷分布,则其后验分布也为一个狄利克雷分布,两者构成共轭分布。作为先验分布的狄利克雷分布的参数
α又称为超参数。狄利克雷后验分布的参数等于狄利克雷先验分布的参数
α=(α1,α2,…,αK)加上多项分布的观测计数
m=(m1,m2,…,mK)。
总结
- 伯努利分布是二元离散随机变量单次试验的结果
- 二项分布是对二元离散随机变量进行N次独立重复试验的结果
- 贝塔分布是二项分布的共轭先验
- 类别分布是多元离散随机变量单次试验的结果
- 多项分布是二项分布扩展到多元离散随机变量的结果,也是类别分布重复N次的结果
- 狄利克雷分布是多项分布的共轭先验,也是贝塔分布从二元连续随机变量扩展到多元连续随机变量的结果
转载:
https://blog.csdn.net/qq_24831889/article/details/102011296