小言_互联网的博客

常见的离散变量概率分布(伯努利分布、二项分布、多项分布、beta分布、dirichlet分布)

499人阅读  评论(0)

密度估计:在给定有限观测集合 x 1 , x 2 , . . . , x N \vec{x}_1,\vec{x}_2,...,\vec{x}_N 的情况下,对随机变量 x \vec{x} 的概率分布 p ( x ) p(\vec{x}) 进行建模。假设所有数据点独立同分布,

伯努利分布(bernoulli)

伯努利试验:只有两种结果的单次随机试验,如掷一枚硬币。
伯努利分布(0-1分布、两点分布):进行一次伯努利试验,表示单个二元变量 x { 0 , 1 } x\in \{0,1\} 的分布,使用单个连续变量 μ [ 0 , 1 ] \mu\in[0,1] 表示 x = 1 x=1 的概率。则
p ( x = 1 μ ) = μ , p ( x = 0 μ ) = 1 μ p(x=1|\mu)=\mu, p(x=0|\mu)=1-\mu 。合并这两个式子为下式:
B e r n ( x μ ) = μ x ( 1 μ ) 1 x Bern(x|\mu)=\mu^x(1-\mu)^{1-x}
伯努利分布的均值为 E [ x ] = B e r n ( x μ ) x = μ E[x]=\sum Bern(x|\mu)x=\mu
方差为 v a r [ x ] = E [ ( x E ( x ) 2 ) ] = ( x μ ) 2 B e r n ( x μ ) = ( 1 μ ) 2 μ + μ 2 ( 1 μ ) = μ ( 1 μ ) var[x]=E[(x-E(x)^2)]=\sum(x-\mu)^2Bern(x|\mu)=(1-\mu)^2\mu+\mu^2(1-\mu)=\mu(1-\mu)
伯努利分布是单次伯努利试验的观测结果,二项分布是N次独立重复伯努利试验的结果。伯努利分布关于 μ \mu 的共轭先验是 b e t a beta 分布。

二项分布(binomial)

现在进行了N次伯努利试验,得到观察结果 D = { x 1 , x 2 , . . . , x N } D=\{x_1,x_2,...,x_N\} 。则似然函数为
P ( D μ ) = n = 1 N p ( x n μ ) = n = 1 N μ x n ( 1 μ ) 1 x n P(D|\mu)=\prod_{n=1}^Np(x_n|\mu)=\prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n}
对数似然函数为
l n P ( D μ ) = n = 1 N l n p ( x n μ ) = n = 1 N [ x n l n μ + ( 1 x n ) l n ( 1 μ ) ] lnP(D|\mu)=\sum_{n=1}^Nlnp(x_n|\mu)=\sum_{n=1}^N[x_nln\mu+(1-x_n)ln(1-\mu)]
对数似然函数对 μ \mu 求导得
l n P ( D μ ) μ = n = 1 N x n μ 1 x n 1 μ = n = 1 N x n μ μ ( 1 μ ) \frac{\partial lnP(D|\mu)}{\partial \mu}=\sum_{n=1}^N\frac{x_n}{\mu}-\frac{1-x_n}{1-\mu}=\sum_{n=1}^N\frac{x_n-\mu}{\mu(1-\mu)}
令导数等于0,得
μ M L = 1 N n = 1 N x n \mu_{ML}=\frac{1}{N}\sum_{n=1}^Nx_n
m m 为N次独立重复试验中 x = 1 x=1 出现的次数,则
μ M L = m N \mu_{ML}=\frac{m}{N}
二项分布给出了 N N 次伯努利试验中出现了 m m x = 1 x=1 的概率质量函数:
B i n ( m N , μ ) = ( m N ) μ m ( 1 μ ) N m , m = 1 , 2 , , N Bin(m|N,\mu)=(^N_m)\mu^m(1-\mu)^{N-m}, m=1,2,\ldots,N
其中 ( m N ) = N ! m ! ( N m ) ! (^N_m)=\frac{N!}{m!(N-m)!} 为二项式系数。
二项分布的均值为 E [ x ] = m = 0 N m B i n ( x N , μ ) = N μ E[x]=\sum_{m=0}^NmBin(x|N,\mu)=N\mu
方差为 v a r [ x ] = N μ ( 1 μ ) var[x]=N\mu(1-\mu)
N = 1 N=1 时二项分布变为伯努利分布,当 N N 很大时近似为高斯(?见PRML686页)。二项分布关于 μ \mu 的共轭先验是 b e t a beta 分布。

beta分布

共轭先验:如果后验分布与先验分布属于同类,则先验分布与后验分布称为共轭分布(conjugate distributions),先验分布称为共轭先验(conjugate prior)。
B e t a ( μ a , b ) = Γ ( a + b ) Γ ( a ) + Γ ( b ) μ a 1 ( 1 μ ) b 1 , 0 μ 1 Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1},0\leq \mu \leq 1
其中 Γ \Gamma 是gamma函数, Γ ( x ) = 0 μ x 1 e μ d μ \Gamma(x)=\int_0^\infty \mu^{x-1}e^{-\mu}d\mu ,满足 Γ ( x + 1 ) = x Γ ( x ) \Gamma(x+1)=x\Gamma(x) Γ ( 0 ) = 1 \Gamma(0)=1 。当x为自然数时 Γ ( x ) = ( x 1 ) ! \Gamma(x)=(x-1)!
beta分布满足 0 B e t a ( μ a , b ) d μ = 1 \int_0^\infty Beta(\mu|a,b)d\mu=1
beta分布的均值 E [ μ ] = a a + b E[\mu]=\frac{a}{a+b}
方差 V a r [ μ ] = a b ( a + b ) 2 ( a + b + 1 ) Var[\mu]=\frac{ab}{(a+b)^2(a+b+1)}
后验概率: p ( μ m , l , a , b ) μ a + m 1 ( 1 μ ) b + l 1 p(\mu|m,l,a,b)\propto \mu^{a+m-1}(1-\mu)^{b+l-1} ,其中 l = N m l=N-m
这是另一个beta分布,写成标准形式为:
p ( μ m , l , a , b ) = Γ ( a + m + b + l ) Γ ( a + m ) Γ ( b + l ) μ a + m 1 ( 1 μ ) b + l 1 p(\mu|m,l,a,b) =\frac{\Gamma(a+m+b+l)}{\Gamma(a+m)\Gamma(b+l)} \mu^{a+m-1}(1-\mu)^{b+l-1}
即二项分布的共轭先验beta分布通过 a a + m a \to a+m b b + l b \to b+l 得到后验分布。
如果二项分布的先验分布是beta分布,则其后验分布也为beta分布,两者构成共轭分布。作为先验分布的beta分布的参数 a , b a,b 又称为超参数。使用共轭分布的好处是便于从先验分布计算后验分布。

多项分布(multinomial)

单次试验: p ( x μ ) = k = 1 K μ k x k p(x|\mu)=\prod_{k=1}^K\mu_k^{x_k}
其中 μ k 0 \mu_k \ge 0 k = 1 K μ k = 1 \sum_{k=1}^K \mu_k=1
N次试验: D = { x 1 , , x N } D=\{x_1,\ldots,x_N\}
p ( D x ) = n = 1 N k = 1 K μ k x n k = k = 1 K μ k n x n k = k = 1 K μ k m k p(D|x)=\prod_{n=1}^N \prod_{k=1}^K\mu_k^{x_nk}=\prod_{k=1}^K\mu_k^{\sum_n x_nk}=\prod_{k=1}^K\mu_k^{m_k} ,其中 m k = n x n k m_k=\sum_n x_{nk} ,表示 x k = 1 x_k=1 出现的次数,这也是多项分布的充分统计量。
为了从观察值中估计多项分布的参数,这里构造带限制条件 k = 1 K μ k = 1 \sum_{k=1}^K\mu_k=1 的拉格朗日函数:
L ( μ 1 , , μ K , λ ) = p ( D x ) + λ ( k = 1 K 1 ) L(\mu_1,\ldots,\mu_K,\lambda)=p(D|x)+\lambda (\sum_{k=1}^K-1)
= k = 1 K μ k m k + λ ( k = 1 K 1 ) =\prod_{k=1}^K\mu_k^{m_k}+\lambda (\sum_{k=1}^K-1)
取对数得:
l n L ( μ 1 , , μ K , λ ) = k = 1 K m k l n u k + λ ( k = 1 K 1 ) lnL(\mu_1,\ldots,\mu_K,\lambda)=\sum_{k=1}^K m_klnu_k+\lambda (\sum_{k=1}^K-1)
u k u_k 求导得:
l n L ( μ 1 , , μ K , λ ) μ k = k = 1 K m k μ k + λ \frac{\partial lnL(\mu_1,\ldots,\mu_K,\lambda)}{\partial \mu_k}=\sum_{k=1}^K\frac{m_k}{\mu_k}+\lambda
令上式=0,得:
μ k = m k λ \mu_k=-\frac{m_k}{\lambda}
将上式带入 k = 1 K μ k = 1 \sum_{k=1}^K\mu_k=1 得:
k = 1 K m k λ = k = 1 K m k λ = 1 \sum_{k=1}^K-\frac{m_k}{\lambda}=-\frac{\sum_{k=1}^K m_k}{\lambda}=1
λ = k = 1 K m k = N \lambda=-\sum_{k=1}^K m_k=-N
则参数 μ \mu 的最大似然估计 μ k M L = m k M \mu_k^{ML}=\frac{m_k}{M}
多项分布: M u l t i ( m 1 , m 2 , , m K μ , N ) = ( m 1 m 2 m K N ) k = 1 K μ k m k Multi(m_1,m_2,\ldots,m_K|\mu,N)=(_{m_1m_2\ldots m_K}^N)\prod_{k=1}^K\mu_k^{m_k} ,其中 ( m 1 m 2 m K N ) = ( m 1 ! m 2 ! m K ! N ! ) (_{m_1m_2\ldots m_K}^N)=(^{N!}_{m_1!m_2!\ldots m_K!}) 是多项式参数,满足 k = 1 K m k = N \sum _{k=1}^Km_k=N
多项分布是一种多元离散随机变量的概率分布,是二项分布的扩展。假设重复进行n次独立随机试验,每次实验可能出现的结果有k种,第i种结果出现的概率为 μ i \mu_i ,第 i i 种结果出现的次数为 m i m_i 。如果用随机变量 X = ( X 1 , X 2 , , X K ) X=(X_1,X_2,\ldots,X_K) 表示试验所有可能出现的次数,其中 X i X_i 表示第 i i 种结果出现的次数,那么随机变量 X X 服从多项分布。

Dirichlet分布

若多元连续随机变量 μ = ( μ 1 , , μ K ) \vec\mu=(\mu_1,\ldots,\mu_K) 的概率密度函数为
p ( μ α ) = Γ ( α 0 ) Γ ( α 1 ) Γ ( α K ) k = 1 K μ k α k 1 p(\mu | \alpha)=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\ldots\Gamma(\alpha_K)}\prod_{k=1}^K \mu_k^{\alpha_k-1}
其中 k = 1 K α k = 1 \sum_{k=1}^K\alpha_k=1 α 0 = k = 1 K α k \alpha_0=\sum_{k=1}^K \alpha_k
则称随机变量 μ \mu 服从参数为 α \alpha 的狄利克雷分布,记作 μ D i r ( α ) \mu \thicksim Dir(\alpha)
狄利克雷分布作为多项分布的先验分布时,其后验概率:
p ( μ D , α ) p ( D μ ) p ( μ α ) k = 1 K μ k α k + m k 1 p(\mu|D,\alpha) \propto p(D|\mu)p(\mu|\alpha) \propto \prod_{k=1}^K \mu_k^{\alpha_k+m_k-1}
这是另一个Dirichlet分布,写成标准的形式为:
p ( μ D , α ) = D i r ( μ α + m ) = Γ ( α 0 + N ) Γ ( α 1 + m 1 ) Γ ( α K + m K ) k = 1 K μ k α k + m k 1 p(\mu|D,\alpha)=Dir(\mu |\alpha+m)=\frac{\Gamma(\alpha_0+N)}{\Gamma(\alpha_1+m_1)\ldots\Gamma(\alpha_K+m_K)}\prod_{k=1}^K \mu_k^{\alpha_k+m_k-1}
如果多项分布的先验分布是狄利克雷分布,则其后验分布也为一个狄利克雷分布,两者构成共轭分布。作为先验分布的狄利克雷分布的参数 α \alpha 又称为超参数。狄利克雷后验分布的参数等于狄利克雷先验分布的参数 α = ( α 1 , α 2 , , α K ) \alpha=(\alpha_1,\alpha_2,\ldots,\alpha_K) 加上多项分布的观测计数 m = ( m 1 , m 2 , , m K ) m=(m_1,m_2,\ldots,m_K)

总结

  • 伯努利分布是二元离散随机变量单次试验的结果
  • 二项分布是对二元离散随机变量进行N次独立重复试验的结果
  • 贝塔分布是二项分布的共轭先验
  • 类别分布是多元离散随机变量单次试验的结果
  • 多项分布是二项分布扩展到多元离散随机变量的结果,也是类别分布重复N次的结果
  • 狄利克雷分布是多项分布的共轭先验,也是贝塔分布从二元连续随机变量扩展到多元连续随机变量的结果

转载:https://blog.csdn.net/qq_24831889/article/details/102011296
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场