统计信号处理中的似然函数与最大似然估计_小言_互联网的博客

统计信号处理中的似然函数与最大似然估计

2020-03-25 18:29 1020人阅读评论(0)

假设条件

1、参数为标量形式， $θ$
2、加性模型（ $x [n] = s [n; θ] + w [n], n = 0, 1, \dots N - 1$ ）：观测数据 $x [n]$ 、信号模型 $s [n; θ]$ 、噪声 $w [n]$ ，这里的观测数据 $x [n]$ 并不是代表一个具体的实现，而是一个随机变量。
3、噪声的概率密度 $encoding="application/x-tex">p_w (w[n])</annotation></semantics></math>$ 。这个概率密度的意思是 $w [n]$ 取不同值的概率密度是多少。这里的 $encoding="application/x-tex">p_w (∙)</annotation></semantics></math>$ 是概率密度的形状，比如说如果是高斯分布，这个形状就是钟形
4、本文中没有严格区分概率分布列和概率密度函数之间的区别

概述

如果我们把待估计参数 $θ$ 看作是确定性的未知常数，有一特定真值，并不具有随机性。说 $encoding="application/x-tex">θ=θ_0</annotation></semantics></math>$ 的可能性是不正确的，这里只能做出判断，即等式成立或等式不成立。
那么我们通常说的 $encoding="application/x-tex">θ=θ_0</annotation></semantics></math>$ 的可能性的意义是什么呢？这涉及到“似然”的概念。这个可能性就是“似然”，是指参数 $encoding="application/x-tex">θ=θ_0</annotation></semantics></math>$ 时，观测数据x可能出现的概率。比如说，高斯电平的估计（ $x [n] = A + w [n]$ ）中，噪声服从零均值高斯分布。比如参数 $A$ 的真值为 $2$ （这个 $2$ 是我们不知道的），而且我们测量得到的数据 $x [n]$ 在 $2$ 的附近比较集中，那么我们此时会说 $A = 2$ 的可能性很大，实际意思是如果 $A = 2$ 时测量数据，那么得到现在手上的数据的可能性很大。
自然而然，我们想知道让观测数据 $x$ 可能出现的概率最大的参数值是多少。这样的思想指导下的估计就是最大似然估计。
最大似然估计就是要找到这样一个估计，基于已知的观测数据， $θ$ 取该估计值时可使这组观测数据最可能出现。通俗一点说，令取得手上数据 $x [n]$ 的可能性取最大，看看此时的参数 $θ$ 应该取什么值。翻译成数学语言就是使得似然函数取得最大值的参数值 $accent="true"><mi>θ</mi><mo>^</mo></mover></mrow><annotation encoding="application/x-tex">\hat{θ}</annotation></semantics></math>$ ，作为对未知参数θ的估计。这里涉及到了似然函数，似然函数与观测的概率密度函数有关系，所以我们先看一下观测的概率密度函数。

观测的概率密度函数

当被估计参数 $θ$ 为确定性的未知常数时，观测数据 $x [n]$ 呈现的随机特性是由噪声 $w [n]$ 带来的，每个单次观测的概率密度，如果抛去确定性的部分，就和剩余的噪声项的概率密度是一样的。也就是说 $x [n] - s [n; θ]$ ，呈现出和 $w [n]$ 一样的随机特性
$encoding="application/x-tex">p(x[n]-s[n;θ])=p_w (x[n]-s[n;θ])</annotation></semantics></math>$
$p (x [n] - s [n; θ])$ 这样的函数，可以统一写为 $p (x [n]; θ)$ ，这就是观测的概率密度函数。实际上，是用观测数据和信号模型表示噪声，进而体现随机性。
我们可以从两方面来看这个函数，一方面，固定 $θ$ ，则 $p (x [n]; θ)$ 是观测的概率密度函数；另一方面，固定 $x [n]$ ，则是不同 $θ$ 取值下，观测数据x[n]可能出现的概率。还是用高斯电平的估计（ $x [n] = A + w [n]$ ）来举例，参数A的每个不同的值对应一个观测数据的概率密度函数 $p (x [n]; A)$ ，如 $A = 2$ 时， $encoding="application/x-tex">x[n]\sim N(2,σ^2 )</annotation></semantics></math>$ ， $A = 3$ 时， $encoding="application/x-tex">x[n]\sim N(3,σ^2 )</annotation></semantics></math>$ 。那么，当 $A$ 固定时，比如 $A = 2$ ，则 $p (x [n]; A) = p (x [n]; 2)$ ，它的图像就在 $x = 2$ 附近呈现左右对称的钟形高斯分布的随机特性；如果固定 $x [n] = 2$ ，则 $p (x [n]; A) = p (x [n] = 2; A)$ ，它的自变量为 $A$ ，因变量是不同的概率密度函数 $p (x [n]; A)$ 中， $x [n] = 2$ 时的概率 $p (x [n] = 2; A)$ ，这也就是单次观测的似然函数。

似然函数

通过之前讨论的“似然”，我们可以理解什么叫做似然函数。似然函数是在参数 $θ$ 的函数，反映了不同的 $θ$ 取值下，取得当前这组观测数据的概率。那么，似然函数和观测数据的概率密度函数有什么关系呢？
首先，似然函数表示的是取得当前这组观测数据的概率，那么一组数据出现的概率我们用什么来描述呢？离散情况下，我们用联合概率分布列来描述
$encoding="application/x-tex">p_X (x[0],x[1],…,x[N-1])</annotation></semantics></math>$
其次，这个联合概率分布列是受参数θ影响的，从而改写成
$encoding="application/x-tex">p_X (x[0],x[1],…,x[N-1];θ)</annotation></semantics></math>$
这样，我们得到了似然函数。总结一下，它是不同θ取值下，观测数据的联合概率分布列。为了简化数学计算，我们再通过加上独立观测的条件，就可以将似然函数与单次观测的概率密度函数联系起来，将联合分布列写成单次观测概率密度乘积的形式
$encoding="application/x-tex">p_X (x[0],x[1],…,x[N-1];θ)=\prod_{n=0}^{N-1}p_X (x[n];θ)</annotation></semantics></math>$
如此，我们得到了似然函数的最终形式
$encoding="application/x-tex">\prod_{n=0}^{N-1}p_X (x[n];θ)</annotation></semantics></math>$
为了简化计算（将乘除化为加减），通常也会对似然函数取对数，得到对数似然函数
$encoding="application/x-tex">\sum_{n=0}^{N-1} \ln{⁡p_X (x[n];θ)}</annotation></semantics></math>$

最大似然估计

之前已经讨论了，最大似然估计是使得似然函数取得最大值的参数值 $accent="true"><mi>θ</mi><mo>^</mo></mover></mrow><annotation encoding="application/x-tex">\hat{θ}</annotation></semantics></math>$ ，作为对未知参数 $θ$ 的估计。函数取得最大值是一个函数极値问题，一般的处理方法是如果可以写出似然函数的解析表达式，可以用似然函数对参数 $θ$ 求一阶导数，令一阶导数为零的参数值 $accent="true"><mi>θ</mi><mo>^</mo></mover></mrow><annotation encoding="application/x-tex">\hat{θ}</annotation></semantics></math>$ 作为参数的估计。如果这种方法行不通，我们可以画出似然函数的图像，从而找到最大值，进而确定最大似然估计。
通过这种方法我们能够得到最大似然估计，那么最大似然估计的性能怎么样呢？它有着什么样的优点和弊端呢？

进一步完善：

1、最大似然估计的性质
2、矢量参数情况

问题：

如何得到独立的观测？
加性模型代表什么意思？有没有其他的模型?

参考文献

[1] Kay S , 罗鹏飞. 统计信号处理基础[M]. 电子工业出版社, 2014.
[2] Tsitsiklis D B J N . 概率导论(第2版)(图灵数学统计学丛书40)[M]. 人民邮电出版社, 2009.

转载：https://blog.csdn.net/fjtth0034/article/details/104924407

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章