为什么要将样本方差除以 N-1?
介绍
在本文中,我们将推导出用于计算正态分布数据的平均值和方差的众所周知的公式,以便回答文章标题中的问题。但是,对于那些对这个问题的”为什么”不感兴趣而只对”何时”感兴趣的读者来说,答案很简单:
如果必须同时估计数据的均值和方差(通常为这种情况),则除以 N-1,使得方差得到如下:
另一方面,如果已知真实总体的均值使得只需要估计方差,则除以 N,使得方差得到如下:
前者是您通常需要的,而后者的一个例子是对白高斯噪声扩散的估计。由于已知白高斯噪声的平均值为零,因此在这种情况下只需要估计方差。
图 1.高斯密度函数。对于正态分布数据,68% 的样本落在由平均值加上和减去标准差定义的区间内。
通常,我们无法访问数据的完整总体。在上面的示例中,我们通常可以使用一些观测值,但我们无法访问定义图的 x 轴的所有可能的观测值。例如,我们可能有以下一组观察结果:
观察值标识 |
观测值 |
|
观察1 |
10 |
|
观察2 |
12 |
|
观察 3 |
7 |
|
观察4 |
5 |
|
意见5 |
11 |
如果我们现在通过总结所有值并除以观测值的数量来计算经验平均值,则我们有:
(1)
通常,我们假设经验平均值接近分布的实际未知平均值,从而假设观测到的数据是从具有均值
的高斯分布中抽样的。在此示例中,分布的实际均值为 10,因此经验均值确实接近实际均值。
数据的方差计算如下:
(2)
同样,我们通常假设这种经验方差接近基础分布的实际和未知方差。在此示例中,实际方差为 9,因此经验方差确实接近实际方差。
现在的问题是,为什么用于计算经验平均值和经验方差的公式是正确的。实际上,另一个经常用于计算方差的公式定义如下:
(3)
等式( 2 ) 和( 3 ) 之间的唯一区别是前者除以N-1,而后者除以N。这两个公式实际上都是正确的,但何时使用哪一个取决于情况。
在以下各节中,我们将完全推导出最能近似正态分布的未知方差和均值的公式,给定来自该分布的几个样本。我们将展示在哪些情况下将方差除以 N,在哪些情况下用 N-1 进行归一化。
最小方差,无偏估计器
要确定估计器是否是”好”估计器,我们首先需要定义”好”估计器到底是什么。估计器的优劣取决于两个度量,即其偏差和方差(是的,我们将讨论均值估计器的方差和方差估计器的方差)。本节将简要讨论这两种措施。
参数偏差
想象一下,我们可以获得整个种群的不同(不相交)子集。与前面的示例类似,想象一下,除了表 1 中的数据之外,我们还有一个表 2 和一个表 3,它们具有不同的观测值。然后,一个好的均值估计器将是一个平均等于实际均值的估计器。尽管我们可以接受这样一种观点,即来自一个数据子集的经验平均值不等于实际平均值,如我们的示例所示,一个好的估计器应该确保来自所有子集的估计平均值的平均值等于实际平均值。此约束在数学上表示,指出估计器的预期值应等于实际参数值:
(7)
如果上述条件成立,则估计器称为”无偏估计器”。如果条件不成立,则估计器被称为”偏倚”,因为平均而言,它们将低估或高估参数的真实值。
参数方差
无偏估计器保证平均而言,它们产生的估计值等于实际参数。但是,这并不意味着每个估计值都是一个好的估计值。例如,如果实际均值为 10,则无偏估计器可以将一个总体子集的均值估计为 50,在另一个子集上估计为 -30。那么估计值的预期值确实会是 10,这等于实际参数,但估计器的质量显然也取决于每个估计值的散布。生成总体的五个不同子集的估计值(10,15,5,12,8)的估计器是无偏的,就像产生估计值(50,-30,100,-90,10)的估计器一样。但是,来自第一个估计器的所有估计值都比来自第二个估计器的估计值更接近真实值。
因此,一个好的估计器不仅具有低偏差,而且还会产生低方差。此方差表示为估计器的均方误差:
因此,一个好的估计器是一个低偏差、低方差估计器。如果存在这样的估计器,则最优估计器是没有偏差且方差低于任何其他可能的估计器的估计器。这样的估计器称为最小方差、无偏 (MVU) 估计器。在下一节中,我们将推导出高斯分布的均值和方差估计器的解析表达式。我们将证明,正态分布方差的MVU 估计器要求我们在某些假设N下除以方差,如果这些假设不成立,则要求我们除以 N-1。
最大似然估计
和
但是,最大似然法不能保证提供无偏估计器。另一方面,如果获得的估计器是无偏的,则最大似然法确实保证估计器也是最小方差,从而保证MVU。因此,我们需要检查等式( 10 ) 中的估计器是否无偏。
绩效评估
总结
MindSpore官方资料
GitHub : https://github.com/mindspore-ai/mindspore
Gitee : https : //gitee.com/mindspore/mindspore
官方QQ群 : 486831414
转载:https://blog.csdn.net/Kenji_Shinji/article/details/125330299