【机器学习】交叉熵做损失函数 BCE loss_小言_互联网的博客

【机器学习】交叉熵做损失函数 BCE loss

2021-05-19 11:52 951人阅读评论(0)

参考文章:

为什么用交叉熵做损失函数

 详解机器学习中的熵、条件熵、相对熵和交叉熵

这边做摘抄

1.信息熵

信息熵是消除不确定性所需信息量的度量。（多看几遍这句话）

信息熵就是信息的不确定程度，信息熵越小，信息越确定。

(因为事件都有个概率分布，这里我们只考虑离散分布)

举个列子，比如说：
今年中国取消高考了，那我们就要去查证了，

这样就需要很多信息量(去查证)；反之如果说今年正常高考，大家回想：这很正常啊，不怎么需要查证，这样需要的信息量就很小。

从这里我们可以学到：根据信息的真实分布，我们能够找到一个最优策略，以最小的代价消除系统的不确定性，即最小信息熵。

简而言之概率越低，需要越多的信息去验证
所以验证真假需要的信息量和概率成反比。我们需要用数学表达式把它描述出来，推导：

设一个离散的随机变量为 x，已知信息的量度依赖于概率分布 p(x)，因此我们想要寻找一个函数I(x)，它是概率 p(x)的单调函数，表示信息量。

若有两个不相关的事件x和y，则观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和:
I(x,y) = I(x)+I(y)

而两个事件是独立不相关的，所以
p(x,y) = p(x)p(y)

易得
I(x)与p(x)之间有对数关系
log(p(x)p(y)) = log(p(x))+log(p(y))
即I(x) = -log(p(x))
其中负号是用来保证信息量是正数或者零

I(x) 也被称为随机变量 x 的自信息 (self-information)，描述的是随机变量的某个事件发生所带来的信息量。图像如图：

假设一个发送者想传送一个随机变量的值给接收者。那么在这个过程中，他们传输的平均信息量可以通过求 I(x)=−logp(x) 关于概率分布 p(x) 的期望得到，其中n 为事件的所有可能性即：

H(X) 就被称为随机变量 x 的熵,它是表示随机变量不确定的度量，是对所有可能发生的事件产生的信息量的期望