从另外一个角度解释AUC_飞道的博客

从另外一个角度解释AUC

2022-12-16 18:25 793人阅读评论(0)

AUC到底代表什么呢，我们从另外一个角度解释AUC，我们先看看一个auc曲线

蓝色曲线下的面积(我的模型的AUC)比红线下的面积(理论随机模型的AUC)大得多，所以我的模型一定更好。

我的模型比随机模型好多少呢?理论随机模型只是对角线，这条对角线下的面积是0.5，我们的模型的AUC是0.75 那么这个0.75的AUC值究竟代表什么?

首先，我们要了解AUC是为一个可以给出概率分数的模型定义的。另外一点是，它是为二元分类任务定义的。但是也可以推广到多类分类问题。

我们要牢记以上这两点，这样才可以继续解释这个问题。

二元分类模型是什么样子的?

简单地说，给定一个数据点，比如x，它可以有许多特征，任何这样的数据点的类只能有两种可能性，要么是1，要么是0。而模型一般都会预测样本为1的概率（0-1之间的一个数值）。

也就是说，它不是直接断言类，而是预测一个类的概率。

我们得到了这个分数，可以把它看做是一个信心的衡量标准。如果你把钱押在两匹马上，x1和x2。你记录下它们的特征，然后通过分类器。第一个赢的概率是0.90第二个赢的概率是0.85。这两匹马都有相当不错的胜率，虽然这两个马的分类都是“win”（因为概率都超过了50%）。但是如果只有在一匹马上下注的钱，那么根据概率你会选择哪匹马呢？

在上面的讨论中，我们忽略了一个假设，这正是直观理解AUC的最基本方面。我如何判断这两匹马都属于这个类别呢?因为他们获胜的概率都很高（>0.5）。但是有多高呢?

为什么把这两匹马都归为类别获胜似乎是一件显而易见的事情?

因为在0到1的范围内(这是任何概率的范围)，大于0.5或0.55的值应该被视为高值。但是，如果你真的要下注，而一匹马的概率是0.60，你会下注吗?我不这么认为!也就是说，你不关心0.5的门槛，你有一个更高的门槛因为你是在用真的钱在冒险，所以你可能会想拒绝0.6的那匹马是明智的。

如果把阈值提高到0.95上面提到的马x1和x2都会被拒绝。但是如果你的门槛是0.88，哪你会选择x2而拒绝x1。

也就是说，当涉及概率评分时分类结果将取决于0-1范围内阈值的选择。

这里我们首先假设有一个上帝模型，它会知道哪匹马会赢，所以它会输出获胜的概率分数，赢的马的概率分数为0.999，其他所有马的概率分数为0.0001。另外一个假设你是一个“傻瓜”，你会相信即使是一匹赢的概率等于0.1的马也会赢。

当我们的模型给出胜出的概率为0.25时，你肯定直接去柜台把钱押在那匹马身上（0.25>0.1）。但是如果你有上帝模型，它会直接输出0.0001,而你的阈值是0.1，因此你也不会在那匹马上下注，所以即使你是“傻瓜”，但上帝模型很好也可能给你正确的答案。也就是说无论你的阈值是多少，如果这个模型都很好，你就不会有损失。

因此，无论你的阈值是0.9还是0.95，上帝模型都会输出获胜马的概率分数为0.999，这将高于做出决定而设置的任何阈值。因此你将永远赢钱，永远不会赔钱。

对于上帝模型来说，True-Positive 率总是1，False-Positive率总是0。上帝模型的ROC曲线可以说是不存在的，因为在绘制它时，你会发现只有一个点，FP等于0，TP等于1。