十个原因可能导致训练集明明很高，验证集，测试集 validation accuracy stuck 准确率很低损失不减小

2021-02-05 18:25 544人阅读评论(0)

损失函数一直在下降，为什么识别率上不去。

----------------2021-01-08更新-----------------------

0.学习率设置太高，一个epoch直接收敛，所以损失不会下降

比如学利率一开始设置为1，因为下降太快，那么很有可能在一个epoch旧完全收敛。所以看到的validation数值并不下降，第一个epoch就已经处于谷底了。所以如果使用的是系统默认的学习率，最好检查下默认值是什么。

-------------------旧---------------------------------------

1.最常见的原因：过拟合

过拟合值得单独开个章节。主要包括

1.数据量小，网络复杂

2.learning rate 比较高，又没有设置任何防止过拟合的机制

解决方法主要包括

1.简化模型，利用现有深度学习手段增加数据（翻转，平移，随机裁剪，imgaug）

2.利用 dropout层

3.利用正则化

2.你犯了错误：没有把数据规格化

图片的话，img/255是肯定的

3.你犯了错误：没有在分验证集之前打乱数据

因为validation_split操作不会为你shuffle数据，所以如果你的数据前一半标签全是1 ，后一半全是0，validation=0.5。恭喜你，你压根也分不对，你的validation准确率会一直为0.因为你拿所有的正样本训练，却想判断负样本。

4.你犯了错误，数据和标签没有对上

有可能再读取自定义的数据库的时候出现问题，导致数据与标注不对应。比如第一张图片用第十张的标注

5.你的训练数据太少，validation数据太多，类别也太多

比如4000张训练，1000张validation，300类，这显然就是不合理的。

遇到这种情况，建议：

1.使用别的大的数据集预训练

2.使用DATA augment

3.可以考虑迁移学习

6.最好使用预训练的权重

大多数流行的backone比如resnet都有再imagenet数据集上与训练过，那么使用这种权重，比起随即重新训练，显然要可靠不少注意调整学习率。

7.网络结构有问题

可以通过使用现在流行的网络（resnet，unet等）替入你的代码，如果结果没有问题，你的结果有问题那么肯定就是你网络结构出问题了。那么可以通过逐层注释掉排查究竟哪里出了问题

7.1 网络最后一层没有使用正确的激活函数

比如多类的应该使用softmax

8.relu后面是softmax

有一些说法是relu由于对于很大的数值直接复制，所以会对softmax产生不好的影响，从而输出不好的结果。所以可以使用tanh代替relu。

9.batch normalization需要batch size至少16张

https://mp.csdn.net/postedit/89456400

由于做dense prediction图片通常比较大。所以一个batch一般都只有1-2张图片，不建议使用 BN。

因为BN一般是16张图片以上一起跑。所以吧，如果是BN，那么请用多GPU，16以上的batch size。s

另外keras TF1.x可能会出问题，https://github.com/keras-team/keras/pull/9965

10.你犯了错误，你可能设置了一些参数是不可训练的

在训练语句之前，检查以下你的trainable参数，是否设置了一些参数是不可训练的。这还可能导致你的输出只能是一个值，比如永远预测为标注0，因为你只有一点点的参数，而这并不是一个模型（比如只有100个参数是可以训练的，太简单了，无法模拟）。

11.附送一个调参论文

Bag of Tricks for Image Classification with Convolutional Neural Networks

https://arxiv.org/abs/1812.01187

NLP 独有错误

最傻的错误，比如train和val使用了不一样的字典，那效果能好才怪了。。。。

转载：https://blog.csdn.net/u013249853/article/details/89393982

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

十个原因可能导致训练集明明很高，验证集，测试集 validation accuracy stuck 准确率很低损失不减小

0.学习率设置太高，一个epoch直接收敛，所以损失不会下降

1.最常见的原因：过拟合

2.你犯了错误：没有把数据规格化

3.你犯了错误：没有在分验证集之前打乱数据

4.你犯了错误，数据和标签没有对上

5.你的训练数据太少，validation数据太多，类别也太多

6.最好使用预训练的权重

7.网络结构有问题

7.1 网络最后一层没有使用正确的激活函数

8.relu后面是softmax

9.batch normalization需要batch size至少16张

10.你犯了错误，你可能设置了一些参数是不可训练的

11.附送一个调参论文

NLP 独有错误

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

十个原因可能导致 训练集明明很高，验证集，测试集 validation accuracy stuck 准确率 很低 损失不减小

0.学习率设置太高，一个epoch直接收敛，所以损失不会下降

1.最常见的原因：过拟合

2.你犯了错误：没有把数据规格化

3.你犯了错误：没有在分验证集之前打乱数据

4.你犯了错误，数据和标签没有对上

5.你的训练数据太少，validation数据太多，类别也太多

6.最好使用预训练的权重

7.网络结构有问题

7.1 网络最后一层没有使用正确的激活函数

8.relu后面是softmax

9.batch normalization需要batch size至少16张

10.你犯了错误，你可能设置了一些参数是不可训练的

11.附送一个调参论文

NLP 独有错误

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场

十个原因可能导致训练集明明很高，验证集，测试集 validation accuracy stuck 准确率很低损失不减小