E r r o r Error Error (误差)的主要有两个来源,分别是 b i a s bias bias (偏差)和 v a r i a n c e variance variance (方差)
三者之间的联系
-
机器学习中的 Bias(偏差)、Error(误差)、Variance(方差)有什么区别和联系? - 修宇亮的回答 - 知乎 https://www.zhihu.com/question/27068705/answer/137487142
-
机器学习中的 Bias(偏差)、Error(误差)、Variance(方差)有什么区别和联系? - 马同学的回答 - 知乎 https://www.zhihu.com/question/27068705/answer/1689740820
计算
为什么同一个靶心,靶上有很多点
- 用同一个model,在不同的训练集中找到的 f ∗ f^∗ f∗ 就是不一样的
- 比如都是一次模型,但给的数据集不同,训练出来的函数就不同,预测值就不同
考虑不同模型的方差和偏差
- 一次模型的方差就比较小的,也就是是比较集中,离散程度较小。而5次模型的方差就比较大,同理散布比较广,离散程度较大。
- 一次模型的偏差比较大,而复杂的5次模型,偏差就比较小。
欠拟合、过拟合
-
偏差比较大造成的误差,这种情况叫做欠拟合
-
方差过大造成的误差,这种情况叫做过拟合
-
欠拟合:此时应该重新设计模型。比如加参数、考虑更高次幂更复杂模型。此时如果加数据训练,意义不大
-
过拟合:简单粗暴的方法:更多的数据
模型选择
- 分析错误原因,主要是要帮助我们进行更好的模型选择
- 在偏差和方差之间就需要一个权衡
想选择的模型,可以平衡偏差和方差产生的错误,使得总错误最小
让训练的模型更好的方法
- 交叉验证
- 交叉验证 就是将训练集再分为两部分,一部分作为训练集,一部分作为验证集。用训练集训练模型,然后再验证集上比较,确实出最好的模型之后(比如模型3),再用全部的训练集训练模型3,然后再用public的测试集进行测试,此时一般得到的错误都是大一些的。
- N-折交叉验证
- 将训练集分成N份,比如分成3份。比如在三份中训练结果Average错误是模型1最好,再用全部训练集训练模型1。
转载:https://blog.csdn.net/weixin_41413511/article/details/115917622
查看评论