Software Testing - 如何保障机器学习模型质量_飞道的博客

Software Testing - 如何保障机器学习模型质量

2021-06-01 06:50 729人阅读评论(0)

分享一个大牛的人工智能教程。零基础！通俗易懂！风趣幽默！希望你也加入到人工智能的队伍中来！请点击http://www.captainbed.net

近年来，机器学习模型算法在越来越多的工业实践中落地。在滴滴，大量线上策略由常规算法迁移到机器学习模型算法。如何搭建机器学习模型算法的质量保障体系成为质量团队急需解决的问题之一。本文整体介绍了机器学习模型算法的质量保障方案，并进一步给出了滴滴质量团队在机器学习模型效果评测方面的部分探索实践。

1. 背景

近年来，随着技术的发展，机器学习模型算法在越来越多的工业实践中落地，在以深度学习为基础的语音智能、图像智能方面表现尤为突出。在我司，大量线上策略由规则算法迁移到机器学习模型算法且在多个方向的实践中取得了不错的成绩，如：拼车排队预估模型、司机调度控badcase模型、取消率模型等。机器学习与传统软件不同，后者的行为基于不同的输入预先确定，运算逻辑是可解释的。在给定输入下，预期输出结果是可以前置确定的。而在机器学习模型尤其是分类模型中，模型基于大量数据训练，输入的是数据及相应的label，训练过程对人黑盒，人无法预先前置的确定其结果。总体来说模型测试的难点体现在如下几个方面：

（1）样本获取，部分模型样本相对稀疏如安全分单模型

（2）数据质量，主要体现在模型训练及使用阶段，其所涉及的数据体量一般都很大，对数据质量的把控无法做到较细粒度

（3）特征质量，特征有效性&特征关联性度量

（4）模型效果验证，业界公司质量团队主要通过一些大的业务指标来评测，在搜索推荐领域、金融风控等领域有较好的落地。但业务指标通常是对模型效果“面”的度量。在助力模型找出迭代方向上相对乏力。

2. 模型质量保障方案

一定程度上，数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限的手段。在对模型测试之前，我们可能会有如下一些疑问

（1）模型能力达到什么样的标准可以准出？

（2）怎样的测试数据能很好的度量出模型的能力？

（3）如何评估特征的质量？

（4）如何更好的从用户视角去对线上模型效果进行评测？

模型从训练到线上应用的基本流程如下：

从上图可以看出，机器学习模型的质量保障主要落在如下几个方面：数据质量、特征质量、模型算法质量及模型效果评测。落到模型接口层还需要考虑接口的性能、稳定性。此外也需要考虑线上模型的安全性，尤其是无监督的深度神经网络之类的模型。如：攻击者通过精心设计的样本来破坏模型的训练数据或通过引入噪声、干扰来“愚弄”模型，从而最终使模型做出错误的判断。

进一步细化，得到如下模型质量保障总方案

3. 我司模型质量保障现状

我司在机器学习模型质量保障方向上的落地主要体现在如下几个方向：数据质量、接口质量、模型监控、模型效果评测等4个方向。其中模型监控的建设在各质量团队内广泛应用，是当前主要的兜底措施。模型算法质量当前主要由策略同学自行测算，而用户视角的特征有效性、特征关联性等特征质量度量尚有较大提升空间。

当前突出的问题是：模型从训练到上线所依赖的基础服务分散对口在各质量团队，相互之间断层没有形成一个体系化的模型质量保障平台。目前的一个利好消息是：原来分散在各团队的机器学习模型训练部署平台目前正在逐渐收敛到统一的策略中台，1.0版本已经上线。因此，接下来机器学习模型质量保障的重心将会集中在搭建体系化的模型质量保障平台上，并在特征质量、模型效果评测上进一步深耕，抽象出通用评测能力落地平台化。贴一张图，来对当前我司在机器学习模型质量保障方面的现状做个总结：

4. 模型效果评测实践

▍ 4.1 背景

我们此前一直深耕在线上策略评测及badcase挖掘上，故对于策略线上效果的评测积累了较为丰富的经验。一次较为偶然的机会开始对拼车ETD模型做效果评测。实际演进的路线为：线上 → 离线，线上主要从城市+业务线+场景多维度做模型效果应用指标层评估，从而帮助策略同学更直观的找出其主要偏差场景，其次我们对模型的业务链路进行了建模，将真实样本数据映射到相应的节点上，从而度量出关键偏差路径。最后我们复用了此前积累的badcase下钻能力，对模型业务链路上关键偏差节点进行了根因下钻，从而找出了部分对模型效果有影响的一些新特征。

▍ 4.2 方案 及落地

具体方案贴图如下：

其中模型偏差关键路径核心算法如下：

▍ 4.3 模型效果评测的价值点

总体来说，在机器学习模型效果评测方面，我们的价值点主要体现在如下几个方面：

（1）场景化模型效果度量

（2）偏差关键路径寻找

（3）模型潜在新特征的挖掘

（4）依赖对模型效果的负向影响度量

5. 总结

模型质量保障在国内外各大公司中，整体处于摸索建设阶段。主要原因为：相对于传统质量保障其难度大、技术要求高，模型应用背景差异大。我司在整体模型质量保障方面，缺少体系化的建设，模型特征度量这一环无啥实际落地。得益于长期以来，我们在线上策略评测和badcase挖掘方面的积累，在模型效果层面我们相对业界扎的更深，走在了业界前列，所做的工作对实际模型效果的提升起到了很好的辅助作用，但仍然需要进一步思考把对模型评测的通用能力抽象出来，落地平台化，从而能更轻量的辅助策略团队找到模型效果提升的切入点。

转载：https://blog.csdn.net/chimomo/article/details/117405938

查看评论

飞道的博客

飞道的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章