简介:封神-问题管理 | 交互机器人
1. 项目背景
平台运维过程中,平台用户必然会产生一些问题。在最初运维阶段均是由用户直接与平台运维人员进行沟通,反馈问题或提出一些疑问,如此势必会增加大量的沟通成本,如图1所示。在长期运维过程中会暴露出如下问题。
图1
1.1 用户痛点
①不清楚有问题该去找谁解决或找不到人;
②无法感知问题处理进度;
③沟通成本较高,重要问题无法及时处理;
1.2 运维痛点
①内部信息不能有效共享;
②问题管理多入口,问题跟踪混乱,重复解决相同问题;
③问题处理周期长,交接过程繁琐易遗漏问题;
2. 业务架构
2.1 架构说明
问题管理机器人是用于帮助运维人员与用户建立各种类型的问题处理流程,管理所有的问题并跟踪记录这些问题的处理方法,同时为用户提供一个分配、流转和协作处理问题的工作平台。
问题管理机器人以解决问题为导向,通过对问题入口的统一,用户侧/运维侧业务入口均为钉钉群。钉钉群分为妲己(用户侧)/纣王(运维侧),客户问题在妲己群中提出并流转至纣王群,由运维人员进行接单处理,如图2所示。
图2
2.2 功能特点
- 依赖钉钉机器人集中管理所有的问题,手机、电脑多终端适配;
- 记录所有问题,保证它们被及时处理并最终解决,避免问题被忽略、拖延或遗忘,并不断累积;
- 从问题被录入开始,便一直有人对其负责,直至问题被关闭;
- 记录问题处理过程的全部信息(如处理人、处理时长、处理内容等);
- 减少大量询问、督促、报告等沟通工作;
2.3 功能分组
用户侧群
- 问题录入:规范化录入模板,由用户直接@机器人进行问题录入;
- 问题查询:随时查询问题,获知问题当前处理进度;
- 问题修改:用户可对问题进行指定问题处理人、评价问题、打回问题、加急问题等操作;
- 问题导出:个人维度支持多种导出选项并将问题导出为Excel,方便进行总结汇报;
图3
运维侧群
- 问题查询:多种查询模式,按照自身需求对问题进行查询;
- 问题修改:运维人员可以对问题进行暂挂、标记、变更状态、更新进度、转交问题等操作;
- 问题导出:全局维度支持多种导出选项并将问题导出为Excel,方便进行总结汇报;
- 进度监控:问题处理时长超时提醒,加快问题处理进度;
- 问题播报:定期播报未解决的问题列表,及时发现其中重要问题;
图4
问题大盘
- 数据可视化:按照问题分布平台、产品、处理人员、数量分布等维度生成报表。
- 问题详情:可以搜索问题详情、处理时长等。
图5
3. 问题处理
3.1 处理流程
图6
3.2 流程说明
环节 | 钉钉群 | 角色 | 说明 | 处理状态变更 |
---|---|---|---|---|
1.1 | 客户群 | 用户 | @妲己,机器人自动回复需要下一步操作选项。 | |
1.2 | 客户群 | 用户 | @妲己机器人,选择录入问题,问题录入成功后,自动将问题推送到驻场群,等待接手。 | 待处理 |
1.3 | 客户群 | 妲己(机器人) | @妲己机器人,选择查询问题。 | |
1.4 | 客户群 | 用户 | 机器人自动分配问题ID,并推送问题录入详情,如要修改问题,需关闭重新提交。 | |
1.5 | 客户群 | 用户 | 回复目前未解决问题,点击问题可以查看详情。 | |
1.6 | 客户群 | 用户 | 选择是否修改问题状态,否/临时关闭/已解决。 | |
1.7 | 客户群 | 用户 | 选择“临时关闭”-此问题暂挂,问题不会通过“查询问题未解决”查询到,但可以通过“查询问题全部”中显示,通过@妲己修改问题,重新启动问题。 | 处理中->临时关闭 |
1.8 | 客户群 | 妲己(机器人) | 选择“已解决”-问题关闭,可通过@妲己查询全部问题查看。 | 处理中->已解决 |
1.9 | 客户群 | 用户 | 收到驻场“问题处理更新”消息推送,进行处理状态选择操作。 | |
2.1 | 驻场群 | 运维人员 | 收到用户问题录入推送通知。 | |
2.2 | 驻场群 | 运维人员 | 接手用户录入的问题。 | 待处理->处理中 |
2.3 | 驻场群 | 运维人员 | 选择是否转交问题到其他驻场。 | |
2.4 | 驻场群 | 运维人员 | ①不转交-处理问题。②问题验证未解决,修改“问题处理状态”为“处理中”。 | 已解决待客户验证->处理中 |
2.5 | 驻场群 | 运维人员 | @纣王,修改问题处理进度,修改成功自动推送到客户群并@问题提出人。 | |
2.6 | 驻场群 | 运维人员 | 选择是否“修改问题处理状态”,如已解决更改状态为“已解决待客户验证”。 | 处理中->已解决待客户验证 |
2.7 | 驻场群 | 运维人员 | @纣王转交问题ID。支持主动转交接手人和主动转交其他运维人员。 | |
2.8 | 驻场群 | 运维人员 | 播报-每天10点、14点、18点、20点自动播报问题处理情况(累计处理情况、今日解决情况)。超时-①每10分钟推送提醒未接手问题,②从问题录入成功开始4h/8h/12h/24h/48h推送超时提醒并@TAM。 |
4. 结语
本期为大家介绍了问题管理机器人的设计初衷及目前达到的效果。目前问题管理机器人已服务于数个混合云项目,项目问题跟踪效率明显提升,用户体验提升,大幅降低问题处理过程产生的沟通成本。
接下来会陆续给大家介绍封神的其他模块,包括运维大盘、报表分析、时序数据库等相关知识,敬请期待!
参考文档
[1] 钉钉机器人:https://developers.dingtalk.com/document/tutorial
相关内容
[1] 封神-运维大脑 | 日志检测工具
[2] 封神-核心功能 | 钉钉告警+数据网关
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。
原文链接:https://developer.aliyun.com/article/784435?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
转载:https://blog.csdn.net/alitech2017/article/details/117513817