微盟耗时 145 个小时弥补删库，血亏 1.5 亿元！_飞道的博客

2020-04-14 16:41 617人阅读评论(0)

作者 | 马超

责编 | 胡巍巍

出品 | CSDN（ID：CSDNnews）

3月1日晚间，微盟发布公告称，截止到3月1日晚8点，在腾讯云团队协助下，数据已经全面找回。

微盟表示，由于此次数据量规模非常大，为了保证数据一致性和线上体验，将于3月2日凌晨2点进行系统上线演练，将于3月3日上午9点数据恢复正式上线。

针对事故给商家造成的影响，微盟表示，管理层深感自责和愧疚，准备了1.5亿元人民币赔付拨备金，其中公司承担1亿元，管理层承担5000万元。

还不知道事情经过的小伙伴，可以戳下图。

事情经过，图源微盟官方公众号

从事故经过中可以看到从2月23日删库中断事件，到3月1日的数据全面找回，再到3月3日的数据恢复整个事件持续了一周多的时间。

这对于微盟这样体量的电商来说损失无疑是巨大的，股市市值的蒸发是一方面。更重要的是科技公司从本质上是经营数据的公司，而数据丢失事件与银行金库被盗事件从某种程度来说是同样性质的事件，都会对当事公司的声誉造成极大的影响。

做为一名多年战斗在银行业的IT老兵，笔者就以这个事件为切入点，来和大家聊聊大数据时代，灾备建设与数据安全方面的新趋势与新动向，提一些建设性意见。

数据治理之伤

其实数据安全的保护必须要以数据治理为前提，我们很少听说微信、支付宝宕机，这背后不是靠高可用性来保证，而是靠整个服务体系的治理水平保证的。

我们使用分布式架构对IOE进行替代，不是利用WPS替代Office的过程，而是根据数据的特点，找到能够适应大数据时代的方法论。按照笔者的观察，目前从治理角度，可以将数据分为以下三种类型：

应用数据

也就是交易类应用所产生的数据。为了满足业务需要构建业务IT系统，随着IT业务系统的不断运行，大量应用数据就产生了，这些数据经过ETL加工进入数据仓库，进行再处理，供业务应用。这些数据都是单一的关系型数据，数据量级是GB的。

用户行为数据

随着互联网和电商的快速发展，大量人的操作行为和使用行为产生的数据，像谷歌、脸书等大数据互联公司，都记录人的形成产生的数据。上网行为，浏览行为，购买行为，评论行为，刷微博，做抖音等都可以产生大量数据。这些数据不再是单一的结构化数据，出现了大量文档、音频和视频数据，数据量级是TB级的。

硬件日志数据

进入万物互联的时代之后，大量机器传感器和IoT设备都会产生大量数据。这些设备7*24小时产生数据，数据格式也是多种多样，有的是日志数据，有的是时序数据，有的是网格数据等等，数据量级是PB的。

从数据备份角度上讲，上述数据的备份需求是不同的，如果混到一起那么快速恢复业务根本无从谈起。

而从数据使用的角度上讲，随着海量的行为及日志类数据的出现，数据中心的架构将发生变化，整合TP与AP的HTAP时代既将到来。

比如目前一般银行的系统都是以Oracle数据库来进行交易操作，完成了整个流程性应用的内容，并产生应用数据数据，交易结束了，数据的生命周期也结束了。

要想把数据价值做二次表达，要每天做ETL，跑批作业，存到数据仓库中，然后在数据仓库中建模、挖掘、数据集市、ODS，一层一层地构建起数据仓库报表。

如果还回答不出更细节、隐含的问题，比如非线性问题，还要把数据复制到SAS中做机器学习，再做统计的指标体系，去做进一步的挖掘。

数据要在这里搬动三次，复制三份冗余，还要管理数据一致性，每天数据中心运维的大量工作在做数据搬家。

现在，数据中心也开始要做一个融合性的计算框架。比如，现在AI要做Online训练，淘宝推荐引擎，滴滴打车的路径动态规划都在做即时数据，数据闭环是数据基础设施的一个很大的要求。BI和AI操作都要Online化，也就是AP操作要变成TP场景。

可以说上述三类数据在流转的过程中，相互之间是有比对关系的，如果数据治理的水平够高，理清了各类数据彼此之间的一致性比对关系，那么即使出现了删库的操作也不会造成如此长时间的中断，不过从笔者目前掌握的情况来看，数据治理方面的工作并没有引起业界足够的重视。

灾备建设之伤

在讲灾备体系之前，我们先来明确评价业务连续性的两个重要指标：

RTO（Recovery Time Objective）

RTO是指灾难发生后，从IT系统崩溃导致业务停顿开始，到IT系统完全恢复，业务恢复运营为止的这段时间长度。RTO用于衡量业务从停顿到恢复的所需时间。

RPO（Recovery Point Objective）

IT系统崩溃后，可以恢复到某个历史时间点，从历史时间点到灾难发生的时间点的这段时间长度就称为RPO。RPO用于衡量业务恢复所允许丢失的数据量。

简单来讲RTO就是灾难发生后业务中断的时间，RPO就是灾难发生后数据丢失的数量。比如这次微盟的删库事件业务历时七八天完全恢复，而数据全部找回，那么其RTO就是七八天，RPO就是0。

一般来说目前比较流行的灾备体系是至少建设三个数据中心，其中：

主中心：正常情况下全面提供业务服务。
同城中心：一般使用同步复制的方式来向同城灾备中心传输数据，保证同城中心数据复本为最新，随时可以接管业务，以保证RTO的指标。但是同城中心无法应对此类删库事件。
异地中心：一般使用延时异步复制（延时时间一般为30分钟左右）的方式向异地灾备中心传输数据，其中同步复制的好处是一旦主中心被人工破坏，那么不会立刻涉及异地中心以保证RPO的指标。