2017年5月,英国《经济学人》杂志发表文章,将数据比作“未来的石油”。自那以后,数据是“21世纪最宝贵的资源”这种观点便传播开来。
石油在进入消费领域之前,往往要经历开采、储运、炼化等过程。同样,数据也要经过一系列的采集、加工、萃取,才能为业务赋能。
那么,“数据原油”该怎么加工?谁来加工呢?
作为国内领先的数据智能践行者,袋鼠云依托最新的数据采集、加工处理、数据挖掘、机器学习,深度学习等技术,并结合自身多年数据应用经验,打造了企业级—站式数据中台PaaS——数栈DTinsight,致力于构建“全”、“统”、“通”的大数据体系,构建全域数据共享能力中心,助力企业数字化转型,提升企业竞争力!
一、产品功能
数栈DTinsight架构图
数栈覆盖了建设数据中心过程中所需要的各种工具,完整覆盖离线计算、实时计算应用,满足开发人员从数据同步、数据分析、数据挖掘、数据质量、数据地图、数据模型、数据API、即席分析等的各层次应用,解放开发人员的生产力,极大的缩短数据价值的萃取过程,提高企业提炼数据价值的能力。
(一)数据开发平台
数据开发平台是一款高效的大数据离线/实时开发工具,集多类型任务开发、任务调度、运维管理于一体,帮助企业提升开发效率,快速完成数据中台搭建。
离线计算:一站式大数据开发平台,高效完成数据中台搭建。
流计算:基于SQL的流计算开发平台,助力企业实时化、智能化升级。
数据同步:基于自研FlinkX的多源、双向数据写入写出,覆盖多应用场景。数据同步:支持对10+种存储系统进行数据读/写
(二)数据资产平台
构建企业资产中心,实现数据资产的的规范化和可视化管理,让企业对数据“可见”、“可管”、”可知”。
数据地图:元数据管理与血缘查看,让数据全生命周期可管可控。
数据质量:多过程和结果数据校验,及时发现数据质量问题,为数据准确性保价护航。
数据资源目录:主题/部门/应用多维管理数据资产,并提供数据共享交换服务。
(三)数据科学平台
可视化建模与交互式代码编写于一体的机器学习作业探索平台,可实现数据接入、算法研发、模型训练、模型部署、任务运维等开发场景,帮助企业构建算法服务能力,提供高效、安全、稳定的算法运行环境。
兼容主流机器学习框架,支持丰富且高性能算法组件,满足多维计算场景。
可视化实验建模+交互式Notebook,双开发模式完成机器学习作业探索。
支持模型周期性训练,并进行快速部署和对外提供服务。
(四)数据服务引擎
集分析引擎、数据API、可视化、BI工具等多服务引擎,为多维数据应用场景提供数据共享服务,提高数据开放与共享效率,快速释放数据价值。
数据可视化:高效数据大屏搭建工具,颜值与实力并备,让数据价值看的见
分析引擎:海量数据秒级查询,进行数据自由探索
数据API:零代码快速生成API,全面构建数据业务化能力
二、亮点优势
1. 一站式产品体系,覆盖数据全链路开发流程
平台覆盖全链路的数据采集、数据分析、数据挖掘、任务运维、数据质量、数据地图、数据模型、数据API开放等场景,充分满足企业建设数据中台过程中的多样复杂需求。
2. 兼容开放,与市面多种计算引擎兼容
兼容市面主流大数据平台,例如:Hadoop、Cloudera、Hortonworks、FusionInsight、GreenPlum等,或者基于数栈自有计算引擎,可以快速完成数
据平台从0到1的搭建。
3.开箱即用,从入门到熟练开发仅需3天时间
基于WEB的图形化操作界面,快速上手,屏蔽底层复杂的基础组件,极大降低企业大数据开发学习门槛,从入门到熟练开发仅需3天时间。
4.弹性轻量,灵活匹配数据中台阶段性建设
最小仅需5台虚拟机,企业已采购硬件不限硬件厂商、不限型号,不限使用年限,各功能模块可按需搭配,逐步进行数据中台建设,降低企业一次性投入成本。
三、产品价值
l PB级计算能力
提供强大的分布式计算引擎,和多集群、多租户机制,给企业提供PB级别的数据计算能力。
l 开发效率提升50%+
一体化的可视化数据开发平台,涵盖数据研发全流程,大大提升数据研发、运维的效率。
l 全方位数据监控
数据质量问题全方位监控,帮助企业及时发现数据问题,降低数据引发的风险和损失。
l 十亿级数据秒级响应
海量数据秒级响应,支持多维分析和灵活的业务探索等业务场景,是企业大数据基础建设的加速器。
l 零代码生成API
零代码生成API,快速构建数据服务共享中心,并进行数据应用全流程监控。
四、案例分析
(一)旅游行业
项目背景
票付通为不同业态的旅游企业(包括景区、剧场、旅行社、酒店、餐饮、OTA 电商等)实现票务智慧化服务升级解决方案,业务范围覆盖全国29个省份、300座城市。
客户目前面临以下痛点:
多个系统数据难以打通,面临数据孤岛问题
数据指标产出慢,难以快速支持业务决策
系统压力大,难以承载海量数据的计算
数据可视化能力弱,开发周期长
数据质量问题多,难以保证业务指标的正确性
数据分析不及时,不准确,人工对账不清晰
方案设计
基于数栈DTinsight,配置离线计算产品、流计算产品、数据API、数据质量、Easy[V]等产品,帮助客户快速搭建数据中台,形成企业级数据资产体系,自动生成销售报表、渠道分析、客源分析等数据图表,为景区统计、分析、决策提供精准有力的数据来源。
项目意义
通过搭建数据中台,客户得以打通内外部的所有数据,从而为平台商家提供多种的数据增值服务:
全方面的渠道销售分析
快速完成和商家的对账
快速支撑数据应用的落地,减少重复建设
景区人流实时预警和监控
景区人流预测,提升景区服务水平
为商家,景区提供精准营销服务,提高转化率和客户的留存率
(二)金融行业
项目背景
某银行全行数据挖掘需求不断增长,数据开发复杂度日益提高,数据体量快速增长。银行目前迫切需要提升数据质量,为全行各条线提供完整、准确、及时的高质量数据服务,满足业务快速迭代需求。
客户目前面临以下痛点:
开发工具彼此割裂,需要在多种开发工具之间不断切换。
调度系统操作较为复杂,需要数据开发人员手动维护。
生产环境与测试环境相隔离,ETL发布工作繁琐,且容易出错。
建表过程繁琐,影响数据模型开发进度。
方案设计
基于数栈DTinsight,帮助客户快速搭建数据中台,在第一阶段,解决LibrA账号对接、调度系统对接的问题;在二阶段解决告警系统对接、标准化建表等需求。
l 项目意义
通过搭建数据中台,客户得以实现:
一站式离线数据开发体验,从数据开发、数据运维、调度系统全链路打通;
导入/导出模式发布上线,极大的减少了开发人员每次发布的工作量;
账号对接,基于底层控制数据安全,符合行内的数据安全规范要求;
标准化建表,提高开发人员需求响应效率,缩短繁琐的建表过程,提高数据模型的规范性。
(三)政府机构
项目背景
2014年,我国社会信用体系建设的首部国家级规划《社会信用体系建设规划纲要(2014—2020年)》发布。某省商务厅根据相关规定,探索建立商务诚信公共服务平台,建立红黑名单制度,对守信者实行联合激励,对失信者进行联合惩戒。
方案设计
基于数栈DTinsight,接入政府(工商、商务厅、发改委)与网络(B2B、B2C、生活服务)的海量数据,在大数据平台进行大数据的加工处理,完成政府数据中台搭建,实现数据集成、数仓搭建、信用算法模型训练等场景,并同时向社会开放企业相关信用数据。
项目意义
通过搭建数据中台,客户得以实现:
推进商务诚信体系建设,构建以信用为核心的流通治理新秩序。
建立全省商贸流通企业诚信体系,为政府部门进行精准的企业服务提供数据支撑。
打破政府信息和市场信息的壁垒,建立行政信息和市场信息的交互渠道和机制。
转载:https://blog.csdn.net/u011663641/article/details/101217778