飞道的博客

520页(17万字)集团大数据平台整体解决方案-v1.0

259人阅读  评论(0)

【版权声明】本资料来源网络,知识分享,仅供个人学习,请勿商用。
【侵删致歉】如有侵权请联系小编,将在收到信息后第一时间删除!
完整资料领取见文末,部分资料内容:

1.1.1 系统总体逻辑结构

4-14系统总体逻辑结构图

参见上图,基于Hadoop构建的企业级数据仓库,包含:分布式列式存储数据库Hyperbase和分布式文件系统HDFS。通过数据集成及ETL平台,采集集团现有业务系统(CRM、ERP、寄递平台、金融大数据平台等)数据,经清洗、转换、加工后将数据批量加载到数据仓库。通过分布式消息队列(Kafka)和流处理引擎(Spark Streaming),可实时采集处理流数据(如:网站点击流数据、实时事件流数据等);流处理引擎可通过SQL接口将流数据实时加载至分布式内存或分布式数据库中。通过互联网数据采集软件(iRIS)可采集互联网数据(网站、SNS等),并经加工处理后导入数据仓库。本系统还支持在线填报、报表文件上传等数据采集方式。

结构化数据导入数据仓库后,可通过PL/SQL脚本和Hadoop/Spark批处理引擎进行数据关联操作和汇总加工处理;半/非结构化数据导入数据仓库后,可通过全文检索引擎Elastic Search快速创建全文索引。

大数据平台为数据分析挖掘应用开发,提供可视化的数据建模工具、数据分析挖掘工具(RStudio)、并行化R算法模型库及分布式计算引擎。平台还提供分析报表和仪表盘、OLAP多维查询、iGIS地图等可视化数据展现组件。

大数据平台为上层的各类应用提供数据访问接口服务,包括:SQL引擎(Inceptor SQL)、联合查询引擎(Inceptor StarGate,支持结构化数据和非结构数据联合查询)、全文检索引擎(Elastic Search)。本平台还支持分布式内存OLAP Cube功能,多维分析应用可通过SQL引擎快速访问OLAP  Cube数据集。

基于支撑平台开发的应用系统采用面向服务架构(SOA)设计。采用J2EE/Spring、Apache CXF框架,实现内置的服务注册功能,能够将已有的外部Web Service进行注册、调用,同时能够将定义的服务以 方式对外暴露,供其它应用调用。集团已有的ESB服务总线平台,可通过JDBC/ODBC接口与SQL引擎对接,将分布式数据库查询访问封装为Web Services,供相关应用系统调用;ESB平台可通过HTTP/JSON接口与联合查询引擎对接,将非结构化数据和结构化数据联合查询访问封装为Web Services,供相关应用系统调用;基于ESB平台可将报表/分析平台生成的分析挖掘结果封装为RESTful服务,供相关应用系统调用。本项目中,可应用ESB总线平台实现与集团主数据管理系统、元数据管理系统、统一运维管理平台之间的实时数据交换。

1.1.2 平台组件关系

图4-15整体架构及平台组件关系图

大数据平台系统主要是由大数据分布式计算和存储服务、分布式容器集群管理、数据采集交换、数据管控、应用支撑平台及定制开发的应用服务等组件组成。

参见上图,以下描述了主要的平台组件功能及组件关系:

1、分布式数据存储

² 分布式文件系统(HDFS)

存储半/非结构数据,包括Office文件、XML数据、Email数据、凭证单据扫描件、视频图像、Web网页等数据。有关文件属性数据主要是存于分布式数据库Hyperbase

中;对文本数据生成的索引数据主要是存于全文索引库(Elastic Search)中。

应用系统可通过JAVA API访问HDFS,也可通过FUSE挂载HDFS,将HDFS映射为远程盘访问使用。

² 分布式列式存储数据库(Hyperbase):

存储结构化数据,包括从现有业务系统数据库采集的数据、整合加工后的多主题关联的数据集及面向应用的数据集市等。

应用系统可通过SQL引擎(InceptorSQL)、基于JDBC/ODBC标准接口访问Hyperbase。

² 分布式内存/OLAP Cube

Hyperbase可将数据集市及OLAP Cube数据加载到分布式内存节点,为即时查询、多维统计分析等应用提供快速访问服务。

应用系统可通过SQL引擎(Inceptor SQL)、基于JDBC/ODBC标准接口访问分布式内存/OLAP Cube。

² 分布式全文检索库(Elastic Search)

存储ES索引引擎生成的全文索引数据,并为全文检索查询应用提供HTTP/JSON、JAVA API访问接口。

2、分布式计算处理引擎

² Hadoop MapReduce框架和Spark内存计算引擎

Hadoop MR为分布式批处理计算提供了JAVA API框架;Spark引擎充分利用内存计算技术实现快速分布式处理,支持Java、Scala、Python等语言。

² SQL引擎(Inceptor SQL)

基于Spark实现的高性能、高兼容性(SQL99、SQL2003标准)的SQL

引擎,为应用系统提供JDBC/ODBC标准接口访问Hyperbase数据库。SQL引擎支持PL/SQL,方便开发人员实现多表关联、汇总处理等应用

² 流处理引擎(Spark Streaming)

基于Spark Streaming实现的流处理引擎,可与分布式消息系统Kafka对接,实时接收处理流数据;可通过JMS API接口与集团ESB平台(Tibco EMS消息中间件)对接,实时接收处理业务数据流;可将实时检测出异常事件信息向ESB平台发送。

流处理引擎可通过SQL引擎将流数据实时导入Hyperbase、分布式内存/Cube中。流处理引擎运行中所用到的业务参考数据、规则数据等可放在分布式内存/Cube中,从而大大减少了访问数据库的时间消耗。

² 联合查询引擎(Inceptor Stargate)

联合查询引擎为应用系统提供非结构化数据和结构化数据联合查询服务。应用系统与联合查询引擎之间通过HTTP/JSON接口交互查询请求和响应信息。联合查询引擎支持通过JDBC/ODBC接口访问数据库(Oracle、Teradata、MySQL等);支持通过Inceptor SQL引擎访问分布式数据库Hyperbase、分布式内存/OLAP Cube;支持通过Java API接口访问分布式文件系统HDFS;支持通过HTTP接口访问JSON、XML数据。

² 并行化R算法引擎

基于SparkR实现的并行化R算法引擎,目前已支持近60种并行化R算法。开发人员可通过可视化编程环境RStudio将应用包加载到算法引擎执行。并行化R算法引擎,可通过JDBC接口及SQL引擎向Hyperbase提取所需数据,并将分析结果存入Hyperbase。并行化R算法引擎也可直接读取HDFS上的文件数据。

² 分布式检索引擎(Elastic Search)

可从Hyperbase、HDFS提取文本数据并创建全文索引库。全文索引库数据可存于分布式文件系统HDFS。Elastic Search为全文检索查询应用提供HTTP/JSON访问接口。

3、数据集成和管控平台

² 数据ETL平台

提供数据抽取、转换和加载功能。平台可通过SQL/JDBC/ODBC接口、批量导出脚本、Sqoop并行化抽取等方式,从现有业务系统数据库(Oracle)、Teradata数仓中批量导出数据并经转换处理后,加载到Hyperbase或HDFS中。网络爬虫(iRIS)所抓取的网页数据也可通过ETL平台加载到HDFS或Hyperbase中。

² 数据管控平台

提供元数据管理、主数据管理、数据质量管理、数据标准管理、数据安全管理等功能。可通过ETL平台的元数据采集引擎,统一采集处理分布式文件系统HDFS、分布式数据库Hyperbase、ETL处理流程及规则、现有业务系统数据库以及Teradata、Oracle数据库的元数据,并统一存于数据管控平台的数据库中,建立源库表-->接口表-->ETL处理过程-->目标库表的元数据关联关系,从而为后续的数据标准管理、主数据管理、数据质量管理、数据安全管理奠坚基础。本项目涉及与集团现有的元数据管理、主数据管理系统对接交换数据,可采用ESB平台及消息传输中间件,基于JMS接口与现有系统实时交换元数据、主数据变更记录。

² ESB服务总线平台

集团现有的ESB平台提供消息队列(消息存储转发、消息路由)、消息订阅和发布、Web Service服务编排及组合调用、服务监控等功能。

基于ESB平台及JMS

消息接口,可实现大数据平台系统与集团现有业务系统之间的实时数据交换(包括:运维管理数据、元数据/主数据等),并可将大数据平台分析挖掘的结果数据集实时推送到CRM、ERP、企业门户及APP等应用服务系统。

ESB平台支持JDBC/ODBC、HTTP/JSON接口,可与大数据平台的SQL引擎、联合查询引擎对接,从而可将Hyperbase数据库查询、非结构化和结构化数据的联合查询功能封装为Web Service服务,供相关应用系统调用。

基于应用支撑平台开发的图表展现、多维分析等应用,可封装为轻量级的RESTful/HTTP服务,并注册于ESB平台上,可供相关应用系统调用。

4、经营分析等应用及可视化展现组件

基于J2EE平台和可视化展现组件(即时查询、报表和仪表盘、OLAP多维分析、地图展现等组件)定制开发的经营分析和决策支持应用服务系统,可通过SQL引擎及JDBC/ODBC接口访问分布式数据库Hyperbase、分布式内存/OLAP Cube。应用系统可通过联合查询引擎及HTTP/JSON接口实现非结构化数据(如存于HDFS中的文本数据、XML数据)和结构化数据(包括:Oracle、MySQL、Teradata、Hyperbase等数据库数据)的联合查询。应用系统还可通过HTTP/JSON接口对接全文检索引擎,实现全文检索查询。

基于面向服务架构(SOA)设计思想,将定制开发的经营分析和决策支持应用及分析挖掘结果数据集查询功能封装为轻量级的Web Service服务,注册发布于ESB平台,可供相关应用系统调用。

5、身份认证和访问控制组件(IM/AM

IM/AM组件是为访问企业门户、经营分析等应用的用户统一提供身份认证和鉴权访问控制服务。用户证书、授权信息可存于关系数据库(Oracle或MySQL)或轻量级的LDAP目录库中。可通过专有接口或ESB平台的JMS接口,与集团CA中心交换用户证书信息。IM/AM组件还提供SSO Agent插件,可实现对多种应用系统、管理系统的SSO单点登录集成。

6、分布式容器集群管理系统(TOS

基于分布式容器集群管理系统(TOS)构建的服务器虚拟化资源池,可为大数据平台系统的各类应用、分布式计算和存储服务组件提供多租户隔离的容器资源调配管理、应用打包部署及SLA管理、作业调度管理以及统一运维监控管理。系统配置管理信息以及系统运行监控记录是存于本地的关系数据库中,可对外提供SNMP协议接口、ESB平台的JMS消息接口,以实现与集团运维管理平台交换运维监控信息。

1.1.3 系统接口设计

平台对外提供各种开发接口,包括完全兼容Hadoop生态圈开源各个组件API接口,REST访问接口包括Web HDFS以及StarGate/Hyperbase REST接口;同时通过支持SQL2003标准以及PL/SQL,提供JDBC/ODBC接口,能够使传统业务场景向大数据平台上进行平滑迁移;此外,大数据平台为数据挖掘提供Java API以及R语言接口。通过接口,用户可以直接使用R语言与SQL进行交互式数据挖掘探索,同时可以通过平台开放的API进行二次开发,通过JDBC/ODBC接口给上层应用进行SQL查询。此外,Inceptor中还包含了基础的并行统计挖掘算法库的Java API,用户可以通过并行算法库进行数据挖掘的二次开发。

篇幅有限,无法完全展示,如需获取完整内容,请转发后私信资料名称。
文章引用的资料均通过互联网等公开渠道合法获取,仅作为行业交流和学习使用,并无任何商业目的。其版权归原资料作者或出版社所有,本文作者不对所涉及的版权问题承担任何法律责任。若版权方、出版社认为本文章侵权,请立即通知作者删除。


转载:https://blog.csdn.net/zuoan1993/article/details/128585991
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场