加入收藏 | 设为首页 | 会员中心 | 我要投稿 武汉站长网 (https://www.027zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

架构师 | 数芯大数据平台0-1建设体系

发布时间:2022-12-20 14:33:32 所属栏目:大数据 来源:网络
导读: “导读:白皮书内容来自云纵达摩院,详尽的介绍了我司大数据体系建设的发展历程,希望对目前正在从事数据中台建设的小伙伴起到微弱的帮助,相互学习,共同提高。本白皮书内容分为数芯大数据

“导读:白皮书内容来自云纵达摩院,详尽的介绍了我司大数据体系建设的发展历程,希望对目前正在从事数据中台建设的小伙伴起到微弱的帮助,相互学习,共同提高。本白皮书内容分为数芯大数据平台、数据管理体系、平台支撑体系和数据产品体系(后续介绍)四部分。本白皮书为本公众号大数据建设系列内容的一个总结归纳,正文字数大约1万左右,预计阅读时长40分钟左右。”

第一章:数芯大数据平台

1.1集团大数据发展历程

知名咨询公司麦肯锡称:『数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对海量数据的挖掘和运用,预示着新一波生产率增长和消费盈余浪潮的到来。』良好的数据管理和处理技术,已经成为企业不可或缺的竞争优势。

集团(以下简称集团)将大数据列为企业发展战略,始终秉持『数据驱动』的理念,时刻跟随大数据发展趋势。经过几年的探索和发展,逐步构建起集数据管理、开发协作、自助分析、数据开放和运维管控等于一体的数芯大数据平台。

大数据日知录 架构与算法_大数据 系统 架构_大数据架构师

图1:数芯大数据平台1.2数芯大数据平台介绍

数芯大数据平台建设始终围绕『开放共享、数据赋能』的理念,为集团、合作伙伴的运营发展提供强有力的支撑和助力。经过多年的实践,逐步构建了从底层数据采集、数据处理,到数据应用服务以及数据产品的全链路、高管控、开放式的大数据体系。图2所示,是数芯大数据平台赋能业务全景图。

大数据日知录 架构与算法_大数据架构师_大数据 系统 架构

图2:数芯大数据平台赋能业务全景图

为覆盖数据处理的整个链路环节,数芯大数据平台建设之初,规划了数据资产管理、数据开放共享、开发协作调度、数据采集与迁移管理、数据可视化及自助分析、平台运维管控六大技术领域,分别对应数芯大数据平台的不同子系统,我们将在下章节中详细展开。

大数据 系统 架构_大数据日知录 架构与算法_大数据架构师

图3:数芯六大技术领域

从数据生产效率和对外赋能角度,数芯大数据平台又可抽象出数据产品体系、平台支撑体系和数据管理体系三大支撑体系。具体作用如图4所示:

大数据日知录 架构与算法_大数据 系统 架构_大数据架构师

图4:数芯三大支撑体系

本文以数芯三大支撑体系为章节,本着相互学习、交流的态度,详细介绍数芯大数据平台的建设过程。在当前『一切业务数据化,一切数据业务化』的背景下,数据已经成为企业战略和在市场竞争中取得优势的关键,因此我们以数芯大数据平台的数据管理体系开篇。

第二章:数据管理体系

集团下设诸多子公司,每个下属公司或关联ISV都独立运营,专注于解决团餐的某一领域业务问题。如果没有良好的数据管理体系,很容易造成数据烟囱式生产、信息孤岛等现象,无法为集团决策部门提供全面立体的数据支撑,大大地降低子公司间的协同增幅能力。

大数据架构师_大数据日知录 架构与算法_大数据 系统 架构

图5:数据管理体系图

如图5所示,数芯大数据平台数据管理体系在数据接入、数据仓库规划建设、数据集市方面制定了统一的规范,对接集团各子公司和关联ISV,可以构建同时面向集团、各业务单元和子公司的数据分析系统。数据湖、数据仓库和数据集市加上数据接入、数据清洗、数据生产等规范共同组成了数据管理体系。

2.1 数据湖

2.2数据仓库

为支撑集团运营发展和决策分析,集团起建之初构建了完善的数据仓库体系,我们称之为离线数据仓库阶段。

随着市场竞争环境的不断加剧,企业对数据的时效性要求越来越高,为应对市场变化,从2019年3月份开始规划实时数据仓库的建设,到2019年9月份历时六个月实时数据仓库结项,中间实时数仓顺利支撑了团餐峰值周运营活动。

如图5所示,现阶段数据管理体系中的数据仓库包含离线数据仓库和实时数据仓库两大部分。

实时数据仓库

2.3 数据集市

数据集市的建设在集团一直是个痛点,整个集团目前还处于快速成长期,业务发展变化快,阶段不同侧重点不同,因此相同数据指标的定义在不同阶段会发生变化,很难固化成某一纬度的主题数据。再加上数据开发需求多,数据指标缺乏统一的规划和梳理,经常造成相同数据指标重复开发,不同报表相同指标项数据不一致的现象,给数据使用人员造成了一定的困扰。

为解决上述痛点,我们对数据指标项进行了统一的梳理,发现分类治理可以解决当前问题。我们将数据指标分为活跃指标和稳定指标两类,具体定义和处理方式如下:

指标分类

指标定义

处理方式

活跃指标

业务刚开展或定义经常发生变化的指标项。

采用实时数据仓库处理,数据为明细数据或轻微汇总数据,配合OLAP引擎解决指标定义频繁变化问题。

稳定指标

业务稳定后不会经常发生变化的指标项。

采用离线数据仓库处理,数据为指标项定义统一的汇总数据。

在技术解决方案上,我们调研了市面上比较流行的OLAP引擎,从社区活跃度、查询性能、自身数据特点等方面考虑,我们采用Apache Druid作为数据集市的载体。集团数据集市已经开始支持运营人员自助分析和可视化。

大数据架构师_大数据日知录 架构与算法_大数据 系统 架构

图7:数据集市技术架构图

从上图可以看出,数据仓库生产的数据通过Apache Druid提供的写入服务进入数据集市,实时数据仓库的数据,可以支持快速查询,分析。离线数据仓库的数据根据具体业务场景大数据架构师,进行冷热分层处理,经常被使用的数据做到高效查询。

数据存储规范

集团数据集市目前处于刚起步阶段,我们现在仅制定了比较简单的命名规范,来区分一级部门或子公司、所属主题和具体使用场景。命名规范如下图所示:

大数据日知录 架构与算法_大数据架构师_大数据 系统 架构

图8:数据集市命名规范2.4本章小结

数据湖、数据仓库、数据集市以及相应的管理规范共同构成了集团的数据管理体系。我们在讲述过程中没有过多介绍数据仓库和数据集市的概念、模型(星型、雪花、星座等)等约定俗成的东西,而是将重点放在数据流程和技术实现上,主要是想跟大家探讨我们在数据体系建设过程中遇到的痛点和如何解决的,抛砖引玉,起到相互促进的作用。

本章内容在讲述数据管理体系的基础上,同时引出了我们的数据生产流程,稳定、高效的生产流程是支撑决策分析的前提条件,为此我们构建了比较完善的平台支撑体系。

第三章:平台支撑体系

集团数据平台支撑体系旨在提供高效的开发工具,提升数据开发人员工作效率,提供完善的运维、监控能力,保证数据生产的正确性和时效性。平台支撑体系从数据接入、数据计算、数据服务和数据应用四个层级为数据生产提供全方位的支持和保障。

大数据日知录 架构与算法_大数据 系统 架构_大数据架构师

图9:数芯大数据平台技术架构图

如上图所示,平台支撑体系由数据迁移平台、开发协作平台、数据质量平台、数据开放平台、数据接口服务,以及贯穿数据接入层、计算层和服务层的运维监控平台六大子系统组成。我们按照上述顺序展开每个子系统的具体实现方式。3.1 数据迁移平台

数据迁移平台(代号:移山,以下简称移山),是集第三方数据接入、实时数据同步、异构数据源间迁移于一体的一站式解决方案。提供简洁、易用的图像化界面,完成数据接入、同步或迁移等配置工作。目前移山每日完成千万级第三方数据接入、亿级内部数据迁移和实时数据同步工作。

为解决上述三个问题,构建一个通用的数据迁移平台,我们对现有程序重新设计、开发,调研业界开源的异构数据源迁移工具。移山在上述整合的基础上产生,移山提供以下三种数据迁移服务能力:

大数据架构师_大数据日知录 架构与算法_大数据 系统 架构

图10:移山技术架构图

技术实现

移山将数据接入、数据迁移和实时同步整合在一个平台中,开发人员只需要简单的界面化配置,就可完成上述三种操作。为保障数据迁移的稳定性和可靠性,移山同时具备完善的监控报警和数据分析能力。3.2开发协作平台

开发协作平台(代号:魔盒,以下简称魔盒),是一套帮助数据开发人员完成离线、实时计算任务打包、测试、数据核验和发布上线等工作的一套调度和管理系统。魔盒对离线计算任务提供串行、并行等复杂工作流设置,并提供完善的任务运行监控报警体系。

魔盒已经成为集团数据开发人员主要的工作平台。在流程规范性和开发效率上极大地提高了开发人员的工作效率。完善的监控报警体系能够保障数据生产的稳定性和时效性。3.3 数据质量平台

随着大数据技术的普及,『数据即资产』的观念已经成为共识。数据资产化需要将杂乱无章的数据进行合理有效的组织,同时需要考虑到隐私、合法、合规等数据确权问题,因此数据资产化进程必将是一个缓慢、复杂的过程。然而,良好的数据质量是数据资产化的前提条件。数据质量平台(代号:能量块或元数据管理系统,以下简称能量块),是集团进行数据资产化的第一步,主要解决数据仓库元数据管理、数据血缘关系、生命周期和业务数据监控等当前工作中亟需解决的问题。

能量块除上述功能外,还具有数据使用情况统计功能,对未使用的数据提供下线清理操作。目前能量块仅仅解决了数据归属、元数据统一备查和简单的数据监控管理功能,数据质量和资产管理是个很大的课题,集团刚刚完成了小升初,后续还有很多东西要学,数据质量的好坏直接关系到信息的精准度,影响到企业的生存和竞争力,集团将在该方面加大投入力度。3.4 数据开放平台

集团数据开放平台(代号:数据开放实验室,以下简称实验室),是一套安全、高效、自助式的数据开放平台,实验室在不暴露隐私数据的前提下,通过多种安全机制实现数据授权,为使用人员提供SQL交互式查询分析、数据定制下载能力,对分析结果提供自助式报表配置功能。

数据开放共享是指按照统一的管理策略对组织内部的数据进行有选择的对外开放,是实现数据跨组织、跨行业流转的重要前提,也是数据价值最大化的基础。数据开放共享能力,是衡量企业数据管理能力成熟度的重要衡量指标。

数据开放实验室通过安全、高效的授权策略打通了数据仓库与各部门、子公司和ISV之间的数据壁垒,通过交互式查询和可视化报表配置等功能将数据分析能力赋予集团各下属企业。数据开放实验室标志着集团数据的开放共享能力得到了进一步的提高。3.5 数据接口服务

数据接口服务(代号:API服务),对外提供统一的数据调用接口和数据返回格式,用于数据报表平台、可视化平台和其他平台的数据请求调用。数据接口服务基于RESTFul架构进行接口封装,实现了数据与应用程序的解耦,有利于数据复用和各应用系统集成。

数据接口服务通过统一的传入和输出标准对外提供数据,实现了数据与应用程序的解耦,极大地提升了数据的复用性。灵活的数据输出方式方便了其他业务系统的集成,加快了数据流通速度。3.6 运维监控平台

考虑到目前正在使用的大数据生态体系,集团运维监控平台(代号:磐石)直接使用Ambari大数据生态组件管理系统。Ambari包含安装部署、配置管理、监控告警等大数据组件与集群管理功能,完全满足集团在大数据集群上的运维和监控要求。

大数据日知录 架构与算法_大数据架构师_大数据 系统 架构

表6:大数据生态组件版本

Ambari相关介绍在这里不再阐述,详细细节请参照附录3。上表为集团正在使用的大数据各组件版本信息。3.7本章小结

数据迁移平台、开发协作平台、数据质量平台和运维监控平台涵盖了集团数据生产输出、开发协作、质量监控和大数据集群运维监控整个数据生产流程。合理有效的的架构体系和方便易用的图形化操作界面,极大地提高了数据开发人员和运维人员的工作效率。数据开放平台和数据接口服务,通过安全灵活的方式为数据使用方赋能。

平台支撑体系和数据管理体系从技术和数据角度阐述了集团大数据体系的建设过程,在此基础上集团还构建了完善的数据产品体系。

附录

1:DataX:阿里巴巴开源的离线数据同步工具,实现多种异构数据源间的数据同步功能。具体使用参照:。

2:Lambda架构:大数据平台比较通用的架构,由Apache Storm作者Nathan Marz提出,是为了在处理大规模数据时,同时发挥流处理和批处理的优势。。

3:Ambari:Apache基金会顶级开源项目,是一个集中部署、管理、监控大数据生态集群的工具。。

End

大数据日知录 架构与算法_大数据 系统 架构_大数据架构师

下载资料:点击进入回复999希望这篇文章可以帮到你~

(编辑:武汉站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!