网易书帆解析指数中台建设核心技术

小夏 科技 更新 2024-01-19

导读本文将分享网易书帆在指标中台建设中的实践。

主要围绕以下四个方面展开:

1.网易书帆大数据产品介绍。

2.网易书帆指标平台。

3.指数中台核心技术分析。

4.未来规划与展望。

分享嘉宾:朱连新,网易书帆,指标中台技术负责人。

编辑:李婷。

内容校对:李尧。

由社区 datafun 制作

网易书帆大数据产品介绍。

网易数据分析的发展历程

自2024年以来,网易一直使用大数据技术组件,如分布式数据库、分布式文件系统、分布式搜索引擎等,来支持网易互联网20时代的产品。 自2024年以来,他一直基于Hadoop构建数据分析和运维相关工作。 2024年推出猛犸象、网易等产品,加速了网易内部大数据的规模化应用。 针对众多企业开展数据分析的需求,网易于2024年启动了商用产品推广,2024年数据中台建设覆盖网易燕选、考拉、**新闻等业务,形成了“全链路数据中台”解决方案并面向社会发布。 2024年,网易提出“数据生产力”的概念,倡导“人人用数据,实时数据”。 2024年,《数据治理2》发布0“解决方案,2024年将发布新产品Chatbi,指标中台。

网易在数据分析领域积累了丰富的技术、应用和解决方案经验。

2.网易EasyData产品矩阵

网易拥有多个整体产品矩阵,自下而上,包括:

1)底层数据计算和存储引擎的组件打包和研发,覆盖HDFS S3、AMORO(实时数据湖)、YARN K8s、Spark、Hive、Impala、Flink等,构建自动化运维管理能力

2)基于DataOps全生命周期数据开发产品套件,涵盖数据集成、数据开发、数据测试、任务运维等能力;

3)打造了数据标准、元数据管理、数据地图、指标体系、数据质量、数据资产中心、模型设计中心、数据安全、数据服务等九大产品,满足不同场景的开发管理需求

4)顶层有数字BI、机器学习习、标签画像,作为应用层挖掘大数据技术或平台的商业价值。

以上四层构成了网易易数据的产品能力矩阵,体现了产品的丰富性和完整性。

下面为大家详细介绍指标体系,包括指标开发、治理、集市、应用等模块。

网易书帆指标平台。

1.为什么要搭建指标中台?

从内部实践和外部沟通来看,指标使用中存在的问题主要集中在以下六个方面: 指标口径不一致:约31%的常规数据质量问题统计涉及指标口径;指标入口不统一:缺少一个企业级统一的消费入口,不知道从哪里找,也不知道口径是否一致可信指标价值难以量化:指标使用难以跟踪和量化,报表开发成本涉及存储资源、计算资源、开发资源等多重投入指标开发效率低:指标开发涉及多部门、多角色协作,业务人员无法独立完成,数据分析团队成为指标开发瓶颈重复计算消耗大量资源:大量中间表冗余、复用率低,涉及分层设计和处理指标质量差:问题溯源难,排查效率低由于处理路径长,开发引入的问题有60%以上被发现,其中90%是由业务先发现。

针对指标应用的服务模式,商业客户提出: 物化到业务库:由于Hive源数据和下游应用库属于不同的团队进行管理,客户期望将指标中台的处理结果具体化到下游业务系统库指标目标管理:在指标计算的基础上,客户关注指标目标达成情况、相关指标进展情况等的最佳视图,需要考虑指标业务目标的管理能力统一调度引擎:企业已经拥有成熟的调度平台,如Apache Dolphinscheduler等,可以方便指标上下游任务的统一管理,使计算依赖管理成为可能,加快指标的生成速度。

2.网易书帆指标中台解决方案

网易DataFan指标中台(EasyMetrics)介于数据中台和下游数据应用(主要是BI)之间,提供指标标准化的能力。 使用“一次生成(多次使用)”,为业务决策和管理提供单一版本。

1. 可信数据**,解决长期存在的指标不一致问题。 指标中台,建立在跨数据源(目录)的统一逻辑语义模型层之上,内置指标定义语言,提供独立于第三方计算引擎和调度系统自动计算指标的能力,通过配置可以自动完成指标的开发,大大提高了指标开发效率。

如图所示,网易书帆指标中台解决方案位于中间平台和下游系统之间,数据经过指标平台处理后提供给下游系统应用。 逻辑语义模型层屏蔽了不同上游数据源之间的差异,通过引入统一的语义层简化了指标的定义,通过独立的第三方引擎和调度,实现了指标开发、消费和管理的一体化服务平台能力。

指数中台核心技术分析。

1.跨数据源构建统一的逻辑语义模型层

统一逻辑语义模型层它是构建在数据仓库和下游数据应用之间的独立层,可以屏蔽不同的数据差异,统一对下游数据应用的响应。

如上图所示,逻辑语义模型层主要包括事实表和维度表的关系,多事实表和维度表的关系可以在以下章节中找到逻辑语义模型层说明。 如客户表、产品表、订单表、销售管理表等。 度量字段主要包括产品销量、产品销售额**等,包括客户维度、产品类型维度、订单属性等维度。

逻辑语义模型层设计三大原则:屏蔽数据源差异:不同数据源的插件扩展管理,搭建PF4j库,实现可插拔插件数据源管理模块逆向建模:基于现有物理表DDL快速逆向建模逻辑数据模型物化DDL:建模后的逻辑数据模型可以正向生成物化DDL,方便物理表的生成。

2.构建简洁高效的查询语言进行指标分析

传统 SQL 不支持像通用编程语言那样的组合继承等能力,因此在 SQL 编写任务中往往存在大量冗余**,而这些冗余**往往会因为逻辑不一致而导致指标计算不一致。

我们引入指标分析查询语言,简化指标的定义、指标的组合和复用、时间口径的定义等。

步骤 1:简化指标定义

基于语义模型,无需定义from和join,自然支持多维度分析。 以下示例计算子类别下每个产品的总销售额:左侧是传统的 SQL 实现,其中包含大量 From 部分右侧为指标分析查询语言实现脚本,select指定计算逻辑,其中指定计算限额,by指定分组和汇总维度。

简化后,只需指定口径、极限、分组维度即可完成指标开发。 将指标定义还给业务,最大化实现业务用户的自助开发,充分缓解数据分析师的开发压力。

第 2 步:实现指标组合和重用

创建并存储指标以为您的数据指定“基本事实分析”(即单个事实**),并且存储的指标可以在其他指标中重复使用。

例如,在下图中,某银行的事实表中有两个指标:“网络年龄1000元完成的橙色分期付款数量”和“今年网络年龄1000元的橙色分期目标数量”。 通过推导日期生成“今年净龄1000元橙子完成分期数”指标,通过复合计算进一步实现“净龄1000元橙子分期目标完成进度”指标的定义('')。

由于指标的灵活复用,指标定义的效率大大提高。

第 3 步:简化时间口径的定义

在正常模式下,需要频繁开发基于 SQL 的时间周期逻辑,并在多个 SQL 之间重复编写,容易出错,不易动态调整。 通过引入时间段,时间口径的定义自然而然地被简化了。 通过内置和自定义的方法,可以实现多个时间口径的定义和管理,包括对交易日历等时间段的支持。 在句法上,时间维度字段可以对应一个时间段来限制时间口径,这在句法上是统一的,时间口径也可以随时间动态变化。

在定义指标时,往往需要包含时间口径,我们可以通过简单的语法直接使用时间口径,从而实现时间口径的统一,并支持前一个交易日的时间段(交易日历)等行业特征,以满足客户特定的时间口径需求。

在实现层面,指标分析查询语言被定义为 antir4 格式的词法文件 (maqllexer.)g4、maqlparser.g4),它将度量、度量、属性和维度周期定义为词法单位。经过词法分析、句法分析、语义分析,将指标分析查询语言表达式和逻辑语义模型层转化为metricSDL(统一指标查询语义)。

目前平台已经支持:**g、count、sum等7种聚合函数;以及、OR、等10种逻辑运算函数;+、ABS等11种常用数据处理功能;直接使用时间段。 3.构建统一的指标查询语义层

通过构建统一的指标查询语义层metricsdsl,进一步抽象指标的查询需求,在语义层实现指标依赖分解的工作,从而屏蔽不同底层数据源的SQL语法差异,隔离不同指标查询需求(不同语法)对底层数据源的侵入和影响, 从而方便扩展不同的指标查询语法,并与不同的数据源目标对接。

基于方解石进行引擎SQL转换,完成MetircSDL的解析

1)将逻辑模型和指标结果表信息作为上下文,使用DSL转换为Calcite Relnode语法树

2)有选择地使用rbo优化器对方解石relnode进行优化,形成优化语法树

3)使用目标数据源方言将Calcite Relnode翻译成SQL,形成目标数据库引擎SQL。

4.发动机解耦,与第三方发动机灵活对接

为了灵活对接第三方引擎,包括调度引擎、查询引擎、计算引擎,我们通过适配组件完成引擎与调度的对接,基于抽象引擎的能力完成指标中台核心能力的构建。

调度引擎适配,将调度服务管理能力抽象化到服务端根据调度引擎实现组件任务管理调度服务注册后,从点开始执行,获取指标查询执行的计算插件,在客户端适配,将信息转换为相应的参数,完成调度适配。

在查询能力和计算方面,也是类似的架构,将查询和算力抽象化,如IMPALA、JDBC等组件,对接适配不同的计算组件,如Spark、JDBC、Flink等,完成计算。

未来规划与展望。

未来,Datasail指标中台将持续迭代,提供:深度指标应用场景:数据洞察、仪表盘、KPI管理、指标图谱等;对接更多BI系统,打通从生产到消费的完整环节支持更多数据源,如 DORIS 等 MPP 数据源访问 AIGC 以实现基于自然语言的指标查询。 谢谢!以上就是这次分享的全部内容,谢谢。

分享来宾。 introduction

我希望新的联系

网易舒凡。 指标中台技术负责人。

从业十余年,具有丰富的互联网业务系统建设和大数据平台架构经验。 目前是网易航研标准建模、数据质量、标签画像、索引中台相关系统的技术负责人。

在前几期中推荐了高质量的文章。

过去推荐。 如何优化机器学习习异构硬件推理在小红书推送搜索场景下突破算力瓶颈!

如何看待大数据云原生发展之路——观看2023飞天大会。

**推荐跨领域、多目标估计与整合的实践与思考。

小米指标体系建设与管理的最佳实践。

推荐多任务处理 2023 更新:基于用户生命周期斯坦视角的多任务推荐模型

混合存储架构中的数据编排。

大型制造企业智能决策场景分析。

开放词汇检测 2023 年开放世界物体检测大赛 优胜团队分享。

腾讯PCG数据治理体系。

从大模型的角度进行因果推理。

提高大型模型分布式训练性能的必要性(推荐10000字长篇文章合集)。

Volcano Engine Dataleap 计算治理自动化解决方案的实践与思考。

知乎如何进行埋地平台的建设和升级?

字节跳动Spark Suffle大规模云原生演进实践。

最后,有人讲解了用户分析方面**。

超越中途?训练基于上下文习 [前沿] 的图像扩散模型。

*推荐场景工具:集成复杂目标并支持实时控制的重排模型。

小米数据中台建设实践赋能业务增长!

datafun

点击一个,看看你看起来最好。

相似文章