k.在《未来的十二大趋势》一书中,K认为我们正处于一个数据流动的时代。 业务就是数据的业务。 归根结底,您是在处理数据。
的确,当数据成为新的生产核心要素时,数据分析就像是最重要的生产工具之一,决定着数字化时代企业的生产力水平。 近年来,一大批数据分析公司涌现,无论是国外的Snowflake和Databricks,还是国内的Starrocks和PingCap,都旨在满足日益增长的数据分析需求,帮助各类企业充分释放数据生产力。
其中,星洛克是数据分析领域的一颗冉冉升起的新星。 短短几年时间,Starrocks 在 GitHub 上收购了 Star 6300+,成为同类中增长最快的开源数据库项目,并于 2022 年底正式捐赠给 Linux 基金会,吸引了来自世界各地的开发者和用户参与到未来社区的建设中来。
正如星洛克TSC成员、荆洲科技CTO张友东所言,星洛克希望通过技术创新,简化数据技术栈,通过一台引擎实现全场景“一数据,全分析”的愿景。
目前,人工智能、大数据、物联网等数字技术在不断提高企业生产力的同时,也在不断增加复杂性。 这种复杂性在数据领域尤为明显,尤其是数据技术与业务场景的持续融合,困扰着众多企业进行数字化转型。
复杂性首先体现在数据本身,数据本身正在加速走向大规模量化和多样化。 过去,企业倾向于关注结构化数据,数据规模通常为TB;现在,文本数据、轨迹数据、日志数据等非结构化数据大幅增加,PB级数据量正在成为越来越多企业的常态。
其次,企业的业务场景越来越复杂,随之而来的是数据栈相关的技术、工具和产品的大量增加。 从过去的单一数据仓库,到指标平台、交互式分析、实时分析、流式计算等,企业面临的数据栈环境远比以往复杂,而且随着AI相关技术的融合,这种复杂度也在不断增加。
第三,数据消费需求的复杂性显著增加。 过去,数据消费只是管理层中少数人的“权力”;现在,“数据惠及所有人”已成为众多企业追求的目标。 例如,一些前沿的互联网、金融等企业,甚至普通的业务员工都是数据消费者,他们在日常业务中会随时进行数据分析。
因此,随着海量数据环境成为既定事实,企业在数据空间中面临的复杂性挑战将是数字化转型过程中的必经之路。 在张友东看来,“一个数据,所有分析”是解决数据分析复杂性的关键,而星岩3版本 0 的推出是朝着实现“一个数据,所有分析”的目标迈出的一大步。
众所周知,数据分析产品有着悠久的历史。 在大数据兴起之前,Teradata、Greenplum等传统数据仓库一直占据着主流市场地位随着大数据的兴起,以Hadoop为代表的大数据平台迅速成为数据分析的基础平台如今,云原生、湖仓一体等技术的兴起,正在加速数据分析产品的创新。
目前,与数据分析相关的公司很多。 然而,Starrocks以其出色的性能吸引了业界的广泛关注。 自 2021 年 9 月正式开源以来,Starrocks 已成长为开源领域的明星项目,并得到了全球开发者的认可。 在笔者看来,星洛克能否在短时间内取得阶段性成功,关键在于产品的迭代速度和创新能力。
自开源以来,StarRocks 经历了三次大迭代,从 1版本 0 侧重于性能,到 2版本 0 围绕融合统一展开,现在是 3版本 0 围绕湖仓一体的创新展开,Starrocks 成为数据分析领域的非凡产品。
以数据仓库架构为例,存储和计算分离是大势所趋。 随着云原生等技术的快速发展,通过存算分离架构,可以更好地弹性计算、存储等资源,以应对业务对资源的使用,从而实现成本和效率的优化。 starrocks 3.0 还采用了存储计算分离的架构,架构设计高度抽象和极简,不需要依赖复杂的组件,具有很强的可扩展性和弹性此外,它还支持多仓库,多个仓库共享单个数据,不同的仓库应用于不同的工作负载,计算资源可以物理隔离,内部弹性伸缩可以按需独立扩展。
存算分离架构真正带来了两大优势:降本、增效、弹性伸缩。 例如,在存储层面,Starrocks 30整体存储成本可降低80%,且由于计算节点是无状态的,通过快速弹性和跨可用区部署,提高计算的可用性,并可按需独立地对计算资源进行物理隔离和扩展。 张友东介绍道。
此外,湖仓一体的集成也是数据分析产品的重要趋势。 数据仓库通常具有数据质量高、性能卓越、实时分析能力强等优势,而数据湖可以存储各种类型的数据,具有很强的可扩展性和开放性。 因此,整合数据仓库和数据湖各自的优势,成为业界努力的方向。
当今行业不乏与湖仓一体相关的解决方案。 例如,如果对湖上的表现不满意,则使用湖上开仓的方案来加速查询另一个例子是数据仓库扩展查询外部数据湖的能力。
张友东直言不讳地表示,这些方案更像是一个组合方案,并没有真正实现湖仓一体的融合,“湖仓一体的融合意味着一个架构满足所有数据分析的需求,即一个数据,所有分析。 ”
以 Starrocks 3 为例例如,0湖仓一体架构实现数据统一存储和管理,一个数据作为单一数据源;此外,强大的分析引擎可以满足基于单条数据的BI报表、交互式分析、实时分析、ETL数据处理等场景的查询需求更重要的是,它能够加速按需数据处理和查询。
未来数据分析演进的趋势肯定是数据湖的融合,用户不需要关注建湖或仓库,核心目标是低成本、高效率地解决数据分析问题。 “张友东补充道。
此外,随着数据量和业务复杂度的显著增加,ETL已经成为一项极其艰苦的工作,通常需要大量的人力和精力来从事ETL相关的工作。 对此,Starrocks 30 也瞄准了无 ETL 的方向,减少了 ETL 在整个数据管理中的工作量,让用户通过物化视图将 ETL 的感知降到最低,致力于从全链路层面简化 ETL 流水线。
毫无疑问,Starrocks 3版本 0 的推出是 Starrocks 项目开发的关键节点。 这意味着星洛克在产品实力上实现了重要突破,能够帮助用户实现全场景数据分析架构的统一,也为自己带来了更广阔的市场空间。
随着大量数据驱动应用的出现,数据分析和数据消费的需求也随之兴起。 Gartner 认为,数据分析已成为企业数字化转型的核心能力。 因此,数据分析赛道具有极其光明的未来前景。
毫无疑问,从星洛克的社区发展、用户基础、商业生态建设来看,星洛克正处于快速发展的极致,未来更值得期待。
首先,得益于对开源理念的坚持,Starrocks 开源社区一直处于非常活跃的状态,为后续的发展带来了饱满的活力。 目前社区发展工作由荆洲科技牵头,贡献了70%以上的核心**;;此外,阿里云、腾讯、火山引擎、滴滴出行等龙头企业也积极参与社区,持续为社区贡献物化视图、CN弹性节点等诸多重要功能。
其次,得益于行业龙头客户的积极参与和产品创新的提升,星洛克产品在金融、零售、物流、制造、互联网等多个行业龙头用户的复杂业务场景中得到了锤炼。 据悉,目前已有300多家市值超10亿美元的大型用户在生产环境中使用StarRocks,涵盖BI报表、交互式探索分析、实时分析、湖仓一体分析等一系列场景,预计未来将持续推动产品创新和场景应用快速迭代。
第三,星岩科技高度重视商业生态建设。 除了使用头部行业的用户外,Starrocks目前还与国内各大云服务商合作,致力于借助云计算生态推动开源项目的商业化,让产品走向更广阔的市场群体,在市场竞争中成长。
与北美等发达市场相比,中国市场数据分析仍有巨大潜力,星洛克希望通过技术创新,帮助更多用户实现“一数全析”。 张友东最后说道。