智能制造第14期 时序数据库在工业领域的应用与发展

小夏 科技 更新 2024-01-29

时序数据库概述

时间序列数据

时间序列数据,即时间序列数据,我们将一系列按时间戳大小顺序排列的记录值称为时间序列数据。

时间序列数据(“时间序列数据”),顾名思义,是按时间顺序组织的数据。 时间序列数据的概念起源于早期的金融行业,金融时间序列分析技术是研究金融变量随时间演变的关键技术,是金融定量分析的基础技术。 对大规模金融时序进行有效分析的前提是对时序数据的有效管理。

在日常生活中,时间序列数据是很常见的,比如一辆车的位置,某辆车在一段时间内的其他属性,包括车型、颜色、车牌号、车主等等都是不变的,但是它的位置数据是随时间不断变化的,所以由位置值和其他属性组成的一系列数据,根据时间确定,就是一组时间序列数据, 当我们驾驶汽车开启导航时,我们需要根据这组时间序列数据来判断到达目的地的下一条路线并存储行车记录,这在即将到来的无人驾驶中是必不可少的。在互联网上,时序数据无处不在,如用户访问记录、应用系统的系统日志数据等。

近年来,时间序列数据得到了广泛的应用,包括物联网(前面提到的汽车定位是例外和各种传感器数据等)、经济金融领域、环境监测领域、医疗领域、工业制造领域、农业生产领域、软硬件系统监控等,都在利用大量的时间序列数据来揭示趋势, 研究对象的规律性和异常性,以及在5G和人工智能的浪潮下,时间序列数据作为大数据、机器学习、习、实时、预警基础数据的作用更为显著,因此时间序列数据的研究和应用更加深入。从上面的汽车定位示例可以看出,时间序列数据和关系数据之间存在很大差异

最明显的特点是时序数据具有唯一的时间戳,并按时间戳大小排序,时间戳作为唯一标识符来区分它们,而关系数据通常由其他字段标识,例如学生 ID 通常用作学生数据的唯一标识符。

时序数据中的数据量持续呈线性增长,以一定的粒度间隔产生新数据,海量数据不断产生,因此数据量巨大。 关系数据的增长通常不会随着时间的推移而继续增长,例如,学校的学生数据量在一段时间内相对稳定。

时间序列数据很少更新,测量值是在某个时间点生成的,没有变化,因此几乎不需要更新时间序列数据。 对于关系数据,现有数据会经常更新,例如学生的个人信息,包括年龄和身高等属性。

时序数据库

基于时序数据快速增长的应用需求,以及不同于传统关系型数据的特点,时序数据库具有以下特点:

可以高速写入高通量数据。 由于时序服务持续产生海量数据,对写入速度要求高,并发写入量大,因此需要时序数据库系统实现高速的高吞吐数据写入。

高压缩比。 时序数据库需要存储大量数据,有些监控数据可能需要存储较长时间,从5年到10年不等,因此需要根据时序数据的特点对数据进行压缩。

高效的时间窗口查询功能。 时序服务的查询需求分为两类:一类是实时数据查询,反映当前监控对象的状态二是查询一定时间段的历史数据,历史数据的数据量非常大,因此需要针对时间窗口内的大量数据查询进行优化。

高效的聚合能力。 在时序场景下,您通常关注数据的聚合值,例如计数和平均值,以反映特定时间段内的数据情况。

批量删除功能。 时序服务需要批量删除过期数据。

通常不需要交易能力。

与传统的关系型数据库专注于增删改动、查询和事务函数不同,时序数据库写入的数据量很大,读查询大多是一段时间内的数据。

时序数据库的发展史

图1 时序数据库演进历史

1.第一代时序数据库存储系统。

虽然通用关系数据库可以存储时间序列数据,但由于缺乏特殊的特定时间优化,例如按时间间隔存储和检索数据,它们在处理这些数据时效率相对较低。

第一代时间序列数据在监控领域是典型的,直接基于平板电脑文件的简单存储工具已成为存储此类数据的第一方式。 以rrdtool和wishper为代表,这类系统处理的数据模型通常比较简单,单台机器的容量有限,嵌入在监控报表中。

2.基于通用存储的时序数据库。

随着大数据和Hadoop的发展,时序数据量开始快速增长,系统业务对处理时序数据的可扩展性提出了更多要求。 基于通用存储的专用时间序列数据库正在兴起,可以有效地存储和处理这些数据。 像 opentsdb、kairosdb 等。

这种时序数据库在继承通用存储优点的基础上,利用时序的特点,避免了某些通用存储的缺点,在数据模型和聚合分析方面做了大量的创新,以拟合时序。 例如,OpenTSDB继承了HBase的宽表属性,设计了基于时序的偏移存储模型,并使用SALT来缓解热点问题。

但它也存在诸多缺点,如全局 uid 机制效率低下、聚合数据加载不可控、无法处理高基数标签查询等。

3.垂直时间序列数据库。

随着Docker、Kubernetes、微服务等技术的发展,人们对物联网发展的期望越来越强。 随着数据随时间推移而增长,时序数据是增长最快的数据类型之一。

高性能、低成本的垂直时序数据库应运而生,以InfluxDB为代表的具有时序特性的数据存储引擎正在逐步引领市场。 它们通常具有更高级的数据处理功能、高效的压缩算法和符合时间序列的存储引擎。 例如,InfluxDB 的基于时间的 TSMT 存储、Gorilla 压缩、面向时间序列的窗口计算函数 P99、Rate、自动汇总等。

然而,由于索引分离的架构,在时间线延长、乱序等场景下仍面临巨大挑战。

应用场景

在工业场景中,80%以上的监控数据是实时数据,并且带有时间戳并按顺序生成,实时收集来自传感器或监控系统的数据并反馈给系统或运行状态。 在工业中,实时历史数据库通常被用作收集、存储、查询和分析这些数据的核心枢纽。

在传统工业控制领域,由于其自身的特殊性,对实时数据处理的要求很多,特别是在过程工业中,对每个生产环节的监控要求都非常严格,需要通过监控数据实时反映系统的状态,因此非常重视实时数据的处理, 并经过长期的积累,形成了独特的成熟体系。实时历史数据库的应用是其中的重要组成部分,在工业控制领域已有多年的历史,实时数据库主要用于工业过程数据的采集、存储和查询分析,实现对过程状态的实时监控。 工业中的实时数据具有以下特点:它带有时间戳并按时间顺序生成主要是结构化数据;采集频率高、数据量大等特点。

例如,一家中型工业企业在过程监控过程中可能涉及510,000个传感器测量点,每天的数据输出量可以达到数百GB。 通常,工业公司要求数据长期存储,以便随时查询历史趋势。 以上要求显示了传统实时数据库需要具备的一些能力,例如由于测量点数量多、采集频率高,需要高写入容量由于需要长期存储,因此需要强大的数据压缩能力由于数据量大,需要快速的查询响应;同时,最重要的是实时分析的能力,可以快速反映系统的状态。

表1显示了传统工业项目中对实时数据库的评估要求。

表1 工业项目实时数据库考核项目

工业生产

1、生产车间数据库需求分析

1)数据特征分析。

工业行业的生产车间工艺复杂,生产设备多,因此在生产过程中需要实时采集数据。 生产过程中涉及的数据包括水分、温度、液位、流量、风量、频率等数据,这些数据在生产过程中实时生成,生产频率快,每个监控点每秒可产生多个数据这些数据以采集时间为依据,每条数据都有与之对应的唯一时间;监控点数据量大,整个生产车间监控点约10万个此数据会严重消耗磁盘存储。 据初步统计,每个月的生产数据消耗近1TB的存储空间。 由于生产数据是实时收集和记录的,因此无需频繁更新和删除数据。

2)数据存储和分析。

目前,使用关系数据库进行数据存储。 为了在生产过程中存储数据,关系型数据库一般通过降低数据采集的频率来实现。 例如,从监控点收集数据需要几秒钟甚至几十秒。 关系型数据库的表模型是行列结构,它包含一个主键或多个索引来标识唯一的行,每行标识一条记录,其中会有大量的冗余属性数据,消耗大量的磁盘空间。 即使这样降低了数据采集的频率,每月也可以生成大约 1 TB 的数据,这非常占用磁盘,并增加了数据存储的成本。 而且,这种做法也大大降低了实时数据的准确性和可靠性,不利于数据的监控和分析。 为了让系统快速实现数据查询结果,会在关系型数据表中建立主键或索引,面对高并发的数据写入,需要不断重建这些索引,大大降低了数据写入性能。 当数据存储达到一定数量级时,为了提高系统性能,往往采用删除历史数据的做法,这给采集到的数据造成了极大的浪费,也使得系统和数据的维护极其困难。

对于生产车间实时、高频、海量的写入和存储需求,关系型数据库并不尽如人意。 另一方面,时间序列数据库非常适合此目的。 与关系型数据库相比,它大大减少了存储空间,降低了数据存储成本。 时序函数不仅具有优越的写入性能,而且可以实现更快的查询性能,并长时间存储历史数据,大大提高了数据的使用价值。

3)数据访问分析。

生产车间的中央控制管理系统应具有实时性、自动化、智能化的特点。 中控管理系统需要实现对生产过程的实时监控、完善的质量分析、故障监控与上报、综合管理等功能,而这些功能的实现需要建立在对海量实时信息的高效处理之上。 为了使生产能够有序地进行,系统需要实时监控设备的运行参数,进行生产统计分析报表、设备负荷分析等功能。 为了实现这些功能,数据库需要长时间在快速和高负载下运行。 关系数据库在这样的环境中运行,实现这些功能可能会造成严重的性能瓶颈。 当数据长时间处于无响应状态时,服务器很容易宕机,严重影响生产任务。 时序数据库支持大规模数据监控点,普通服务器上可支持百万级监控点。 具有100,000-600,000事件秒的数据存储容量和100万至800万事件秒的数据访问能力。 时序数据库的优越性能可以很好地满足生产车间中控管理系统的这些要求。

2、时序数据库在生产车间的应用

1)趋势曲线。

在生产车间应用中。 使用关系型数据库进行数据采集时,单次数据采集周期的时间跨度长,数值变化大。 以这种方式采集的数据并不能准确反映设备在生产中的瞬时值,而且以这种方式绘制的趋势曲线与实际状态趋势不同,在显示精确的趋势曲线时显然不是很可靠。 时序数据库可以解决数据采集周期长的问题,因为它的采样频率可以达到数千赫兹,也就是说时序数据库可以在一毫秒内完成一个数据甚至多个数据采样周期,使绘制的趋势曲线能够更真实地还原实际状态趋势, 并且更完整地再现了数据的实时变化,大大提高了数据的准确性,可以为专业分析师提供高精度、高密度的数据**,有利于产品质量和设备质量的分析。

2)报警提示信息。

工业企业的生产车间对生产环境要求很高。 当生产环境不符合要求时,系统需要及时报警通知相关人员进行处理,这些环境因素需要实时监控,确保生产环境符合工艺要求。 除环境因素外,生产过程中还有很多参数需要实时监控,如调味和加料的精度、每个流量秤的瞬时值、设备运行的电压和电流、电机的频率等。 当参数异常时,管理系统可以判断参数值,并及时发出并记录报警信息。 由于时序数据库可以高密度、高精度地记录实时数据,相关人员可以通过分析异常前后的数据或趋势曲线来分析异常的原因,从而制定准确有效的对策。

3)多平台、多系统数据共享。

大多数时序数据库实现了数据集成、协作和服务共享,并提供丰富的 API 和服务共享调用。 它与Windows、Linux等多种操作系统兼容。 支持多种编程语言:如C、C、PHP、J**A等,这种优越的兼容性可以轻松实现多个系统的数据共享。 每个应用系统都可以直接通过API快速从数据中心获取所需的数据。 实现多系统之间的集成和数据互联。 例如,可以与仓储物流系统相结合,实现物料运输和物料存储信息的共享,与MES系统集成,实现生产制造执行的数据共享。 多种系统的集成,使车间生产管理更加多元化、智能化,使数据分析更加准确、专业、全面。

设备运维

1.监控设备运行和维护的当前状态

1)监控设备运行和维护要求。

随着监控设备数量的快速增加,我们在运维方面也遇到了新的压力和挑战。 主要表现为:

a.监控设备的维护和更换成本高昂,而且很多设备在恶劣的环境下使用,容易损坏。

b.维护时间成本高。 监控设备非常分散,许多安装位置偏远,导致强度增加,维护成本高。

c.故障判断困难,无法准确维护。 特别是当监控设备离线时,很难判断故障原因是电源故障还是网络故障。 这导致了大量的故障,这些故障本来只能通过重新启动停电来解决,但我们花了更大的成本去现场解决它们。

针对以上三个问题,如何快速确定故障原因并进行远程排除,成为运维监控平台亟待解决的问题。

2)当前运维平台的不足。

根据我们的观察,目前现有的运维管理平台存在较大的问题和不足,主要表现在以下三点:

a.监控操作平台可同时管理的监控设备数量有限,其性能亟待提升。

b.监控操作平台安全性和可靠性不足,产品不冗余。

c.监控操作平台与前端数据采集设备兼容性不足,其他厂家的一些其他类型的监控设备无法与之对接,也无法对现有设备进行升级改造。

因此,面对如此多的问题,一个基于时序数据库的通用监控和运营平台成为必然的选择。

2、时序数据库在设备运维中的应用

简而言之,我们可以将监控和操作平台分为三个部分。 分别是:状态采集设备、运维管理平台、运维可视化系统。

状态采集装置主要负责采集电源、网络、传感器等各种监控设备的运行状态和信息。 它通常安装在前端设备的监控箱中,具有通用性、可扩展性、可靠性高、维护方便等特点。 状态采集设备采集数据时,将数据信息发送到运维管理平台。

运维管理平台主要负责接收、存储和管理来自状态采集设备的运行数据。 也正是在这个阶段,时序数据库将发挥其强大的作用。 由于监控设备状态数据具有明显的时序数据特征,传统关系型数据库的存储空间、写入和查询速度、可靠性等都无法满足要求。 因此,我们可以使用时序数据库来存储大量具有时序特征的监控设备数据,而其他具有非时序特征的业务数据则继续存储在传统的关系型数据库中。

最后,针对这些存储的数据,搭建了一套可视化运维平台体系,通过对监控运维数据的可视化渲染,为企业的智能运维提供必要的支撑。

图2 运维平台架构

综上所述,基于时序数据库的监控运维平台解决了传统运维平台设备故障定位难、运维成本高等问题。 它提供了更智能、更便宜、更高效的解决方案,可以支持大量监控设备的运维管理。 显示出巨大的经济效益和市场潜力。

现阶段应用痛点

随着物联网技术逐渐渗透到行业中,传感器数量的增加、数据量的飙升以及对更高大数据分析的需求对原有的技术架构提出了挑战。 有几个问题必须直面:

可扩展性是瓶颈

传统的技术架构虽然可以保证单台机器的极高性能,并且可以通过添加机器来线性扩展性能,但无法像分布式系统那样实现动态灵活的扩缩容,需要提前规划。 当系统需要扩容进行业务升级时,旧架构的可扩展性难以满足需求。

它无法连接到大数据生态系统

数据采集的最终目的是被理解和使用,大数据行业已经有成熟的海量数据存储和分析解决方案,Hadoop和Spark生态都面临着新旧技术的对接。 许多工业公司不得不升级或更换现有系统,因为他们想使用新的大数据分析技术。

高价

传统的工业实时数据库解决方案**价格昂贵,通常只有大型企业才能使用。 然而,随着新技术、新理念的普及,越来越多的中小企业也意识到了数据的重要性,但考虑到资金投入,他们往往会寻找更便宜的解决方案。

应用和技术开发

随着工业互联网发展的需求日趋清晰,在这两种数据库技术的渗透过程中,可以观察到一些技术的发展趋势。

步入分布式架构

传统的实时数据库大多部署在主备架构中,通常需要高配置的机器来追求单机的极致性能同时,在稳定性方面,将对运行软件的稳定性提出极高的要求,以高质量的**保证运行的稳定性**由于存储容量有限,还需要超高的数据压缩比。 但是,时序数据库的分布式架构使得系统能够轻松进行水平扩展,使数据库不再依赖昂贵的硬件和存储设备,并凭借集群的天然优势实现高可用,没有单点瓶颈或故障,并且可以在普通的x86服务器甚至虚拟机上运行, 这大大降低了使用成本。

更灵活的数据模型

由于工业场景的特殊性,传统的实时数据库往往采用单值模型,一个监测的参数称为测点,写入时会为每个测点搭建一个模型,例如将一台风机的温度指数算作一个测点,10台风机的10个指标为100个测点, 并且每个测点都会附有描述性信息(名称、精度、数据类型、开关模拟量等),查询时会查询每个测点的值。单值模型的编写效率很高。

例如,风力发电机组是一个数据模型,可以包含温度、压力等多个测量维度,以及经纬度、数字等标签信息,使其在向外界提供服务时更适合分析场景。 当然,单值模型和多值模型可以相互转换,很多数据库作为多值模型向外界提供服务,但底层存储仍然是单值模型。

查询要求和表示形式更加多样化

在互联网时代,查询的需求不仅仅满足于一些基本的条件查询或插值查询,随着物联网场景的丰富和人们对信息综合管控的需求,基于地图的应用越来越多,查询将逐渐从时间维度扩展到空间维度。

逐步迁移到云服务

出于安全和性能原因,传统的工业场景需要处理实时数据。 机器、软件和后续服务的成本非常高,需要专业的技术人员来维护系统。 当服务逐步迁移到云端时,一方面节省了购买机器的成本,并且不需要安排工程师维护机器和软件系统,而只需要知道如何开发和维护业务。 此外,可以随心所欲地购买服务,避免一次性购买服务或资源不足后再进行二次建设造成的资源浪费,可以为企业减少大量开支。 随着网络和云计算技术的成熟,相关的性能和安全性将不断升级,并最终接近私有化部署的效果,服务上云已成为势不可挡的趋势。

逐步演进到边缘计算

工业领域是物联网的重要试验场,工业互联网的发展必然会带来更多的传感器和更多的数据采集。 当数据过大时,集中式处理方式难以响应实时数据分析需求,将数据计算的发展带到了边缘,需要实时响应的监控通过边缘设备及时处理反馈,需要用于大规模分析的数据集中存储。融合边缘计算的时序数据解决方案将更适合工业互联网处理场景。

Yonyou timensiondb 时序数据库

产品概述

用友时序数据库是一种高性能、低成本、稳定可靠的时序数据库引擎服务,提供高效率的读写、高压缩比存储、时序数据聚合和计算,可广泛应用于物联网(IoT)、设备监控系统、安全生产监控系统、电力检测系统等行业。 此外,timensiondb 还提供多维度分析能力、数据订阅能力、数据统计分析能力。

功能介绍

1.查询引擎。

支持类SQL格式的数据操作

提供JDBC和SDK两种访问方式

提供丰富的时序查询语义、时序数据特征计算、时间维度丰富的聚合函数。

2.存储引擎。

提供高压缩比磁盘存储容量,10亿个数据点硬盘成本不到14元;

它为时序数据提供了专用的 tsfile 存储格式,可以实现 1:150 甚至更高的压缩比

支持 int32、int64、boolean、float、double 和 text 等数据类型

支持Snappy、LZ4、GZIP等多种压缩方式;

支持普通编码、二阶差分编码、运行编码、Gorilla编码、字典编码等多种编码方式。

3.分析引擎。

提供多维度分析能力,支持分析脚本管理、计算上下文、输入参数等

支持维度管理,设置维度的分层汇总关系和系数

支持全局维度和局部维度、加权总和、平均值等的分组聚合

支持数据集筛选和排序操作

支持切片计算、四规则操作、周期性桶聚合等操作

支持不同服务的分析脚本相互隔离

提供专用的多线程、多维度计算算法,充分利用服务器的硬件资源,提高计算速度。

4.分布式架构。

提供弹性伸缩能力,满足不同规模时序数据的存储和分析需求

弹性伸缩采用大规模并行处理(MPP)架构和火山模型进行数据处理,具有高度可扩展性,支持秒级添加节点,无需迁移数据。

5、对接开源生态环境。

支持开源数据分析生态系统:Hadoop、Spark;

支持与开源可视化工具Grafana对接。

相似文章

    Zhizao No.15 关于用友TimensionDB时序数据库的十个问题

    本文由持友网络总裁助理何冠宇在IT上撰写,由陆敏撰写 问题一 现在数据库市场百花齐放,时序数据库其实只是一个比较小的品类,如何定义时序数据库,是不是叫带时间标签的时序数据库?时间序列数据是随时间推移不断生成的一系列数据,简单来说,就是时间戳数据。时序数据库是存储和处理时序数据的系统。通常,生成的时序...

    智能化转型、数字化转型赋能智能制造

    近年来,随着科学技术的飞速发展和创新能力的不断提高,我国制造业结构不断优化。当前,高耗能行业占比正在下降,转型步伐逐步加快。高新技术和装备制造业发展迅速,电子设备制造业和汽车制造业的表现尤为突出。以智能化转型和数字化转型为主攻方向,以数字化技术为驱动力,正在成为制造企业高质量发展的必修课。当 智能制...

    走进智能制造工厂,探访“数字工匠”,勇闯智能制造“无人区”

    宋志伟正在操作车轮探伤机器人。记者李彦斌 摄。在智能轮毂生产车间,刚下线的成品轮毂正闪耀着镜面光泽。记者李彦斌 摄。在山西太原,在太中铁路工业园区巨大的厂房里,重型设备形成一条钢龙,在半空的走廊里沿着墙体延伸,连接着几座 玻璃屋 在房间里,操作员面对屏幕,点击鼠标,炽热的轮子完成一个加工过程,慢慢移...

    100 个问题和 14 标准信托的特征是什么?

    一一般而言,标准信托的特征是什么?一个 标准信托的特点包括 标准信托属于资本信托 标准信托的最终投资是在公开市场上发行和交易的金融产品 标准信托期限灵活,一般没有预期收益率, 市场风险和声誉风险是标准信托的主要风险特征。二.二.第二标准信托是净值产品吗?一个 标准信托的最终投资标的是在公开市场发行和...

    东方智造易手,主营业务薄弱待解决

    滚动。北京商报。在掌舵东方智造 两年后,宋晓忠和范美荣想放弃对上市公司的控制权,李斌接任。月日,东方智造披露,李斌计划增资亿元,股权变更完成后,公司实际控制人将变更为李斌。在资本市场上,李斌是新人,但他的实力不容小觑,他控制的核心企业和关联企业有家,其中部分由其配偶沈媛媛 儿子李畅控股,涉足生态环境...