亚信安特数据库数据并行加载工具的实现 (2).

小夏 科技 更新 2024-01-31

本节简要介绍了 Parallel Loader 支持的一些功能。

1) 支持表类型

并行加载工具支持普通表和分区表。

2)支持指定导入字段

该文件不必包含表中的所有字段,您可以指定导入某些字段,但指定的字段数必须与文件中的字段数相同。

3)支持导入部分记录

并行加载工具允许您指定 where 条件,以便仅将满足条件的记录导入数据库。

4) 自动生成序列字段值

该工具支持序列字段值的自动生成,部分表字段将默认值设置为序列,可能需要由数据库自行生成,不包含在文件中。

当字段是非分片键时,我们可以使用数据库自带的函数,在插入时自动生成字段的值。 但是,当字段是分片键时,我们需要先在加载工具中生成值,然后根据值进行分片,插入到对应的 DN 节点中。

5)导入没有分片键的文件

如果文件不包含分片键且没有默认值,则加载器将该字段设置为 null 并将其插入到相应的节点中。

6) 触发器

当导入的表包含触发器时,并行加载器不做特殊处理,当触发器涉及非本地数据节点时,不支持并行加载器。 例如,如果某个表使用了触发器,则触发器会插入另一个表,但分表与原表不同,涉及多个数据节点。

7) 不支持辅助表

antdb具有二级表功能,用于优化SQL语句的性能,该表存储了数据表的相应数据。 当数据表有辅助表时,并行加载工具只能将文件导入到数据表中,不会修改对应的辅助表。

8)支持编码转换

并行加载工具支持数据编码转换,当文件和数据库中的数据编码不同时,工具会转换文件中的数据编码,然后插入到数据库中。

与copy命令相比,并行加载工具有效提高了数据加载效率。 由于表字段、类型和数据的数量不同,并行加载工具的乘数与复制命令的乘数并不完全相同。 下面比较了TPCC数据导入的性能。

在1000个仓库的数据中,有1亿条记录需要导入到BMSQL Stock表中,数据文件Stock中CSV 文件的大小为 29GB。 测试的 ANTDB 集群有 2 个 DN 主节点。 在该场景的测试中,加载效率提升了约7倍,加载速度对比图如下图

BMSQL STOCK表的结构如下:

本文介绍antdb并行加载工具的实现和使用方法,通过多线程实现文件数据的并行处理,并加载到antdb数据库中,有效提高加载效率。

相似文章

    蚂蚁数据库亚信AMH通过CMMI5认证

    最近湖南亚信安徽科技 以下简称 安徽亚信科技 通过CMMI五级认证。这标志着亚信科技在软件研发能力 流程组织能力 项目管理能力 解决方案交付能力等方面已达到国际先进水平,具备为通信 金融 交通 能源 物联网等行业客户提供国际高标准产品和服务的能力。图 亚信安徽已通过CMMI认证。CMMI代表 Sof...

    亚信蚂蚁数据库是实时流数据处理的先驱

    年中国PostgreSQL数据库生态大会在北京成功举办,湖南亚信安徽科技受邀参展,荣获 年度最佳创新企业 称号。ANTDB T产品线负责人洪建辉在大会上发表了题为 ANTDB融合数据库 实时流数据处理引擎揭秘 的主题演讲,深入了解了ANTDB在实时流数据处理方面的研发和实践。antdb流式数据库系统...

    亚信蚂蚁数据库引领中文信息处理标准化创新

    近日,亚信科技ANTDB数据库再获殊荣,顺利通过GB 信息技术汉语编码字符集 最高执行级别 级 检测认证,成为首批达到该认证标准的数据库产品之一。此次认证,既是对ANDB数据库卓越技术实力的肯定,也是对其积极执行国家政策和标准的高度认可。GB 是我国自主制定的汉字编码字符集的强制性国家标准,包括汉字...

    亚信安口银行荣获“2023中国信息创新数据亚信安口数据库优秀品牌”。

    近日,由全球新经济产业第三方数据挖掘分析机构iimedia Research主办的 第二届 中国信息与创新产业大会 在广州圆满落幕。中国信息创新产业拳头奖 在大会上揭晓。亚信安徽安辉安发银行从众多参展产品中脱颖而出,荣获 中国信息创新产业拳头奖 并荣获 中国信息创新数据库优秀品牌 称号。图 亚信安徽...

    亚信蚂蚁数据库再添三家“信伙伴”,开启合作新篇章

    近日,亚信安徽ANTDB数据库迎来了三家新的 信用伙伴 南京一鸣 广东红书和北京舒建。这三位新合伙人的到来,让亚信安徽安信数据库的 朋友圈 增长不少。图 ANDB与上述产品之间的相互兼容性证书。这三位新搭档可不是普通的人物。南京一鸣学生工作管理与服务平台软件 广东红书隐私数据保护系统v 和 Data...