数据处理是数据挖掘和分析中非常重要的一环。 数据处理一般结合实际业务进行,为后续的机器习建模做准备。 例如,如果数据中存在缺失值,则需要填充或删除缺失值数据建模需要将数据存储在不同的表或源中,需要进行相应的融合操作你得到的数据是详细数据,但实际建模需要聚合数据等等。
一般情况下,建模数据是基于清理后的宽表数据的集成,因此需要提前准备要分析的宽表数据。 如果没有,则需要通过DF将数据进行整合,形成宽表,或者通过AI扩展编程对数据进行整合,形成宽表进行存储,并将其与建模过程分离,以防止后期建模过程出现周期长、执行慢等问题。
除了上面提到的缺失值和异常值及其处理外,平台中还有许多数据处理节点可以实现建模和分析的前期准备。
数据复制
对于数据重复问题,可以使用的数据处理节点是重复数据删除和进程查询分析器。
重复数据删除节点有两种使用场景,一种是去除所有列的精确重复数据,另一种是去除指定列的精确重复数据。
在 Process Query Analyzer 中,仅支持选择不同的行来实现重复数据删除。
数据融合
可以使用的数据处理节点包括“数据连接”、“数据拆分”、“数据追加”、“数据差异”、“数据分解”和“过程查询分析器”节点。
一个数据连接节点可以融合多个表。 在多个数据表中,支持内连接、完全外连接、左连接、右连接等多种方式,支持多个数据表中两个表之间的一个或多个字段。
数据追加节点支持连接多个表中的行。
在连接多个数据集时,可以点击表连接,配置多个表的连接配置,从而达到连接表的目的。
排序
可以使用的数据处理节点包括“排序”和“过程查询分析器”节点。
Process Query Analyzer 节点是通过数据排序功能实现的。
排序者可以按升序或降序对单个字段或字段组合进行排序。
杂项
分类汇总节点可以根据某个分类变量和需要分析的数据进行分类计算,将原始数据分类制作成**的形式,便于直观地观察数据的大致分布情况。 数值数据可以通过以下方式进行计数:计数、最大值、最小值、平均值、总和、方差、标准差、唯一计数、上四分位数、下四分位数、中位数、变异系数和百分位数字符数据可以计数和唯一计数。 您也可以选择单独输出汇总结果,也可以选择与汇总结果拼接的原始表数据。
数据平衡节点可以通过丢弃不平衡数据来减少多值对应物的数量,或者通过复制来增加低值对应物的数量,从而使不同值的样本数大致相同。 该节点提供两种模式,一种用于按绝对量进行数据平衡,另一种用于调整因子。
随机抽样节点支持无回放抽样、回放抽样、分层抽样、n-of-1 抽样等抽样方式,还提供绝对数量(近似)和相对比例采样。
综合节点
除了上述数据处理方式外,平台还支持一些综合节点,支持实现更复杂的数据处理场景。
流程查询分析器根据指定条件从连接的数据表中提取数据,支持表连接、计算列、数据选择、数据过滤、数据排序、汇总、去重等操作,实现对连接数据的查询和分析过程。
自动数据处理可以根据内置的数据处理规则,自动处理用户输入的数据,提高用户的数据处理效率。 它包括缺失值处理、异常值处理、标准差判断处理、单类别比例判断处理和单类别行号判断处理。
以上就是对使用tempo人工智能平台进行数据挖掘、分析和建模过程中的数据处理方法的介绍。