机器学习材料、数据挖掘和 JACS!

小夏 科技 更新 2024-01-30

背景:

铜基纳米晶体是与新兴绿色技术密切相关的关键纳米材料,而液体激光烧蚀(LAL)是一种出色的合成技术。 然而,迄今为止,在LAL提供的广泛纳米材料库中实现特定类型的铜基纳米晶体依赖于调整合成参数和依赖经验产物。 意大利帕多瓦大学的Amendola团队通过数据挖掘分析了铜基纳米晶体的LAL合成文献数据,然后预先确定了铜的氧化态以及相关的理化性质。

计算方法:

线性回归分析和遗传算法

*在回归分析中,本研究使用自编码方法将数据库中的(特征,输出)或(超特征,输出)数据转换为对数对数图(log = log10),如S1部分的S1图和支持信息所示,最终得到(特征',output') 或 (超级功能',output'数据。 该数据集用于线性回归,其中为每个特征或超级特征提取决定系数(r2 或 r 平方)、斜率和斜率上的标准误差。

遗传算法依靠三种主要机制:选择、交叉和突变,进行迭代进化,并选择最有希望的性状组合来描述输出。 每个组个体都表示为一个二进制字符串,该字符串对 36 个特征的特定子集进行编码。 该研究使用k-fold交叉验证(42,55)来评估每个个体的适应度,这使得该研究能够合理地评估个体在不同数据分区上的表现,提高结果的整体可靠性,并确保方法的鲁棒性。 遗传算法的目标是优化两个关键的适应度标准,同时使用线性回归作为基础模型:最大化决定系数 (R2) 和最小化均方误差 (MSE)。

机器学习

在机器学习分析中,该研究使用了 Python 的 scikit-learn 12.2 (77) 和 XGBooze 17.0 个数据包,用于确定非线性回归特征选择的最佳模型,包括 XGBOOST、ADA 提升、梯度提升、随机森林、决策树回归和套索回归。 该研究使用R2评估每个模型的拟合度,并计算均方误差(MAE)和均方根误差(RMSE),以进一步比较不同模型的性能并验证最合适的模型。 原始数据集包含 36 个特征,这些特征被输入到 6 个模型中,以在默认超参数设置下获得 R2 分数。 最终的 R2 排名是 XGBoy > Gradient Boost >Ada Boost > Random Forest > Decision Tree > Lasso Regression。 基于此排名,该研究使用基于排列的特征重要性方法获得了前四个模型(XGBoy、Gradient Boost、Ada Boost 和 Random Forest)的 36 个特征的重要性分数。 在此特征排序过程中,应用基于排列的特征重要性排序方法和基于鲁棒树的模型来评估每个输入特征的有用性。 接下来,该研究使用 scikit-learn 包中的 5 倍网格搜索交叉验证方法来优化 XGBoy、ADA Boost、Gradient Boost、随机森林、决策树回归和套索回归模型的超参数。 贝叶斯优化用于减轻计算资源的消耗,以及寻找超参数最佳组合的挑战,尤其是在使用多个超参数时。

最后,该研究采用了多种机器学习模型,包括XGBoy、ADA Boost、Gradient Boost、Random Forest、LightGBM和CatBoost,形成了在贝叶斯优化下具有优异性能的基础集成模型。 集成模型使用基础模型性能的加权平均值,根据不同模型的性能生成最终的**,该过程通过各种测试和分析组合来执行。

**导读

机器学***结果和合成条件指导

对本研究进行了模型筛选,最终采用投票回归机器学习模型,为在特定实验室条件下合成具有所需铜氧化态的纳米颗粒提供了有效的指导。 在本研究的示例中,典型的液体激光消融 (LAL) 条件使该研究能够识别五个特征(P1:6 10-9 秒;p3:50赫兹;p4:0.05焦耳脉冲;P5:10厘米;P6:180分钟),同时研究其余四个特征对溶剂和溶质的影响。事实上,设置这些特征的共性(5个特征中的9个)有助于简化典型LAL实验室条件下的合成条件。

最初,该研究针对三种溶质质量分数(p.01 和 01)、*溶剂分子(P12)和溶质分子(P31)中O+Cl+Cn+S的百分比对氧化态的影响,以及对不同原子序数的溶剂分子(P11:3和12)的影响,如图6a所示。 对于溶剂小分子(3个原子),当O+Cl+Cn+S在溶质和溶剂中的百分比增加10-20%以上(随溶质质量的增加)时,总的趋势表明氧化态接近+1的平衡。

然而,在所有溶质浓度下,达到氧化态+1的范围非常窄,并且随着p36的增加,它们会移动到更高的p12值。 对于具有12个原子的溶剂分子,情况就不同了,只要溶质的质量分数小于001,O+Cl+Cn+S的百分比不等于0,其氧化态+1的范围很广。 这与溶剂和溶质中的醇相同。

考虑到原子数(P11)的相关性,研究了溶质中O+Cl+Cn+S含量为3%的情况,**它与溶剂分子中O+Cl+Cn+S(P12)的百分比的关系,同时考虑了三种不同的O+Cl+Cn+S含量(p和100)和两种不同的溶质浓度(P36=0)。001 和 01) 如图 6b 所示。 数据库中的原子数范围从 3(水)到 32(癸烷)。 对于 O + Cl + Cn + S (p31 = 0.)01)溶质含量可以忽略不计,当P11增加到5以上时,氧化态<1占主导地位。当P31为50或100时,O+Cl+CN+S含量高(P12)和原子序数低(P11<5)发生氧化态》1。 同样,有一个致密区域,在所有情况下都存在氧化态 +1 (P11 < 5) 和相当大的 O + Cl + Cn + S 含量 (P12 > 30%),除了小溶剂分子,但存在更高的溶质质量分数 (P36 = 0.)。1) 和无氧 (p31 = 0.)。01)也是真的。考虑到非极性溶质通常不能以高浓度溶解在极性溶剂中,这些条件并不容易实现。

然而,通过结合图6a和b中的信息,该研究可以推断出,LAL(P11 = 3,P12 = 33%)在含有酒精(P31 = 8 11%)或无氧气体(AR,P31 = 0%)的水中有望产生氧化态为+1的纳米颗粒。 同样,乙腈(P11=6,P12=33%)和缺氧气体(Ar,P31=0%)位于(P11,P12)图中氧化态+1区域的边缘,因此在这些条件下制备的LAL产物中Cu的氧化态也应接近+1。 相反,使用富氧溶剂和溶质将导致Cu的氧化态远高于+1,而贫氧溶剂和溶质将使氧化态接近0。

figure 6:(a)在三种不同的溶质浓度(p.)下。01 和 01) 以及两种不同溶剂分子原子序数(P11:3 和 12)处氧化态的变化,作为溶剂分子 (P12) 和溶质分子 (P31) 中 O + Cl + Cn + S 百分比的函数。(b) 三种不同百分比的O+Cl+CN+S(p和100)和两种溶质浓度(P36 = 0)的溶解度。001 和 01) 氧化态的变化随溶剂分子的原子数 (P11) 和 O + Cl + Cn + S (P12) 的百分比而变化。所有结果均基于最佳模型(投票回归器),参数设置如上图下半部分所示。

因此,该研究进行了一系列LAL实验(见图7和表1),涵盖了这些溶剂和溶质参数的各种组合,并寻找不同Cu氧化态的产物。 表 1 中汇总的结果的 R2 值为 090%的投票回归机器学习模型非常一致(见图5c中的红色三角形),从而证实了整个过程的可靠性,以及从中获得的物理化学见解的有效性。

图 7:使用图 6 中描述的设置条件以及不同的溶剂和溶质组合,获得了 Cu 基纳米颗粒的 LAL 实验数据。 (a) 胶体的紫外-可见吸收光谱(UV-VIS光谱)。 (b) X射线衍射(XRD)分析和Rietveld精制。 (c) 透射电子显微镜(TEM)分析

总结前景

本文分析了鲎试剂合成条件数据库,该数据库可能包含识别与合成相关的关键特征所需的信息,如图8所示,可以指导实验活动以获得所需的铜产品。 然而,文献中没有明确的指导,说明哪种数学模型或算法最适合这种类型的**。

该研究建立了一个包含 36 个特征的数据库,最初应用线性回归分析来确认溶剂的重要性(例如,O + Cl + Cn + S 的百分比、溶剂分子的原子序数和密度)。 通过组合功能(称为"超级叛徒"),得到了一个描述铜氧化态主要决定因素的方程,包括电池类型、气体电子亲和力、溶剂分子量、原子序数、平均键能、电离电位、相对介电常数、亨利常数、表面张力、密度、比热容、溶质平均键能和最小电离电位。然而,这些超特征导致解释和应用的复杂性和低准确性。 总之,即使实施了遗传算法(GA),线性回归分析也不足以理解鲎试剂产物特性和化学性质之间的相互关系。

因此,该研究使用机器学习方法揭示了溶剂化学(O + Cl + Cn + S的原子数和百分比)与溶质参数(O + Cl + Cn + S的百分比和质量分数)在不同特定设置下的意想不到的相关性,特别是脉冲能量、合成持续时间、重复频率、透镜焦距和脉冲持续时间的设置特性。 最好的机器学习模型在识别从特定设置开始产生特定氧化态的合成途径方面具有巨大的能力和实用性。 在机器学习模型的指导下,进行了新的实验来合成铜的不同氧化态,包括那些具有挑战性的Cu(I)化合物,这些化合物只能在有限的实验特性范围内获得。

实验结果与机器学***一致,机器学习建立了三组不同的实验条件,可以产生铜氧化态接近1的铜基纳米晶体。 这进一步扩展了鲎试剂在铜基纳米晶体中的多功能性,可以集成到从电催化到光催化、光伏电池等的可持续工艺中。 此外,机器学习方法具有普遍性,可应用于其他纳米材料,为理解LAL合成纳米材料的化学途径提供了新的视角。 本文探讨了数据挖掘在预先确定纳米材料库中所需化合物合成参数方面的应用前景,以指导胶体激光合成和加工领域。

图 8:基于线性回归、遗传算法和机器学习分析,用于确定液体激光烧蚀 (LAL) 制备的铜基纳米颗粒中铜氧化态的最相关特征摘要

书目信息

data-driven predetermination of cu oxidation state in copper nanoparticles: application to the synthesis by laser ablation in liquid, journal of the american chemical society. 2023,doi: 10.1021/jacs.3c09158

相似文章

    机器学习 习 中数据的特征表示

    在实践中,有各种类型的数据,如文本 音频 图像等。不同类型的数据在其原始特征上具有不同的空间差异。例如,灰度图像 具有像素计数...

    机器学习 习 中的数据预处理和降维

    机器习和数据结构算法首先要解决的是降维。降维在机器习中是必要的,原因如下 降维提高了计算效率。降维有助于通过减少特征数量来避免过度拟合,从而限制模型的复杂性。处理维度灾难 随着维度数量的增加,训练模型所需的数据量实际上呈指数级增长。这被称为 维度灾难 降维有助于降低数据的维数,从而更容易训练模型并避...

    机器习中的平衡和非平衡数据集以及如何解决它们

    在机器习中,不平衡数据集是每个类中样本数量不相等的数据集。例如,如果数据集有两个类别,其中一个类别有 的样本,另一个类别只有 则数据集是不平衡的。另一方面,平衡数据集是每个类中样本数量大致相等的数据集。平衡的数据集是可取的,因为它们可以防止机器习模型偏向多数类。可以使用多种技术来解决不平衡的数据集,...

    TVM Unity机器学习习编译技术革命

    ...

    了解核心算法习 Python机器学习,掌握未来,从这里开始!

    ...