时空动力学在自然界中无处不在。 例如,反应扩散过程表现出在化学、生物学、地质学、物理学和生态学等许多学科中常见的有趣现象。 对复杂的时空动力系统进行建模在很大程度上依赖于找到潜在的偏微分方程 (PDE)。
然而,由于先验知识不足,并且缺乏明确的偏微分方程公式来描述系统变量的非线性过程,在许多情况下,这些系统的演化仍然是一项具有挑战性的任务。 在这里,来自中国科学院大学、中国国立大学、美国东北大学和麻省理工学院的研究团队提出了一种新的深度学习框架PerCNN,该框架在递归卷积神经网络中强制编码给定的物理结构,以促进稀疏数据系统中时空动力学的学习。 大量的数值实验表明,所提出的方法可以应用于与反应扩散过程和其他偏微分方程系统相关的各种问题,包括前向和后向分析、数据驱动的建模和偏微分方程发现。
研究发现,物理编码机器学习方法具有较高的精度、鲁棒性、可解释性和泛化性。 该研究题为“编码物理以学习反应扩散过程”,于2023年7月17日发表在《自然机器智能》杂志上。
通过扩散和反应,可以揭示图灵模式自主形成的机理。 与许多其他系统一样,了解其由内在偏微分方程控制的复杂时空动力学是一项核心任务。 然而,许多未被充分探索的系统的闭合式控制方程中的原理定律仍然不确定或部分未知。 机器学习为以数据驱动的方式科学发现这些系统开辟了新的途径。
最近,机器学习方法推动了数据驱动的科学计算的复兴。 这在很大程度上是由于深度学习模型能够从丰富的标记数据中自动学习变量之间的非线性映射。 然而,植根于深度学习的纯数据驱动方法通常从大数据中学习表示,并严重依赖大数据,这在大多数科学问题中往往是不够的。 由此产生的模型通常无法满足物理约束,并且无法保证其泛化性。
为了解决这一问题,基于物理的神经网络(PNNs)成为一种主要的研究范式,它利用人们的基础物理学先验知识来实现在小数据状态下的学习。 Pinn在广泛的科学应用中显示出有效性。 特别是,这种范式已被证明在模拟各种物理系统方面是有效的。
然而,占主导地位的物理信息学习模型 pinn 通常代表一种持续学习范式,因为它采用全连接神经网络 (FCNN) 来连续逼近物理系统的解。 由此产生的系统**的连续表示引入了一些限制。 与持续学习模型相比,离散学习方法在将初始条件(IC)和边界条件(BC)以及不完整的偏微分方程结构硬编码到学习模型中具有明显的优势。 即使没有任何标记数据,这种做法也避免了优化的不适当性。
因此,研究人员将建立一个高效、可解释和可推广的离散学习范式,可用于非线性物理系统,这仍然是科学机器学习的一个主要挑战。 为此,研究人员提出了一种物理编码模型,用于在网络架构中对先前的物理知识进行编码,这与通过物理信息学习中常见的惩罚损失函数来教授物理模型相反。 具体而言,该模型具有以下主要特征:
1)与使用FCNN作为解的连续近似器的Pinn主流方法相比,物理编码模型是离散的(即,解决方案基于空间网格并定义离散时间步长),并将给定的物理结构硬编码到网络架构中。
2)该模型采用独特的卷积网络(即-block)来捕捉系统的空间模式,同时通过循环单元执行时间进行推进。这个独特的网络已经(通过数学证明和数值实验)被证明可以提高其非线性时空动力学模型的表达能力。
3)由于时间的离散化,该网络能够结合众所周知的数值时间积分方法(如前向欧拉方法、Runge-Kuta方法)将不完全偏微分方程编码到网络架构中。在这项研究中,研究人员通过将所提出的网络架构应用于时空动力学科学建模中的各种任务(例如反应扩散过程)来证明其功能。
拟议的网络,即 perrcnn。 该网络的架构由两个主要组件组成:一个作为ISG的完全卷积网络,以及一种用于循环计算的新型卷积块,称为-block(product)。
图 1:Perrcnn 架构示意图。 (*
由于学习模型的离散化方案,可以将系统的先验物理知识编码到网络架构中,这有助于提出合适的优化问题。 给定 PDE 中的一些现有项目,您可以通过创建快捷方式连接(即基于物理的 FD 卷积连接)将它们编码到网络中。 这个基于物理的卷积层中的卷积核将使用适当的 FD 模板进行修复,以解释已知术语。 这种编码机制的主要优点是能够在学习中利用不完全偏微分方程。 通过数值算例,证明了这种高速公路连接可以加快训练速度,显著提高模型推理精度。 简而言之,基于物理的卷积连接是为了解释已知的物理,而 -blocks 是为了学习互补的未知动力学而构建的。 除了不完全偏微分方程外,边界条件还可以编码到学习模型中。
受FD方法思想的启发,研究人员在每个时间步**中对模型应用了基于物理的填充。 未来可以进一步优化研究人员提出了一种新的深度学习架构PerCNN,用于基于稀疏和噪声数据的非线性时空动态系统的建模和发现。 尽管 PerCNN 在复杂系统的数据驱动建模方面显示出良好的前景,但由于离散系统的高维性质,它受到计算瓶颈的限制,尤其是当涉及到长期发展的大型 3D 空间域中的系统时。
但是,这个问题将通过时间批处理和多图形处理单元训练来解决。 此外,当前模型植根于标准卷积运算,这限制了其对任意计算几何形状的不规则网格的适用性。 这个问题可以通过在网络架构中引入图卷积来解决。 最后,由于 Perrcnn 网络的设计假设底层控制偏微分方程具有多项式形式,因此它在建模独特的时空动力学方面可能能力较差或过于冗余,并且其控制偏微分方程是简约的,但涉及其他高级符号运算符,例如除法、sin、cos、exp、tan、sinh、 日志,依此类推。尽管PerCNN在对数据驱动的非多项式项偏微分方程系统进行建模方面取得了成功,但如何设计一个网络,正确地使用有限数量的数学运算符作为符号激活的函数来提高表征能力仍然是一个悬而未决的问题。 在未来的研究中,研究人员将系统地解决这些问题。