近日,国科大杭州高等研究院(以下简称杭高院)生命与健康科学学院陶鹏在Communications Physics在线发表了题为“Data-driven detection of critical points of phase transitions in complex systems”的研究论文。Communications Physics是Nature旗下的一份开放获取期刊,刊登物理学各个领域的高质量研究和综述,代表了某一专业研究领域的重大进展,为中科院1区top期刊。
从观测数据检测复杂系统的相变临界点及其驱动因子是一项非常具有挑战的任务。目前,基于分岔理论的动态网络标记物(DNB)方法非常流行,但它缺乏一个统一的标准来选择最合适的DNB。因此,作者提出了一种受渗透理论启发的基于巨片的DNB(GDNB)方法,该方法直接选择最大的DNB作为标识相变的驱动因子。作者在三个包含不同相互作用的复杂系统上测试了该方法的有效性:二维Ising模型的蒙特卡罗模拟,蛋白质折叠的分子动力学模拟,以及小鼠肌肉再生过程中测量的基因表达。结果表明,GDNB方法不仅继承了DNB方法的理论优点,而且在降低计算复杂度的前提下提高了DNB的可解释性。
对于一个n变量的复杂系统,假设一共有m个观测点,每个观测点重复s次,那么GDNB方法的计算流程如图1所示。首先,GDNB方法使用统计物理中的相对涨落来筛选每个观测点涨落异常大(单样本t检验)的变量,克服了传统DNB方法需要参考数据的问题;随后,采用层次聚类算法对每个观测点筛选出来的变量进行聚类,聚类的度量采用皮尔森相关系数,通过给定一个合适的阈值可以得到多个类别;最后,GDNB方法直接选择每个观测点最大的类(对应图论中的巨片)作为DNB,而传统的DNB方法需要先验的专家知识来筛选合适的DNB。最后我们定义了一个组合系数,即DNB的相对涨落、大小和相关系数的乘积,组合系数的值越大代表该观测点越有可能是相变的临界点。
作者首先在一个L x L的二维Ising模型上验证GDNB的相变检测性能,因为这个模型的理论相变温度已经被严格求解(约为2.3,单位已约化处理)。如图2所示,与现有的三种机器学习方法相比(SL、PBM和LBC),GDNB方法预测的临界温度与理论值(红色虚线)更加吻合,同时具有良好的抗噪性能。此外,由于GDNB方法最复杂的计算操作为聚类,因此与机器学习训练过程中的大量矩阵乘法相比,它在计算速度上的优势非常明显。最后值得一提的是,GDNB在没有观测到完整的相变过程时依旧有效,而基于机器学习的方法无法处理这种情形。更多结果请阅读原文。
杭高院为第一完成单位。杭高院生命与健康科学学院的助理研究员陶鹏为论文的第一作者,华中科技大学的肖奕教授以及乔治华盛顿大学的曾辰教授为论文的共同通讯作者。该研究获得了国家自然科学基金委的资助。