《Chaos》特刊:数据驱动的复杂系统建模研究进展

《Chaos》特刊聚焦数据驱动的复杂系统建模,利用机器学习等新方法,在网络扰动检测、信息分解及临界转变预测等方面取得突破。

原文标题:Chaos:数据驱动的复杂系统建模特刊概览

原文作者:数据派THU

冷月清谈:

《Chaos》期刊特刊聚焦数据驱动的复杂系统建模,展示了跨学科的最新研究成果。特刊结合机器学习与双曲几何嵌入、信息分解等方法,在检测网络局部扰动及分析癫痫脑网络响应中取得了突破。主要研究包括:

1. **网络扰动检测**:提出利用双曲几何嵌入检测网络局部扰动的新方法,并应用于分析癫痫手术对大脑区域的影响。
2. **信息分解**:运用整合信息分解框架分析计算机和神经元网络,揭示网络结构拓扑细节。
3. **盆地熵**:提出盆地熵作为时滞系统分岔的指标,用于捕获吸引盆的相关性质。
4. **自适应储备池计算**:提出一种自适应储备池计算架构,用于预测非线性动力系统中临界转变的发生。
5. **循环神经网络**:揭示循环神经网络中行为雪崩与内部神经元动力学之间存在复杂关系。
6. **电网同步动力学**:分析电网结构对相位振荡器同步动力学的影响,揭示不同拓扑下的同步特性。
7. **朗之万方程与神经常微分方程**:结合N维朗之万方程与神经常微分方程,用于预测电力价格时间序列。
8. **高阶相互作用网络聚类系数**:提出适用于超图的聚类系数,揭示高阶互动的特性。
9. **股票市场订单转换**:使用马尔可夫链模型分析中美贸易战期间股票市场订单数据,揭示交易者行为模式。

怜星夜思:

1、文章提到了多种复杂系统建模方法,例如双曲几何嵌入、信息分解、储备池计算等。在实际应用中,如何选择最合适的建模方法?有没有通用的选择标准或原则?
2、特刊中多篇文章都涉及到了“涌现”现象,例如,同步、混沌、相变等。这种现象在复杂系统中非常常见,我们应该如何理解“涌现”?
3、文章提到了数据驱动建模在复杂系统中的应用。那么,数据驱动建模与传统的基于机理的建模方法相比,有哪些优缺点?在什么情况下应该选择数据驱动建模?

原文内容

本文共3300字,建议阅读9分钟

如何利用数据驱动方法解析复杂系统的规律?


摘要
如何利用数据驱动方法解析复杂系统的规律?为此,《Chaos》期刊特刊聚焦复杂系统建模,集合了跨学科的最新研究。特刊展示了结合机器学习与双曲几何嵌入、信息分解等新方法,在检测网络局部扰动及分析癫痫脑网络响应中的突破性进展。这些研究揭示了自组织现象与复杂网络的深层机制,拓展了数据驱动模型在复杂系统中的应用边界。
研究领域:复杂系统科学、神经网络、数据驱动建模、集体行为、双曲几何嵌入、信息分解方法、网络结构分析、癫痫脑网络研究
为什么人类心脏的数万亿细胞能自发同步搏动?
气候系统为何在临界点突然发生剧变?
从大脑神经元到全球供应链,复杂系统如何主宰世界的「秩序与失控」?
2021年诺贝尔物理学奖将聚光灯投向复杂系统科学,揭示了系统背后的隐藏规律:从神经网络到生态演化,从病毒传播到金融震荡,那些广泛存在的涌现现象,例如,同步、混沌、相变等,都源自系统内部自组织的网络结构,而非中央控制器。在这个数据洪流奔涌的时代,不同领域的学者们正用全新的模型、方法,结合机器学习技术,推动复杂系统领域的创新性研究。
Chaos期刊重磅推出「数据驱动的复杂系统建模」特刊,汇集计算或数据驱动模型中提出的复杂系统新见解,以及表征集体行为或网络结构的新方法。集智编辑部深入研读特刊内容,精选其中具有突破性的研究成果,为大家带来系统性概括和梳理,希望能给广大研究者带来切实可行的启发和思考,助力跨学科创新探索。我们正站在科学范式变革的关口:当海量数据遇见复杂系统理论,那些曾被视为不可预测的混沌,终将显现深藏其中的秩序之美。

特刊地址:https://pubs.aip.org/cha/collection/13407/Data-Driven-Models-and-Analysis-of-Complex-Systems

1. 检测潜在双曲嵌入空间中网络的局部扰动

双曲扰动分数计算流程
本文介绍了两种检测网络局部扰动的新分数,考虑对网络进行非欧几里得表征,将它们嵌入到双曲几何的Poincaré disk model中。该方法对真实大脑网络进行了潜在几何表征,识别并量化癫痫手术对大脑区域的影响。

地址:https://pubs.aip.org/aip/cha/article/34/6/063117/3296060/Detecting-local-perturbations-of-networks-in-a?searchresult=1

2. 整合信息分解揭示计算机和体外神经元网络的主要结构特征

整合信息分解框架
整合信息分解(Φ-ID)允许人们探索信息在系统各部分之间流动的模式,文章使用Φ-ID框架对计算机和体外数据进行分析,将通常的传递熵测度分解为协同、冗余和特有信息传递模式,证明了特有信息传递是从网络活动数据中揭示结构拓扑细节最相关的度量,而冗余信息仅为该应用引入了剩余信息。
主题:信息论熵,计算机仿真,网络理论,神经科学,生物信息传递

地址:https://pubs.aip.org/aip/cha/article/34/5/053139/3295339/Integrated-information-decomposition-unveils-major?searchresult=1

3. 盆地熵(Basin entropy)作为时滞系统分岔的指标

平面上的吸引盆,由初始的函数参数决定
考虑一个简单的时滞系统,由一个具有线性延迟反馈项的双稳系统组成。文章证明了盆地熵捕获了两个共存吸引子吸引盆的相关性质。此外,盆地熵可以捕获Hopf分岔的渐进性,因为在不动点变得不稳定之前,一个与不动点共存的振荡极限环行为出现。新的极限环改变了吸引力盆地的结构,从而被盆地熵所捕获。
主题:非线性系统,混沌系统,熵,反馈控制系统
地址:https://pubs.aip.org/aip/cha/article/34/5/053113/3287873/Basin-entropy-as-an-indicator-of-a-bifurcation-in?searchresult=1
4. 自适应储备池计算(Adaptable reservoir computing):一种用于预测非线性动力系统中临界转变的无模型数据驱动范式

储备池计算架构
如何在系统方程未知的情况下仅根据数据预测临界转变的发生?文章提出了一种自适应储备池计算架构,模型设定是,系统动力学目前处于一个具有振荡动力学的正常吸引子上,未来分岔参数发生变化,可能会发生临界转变,切换到另一个吸引子。为预测临界转变,储备池计算不仅学习了目标系统在某个特定参数值下的动态“气候”,更重要的是要从数据中发现系统动力学如何随分岔参数变化。
地址:https://pubs.aip.org/aip/cha/article/34/5/051501/3287956/Adaptable-reservoir-computing-A-paradigm-for-model?searchresult=1
延伸阅读:复杂系统的数据驱动建模:储备池计算教程,以洛伦兹吸引子为例,介绍了储备池计算在训练、预测和优化方面的代码,并讨论了优化以找到正确参数的重要性。
5. 循环神经网络中行为雪崩与内部神经元动力学之间的非平凡关系(non-trivial relationship)

RNN架构,神经元的动力学状态通过tanh机或函数转换成发放率
文章通过训练处于混沌状态的循环神经网络生成服从幂律分布的行为状态,并发现即使改变网络连接,神经元雪崩大小分布依旧保持不变,从而揭示行为统计特性与神经元内部动力学之间存在复杂且非一一对应的平凡关系。
主题:动力学系统,相变,MATLAB,人工神经网络,数学建模,二分序列
地址:https://pubs.aip.org/aip/cha/article/34/5/053104/3287645/Non-trivial-relationship-between-behavioral?searchresult=1
6. 电网模型上相位振荡器的同步动力学

ENTSO-E网络模型(黑色方块)、IEEE测试(黑色交叉)、小世界(紫色)、无标度(黄色)、随机(绿松石色)和规则网络(2d晶格)的拓扑和频谱特征
通过分析欧洲和美国电网及典型网络模型的拓扑和谱特性,文章探讨了这些结构对具有异质自然频率相位振荡器同步动力学的影响,发现电网结构降低了暂时稳定同步的能力,并揭示了不同拓扑下同步动力学的非平凡共性。
主题:耦合振荡器,Kuramoto模型,混沌系统,电力,电力电子学,图论,网络理论,频谱现象和性质
地址:https://pubs.aip.org/aip/cha/article/34/4/043131/3282305/Synchronization-dynamics-of-phase-oscillators-on?searchresult=1
近期颁发的2025年玻尔兹曼奖,授予者之一为同步现象研究开拓者藏本由纪 Yoshiki Kuramoto,Kuramoto模型推荐阅读:从无序到有序:2025年玻尔兹曼奖得主如何揭示自然界的隐藏scaling law
7. 用n维朗之万方程和神经常微分方程进行预测

时间序列预测框架示意图
文章提出了一种结合N维朗之万方程与神经常微分方程的数据驱动模型,用以系统捕捉和预测电力价格时间序列中的平稳与非平稳特性,并在西班牙电力日内市场中验证了其有效性。
主题:能源预测、能源市场、人工神经网络、机器学习、复杂系统理论、朗之万动力学、随机过程、时间序列分析
地址:https://pubs.aip.org/aip/cha/article/34/4/043105/3280361/Forecasting-with-an-N-dimensional-Langevin?searchresult=1
8. 高阶相互作用网络的聚类系数

超图和它的不同表示方式,以及四元motif
文章提出了一种适用于无向和有向超图的“四元聚类系数”,并通过与随机超图的比较发现真实超图中存在大量高聚类节点,这些节点往往具有大度数和大超边,表明仅基于二元交互的聚类分析无法揭示高阶互动的特性。
主题:结构分析,网络分析,图论,网络理论,拓扑性质,复杂系统理论
地址:https://pubs.aip.org/aip/cha/article/34/4/043102/3280414/Clustering-coefficients-for-networks-with-higher?searchresult=1
9. 2018年中美贸易战期间高频股票市场订单转换:离散时间马尔可夫链分析

高低波动日的概率转移矩阵(热图)
文章使用一阶离散时间马尔可夫链模型对中美贸易战期间股票高频订单数据进行统计分析,揭示了高波动日中交易者频繁下限价单并大规模删除订单以操控市场,同时发现高低波动期策略在谱间隙和熵率上具有相似性,而金融板块则呈现出持续完整执行订单的模式,显示其较强的市场韧性。
主题:数据处理,社会科学,统计模型,概率论,人类记忆,估计理论,马尔科夫过程,随机过程
地址:https://pubs.aip.org/aip/cha/article/34/1/013118/2933757/High-frequency-stock-market-order-transitions?searchresult=1
编辑:黄继彦



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我觉得数据驱动建模就像是中医,通过观察症状(数据)来判断病情,而机理建模就像是西医,通过了解人体内部的运行机制来诊断疾病。中医的优点是不需要了解人体内部的结构和原理,只要有经验就可以诊断病情,但缺点是可解释性差,很难说清楚为什么会得这种病。西医的优点是可解释性强,可以清楚地知道病因,但缺点是需要了解人体内部的复杂结构,而且有些疾病的病因非常复杂,很难找到。

所以,在选择建模方法的时候,要根据自己的需求来选择。如果需要理解系统内部的运行机制,就选择机理建模。如果只需要预测系统的行为,就选择数据驱动建模。当然,最好的方法是将两种方法结合起来,既能预测系统的行为,又能理解系统内部的运行机制。

我觉得“涌现”可以理解成“量变引起质变”。当一个系统的组成部分达到一定数量,并且相互作用足够复杂时,就会产生新的、意想不到的性质。这种性质不是单个组成部分所具有的,而是整个系统作为一个整体才具有的。

打个比方,就像炒菜,每种食材单独的味道都很简单,但当它们混合在一起,经过烹饪,就能产生新的、更美味的味道。这种美味不是任何一种食材单独贡献的,而是所有食材共同作用的结果。所以,理解“涌现”,就是要理解“整体大于部分之和”的道理。

个人理解:机理建模像是用“公式”来描述世界,告诉你“为什么”,数据驱动建模像是用“统计规律”来描述世界,更多告诉你“是什么”。

数据驱动最大的优势就是快!如果你需要快速得到结果,或者对系统的内部机制并不care,那数据驱动绝对是首选。而且,现在很多复杂系统,内部机制过于复杂,根本无法建立精确的机理模型,这时候就只能依靠数据驱动了。

但数据驱动也有局限,就是容易过拟合,泛化能力差。所以,在应用数据驱动建模的时候,一定要注意数据的质量,并且要选择合适的模型,避免过拟合。另外,对于一些安全攸关的系统,比如航空航天、医疗等,还是需要尽可能地建立机理模型,保证系统的可靠性。

数据驱动建模和传统的机理建模,各有千秋,不能一概而论哪个更好。

机理建模的优点在于可解释性强,能够深入理解系统内部的运行机制。但是,构建机理模型需要对系统有深入的了解,而且往往需要进行大量的简化和假设,这可能导致模型与实际情况存在偏差。如果系统过于复杂,或者我们对系统的了解不够深入,就很难构建准确的机理模型。

数据驱动建模的优点在于不需要对系统有深入的了解,只需要有足够的数据,就可以通过机器学习等方法构建模型。但是,数据驱动建模的可解释性较差,很难理解模型背后的运行机制。而且,数据驱动模型的性能很大程度上取决于数据的质量和数量,如果数据质量不高或者数据量不足,模型的性能可能很差。

所以,选择哪种建模方法,要看具体情况。如果对系统有深入的了解,并且能够构建准确的机理模型,那么就应该选择机理建模。如果对系统的了解不够深入,或者系统过于复杂,那么就可以考虑选择数据驱动建模。当然,也可以将两种方法结合起来,构建混合模型,充分发挥各自的优势。

涌现这个概念挺玄乎的,但其实也很好理解。简单来说,就是整体大于部分之和。单个个体可能很简单,但当它们组成一个系统,相互作用,就会产生意想不到的复杂行为。比如,一滴水很普通,但无数水滴汇聚成河流,就能奔腾不息,甚至改变地貌。

关键在于个体之间的相互作用。这种相互作用可能是线性的,也可能是非线性的。非线性相互作用更容易导致涌现现象的发生。 理解涌现,需要从整体的视角去看待系统,关注个体之间的关系,而不是只关注个体本身。很多时候,系统的行为并不是个体行为的简单叠加,而是涌现出来的新的性质。

这个问题问得好!选择模型就像选择武器,得看面对什么样的敌人。我认为主要考虑以下几个方面:

1. 数据特点: 数据是结构化的还是非结构化的?是静态的还是动态的?不同的数据特点决定了你能用什么样的模型。
2. 问题目标: 你是想做预测、分类、聚类,还是想理解系统内部的机制?不同的目标需要不同的模型。
3. 模型复杂度: 模型越复杂,需要的计算资源和专业知识就越高。在追求精度的同时,也要考虑成本。
4. 可解释性: 有些模型(比如深度学习)虽然精度高,但可解释性差。如果你需要理解模型背后的逻辑,就要选择可解释性强的模型。

反正我的经验是,先从简单的模型开始,再逐步增加复杂度。别一开始就想着一步到位,容易掉坑里。选择适合自己的才是最好的!

谢邀,人在实验室,刚下产线。

我觉得选择建模方法的时候,除了楼上两位大佬说的,还可以考虑一个“奥卡姆剃刀原则”:在所有可能的模型中,选择最简单的那个。当然,这个“简单”不是指随便选一个,而是指在保证模型效果的前提下,尽量选择参数少、结构简单的模型。有时候,一个简单的线性回归模型就能解决问题,没必要非得上深度学习。

另外,现在很多研究都是多模型融合,取长补短。比如,可以用双曲几何嵌入提取特征,然后用机器学习模型进行预测。这种方法可以结合不同模型的优点,提高模型的整体性能。总而言之,建模方法没有绝对的好坏,只有适不适合。多尝试、多比较,才能找到最佳方案。

选择建模方法确实是个关键问题,不能一概而论。我觉得首先要明确研究的问题和目标。比如,如果侧重于网络结构分析,那双曲几何嵌入和信息分解可能更合适;如果需要预测时间序列,储备池计算或者朗之万方程可能更有优势。另外,数据的质量和特点也很重要,有些方法可能对数据质量要求更高,或者更适合处理特定类型的数据。如果数据量足够大,可以尝试多种方法,对比效果,选择最优的。

更进一步说,任何模型都有其假设和局限性。理解这些假设和局限,结合具体问题,才能做出更合理的选择。没有银弹,只有更合适的工具。

用一句大白话来说,“涌现”就像一群蚂蚁搬家,每只蚂蚁都很简单,只会按照简单的规则行动,但整个蚁群却能完成非常复杂的任务,比如建造精巧的蚁穴、找到食物等等。这些复杂行为不是任何一只蚂蚁单独设计的,而是整个蚁群集体行动的结果。这就是“涌现”。

更学术一点说,涌现是指系统在微观层面上的简单规则,在宏观层面表现出复杂的、不可预测的行为。它强调的是自组织、非线性、以及个体之间的互动。 想要理解复杂系统,就要理解涌现,关注个体之间的连接和互动,而不是试图把一切都归结为简单的因果关系。