PDF文库 - 千万精品文档,你想要的都能搜到,下载即用。

郭雷院士个人主页.pdf

哥特式、悲伤18 页 1.751 MB下载文档
郭雷院士个人主页.pdf郭雷院士个人主页.pdf郭雷院士个人主页.pdf郭雷院士个人主页.pdf郭雷院士个人主页.pdf郭雷院士个人主页.pdf
当前文档共18页 2.88
下载后继续阅读

郭雷院士个人主页.pdf

中国科学 : 信息科学 2020 年 第 50 卷 第 9 期 : 1327–1344 SCIENTIA SINICA Informationis 纪念《中国科学》创刊 70 周年专刊 . 评述 不确定性动态系统的估计、控制与博弈 郭雷 中国科学院数学与系统科学研究院系统控制重点实验室, 北京 100190 E-mail: Lguo@iss.ac.cn 收稿日期: 2020–09–07; 接受日期: 2020–09–14; 网络出版日期: 2020–09–21 国家自然科学基金 (批准号: 11688101) 资助 摘要 信息技术的快速发展和广泛应用, 为科学认识和有效调控现实世界中各类不确定性复杂系统 的结构、运行与功能之间关系, 提供了前所未有的工具和手段, 使系统与控制科学迎来新的发展机遇. 未来科学发展离不开现有研究基础及其所提供的借鉴. 本文在简要回顾控制理论发展历史的基础上, 主要围绕不确定性动态系统的估计、控制和博弈研究中的若干基本科学问题, 重点介绍作者研究团队 的相关理论进展、研究体会和疑难问题, 并给出某些未来展望. 本文主要内容集中在下列基本问题的 理论和算法基础: 经典比例 – 积分 – 微分 (PID) 控制、自适应学习、自适应滤波、自适应控制、反馈 机制最大能力、自适应博弈、群体涌现与博弈控制系统等. 值得指出, 在不确定性动态系统中一般存 在各种反馈回路, 对其行为的观测数据通常远不满足独立性与平稳性等经典统计假设, 这是对其开展 理论研究的一个突出特色. 关键词 复杂系统, 控制系统, 不确定性, 反馈机制, PID 控制, 自适应估计, 自适应滤波, 自适应控制, 自适应博弈, 涌现行为, 博弈控制系统 1 引言 系统是任何事物存在的基本方式. 通常认为, 系统是由若干组分 (要素或子系统) 通过相互关联 和相互作用而形成的具有特定功能的整体. 系统科学是研究各类系统的组分、结构、环境与功能之间 普适关系, 以及演化与调控一般规律的科学 [1, 2] . 系统结构包括物理结构和信息结构, 而信息结构往往 包含信息传递和组织运行的众多正负反馈回路. 为了研究系统的功能, 我们需要理解系统的组织和演 化规律、了解并预测系统的结构变化和状态信息、并通过对系统施加适当影响以达到所期望的调控目 标. 这不仅涉及复杂系统的涌现和演化行为分析, 系统的建模、学习、滤波和预测等问题, 以及系统能 控性、能观性、最优性、稳定性与鲁棒性等基本性质, 而且需要设计能够对付大范围不确定性系统的 调控规律, 理解反馈机制的最大能力和根本局限, 并研究具有博弈行为的被控对象的调控问题等. 引用格式: 郭雷. 不确定性动态系统的估计、控制与博弈. 中国科学: 信息科学, 2020, 50: 1327–1344, doi: 10.1360/SSI-2020-0277 Guo L. Estimation, control, and games of dynamical systems with uncertainty (in Chinese). Sci Sin Inform, 2020, 50: 1327–1344, doi: 10.1360/SSI-2020-0277 c 2020 《中国科学》杂志社 ⃝ www.scichina.com https://engine.scichina.com/doi/10.1360/SSI-2020-0277 infocn.scichina.com 郭雷: 不确定性动态系统的估计、控制与博弈 由于实际动态系统的复杂性, 任何数学模型都是其近似或逼近, 在系统内部结构、模型参数和环 境影响等方面, 总存在不可忽略但又事先难以估计或预测的不确定性. 实际上, 不确定性是复杂动态 系统的本质特征之一. 究竟如何控制一个可能具有大范围不确定性的动态系统? 这是控制理论的一个 核心问题. 为了便于从数学上进行理论研究, 我们一般将系统模型中的不确定性描述为参数或函数空 间中的一个 “球”, 而对不确定性系统的控制则定义为对与该 “球” 内所有参数或函数所对应的动态系 统簇的控制. 当然, 并不是模型中的所有不确定性因素都能体现在我们所感兴趣的系统行为的观测数据中. 对 能体现者, 则有望利用观测数据对其进行估计, 而对不能者则说明其对系统行为的观测量没有 (本质) 影响, 因此系统行为关于不确定性因素的 “灵敏度” 是个关键变量. 进一步, 由于系统从结构到功能的 多因素耦合性, 真正影响系统行为和控制器设计的往往是各种不确定性因素的某种 “组合” (线性或非 线性), 而如何对这种 “组合” 的不确定性信息进行估计和处理则更为必要. 概括来讲, 目前对不确定性系统控制器的设计方法主要有三类: 一是首先利用先验知识和 (或) 统 计数据进行离线建模或学习, 然后再设计控制器; 二是直接利用闭环系统观测数据来设计反馈控制对 付不确定性并使系统性能达到要求; 三是两者的适当结合. 一般来讲, 在实际中成功的控制方法总是 基于系统建模与反馈控制的有机结合 [3] . 反馈是生命系统的核心特征 [4] , 也是人类行为的根本特点 [5] . 因此, 深入理解反馈机制, 对生命和 智能系统的研究具有重要意义. 此外, 反馈是控制论中最核心的概念, 也是一条基本的系统学原理, 因 此自动控制也被认为是第一个系统学科 [6] . 因为反馈具有对付动态系统各种不确定性的强大能力, 历 史上反馈原理的有效利用常常对工程技术领域产生革命性影响. 18 世纪 80 年代 J. Watt 发明的蒸汽 机中的核心技术 “离心式调速器”; 20 世纪 30 年代 H. S. Black 对远距离通讯做出关键贡献的 “负反 馈放大器”, 就是历史上两个著名的例子. 对这两类系统稳定性的深入研究, 分别从时域和频域两方面 推动了经典控制理论的发展. 控制论创始人诺伯特 · 维纳 (N. Wiener) 和我国著名科学家钱学森 (H. S. Tsien) 等都对系统、信 息、反馈与控制之间的关系有过精辟论述. 1948 年美国数学家维纳出版的名著《控制论 (cybernetics): 或关于在动物和机器中控制和通信的 科学》[7] , 密切围绕 “控制与通信” 这条主线以及 “反馈” 这一基本原理, 从 “动物智能” 与 “机器智能” 的若干重要方面展开对比讨论, 并认为 “智能的首要问题是 ‘学习’ ”. 维纳试图建立控制论的统计理 论, 但他认为吉布斯 (W. Gibbs) 的统计力学是不能直接用来研究控制系统的, 因为 “一个控制系统不 是一个孤立的系统, 而是一个与周围环境密切联系的系统, 特别是控制系统通过自身的反馈机构可以 减少系统的 ‘无组织程度’, 因此, 在控制系统中经常发生熵减少的过程” [7] . 为了建立控制论的统计理 论, 维纳提出了关于平稳时间序列的预测和滤波理论. 维纳指出 “正如一个系统中的信息量是它的组 织化程度的度量, 一个系统的熵就是它的无组织程度的度量; 这一个正好是那一个的负数”, 并且明确 指出 “信息就是信息, 不是物质也不是能量” [7] . 维纳在书中讨论的内容远远超出了传统自动控制范围 并被历史证明具有深刻的洞见, 对当今包括信息科技与智能系统在内的众多科技领域的发展产生了深 远影响. 维纳《控制论》的重要影响之一就是钱学森于 1954 年出版的《工程控制论》[8] , 该书将一般性理 论和实际工程经验很好地结合为一门新的技术科学, 并指出今后的几个研究方向. 钱学森认为, 控制 论 “这门新科学的一个非常突出的特点就是完全不考虑能量、热量和效率等因素, 可是在其他各门自 然科学中这些因素却是十分重要的. 控制论所讨论的主要问题是一个系统的各个不同部分之间的相互 作用的定性性质, 以及整个系统总的运动状态”, 并且 “工程控制论里面的一个最主要概念就是反馈”. 1328 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 中国科学 : 信息科学 第 50 卷 第 9 期 他还认为, “把工程控制论建设成为一门技术科学的好处就是: 工程控制论使我们可能有更广阔的眼 界用更系统的方法来观察有关问题, 因而往往可以得到解决旧问题的更有成效的新方法, 而且工程控 制论还可能揭示新的以前没有看到过的前景” [8] . 钱学森在《工程控制论》(修订版, 1980 年) 序言中, 进一步阐述了现代化、技术革命与控制论的关 系, 指出 “从科学理论的角度来看, 20 世纪上半叶的三大伟绩是相对论、量子论和控制论” [8] , 并指出 核能技术革命、计算机技术革命和航天技术革命等 “所有这些技术革命都直接与控制论连在一起” [8] . 在经典控制论中最著名的反馈控制方法是 “比例 – 积分 – 微分 (proportional-integral-derivative, PID) 控制”. 这是个具有百年历史的线性反馈控制器 [9] , 在其发展过程中对控制的系统方法起过重要 作用 [10] . 因为 PID 控制具有简单性、实用性和鲁棒性等突出的优点, 它在现代工程技术系统的控制 器设计中一直起主导作用. 事实上, “95% 以上的工业控制问题是采用 PID 解决的” [11] , 并且迄今为 止 “仍没有其他控制方法可以与之相比” [12] . 由于控制系统是自动化系统的 “大脑”, 而自动化又是将 人类从繁重的体力和脑力劳动中解放出来并推动生产力发展的关键技术之一, 因此可以说 “没有 PID, 就没有现代文明”. 此外, PID 控制器的影响已经远远超出自动控制领域自身, 涉及到科学技术领域中 各种各样需要进行反馈调控的系统或对象. 尽管人们对 PID 控制器有大量的研究, 并且目前有各种各 样的 PID 软件包、商用 PID 模块和 PID 参数整定专利, 但是迄今为止人们对 PID 控制的基础理论 和参数设计方法的研究远未成熟, 而 PID 控制自身也难以解决控制变量受约束下多输入多输出动态 系统在一般性能指标下的优化控制问题. 20 世纪 60 年代前后, 诞生了现代控制理论. 其主要标志是基于状态空间方程的卡尔曼 (R. E. Kalman) 滤波 [13] , 线性二次最优控制问题的求解与若干基本概念 (能控性、能观性、结构分解与最小 实现等) 的引进和刻画 [14, 15] , 以及贝尔曼 (R. Bellman) 动态规划 [16] 和庞特里雅金 (L. S. Pontryagin) 极大值原理 [17] 等. 卡尔曼认为状态空间方法可以看作是牛顿 (Newton) 力学定律的公理化 (axiomatization), 并说明 (在线性情形下) 输入输出关系只是决定系统中完全能控与完全能观的那一部分性 质 [15] . 卡尔曼滤波突破了维纳滤波和柯尔莫哥洛夫 (A. N. Kolmogorov) 滤波的局限, 使得以递推方 式求解 (有限维) 非平稳过程的滤波成为可能; 而贝尔曼和庞特里雅金的工作则分别推广了连续时间 Hamilton-Jacobi 理论和古典变分学, 使得在控制变量受约束情形下, 对多输入多输出非线性动态系统 在一般性能指标下的最优控制求解, 有了一般性数学理论指导. 这些标志性理论成果在包括航空航天 在内的许多领域都有重要应用. 然而, 由于这些关于动态过程的优化控制方法需要精确的数学模型, 故对多数不确定性复杂系统的实际应用来讲, 仍有很大局限性. 这促使了后来许多新方向的发展, 包 括系统辨识、自适应 (adaptive) 控制和鲁棒 (robust) 控制等. 2001 年 IEEE 出版社出版了一本论文集 [18] , 汇聚了 1931∼1981 年期间发表的 25 篇有 “重要影响 的文章 (seminal papers)”, 部分反映了这半个世纪中从经典自动控制到现代控制理论的重要进展. 我 国在 20 世纪自动控制领域的部分进展反映在 1999 年第 14 届国际自动控制联合会 (IFAC) 世界大会 的大会报告 [19] 之中. 2005 年科学出版社出版了《控制理论导论: 从基本概念到研究前沿》一书 [20] , 与 通常局限于某一个分支的专著不同, 该书对现代控制理论几个主要分支所用的数学工具和发展概貌进 行了综合阐述, 包括线性系统理论、最优控制理论、H∞ 控制、非线性控制系统、自适应系统理论、分 布参数系统和离散事件动态系统等. 进入 21 世纪之后, 信息丰富的世界为控制科学发展带来了新的 机遇和挑战 [21] , 控制理论的研究对象与范围又进一步扩展, 其中包括网络控制系统、多个体系统、信 息物理系统 (cyber-physical systems)、分布式优化、估计与协同控制等. 特别地, 控制理论与复杂系统研究的结合成为显著发展趋势. 在系统科学中, 一个最基本的问题 是在什么条件下系统整体功能大于其组成部分功能的简单相加, 即所谓 “1 + 1 > 2” 的涌现问题, 这体 1329 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 郭雷: 不确定性动态系统的估计、控制与博弈 现了系统组织 (自组织或他组织) 或集成的重要意义. 另一方面, 在这个不等式两边同除 2 可以得到一 个形式上的等价 “不等式”: “1 < 1/2 + 1/2”, 其意义可以解释为: 系统经过适当分类或分工后再有机 组合所涌现的功能, 要大于捆绑在一起 (或 “一刀切”) 时的功能, 这体现了系统分类处理或 “逆组织” 的重要意义. 这两个 “等价但不等义” 的 “不等式” 从两个相反的方向给出了提高系统整体功能的可能 途径, 例如产业的分工与合作、学科的分化与融合等发展趋势. 这当然只是形象的说法, 但为复杂系统 功能的调控提供了一种不同于反馈机制的基本思路. 因为在不确定性复杂动态系统中一般含有各种反馈回路, 其观测数据的性质往往是由复杂非线性 动力学方程所决定的, 因此它们远不满足独立性与平稳性等经典统计假设. 在系统与控制研究中, 我 们无法回避基于这类复杂数据的算法分析和反馈利用, 尤其是当学习、通信与控制融合在同一个反馈 随机系统中时. 这是不确定性动态系统研究的一个突出特色, 也是与相关学科研究的一个显著区别. 本文将围绕系统与控制中若干基本科学问题, 主要介绍作者研究团队的相关研究进展和研究体会, 并给出某些未来展望. 具体内容贯穿了关于不确定性动态系统估计、控制和博弈的研究, 包括下列科 学问题的理论和算法基础: 经典 PID 控制、自适应估计、自适应滤波、自适应控制、反馈机制的最大 能力和根本局限、自适应博弈、群体系统的涌现、多主体博弈系统控制等. 本文部分内容的介绍也可 参见作者的综述文章 [22] 和专著 [23, 24]. 2 PID 控制的理论基础 2.1 特色与现状 众所周知, PID 控制是迄今实际系统中应用最广泛的控制器, 显示出持久的生命力. PID 控制有 几个显而易见的特点, 可以概括如下: (1) PID 是由数据驱动的反馈控制器, 不需要被控系统模型结构 的具体信息, 是典型的 “无模型” 控制器, 为实际应用提供了方便; (2) PID 是被控系统输出误差的比 例、积分和微分这 3 项的加权线性组合, 其中的 3 个权系数被称为 PID 控制器参数, 因此 PID 控制 器的具体应用只涉及 3 个参数的调节; (3) PID 的比例项主要用来镇定系统, 积分项可以消除系统的 静态偏差, 微分项可以预测未来误差趋势, 因此具有一定综合功能; (4) 牛顿第二定律在系统建模中起 关键作用, 其对应的动力学模型通常为二阶微分方程, 而 PID 控制恰好适合对这类系统进行控制. PID 的上述特点在很大程度上是众所周知的, 然而 PID 控制究竟是否具有收敛性和鲁棒性等良好 性能, 需要严格的理论研究. 进一步, 尽管 PID 控制广泛成功地应用到实际系统中, 而几乎所有的实际 系统都是非线性和不确定的, 但是迄今为止几乎所有 PID 理论研究都是针对线性系统或局部线性化模 型的 [25] , 并且实际应用中对 PID 3 个参数的选取几乎都依赖经验或实验, 包括著名的 Ziegler-Nichols 方法 [26] . 因此, PID 的基础理论与实际应用之间存在显著鸿沟. PID 控制理论至少应该回答下列 3 个问题: PID 控制在应用中如此成功的基本原理是什么? 能否 建立 PID 控制的一般理论基础? 控制器中的 3 个参数究竟如何具体选取? 毫无疑问, 对这些问题的 回答应是控制理论的基本任务, 而为了回答这些问题, 我们不得不面对一般非线性不确定性系统开展 研究. 除此之外, 由于整定 PID 控制器中的 3 个参数一般比较复杂和困难, 实际工程系统中多数 PID 控制回路并不工作在理想状态 [27] . 因此, 对 PID 理论和方法的深入研究, 有助于改进工业系统中 PID 控制回路的性能, 从而有助于提高产品质量 [28] . 2.2 理论与设计 正是在上述背景下, 最近几年我们开展了针对非线性不确定性系统 PID 控制的基础理论研究. 首 1330 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 中国科学 : 信息科学 第 50 卷 第 9 期 先针对由牛顿第二定律所描述的二阶非线性不确定系统, 我们利用函数的 “灵敏度” (偏导数) 的上界 定义了不确定性函数类, 并且给出了三维参数空间的一个无界开集合 [29] . 可以证明, 只要 PID 控制 器的 3 个参数从这个参数集合里任意选取, 那么与不确定函数类所对应的系统簇中任何一个闭环控制 系统, 都是全局稳定的并且输出误差以指数级速度收敛到零 [29, 30] . 此外, 对两类特殊非线性不确定系 统, 利用微分方程中的 Markus-Yamabe 定理等, 还给出并严格证明为了使闭环系统簇全局稳定, PID (PD) 控制器的参数所应满足的充分必要条件 [29] . 这些研究不但建立了 PID 控制器的稳定性和收敛 性理论, 给出了控制器参数的具体设计方法, 并且严格说明了 PID 控制器无论对非线性系统的不确定 性结构, 还是对 PID 控制器的 3 个参数选择, 都具有大范围的鲁棒性, 我们称之为 “双边鲁棒性”. 毫无疑问, 如何进一步在上述参数集合中具体选取 PID 控制器的 3 个参数以兼顾其他控制性能 要求 (如瞬态响应等), 是值得研究的问题. 思路之一是考虑与 PID 控制器有密切联系的自抗扰控制器 (active disturbance rejection control, ADRC), 它是由作者的同事韩京清研究员于 1998 年提出的 [31, 32] , 目前得到越来越广泛的关注和实际应用. ADRC 的核心思想是利用 “扩张状态观测器 (extended state observer, ESO)” 来在线估计非线性不确定性动态, 并进行动态补偿. 这个 ESO 可以设计为线性的 [33] , 它被进一步降阶之后 [34] , 就可以与 PID 控制器建立起联系. 进一步, 利用对 PID 控制建立的理论结 果 [29, 30] , 就可以给出 PID 具体的参数公式 [35] . 由此可以发现一个有趣的事实 [35] : 在 PID 控制器中 如果对 3 项进行适当组合, 则 PID 控制器可以分解为两部分: 一部分可以很好地消除不确定性非线性 动态的影响, 而另一部分具有对线性二阶系统进行极点配置的功能. 2.3 推广与问题 值得指出的是: (1) 这里给出的 PID 参数选取方法并不导致大增益控制器, 并且无论采用什么办 法选取 PID 参数, 只要它们属于我们引进的参数集合, 那么所证明的定理就能保证闭环系统簇的收 敛性质; (2) 对于相对阶 (relative degree) 大于 2 的一般仿射非线性不确定性控制系统, 在不需要假定 全局标准型的情形下, 也可以利用扩展 PID (extended PID, EPID) 来实现对不确定性系统的控制 [36] ; (3) 当不确定系统的 “灵敏度” 函数无界时, 只要其上界函数已知, 也可以建立相应的半全局 (semiglobal) 控制理论结果 [36] , 对非线性不确定性多个体系统和随机系统也可以建立相应的结果; (4) 仍有 许多有意义的问题有待继续研究. 例如, 进一步推广 PID 或 EPID 控制器所对付的不确定性系统类, 进一步考虑 PID 参数的优化选择, 研究时滞、饱和与采样等实际因素的影响, 以及考虑更一般的优化 指标等. 此外, 如何利用非线性 PID 的可能优点 [32] , 以及如何将 PID (EPID) 与学习算法和现代控制 理论进一步结合等, 也值得深入探讨. 3 自适应估计理论 自适应估计 (或在线递推估计) 包括自适应学习和自适应滤波, 在一定意义上都可以看作基于系 统的输入输出数据对模型预报误差的优化. 显而易见, 任何自适应估计算法的收敛性都需要系统数据 满足一定统计假设或某种 “激励” 条件, 这对于开环辨识或离线辨识相对比较容易满足. 但是, 对于闭 环系统辨识来讲要困难得多, 因为此时系统的输入和输出数据一般是由非线性随机动力学方程所决定 的. 在自适应估计中所需要的任何关于数据的假设条件, 都需要回到产生数据的复杂动力系统方程去 进行分析研究. 第 4 节将要讨论的自适应控制系统就是如此. 因此, 在自适应估计理论研究中一个追 求目标是尽量减弱算法收敛性对数据的统计性质要求, 以便使得结果可以方便地应用到包括反馈系统 在内的一般复杂动态系统中. 1331 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 郭雷: 不确定性动态系统的估计、控制与博弈 3.1 自适应学习 对具有定常参数的线性随机回归模型 (回归向量是随机的, 可以是输入输出数据的线性或非线性 函数, 包括线性随机控制系统) 来讲, 经典的最小二乘 (least-squares, LS) 是对定常未知参数的最基本 的估计 (或学习) 算法, 其强收敛性研究在 20 世纪 70∼80 年代日臻完善. 在这一过程中形成了目前常 用的两个关键研究方法; 随机李雅普诺夫 (Lyapunov) 函数方法和鞅 (martingale) 收敛方法. 在控制领 域关于 LS 算法收敛性研究中, L. Ljung [37] 较早利用了鞅收敛定理, 而 J. B. Moore [38] 受卡尔曼滤波 研究的启发较早利用了随机李雅普诺夫函数. 对一般随机回归向量情形, 在早期关于 LS 的研究中, 都 需要数据满足所谓 “持续激励 (persistence of excitation)” 条件来保证其收敛性 [37∼39] , 这意味着信息 矩阵的 “条件数” (即最大本征值除以最小本征值) 要保持有界并且最小本征值要无限增大. 一般来讲, 要求闭环控制系统的信号或数据满足这一条件是比较苛刻的, 比如当控制目的是希望系统输出信号为 某个理想的常数值时. 值得庆幸的是, 对 LS 的收敛性来讲, “持续激励” 条件的确可以大大减弱并且噪声方差可以无界 增长 [40] . 特别是, 1982 年黎子良 (T. L. Lai) 和魏庆荣 (C. Z. Wei) 利用周元鑫 (Y. S. Chow) 的局部 鞅收敛定理和随机李雅普诺夫函数, 成功得到在一定意义下关于经典 LS 算法强收敛性的最弱 “激励 条件” [41] . 该条件只要求 (非降的) 信息矩阵最大本征值的对数除以其最小本征值收敛到零即可, 这比 传统的 “持续激励” 条件要弱很多. 这一漂亮的结果对随机回归向量除了可测性之外没有其他统计要 求, 并且可以推广到多输入多输出与有色噪声情形 [42, 43] , 这就使得 LS 收敛性理论可以方便地用于反 馈控制系统. 尽管如此, 正如第 4 节将要说明的, 在随机自适应控制系统中要验证这个 “最弱条件” 一 般也十分困难, 这就需要紧密结合控制目的并引进新的非线性分析方法去绕开这一困难. 除了对随机控制系统的未知系数这个参数向量进行估计之外, 对线性反馈控制系统的未知阶数 也可以同时进行估计. 受平稳时间序列中阶数选取准则 (BIC) 的启发, 我们通过引进一个依赖于在线 数据激励程度的阶数选取准则 (CIC), 首先研究了非平稳反馈系统的阶数估计问题 [44] , 并随后与 D. Huang 合作通过建立双指标鞅的估计理论, 将这一工作推广到更一般的情形 [45] . 值得指出的是, 这时 我们所用的关于数据的激励条件与单纯估计未知系数情形是一样的. 此外, 同样思想还可以用于关于 系统时滞大小的估计 [46] 、甚至关于更一般随机回归向量非零元素个数的估计. 3.2 自适应滤波 自适应滤波 (或时变参数跟踪, 或自适应信号处理) 在现代信息处理技术中发挥重要作用, 它与 (关于定常参数的) 自适应估计相比, 最显著的不同是算法的自适应增益不能无限小, 否则无法跟踪不 断变化的参数或信号. 进一步, 在理论研究上, 由于一般涉及数学上非交换、非独立与非平稳随机矩阵 的连乘积, 即使对结构相对简单但被广泛成功应用的最小均方 (least-mean-squares, LMS) 算法, 建立 相关理论也被认为 “非常困难” [47] . 有鉴于此, 文献中绝大多数理论研究都要求量测数据具有独立性 等统计性质, 这当然无法用于动态反馈系统. 1990 年作者利用概率论中的条件数学期望工具, 引进了适用于一般随机信号或数据的 “随机激 励 (stochastic excitation)” 条件, 首次严格建立了用卡尔曼滤波器 (KF) 来跟踪线性随机回归模型中 未知时变参数的稳定性 [48] . 因为 “随机激励” 条件不要求量测数据满足独立性和平稳性等统计假设, 使得理论结果对反馈系统的应用成为可能. 几年后, 作者通过进一步改进 “随机激励” 条件, 建立关于 随机矩阵连乘积研究的新方法, 最终在一般非平稳非独立信号情形下, 对实际中广泛应用的 3 类基本 自适应滤波算法 (LMS, KF, RLS) 统一地建立了其稳定性理论 [49] . 随后, 作者与瑞典 L. Ljung 等合 1332 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 中国科学 : 信息科学 第 50 卷 第 9 期 作 [50∼53] , 进一步建立了关于一般自适应滤波算法的性能分析、逼近与优化的基础理论和方法, 包括算 法步长或遗忘因子的选取公式. 值得指出的是, 作者引进的这个关于观测数据的 “随机激励” 条件, 在一定意义下也是关于自适应 滤波算法稳定性的必要条件 [49] . 这一系列工作, 适用于包括反馈系统在内的一般非独立非平稳随机系 统, 也正因为如此, 可望为自适应信号处理与在线反馈控制的进一步结合提供相关理论基础. 3.3 分布式自适应估计 近年来, 随着信息技术的发展和观测手段与计算能力的显著提升, 我们对不确定性复杂系统的认 知有可能避免 “盲人摸象” 式的局限. 相应地, 基于传感器网络的分布式自适应估计 (学习和滤波) 问 题得到广泛研究和应用. 分布式与集中式处理方式相比具有显著优点, 例如, 利用网络拓扑的连通性, 有助于减少对信息传输的能力要求和安全隐患, 在受到外部攻击时具有更好的鲁棒性等. 然而, 正如单传感器情形一样, 几乎所有前人工作都需要假定系统观测数据具有独立性和平稳性 等统计性质, 这个要求对由各种反馈回路组成的复杂系统是不可能满足的. 幸运的是, 正因为有了单个 传感器估计时的一般理论研究基础, 才使我们有可能引进对观测数据的一般性 “合作激励 (cooperative excitation)” 条件, 来分别建立分布式最小二乘 (DLS) 估计 [54] 和分布式最小均方 (DLMS) 滤波算法 的稳定性与估计性能等理论基础 [55∼57] . 值得指出, 这里所引进的 “合作激励” 条件是作者早年引进的关于单传感器情形 “随机激励” 条件 的自然推广, 不但是保证分布式算法稳定的充分条件, 而且在一定意义也是必要的. 与前人工作相比, 这一系列理论工作有两个突出特点: 一是不需要观测数据的独立性与平稳性要求, 所以可以应用于复 杂随机动态系统中, 包括反馈控制系统; 二是实现了 “1 + 1 > 2” 功能, 即当任何一个传感器都无法单 独估计出系统的未知变量时, 分布式自适应算法就可以估计出, 因为这时 “合作激励” 条件更容易满 足. 当然, 如果随机回归向量本身是稀疏的无法满足这一 “合作激励” 条件, 还可以进一步构造基于压 缩传感的分布式算法进行估计 [58] . 由于大数据与超级计算等技术的发展, 当前机器学习, 特别是基于深度神经元网络 (DNN) 的机器 学习算法, 得到日益重视和广泛应用. 机器学习的数据往往来自包含各种反馈机制的复杂开放动态系 统, 因此所用的数据一般并不满足通常的独立性和平稳性等统计假设. 如何在更广的应用场景下, 借 鉴自适应估计中的相关思想和方法, 从理论上分析一般随机数据条件下机器学习算法的预测或收敛性 质, 值得研究探讨. 4 随机自适应控制 由随机最优控制理论可知, 关于不确定性随机系统最优控制问题的贝尔曼方程一般很难求 解 [59] , 因此一个可行的思路是寻找近似方案. 在这方面一个重要原则是费德堡姆 (A. A. Feldbaum) 的 “双重控制 (dual control)” [60] , 即最优控制是 “探测 (probing)” 与 “行动 (action)” 功能的适当平衡 (trade-off). 虽然这个原则一般不能给出控制器的具体构造, 但是具有重要指导意义. 自适应控制的基本思想就是将系统估计与控制规律在线结合并应用到同一个反馈回路中. 一个自 然的并且相对简单的控制器设计方法, 就是所谓的 “必然等价 (certainty equivalence)” 原则 [61] , 即先 假定系统结构和参数已知来设计控制律, 然后, 利用对结构和参数的在线估计值来代替控制器中 (未 知的) 真实值. 这样设计的自适应控制器未必在每一步都是最优的, 因为 “分离原理” 一般不成立并且 在线估计值也不一定是最好的. 但是, 如果随着数据的增多, 由这样设计的自适应控制器能够给出渐 1333 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 郭雷: 不确定性动态系统的估计、控制与博弈 近最优的系统性能, 也就达到 “自校正” 或 “自优化” 目的了. 4.1 理论研究的困难 在自适应控制领域, 利用 “必然等价” 原则设计出一个自适应控制算法一般并不困难, 真正的困难 在于对所设计出的控制算法, 能否从理论上保证被控闭环系统具有稳定性与收敛性等所需要的良好性 能. 不幸的是, 由于自适应控制系统的结构在本质上, 是由一组很复杂的非线性与非平稳随机动态方 程组所刻画 (即使被控对象是线性系统亦然), 这就使得为其建立稳定性与收敛性的数学理论带来超出 预料的研究困难. 实际上, 任何一个功能较为高级的 “智能化” 系统, 往往都具有一定程度的 “复杂性” 的反馈结构, 这似乎是 “智能化” 的必然 “代价”. 但从理论研究上来讲, 最容易出现下面的 “循环论证”: 如果希望 有满意的输出信号, 就需要有满意的输入信号; 但由于输入信号直接依赖于对参数或结构的估计值, 因 此就需要有满意的在线估计值. 进一步, 由于估计值又依赖于输出信号, 从而需要有满意的输出信号, 这又回到了论证的起点! 这是理论研究中出现困难的基本原因. 正因为如此, 从理论上建立自适应控 制系统的全局稳定性与收敛性等, 被认为是这一领域的中心问题, 并引起国际控制界的极大关注与广 泛研究, 成为现代控制理论发展史上的一个绚丽篇章. 4.2 自校正调节器理论 在控制论历史上, 由最小方差控制与最小二乘估计这两个 “最优原则” 相结合而产生的著名 “自 校正调节器” [62] , 不但从根本上推动了自适应控制学科的发展, 使得自适应控制经过多年沉寂后得以 复兴, 并且广泛深刻地影响了工业应用 [18] . 但是, 由于 “自校正调节器” 涉及相当复杂的非线性随机 动力学方程组, 从数学上严格建立其理论基础, 曾是自适应控制领域长期未解决的中心问题 (central issue) [63] . 在文献 [18] 所收录的 25 篇有重要影响的论文中, 就有 3 篇文章与自校正调节器收敛性理 论研究密切相关 [62, 64, 65] . 虽然这些工作及相关工作 [41, 66] 没能最终解决自校正调节器的收敛性问题, 但是都取得了不同程度的重要进展, 因而产生了广泛影响. 20 世纪 90 年代初, 作者在研究另一个随机控制问题时, 突然联想到久攻未破的自校正调节器难 题, 发现可以构造一个形式上的 “线性时变” 随机方程, 使得其解能控制闭环非线性随机系统的输出 信号, 并且可以利用递推 LS 算法所给出的关于 “自适应预报误差” 加权之和估计的精细结论, 进一步 对这个 “线性时变” 方程之解的可能增长速度给出有效的上界估计, 从而得到关于闭环非线性随机系 统输出信号幅值的前所未有的关键上界估计. 这样, 就在充分汲取前人智慧的基础上, 成功克服了对 闭环自适应控制系统理论分析的关键困难, 最终合理完整地证明了自校正调节器的全局稳定性和最优 性 [67] . 在此基础上, 作者又通过建立自校正调节器的对数律, 进一步证明了自校正调节器确实具有最 优收敛速度 [68] . 值得指出, 自校正调节器的有关理论结果可以推广到具有线性未知参数的非线性系统 [69] , 只要相 关的非线性函数具有线性增长速度. 关于自校正调节器研究过程、关键思想和主要体会的介绍可见作 者的回忆文章 [70]. 4.3 自适应极点配置与最优二次型控制 除了自校正调节器之外, 关于线性系统自适应控制的另外两个最基本的问题就是非最小相位系统 的自适应极点配置和自适应二次型最优控制. 在自适应情形下, 因为被控闭环系统既无先验的稳定性 保障, 也无必要的激励信息, 如何保证不确定性模型的在线估计值具有能控性和收敛性等良好性质, 是 1334 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 中国科学 : 信息科学 第 50 卷 第 9 期 解决这两个基本问题所面临的共同关键难点, 成为自适应控制领域长期未解决的问题, 并吸引了大量 研究. 前人的工作或假设开环系统具有稳定性, 或将参数估计值投影到先验的能控集合上, 或需要假 定估计值具有某些良好性质等. 20 世纪 90 年代中期, 作者发现并证明了法国学者 Bercu 提出的加权最小二乘算法 (weighted LS, WLS) [71] 的自收敛性 [72] , 即证明了对任何数据信息, WLS 算法都几乎处处收敛到某一个随机向量 (不 一定是真值), 这就为其在自适应控制中的应用带来了方便. 在此基础上, 作者引进和利用基于随机优 化的 “随机正则化” 方法, 以及与 “双重控制” 精神一致的 “衰减激励” 方法 [73] , 较好地解决了关于非 最小相位线性随机系统自适应极点配置问题 [72] , 并随后与合作者用类似方法解决了自适应最优线性 二次型高斯 (LQG) 控制问题 [74] . 4.4 时变系统自适应控制 当随机系统的参数向量不但未知并且可能随时间变化时, 自适应控制研究变得更有必要并且更有 挑战性. 直观上讲, 自适应控制应该能够对付具有慢变化参数的不确定性系统, 这点对线性时变随机 系统也已经被严格证明 [75] . 这启发人们提出一个自然的问题: 自适应控制能够对付多快的参数变化? 然而, 我们发现自适应控制的能力并不能单纯由参数变化的快慢来刻画, 而是依赖于系统参数变化的 信息不确定性和结构复杂性两者的共同作用 [76] . 长期以来, 在时变参数系统的自适应控制中, 一个基本问题是当未知时变参数为 Markov 跳变参 数时的自适应控制问题 [77] . 在离散时间情形下, 薛峰与作者 [78] 建立了这类系统能被能自适应镇定的 充分必要条件, 从而使得该问题得到了比较完整的解决. 值得指出的是, 该条件要严格强于参数已知 情形下相应系统可镇定的充分必要条件 [79] , 这反映出参数不确定性对反馈能力的本质性影响. 这一现 象对定常线性系统的自适应控制是不曾有的. 可以预见, 随着人工智能等信息技术的发展, 我们将越来越有能力和实际需求面对类型更广泛的 不确定性复杂随机系统问题, 将统计机器学习或智能识别技术与反馈控制 (决策) 实时结合, 形成对复 杂系统更加智能化的调控. 有理由相信, 随机自适应估计和自适应控制中的相关分析方法和基本研究 结果, 将具有启发借鉴意义. 5 反馈机制的最大能力 前面讨论的经典 PID 控制和自适应控制都是具体的反馈规律, 说明了反馈控制在对付系统不确 定性方面的强大能力. 实际应用中, 在利用数字计算机实现控制算法时, 一般基于采样数据进行反馈, 而当采样频率和控制频率因物理或通讯或计算限制不能任意大时, 相应反馈规律的控制能力将受到 影响. 如果我们把由所有可能的反馈规律 (而不是限定为某一类反馈规律) 所构成的集合称为反馈机制, 一个自然的问题是: 反馈机制对付非线性与不确定性的能力究竟有多大? 它的根本局限是什么? 毫无 疑问, 这是控制系统中的核心科学问题之一. 为了回答这个问题, 我们不但要研究反馈机制能够做什 么, 而且, 往往更为困难的是, 还要研究反馈机制不能够做什么. 然而, 控制论历史上发展起来的自适 应控制和鲁棒控制等处理不确定性的主要研究方向, 并不能给出真正解答. 事实上, 由于问题的提法不 同, 在这方面很少有理论结果, 除了鲁棒控制中对一类不确定性线性系统的相关结论 [80] . 1335 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 郭雷: 不确定性动态系统的估计、控制与博弈 5.1 参数化系统 20 世纪 90 年代中, 作者在将离散时间线性随机系统的适应控制结果, 试图推广至具有非线性增 长的随机系统时遇到了意外的 “瓶颈”, 随即意识到这一 “瓶颈” 可能在本质上是关于反馈机制最大能 力的. 这是在以前的理论研究中未曾有过的现象. 随后, 作者从理论上给出严格证明, 从而建立了关于不确定性非线性随机系统反馈机制最大能力 的第一个 “临界性定理” [81] , 证明了与未知参数乘性关联的非线性函数的增长速度对反馈机制最大能 力的刻画起着关键作用. 换言之, 如果非线性增长指数 b < 4, 则一定可以设计出反馈控制律使得闭环 系统全局稳定; 反之, 如果非线性增长指数 b > 4, 则无论怎样设计反馈控制律, 都无法使得闭环系统 全局稳定. 这一结果后来被进行了各种推广. 特别地, 可以证明在一般非线性参数情形下, 上述临界可镇定 性结论仍保持, 只要将前述 “增长指数” 换为未知参数的灵敏度函数 (sensitivity function) 的增长指数 即可 [82] . 李婵颖等 [83] 进一步发现对可能具有大幅振荡特性的非线性函数, 只要 b < 4 在一个 “正密 度集合” 上成立就可证明全局镇定性. 此外, 当控制通道的参数也未知时, 反馈机制能力的临界增长指 数下降为 b = 3 [84] . 对具有多个未知线性参数的非线性随机系统, 利用相应的多个非线性增长指数可 以构造一个多项式 [85] , 利用这个多项式零点的性质, 谢亮亮和作者 [85] 建立了随机噪声下系统能被反 馈机制镇定的必要条件, 李婵颖等 [86] 后来证明了这个条件的充分性. 在任意有界噪声干扰下, 这个多 项式判据也成立 [87] . 利用这个多项式判据, 可以看出当未知线性参数的个数逐渐增大时, 反馈机制可 以对付的最大非线性增长指数逐渐下降为 1, 即趋于线性增长速度 [69] . 对一般非线性参数化不确定性 系统的反馈能力研究要复杂得多 [82] . 关于上述结论, 人们自然会问: 为什么反馈机制能力会有这样的临界值? 其背后的基本原理是什 么? 简单来讲, 这样的临界值是由关于未知参数 “最优” 估计误差的 “下降趋势” 与关于未知参数的灵 敏度函数的 “最大” 可能 “上升趋势” 共同作用的结果, 最终可转化为对某个多项式实根性质的判断. 此外, 从数学证明中也可以看出不可能性定理成立的基本原理: 首先对任何反馈控制规律, 利用贝叶 斯嵌入 (Bayes embedding) 方法, 可以将系统输出的二阶条件矩用最优预报误差的条件方差来表达, 而 后者又可以利用动态系统的条件 Cramer-Rao 型的不等式给出下界估计, 这一估计可以用 Fisher 信息 矩阵和灵敏度函数来表达, 据此通过进一步的非线性分析, 最终可以将闭环系统稳定性与多项式判据 联系起来 [88] . 5.2 非参数化系统 非参数化 (nonparametric) 系统是指系统中的不确定性无法用有限个未知参数来表达的系统, 因 而需要用未知函数来表达. 对于非参数化不确定性系统的反馈能力, 谢亮亮和作者通过利用函数空间 上的 Lipschitz 范数 (可以看作一种灵敏性度量) 来定义函数空间中的 “球”, 并进一步利用该 “球” 来 定义系统不确定性函数类的大小. 我们发现并证明 [89] , 如果将该 “球” 的半径记为 L, 那么对离散时 √ 间一阶非线性不确定性动态系统, L = 23 + 2 恰好刻画了反馈机制最大能力的临界值. 换言之, 如果 √ L < 32 + 2, 那么一定可以设计出反馈控制规律, 使得对 “球” 内所有非线性函数, 相应的闭环控制系 √ 统簇都全局稳定; 反之, 如果 L > 23 + 2, 那么无论怎样设计反馈控制规律, 总存在 “球” 内的至少一 个非线性函数, 使得相应的闭环控制系统不能全局稳定. “临界性定理” 的一个重要推广, 就是当非线性不确定性系统被建模为半参数化 (semi-parametric) 的情形, 此时系统同时呈现有限参数不确定性和函数不确定性. 在一些基本假设下, 包括未知参数向 1336 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 中国科学 : 信息科学 第 50 卷 第 9 期 量属于某个已知紧集、含有参数不确定性的非线性函数具有线性增长速度、并且非线性系统是 “最小 √ 相位” 的, 那么可以证明 [90] , 这时反馈机制的最大能力仍然被非参数部分所主导, 即 L = 32 + 2 仍然 是反馈机制最大能力的临界值. 这个推广的定理之所以成立, 我们认为源于非参数不确定性在本质上 是由无穷多个未知参数所刻画, 因此参数化部分的有限个未知参数并不带来本质性影响. 这一结论对 深入认识系统建模与反馈控制之间的互补性定量关系具有重要意义. 5.3 采样控制系统 在许多实际应用中, 被控对象往往被建模为连续时间系统, 而反馈控制规律往往是基于采样数据 构造的, 这就形成了连续与离散时间变量混杂的采样控制系统, 从而自然引出在采样下关于反馈机制 能力的基本研究问题. 可以想象, 如果采样和反馈频率可以充分大, 那么连续时间情形下建立的相关 控制理论照样适用. 然而, 当采样和反馈频率由于各种约束不能充分大时, 情况就变得复杂困难. 实际 上, 前面关于离散时间不确定性系统反馈能力局限性的结论已经给出了提示. 事实上, 薛峰和作者 [91] 证明哪怕对一阶非线性不确定性连续时间系统, 采样反馈控制的全局镇 定能力也具有根本性局限. 如果用 L 表示非线性函数类的 “斜率” (也是一种灵敏度), 而用 h 表示采 样反馈周期, 那么当 Lh 适当小时, 可以构造采样反馈控制使得不确定性系统全局稳定. 然而, 也存在 常数 a > 0, 使得当 Lh > a 时, 任何采样反馈都不能使不确定性系统全局稳定. 文献 [91] 首先确定了 下界 a 的具体值, 后来文献 [92] 进一步改进了这个下界. 值得指出的是, 在 “临界性定理” 中的 “必要性” 结论实际也是 “不可能性定理”, 而本节所有关于 反馈机制能力的 “不可能性定理” 在下列意义下具有普适性: 一是定理对所有可能的反馈规律都成立, 二是定理对一般的不确定性系统也成立, 只要这一不确定性模型包含定理证明中所用的不确定性模型 作为子集. 尽管如此, 关于反馈机制最大能力的理解仍然有大量问题有待研究, 特别是, 对更一般不确 定性非线性动态系统反馈机制能力临界值的研究, 无论是对参数化、非参数化还是采样系统, 仍然很 有挑战性. 本节部分内容的详细介绍可见文献 [93]. 6 多主体博弈系统控制 无论是经典还是现代控制理论, 所研究的被控对象多是工程系统, 尽管允许大范围动态不确定性 存在, 但在数学模型中一般不包含被控对象的自主行为或 “自我追求”, 这就使得控制理论的应用范围 受到局限, 比如难以直接应用到社会、经济、动物或未来 “智能” 工程系统中, 因为这类系统的被调 控对象可能具有 “上有政策, 下有对策” 等博弈行为. 事实上, 早在维纳《控制论》[7] 与《人有人的用 处》[94] 中, 就强调了自然科学与社会科学研究的不同, 并引用爱因斯坦 (Einstein) 的名言 “上帝精明, 但无恶意”. 这两本书都讨论了复杂社会系统调控的困难, 并多次提到冯 · 诺依曼 (J. von Neumann) 的博弈论. 尽管博弈论与控制论差不多是同一时期提出的, 并且两者之间存在关联 [95] , 但它们在很大 程度上是独立发展起来的. 如今, 控制系统领域对多主体系统博弈行为的研究越来越受到重视 [96] . 与控制系统一样, 实际中 博弈系统也往往具有较大的不确定性. 维纳在《控制论》[7] 中就论述过在博弈过程中学习与适应的重 要性. 自适应控制理论近半个世纪的发展, 为自适应博弈理论的研究提供了基础, 近年来相关研究也 陆续展开 [97, 98] . 此外, 纳什 (J. Nash) 均衡概念 [99] 为一般非合作博弈系统中涌现行为的研究提供了 重要工具. 人类合作可以看作博弈系统的涌现结果. 美国阿克塞尔罗德 (R. Axelrod) [100] 进行的重复囚徒困 1337 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 郭雷: 不确定性动态系统的估计、控制与博弈 境博弈计算机仿真实验, 为揭示人类如何达致合作的社会机制取得了重要进展. 穆义芬与作者 [101] 考 虑了一类简单的重复囚徒困境博弈模型, 从数学上证明了从 “自私走向合作” 的有关定理, 说明在一 定条件下, 两个重复博弈的理性个体可以在有限步之内达到合作状态. 可以预见, 人类设计的机器将 有越来越强的自主智能行为, 那时就需要考虑机器与机器之间、人与机器之间的合作问题等. 当然, 如 何从理论上研究更复杂的合作情形还需要进一步探索. 多个体或群体系统的同步现象也是涌现行为. 这方面一个基本模型是作为 Boid 模型的简化版本 的 Vicsek 模型 [102] : 假定平面上有多个等速运动的个体, 每个个体的运动方向按照与自己邻居趋同的 原则更新 (某种局部优化), 这里的个体邻居是指位于以该个体为圆心的某个圆 (感知范围) 内的所有 个体. 这是一个基本的多个体非线性局部相互作用模型, 其同步性研究依赖系统的运动状态所对应的 动态图的 “联合连通性”, 而如何保证 (而不是假设) 这一性质是关键理论问题. 唐共国与作者 [103] 通过 引进随机框架并深入分析随机几何图的谱隙性质以及随机非线性动态性质, 证明了 “联合连通性” 并 建立了这类大群体系统的同步理论. 随后, 陈鸽、刘志新与作者 [104] 进一步证明了为保证这类大群体 同步性所需的 “最小” 相互作用半径. 此外, 如果个体的邻居按照 “拓扑距离” 来定义, 则也可以给出 为保证大群体同步性所需的最少连接个数的估计 [105] . 陈鸽 [106] 还进一步分析了在噪声影响下 Vicsek 模型产生的复杂行为, 包括转向、旋涡和分叉等. 当然, 如果涌现出的宏观行为不是我们所期望的, 就 需要考虑调控问题. 在不改变已有个体行为规则前提下, 可以采用 “软控制” [107] 和 “比例控制” [108] 等调控方法. 当然, 这里讨论的还只是理想化模型, 实际系统中多主体之间的相互作用要复杂得多, 特 别是具有博弈性质的系统. 如何对具有博弈行为的被控对象进行调控研究, 是近十多年来作者一直思考的问题 [109, 110] . 这一 是源于 2005∼2006 年之间与美国 J. Holand 教授关于复杂适应系统 (complex adaptive systems) 与控 制系统研究如何结合的一系列讨论; 二是源于 2008 年以来作者对法律这个社会系统 “调控器” 的更多 认识; 三是源于对现实社会管理中因忽视对象的自主性或博弈性而导致的某些异化现象的思考. 近些 年人工智能的迅猛发展, 更强化了对这个问题的认识. 这些思考与探索的结果逐渐走到博弈控制系统 (game-based control systems, GBCS), 这是研究被 控对象具有博弈行为的动态系统的一个理论框架 [111, 112] . 这个框架将博弈论与控制论结合为一个具 有层级结构的调控系统, 上层为 (多元) 宏观调控变量, 下层为相互关联且功能不尽相同的多个主体, 每个主体都有自己的追求目标. 显然, 这一框架既不同于传统的控制理论, 也不同于传统的博弈理论. 特别地, 这一框架虽然与博弈论中著名的斯塔克尔伯格博弈 (Stackelberg game) 有相通之处, 但正如 控制理论与优化理论的关系一样, 两者内涵存在根本差异. 除了结构已知时的优化问题外, 博弈控制 系统的研究还包括能控性、能观性、镇定性、反馈控制、适应控制、鲁棒控制、学习控制、系统辨识和 滤波理论等. 实际上, GBCS 最基本的特点是对现代控制理论框架的继承和拓展. 它继承了控制理论中反馈控 制这一对付不确定性的核心思想, 也拓展了控制理论的范围以包含被控对象具有自己目标追求的情形. 目前, 对 GBCS 能控性和能镇定性研究已经取得一些初步结果1)[111, 113] , 但由于这是一个新方向, 还有 更多问题有待研究, 包括上面提到的问题. 最后, 随着信息技术特别是互联网、移动通讯、云计算、大数据和人工智能等的发展, “信息 – 物 理 – 人类 (CPH)” 3 个系统之间的耦合越来越紧密, 为人机融合社会中复杂系统的调控带来一系列新 挑战. 为应对这些挑战, 需要将调控工程系统的控制科学与调控社会系统的法律体系进行结合 [114] , 而 不确定性博弈控制系统有望成为其科学研究的一个切入点. 1) Zhang R R, Guo L. Stabilizability of game-based control systems. SIAM J Control Optim, 2020 (submitted). 1338 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 中国科学 : 信息科学 第 50 卷 第 9 期 结语 7 信息技术的飞速发展, 既带来一系列挑战性复杂系统问题, 同时, 也为我们更好地研究和调控不确 定性复杂系统提供了有力工具. 本文针对不确定性动态系统的估计、控制和博弈中的若干基本科学问 题, 主要介绍了作者研究团队在基础理论方面的研究进展、研究体会和未来展望. 在大数据时代, 我们从现实世界中获得的数据越来越丰富, 但是从根本上讲, 它们远不满足独立性 和平稳性等经典统计假设. 如何在这样的数据条件下保证参数估计或学习算法的良好性能, 该性能究 竟需要数据中至少含有多少信息量, 如何建立学习或识别算法与控制算法在线结合时的理论基础, 如 何定量研究由数据驱动的反馈控制机制对付不确定性的最大能力, 如何调控复杂系统中具有博弈行为 的对象等, 都是基本的科学问题. 作者希望通过本文对这些问题的介绍, 对更一般复杂系统和智能化 控制的研究有所裨益. 回顾历史, 维纳在《控制论》中试图建立控制论的统计学理论 [7] , 钱学森在《工程控制论》(修订版) 序言中希望 “把控制论提高到真正的一门基础科学” [8] , 后来又提出 “创立系统科学的基础理论 —— 系统学” [1] . 如今系统与控制科学思想方法的应用遍及几乎所有科学技术领域, 进一步研究系统与控 制科学的共性基础科学问题, 既有相应基础, 更是时代需求. 我们正站在新的起点上! 致谢 作者感谢匿名审稿人和中国科学院系统控制重点实验室的多位同事提出的宝贵修改建议. 参考文献 1 钱学森. 创建系统学. 上海: 上海交通大学出版社, 2007 2 Guo L. What is systematology. J Syst Sci Math Sci, 2016, 36: 291–301 [郭雷. 系统学是什么. 系统科学与数学. 2016, 36: 291–301] 3 Fleming W H. Future Directions in Control Theory: A Mathematical Perspective. Philadelphia: Society for Industrial and Applied Mathematics, 1988 4 Hoagland M B, Dodson B. The Way Life Works. New York: Times Books, 1995 5 Powers W T. Feedback: beyond behaviorism. Science, 1973, 179: 351–356 6 Åström K J, Kumar P R. Control: a perspective. Automatica, 2014, 50: 3–43 7 Wiener N. Cybernetics: or Control and Communication in the Animal and the Machine. Cambridge: The MIT Press, 1948 [Wiener N, 著. 郝季仁, 译. 控制论: 或关于在动物和机器中控制和通信的科学. 北京: 北京大学出版社, 2007] 8 Tsien H S. Engineering Cybernetics. New York: McGraw-Hill Book, 1954 [钱学森, 著. 戴汝为, 何善堉, 译. 工程控 制论. 上海: 上海交通大学出版社, 2007] 9 Minorsky N. Directional stability of automatically steered bodies. J Am Soc Naval Eng, 1922, 34: 280–309 10 Bennett S. The past of PID controllers. Annu Rev Control, 2001, 25: 43–53 11 Åström K J, Murray R M. Feedback Systems: An Introduction to Scientists and Engineers. Princeton: Princeton University Press, 2008 12 Samad T. A survey on industry impact and challenges thereof. IEEE Control Syst, 2017, 37: 17–18 13 Kalman R E. A new approach to linear filtering and prediction problems. J Basic Eng, 1960, 82: 35–45 14 Kalman R E. Contribution to the theory of optimal control. Bol Soc Mat Mexican, 1960, 5: 102–119 15 Kalman R E. Mathematical description of linear dynamical systems. J Soc Indust Appl Math Ser A Control, 1963, 1: 152–192 16 Bellman R. Dynamic Programming. Princeton: Princeton University Press, 1957 1339 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 郭雷: 不确定性动态系统的估计、控制与博弈 17 Pontryagin L S. Optimal regulation process. Uspekhi Mat Nauk, 1959, 14: 3–20 18 Basar T. Control Theory: Twenty-five Seminal Papers (1931–1981). New York: IEEE Press, 2001 19 Guo L, Huang L, Jin Y H. Some recent advances of automatic control in China. In: Proceedings of the 14th IFAC World Congress (Plenary Lecture), Beijing, 1999. 31–48 20 郭雷, 程代展, 冯德兴, 等. 控制理论导论: 从基本概念到研究前沿. 北京: 科学出版社, 2005 21 Murry R M. Control in an Information Rich World: Report of the Panel on Future Directions in Control, Dynamics, and Systems. Philadelphia: Society for Industrial and Applied Mathematics, 2002 22 Guo L. Feedback and uncertainty: some basic problems and results. Annu Rev Control, 2020, 49: 27–36 23 Guo L. Time-Varying Stochastic Systems: Stability and Adaptive Theory. 2nd ed. Beijing: Science Press, 2020 [郭 雷. 时变随机系统: 稳定性与自适应理论 (第二版). 北京: 科学出版社, 2020] 24 Chen H F, Guo L. Identification and Stochastic Adaptive Control. Boston: Birkhauser, 1991 25 Silva G J, Datta A, Bhattacharyya S P. PID Controllers for Time-Delay Systems. Berlin: Springer, 2007 26 Ziegler J G, Nichols N B. Optimum settings for automatic controllers. Trans ASME, 1942, 64: 759–768 27 O’Dwyer A. PI and PID controller tuning rules: an overview and personal perspective. In: Proceedings of IET Irish Signals and Systems Conferences, 2006. 161–166 28 Åström K J, Hägglund T. PID Controllers: Theory, Design, and Tuning. Research Triangle Park: Instrument Society of America, 1995 29 Zhao C, Guo L. PID controller design for second order nonlinear uncertain systems. Sci China Inf Sci, 2017, 60: 022201 30 Zhang J K, Guo L. Theory and design of PID controller for nonlinear uncertain systems. IEEE Control Syst Lett, 2019, 3: 643–648 31 Han J Q. From PID to active disturbance rejection control. IEEE Trans Ind Electron, 2009, 56: 900–906 32 Han J Q. Active Disturbance Rejection Control Technique — the Technique for Estimating and Compensating the Uncertainties. Beijing: National Defense Industry Press, 2009 [韩京清. 自抗扰控制技术 —— 估计补偿不确定性因 素的控制技术. 北京: 国防工业出版社, 2009] 33 Gao Z Q. Scaling and bandwidth-parameterization based controller tuning. In: Proceedings of American Control Conference, Denver, 2003. 4989–4996 34 Huang Y, Xue W C. Active disturbance rejection control: methodology and theoretical analysis. ISA Trans, 2014, 53: 963–976 35 Zhong S, Huang Y, Guo L. A parameter formula connecting PID and ADRC. Sci China Inf Sci, 2020, 63: 192203 36 Zhao C, Guo L. Extended PID control of nonlinear uncertain systems. 2019. ArXiv:1901.00973 37 Ljung L. Consistency of the least-squares identification method. IEEE Trans Autom Control, 1976, 21: 779–781 38 Moore J B. On strong consistency of least squares identification algorithms. Automatica, 1978, 14: 505–509 39 Solo V. The convergence of AML. IEEE Trans Autom Control, 1979, 24: 958–962 40 Chen H F. Strong consistency and convergence rate of least squares identification. Sci Sin Ser A, 1982, 25: 771–784 41 Lai T L, Wei C Z. Least squares estimates in stochastic regression models with applications to identification and control of dynamic systems. Ann Statist, 1982, 10: 154–166 42 Lai T L, Wei C Z. Extended least squares and their applications to adaptive control and prediction in linear systems. IEEE Trans Autom Control, 1986, 31: 898–906 43 Chen H F, Guo L. Convergence rate of least-squares identification and adaptive control for stochastic systems. Int J Control, 1986, 44: 1459–1476 44 Chen H F, Guo L. Consistent estimation of the order of stochastic control systems. IEEE Trans Autom Control, 1340 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 中国科学 : 信息科学 第 50 卷 第 9 期 1987, 32: 531–535 45 Huang D W, Guo L. Estimation of nonstationary ARMAX models based on the Hannan-Rissanen method. Ann Statist, 1990, 18: 1729–1756 46 Chen H F, Zhang J F. Identification and adaptive control for systems with unknown orders, time-delay, and coefficients. IEEE Trans Autom Control, 1990, 35: 866–877 47 Widrow B, McCool J M, Larimore M G, et al. Stationary and nonstationary learning characteristics of the LMS adaptive filter. Proc IEEE, 1976, 64: 1151–1162 48 Guo L. Estimating time-varying parameters by the Kalman filter based algorithm: stability and convergence. IEEE Trans Autom Control, 1990, 35: 141–147 49 Guo L. Stability of recursive stochastic tracking algorithms. SIAM J Control Optim, 1994, 32: 1195–1225 50 Guo L, Ljung L. Exponential stability of general tracking algorithms. IEEE Trans Autom Control, 1995, 40: 1376– 1387 51 Guo L, Ljung L. Performance analysis of general tracking algorithms. IEEE Trans Autom Control, 1995, 40: 1388– 1402 52 Guo L, Ljung L, Priouret P. Performance analysis of the forgetting factor RLS algorithm. Int J Adapt Control Signal Process, 1993, 7: 525–537 53 Guo L, Ljung L, Wang G J. Necessary and sufficient conditions for stability of LMS. IEEE Trans Autom Control, 1997, 42: 761–770 54 Xie S Y, Zhang Y Q, Guo L. Learning and prediction theory of distributed least squares. 2019. ArXiv:1912.11686 55 Xie S Y, Guo L. Analysis of distributed adaptive filters based on diffusion strategies over sensor networks. IEEE Trans Autom Control, 2018, 63: 3643–3658 56 Xie S Y, Guo L. A necessary and sufficient condition for stability of LMS-based consensus adaptive filters. Automatica, 2018, 93: 12–19 57 Xie S Y, Guo L. Analysis of normalized least mean squares-based consensus adaptive filters under a general information condition. SIAM J Control Optim, 2018, 56: 3404–3431 58 Xie S Y, Guo L. Analysis of compressed distributed adaptive filters. Automatica, 2020, 112: 108707 59 Åström K J, Wittenmark B. Adaptive Control. 2nd ed. Boston: Addison-Wesley, 1995 60 Feldbaum A A. Dual control theory, parts I and II. Autom Remote Control, 1961, 21: 874–880 61 Simon H A. Dynamic programming under uncertainty with a quadratic criterion function. Econometrica, 1956, 24: 74–81 62 Åström K J, Wittenmark B. On self tuning regulators. Automatica, 1973, 9: 185–199 63 Ren W, Kumar P R. Stochastic adaptive prediction and model reference control. IEEE Trans Autom Control, 1994, 39: 2047–2060 64 Ljung L. Analysis of recursive stochastic algorithms. IEEE Trans Autom Control, 1977, 22: 551–575 65 Goodwin G C, Ramadge P J, Caines P E. Discrete-time multivariable adaptive control. IEEE Trans Autom Control, 1980, 25: 449–456 66 Goodwin G C, Ramadge P J, Caines P E. Discrete time stochastic adaptive control. SIAM J Control Optim, 1981, 19: 829–853 67 Guo L, Chen H F. The Åström-Wittenmark self-tuning regulator revisited and ELS-based adaptive trackers. IEEE Trans Autom Control, 1991, 36: 802–812 68 Guo L. Convergence and logarithm laws of self-tuning regulators. Automatica, 1995, 31: 435–450 69 Xie L L, Guo L. Adaptive control of discrete-time nonlinear systems with structural uncertainties. Lectures on Systems, Control, and Information, AMS/IP, 2000 1341 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 郭雷: 不确定性动态系统的估计、控制与博弈 70 Guo L. A retrospect of the research on self-tuning regulators. J Syst Sci Math Sci, 2012, 32: 1460–1471 [郭雷. 回溯 自校正调节器研究之路. 系统科学与数学, 2012, 32: 1460–1471] 71 Bercu B. Weighted estimation and tracking for ARMAX models. SIAM J Control Optim, 1995, 33: 89–106 72 Guo L. Self-convergence of weighted least-squares with applications to stochastic adaptive control. IEEE Trans Autom Control, 1996, 41: 79–89 73 Chen H F, Guo L. Asymptotically optimal adaptive control with consistent parameter estimates. SIAM J Control Optim, 1987, 25: 558–575 74 Duncan T E, Guo L, Pasik-Duncan B. Adaptive continuous-time linear quadratic Gaussian control. IEEE Trans Autom Control, 1999, 44: 1653–1662 75 Guo L. On adaptive stabilization of time-varying stochastic systems. SIAM J Control Optim, 1990, 28: 1432–1451 76 Xue F, Guo L, Huang M Y. Towards understanding the capability of adaptation for time-varying systems. Automatica, 2001, 37: 1551–1560 77 Caines P E, Zhang J F. On the adaptive control of jump parameter systems via nonlinear filtering. SIAM J Control Optim, 1995, 33: 1758–1777 78 Xue F, Guo L. Necessary and sufficient conditions for adaptive stablizability of jump linear systems. Commun Inf Syst, 2001, 1: 205–224 79 Ji Y, Chizeck H J. Jump linear quadratic Gaussian control: steady-state solution and testable conditions. Control Theory Adv Tech, 1990, 6: 289–319 80 Khargonekar P, Georgiou T, Pascoal A. On the robust stability of linear time-invariant plants with unstructured uncertainty. IEEE Trans Autom Control, 1987, 32: 201–207 81 Guo L. On critical stability of discrete-time adaptive nonlinear control. IEEE Trans Autom Control, 1997, 42: 1488–1499 82 Li C Y, Guo L. On feedback capability in a class of nonlinearly parameterized uncertain systems. IEEE Trans Autom Control, 2011, 56: 2946–2951 83 Liu Z B, Li C Y. Is it possible to stabilize discrete-time parameterized uncertain systems growing exponentially fast? SIAM J Control Optim, 2019, 57: 1965–1984 84 Li C Y, Guo L. A new critical theorem for adaptive nonlinear stabilization. Automatica, 2010, 46: 999–1007 85 Xie L L, Guo L. Fundamental limitations of discrete-time adaptive nonlinear control. IEEE Trans Autom Control, 1999, 44: 1777–1782 86 Li C Y, Lam J. Stabilization of discrete-time nonlinear uncertain systems by feedback based on LS algorithm. SIAM J Control Optim, 2013, 51: 1128–1151 87 Guo L, Li C Y, Xie L L. A polynomial criterion for adaptive stabilizability of discrete-time nonlinear systems. Commun Inf Syst, 2006, 6: 273–298 88 Li C Y, Guo L. A dynamical inequality for the output of uncertain nonlinear systems. Sci China Inf Sci, 2013, 56: 012201 89 Xie L L, Guo L. How much uncertainty can be dealt with by feedback? IEEE Trans Autom Control, 2000, 45: 2203–2217 90 Huang C D, Guo L. On feedback capability for a class of semiparametric uncertain systems. Automatica, 2012, 48: 873–878 91 Xue F, Guo L. On limitations of the sampled-data feedback for nonparametric dynamical systems. J Syst Sci Complex, 2002, 15: 225–250 92 Ren J L, Cheng Z B, Guo L. Further results on limitations of sampled-data feedback. J Syst Sci Complex, 2014, 27: 817–835 1342 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 中国科学 : 信息科学 第 50 卷 第 9 期 93 Guo L. How much uncertainty can feedback mechanism deal with? In: Proceedings of the 19th World Congress of the International Federation of Automatic Control, Cape Town, 2014. 24–29. http://www.ifac2014.org/assets/pdf/ plenary/Guo.pdf 94 Wiener N. The Human Use of Human Beings: Cybernetics and Society. Washington: Da Capo Press, 1954 [Wiener N, 著. 陈步, 译. 人有人的用处: 控制论与社会. 北京: 北京大学出版社, 2010] 95 Basar T, Olsder G J. Dynamic Noncooperative Game Theory. 2nd ed. Philadelphia: Society for Industrial and Applied Mathematics, 1999 96 Guest Editorial. Special Topic: Games in Control Systems. National Science Review, 2020, 7: 1115–1146 97 Li Y, Guo L. Towards a theory of stochastic adaptive differential games. In: Proceedings of the 50th IEEE Conference on Decision and Control and European Control Conference, Orlando, 2011. 12–15 98 Yuan S, Guo L. Stochastic adaptive dynamical games. Sci Sin Math, 2016, 46: 1367–1382 [袁硕, 郭雷. 随机自适应 动态博弈. 中国科学: 数学, 2016, 46: 1367–1382] 99 Nash J F. Equilibrium points in n-Person games. Proc Natl Acad Sci USA, 1950, 36: 48–49 100 Axelrod R. The Complexity of Cooperation: Agent-based Models of Competition and Collaboration. Princeton: Princeton University Press, 1997 [Axelrod R, 著. 梁捷, 高笑梅, 译. 合作的复杂性: 基于参与者竞争与合作的模型. 上海: 上海世纪出版集团, 2008] 101 Mu Y F, Guo L. How cooperation arises from rational players? Sci China Inf Sci, 2013, 56: 112201 102 Vicsek T, Czirók A, Ben-Jacob E, et al. Novel type of phase transition in a system of self-driven particles. Phys Rev Lett, 1995, 75: 1226–1229 103 Tang G G, Guo L. Convergence of a class of multi-agent systems in probabilistic framework. J Syst Sci Complex, 2007, 20: 173–197 104 Chen G, Liu Z X, Guo L. The smallest possible interaction radius for synchronization of self-propelled particles. SIAM Rev, 2014, 56: 499–521 105 Chen C, Chen G, Guo L. On the minimum number of neighbors needed for consensus of flocks. Control Theory Technol, 2017, 15: 327–339 106 Chen G. Small noise may diversify collective motion in vicsek model. IEEE Trans Autom Control, 2017, 62: 636–651 107 Han J, Li M, Guo L. Soft control on collective behavior of a group of autonomous agents by a shill agent. J Syst Sci Complex, 2006, 19: 54–62 108 Liu Z X, Han J, Hu X M. The proportion of leaders needed for the expected consensus. Automatica, 2011, 47: 2697–2703 109 郭雷. 关于控制理论发展的某些思考. 系统科学与数学, 2011, 31: 1014–1018 110 Mu Y F, Guo L. Towards a new paradigm of control theory. In: Proceedings of the 1st Chinese Automation Congress (Plenary Lecture), Hangzhou, 2009. 26–49 111 Zhang R R, Guo L. Controllability of Nash equilibrium in game-based control systems. IEEE Trans Autom Control, 2019, 64: 4180–4187 112 Zhang R R, Wang F, Guo L. On game-based control systems and beyond. Natl Sci Rev, 2020, 7: 1116–1117 113 Zhang R R, Guo L. Controllability of stochastic game-based control systems. SIAM J Control Optim, 2019, 57: 3799–3826 114 王芳, 郭雷. 人机融合社会中的系统调控. 系统工程理论与实践, 2020, 40: 1935–1944 1343 https://engine.scichina.com/doi/10.1360/SSI-2020-0277 郭雷: 不确定性动态系统的估计、控制与博弈 Estimation, control, and games of dynamical systems with uncertainty Lei GUO Laboratory of Systems and Control, Academy of Mathematics and Systems Science, Chinese Academy of Sciences, Beijing 100190, China E-mail: Lguo@iss.ac.cn Abstract The rapid development and widespread applications of information technology have provided unprecedented tools for the investigation and regulation of various types of complex systems, and have yielded new opportunities for the development of systems and control sciences. The future development of information science cannot be achieved without the existing basic researches and insights. After a brief review of the development of control theory, this paper focuses on some basic scientific problems concerning the estimation, control, and games of dynamical systems with uncertainty. We review some related theoretical progress achieved by the author’s research group, share some research experiences, and provide new insights and perspectives. We mainly consider the theoretical foundation of the following topics: proportional-integral-derivative (PID) control, adaptive estimation, adaptive filtering, adaptive control, the maximum capability of feedback, adaptive games, collective behaviors, and game-based control systems. Because there are various feedback loops in dynamical systems, the properties of the systems’ observed data are usually determined using complex nonlinear dynamical equations; therefore, classical statistical assumptions such as independency and stationarity are far from being satisfied, which is a prominent feature of the theoretical investigation in this field. Keywords complex systems, control systems, uncertainty, feedback mechanism, PID control, adaptive estimation, adaptive control, adaptive games, emergence, and game-based control systems Lei GUO was born in 1961. He received his B.S. degree in mathematics from Shandong University in 1982 and Ph.D. degree in control theory from the Chinese Academy of Sciences (CAS) in 1987. He is currently a professor of the Academy of Mathematics and Systems Science, CAS, and serves as the Director of the National Center for Mathematics and Interdisciplinary Sciences, CAS. He is a fellow of IEEE, a member of CAS, a foreign member of the Royal Swedish Academy of Engineering Sciences, and the recipient of the Hendrik W. Bode Lecture Prize from the IEEE Control Systems Society in 2019. His research interests include systems identification, adaptive filtering, adaptive control, adaptive game theory, control of stochastic and nonlinear uncertain systems, feedback capability, systems theory, multi-agent systems, and game-based control systems. 1344 https://engine.scichina.com/doi/10.1360/SSI-2020-0277

相关文章