第一句子网 > 智能体训练方法及系统计算机设备可读存储介质与流程

智能体训练方法及系统计算机设备可读存储介质与流程

时间：2018-08-12 08:40:45

本发明涉及人工智能技术领域。更具体地，涉及一种智能体训练方法及系统、计算机设备、可读存储介质。

背景技术：

近年来，随着人工智能技术的快速发展，数据驱动的手段已逐渐显现出它的威力。通过数据驱动的计算智能手段，计算机已逐渐在多个领域实现性能的飞跃式提升，甚至在一些领域已远超人类水平。借助深度学习技术，计算机在海量数据中进行训练，已经在图像识别、目标检测、机器翻译、词句预测等领域，甚至诸如诗词创作、绘画创作、封面设计等创造性设计领域达到非常高的水平。特别是图像识别、目标检测与机器翻译等领域技术已经成功实现产品化、商业化。同时，基于深度强化学习，计算机与给定环境及规则程序的海量交互式训练，也已经分别在atari游戏、mujoco、gym等简单交互游戏、围棋、象棋、国际象棋、将棋、德州扑克等回合类游戏、以及dota2、星际争霸2等复杂即时策略游戏中战胜顶级人类玩家。

然而随着学习技术应用领域的不断扩展，一些工程应用的实际问题开始显现，在一定程度上制约了学习技术在一些领域的应用。具体而言，截至目前，学习技术所取得的辉煌成就，无论是识别预测类任务还是即使决策类任务，均依赖于海量的具体任务数据所展开的智能体训练。对于图像类、语音类以及计算机游戏类的任务，海量数据的获取是相对容易的。一方面，图像及语音类数据的采集成本不高，采集也较为方便；另一方面，游戏类数据采集更为便利，可直接用计算机进行生成。

然而，当遇到诸如复杂产品设计等大型复杂工程研制中的设计任务时，能获得的数据体量将十分有限。在极为有限的数据集下，采用原方法训练将导致智能体模型严重的过拟合，难以支撑具备良好拟合及泛化能力智能体的训练。针对上述问题，可采用具备完备模型校验的仿真系统生成数据以补充训练。但是考虑到具备完备模型校验的仿真系统与真实物理系统逼近程度的要求，仿真系统将十分复杂，将导致海量数据生成的耗时难以接受。

技术实现要素：

为了解决背景技术中所提出的技术问题，本发明的第一方面提供了一种智能体训练方法，包括以下步骤：

s1、构建简化环境，在所述简化环境下进行智能体的初步训练；

s2、构建保真环境，在所述保真环境下进行智能体的补充训练；

s3、构建半实物仿真环境，在所述半实物仿真环境下进行智能体的性能验证。

可选地，所述s1包括：

s11、构建多个简化环境模型；

s12、对多个所述简化环境模型的原理进行正确性验证；

s13、根据经过正确性验证后的多个所述简化环境模型来构建所述简化环境；

s14、在所述简化环境下对智能体进行初步训练；

s15、对经过初步训练后的智能体进行保存。

可选地，所述s11包括：

获取多个真实物理系统的核心原理以及相对应的机理行为；

根据多个核心原理以及相对应的机理行为来构建多个所述简化环境模型。

可选地，所述s12包括：

将多个所述简化环境模型的原理与多个真实物理系统的核心原理分别进行对比，根据对比结果来对多个所述简化环境模型的原理进行正确性验证。

可选地，所述s2包括：

s21、构建多个保真环境模型；

s22、对多个所述保真环境模型进行校验；

s23、根据经过校验后的多个所述保真环境模型来构建所述保真环境；

s24、将经过初步训练后的智能体在所述保真环境下进行补充训练；

s25、对经过补充训练后的智能体在所述保真环境的性能进行评价，若满足要求，则进入s3，若不满足要求，则返回至s23进行迭代；

所述s3包括：

s31、构建半实物仿真环境；

s32、对智能体在所述半实物仿真环境下的性能进行评价，若不满足要求，则返回至s23进行迭代。

可选地，所述s21包括：

获取多个真实物理系统的构成及相对应的细节行为；

根据多个所述真实物理系统的构成及相对应的细节行为来分别构建多个所述保真环境模型。

可选地，所述s31包括：

将所述保真环境中的一部分保真环境模型模块更换为真实物理系统；

根据所述保真环境中的另一部分环境模块以及所述真实物理系统构建所述半实物仿真环境。

本发明的第二方面提供了一种智能体训练系统，包括：

简化环境模块，用于构建简化环境，在所述简化环境下进行智能体的初步训练；

保真环境模块，用于构建保真环境，在所述保真环境下进行智能体的补充训练；

半实物仿真模块，用于构建半实物仿真环境，在所述半实物仿真环境下进行智能体的性能验证。

本发明的第三方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明的第一方面所述的方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述计算机可读存储介质在计算机上运行时，使得所述计算机执行本发明的第一方面所述的方法。

本发明的有益效果如下：

本发明具有原理明确、设计简单的优点，通过基于简化环境下的智能体初步训练、基于保真环境下的智能体补充训练、以及半实物仿真环境下的智能体性能验证，实现从模型训练向模型在物理空间应用的平滑过渡，实现可接受时间范围内，在实际系统中具备良好可靠性智能体的训练，使现有的数据驱动计算智能的方法的应用领域得到进一步扩展，并具备向真实物理系统迁移应用的能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本发明的一个实施例提供的一种智能体训练方法的流程图。

图2示出本发明的另一个实施例提供的一种智能体训练系统的结构框图。

图3示出本发明的再一个实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

针对背景技术中所提出的问题，本发明的一个实施例提供了一种智能体训练方法，如图1所示，包括以下步骤：

s1、构建简化环境，在所述简化环境下进行智能体的初步训练；

s2、构建保真环境，在所述保真环境下进行智能体的补充训练；

s3、构建半实物仿真环境，在所述半实物仿真环境下进行智能体的性能验证。

在本实施例的一些可选地实现方式中，所述s1包括：

s11、构建多个简化环境模型；

s12、对多个所述简化环境模型的原理进行正确性验证；

s13、根据经过正确性验证后的多个所述简化环境模型来构建所述简化环境；

s14、在所述简化环境下对智能体进行初步训练；

s15、对经过初步训练后的智能体进行保存。

具体的，在s11中，简化环境模型的构建主要针对真实物理系统的核心原理以及相对应的机理行为：通过获取多个真实物理系统的核心原理以及相对应的机理行为，并进一步的根据多个核心原理以及相对应的机理行为来构建多个所述简化环境模型，需要说明的是，在本步骤中，仅对于简化的对象模型进行构建，忽略诸如模型不确定性、噪声等非核心因素。

下面，以汽车模型构建为例，对s11的具体内容进行简要介绍。众所周知，从整体上看，汽车的运动可以看作是一种刚体运动，其运动过程可通过6自由度模型进行描述，分别给出汽车的位置运动及姿态运动的动力学方程。同时，方程中的变量，如汽车的位置及姿态在真实系统中通常通过测量获得，但均存在噪声。而此部分在简化环境模型构建中不予考虑。

进一步的，所述s12包括：

将多个所述简化环境模型的原理与多个真实物理系统的核心原理分别进行对比，根据对比结果来对多个所述简化环境模型的原理进行正确性验证。

具体的，简化环境模型的原理的正确性验证主要涉及对s11所建立的模型原理正确性进行检验及验证，验证方法主要通过在仿真过程中对简化环境模型各变量的实际监测，并将所述简化环境模型的原理与真实物理系统的核心原理进行对比，以对建立简化环境模型的合理性和正确性进行验证和判断。

进一步的，在s13中，将经过正确性验证后的多个简化环境模型来构建简化环境，构建完成后，在s14中，在简化环境下对智能体进行初步训练。

具体的，简化环境下对智能体的初步训练旨在基于简化环境生成数据，通过有监督、半监督、强化等学习手段对智能体进行初步训练，达到满足简化环境下智能体的性能要求。具体实现过程主要包括如下几个方面：

(1)智能体模型设计及实现：该过程通过基于具体的智能体构建框架，采用具体程序编写语言实现智能体模型程序编写。同时，此过程中智能体的设计需考虑对后续保真仿真环境模型下智能体结构设计的扩展。

(2)智能体模型与简化仿真环境接口设计及实现：该过程通过采用特定程序编写语言，以接口调用、接口通信等方式实现智能体模型输出决策传入简化仿真环境模型，以及简化仿真环境模型向智能体模型传送当前模型状态等。

(3)智能体模型训练：该过程通过采用特定程序编写语言，设计实现智能体生成的策略的性能指标评估，并基于智能体模型、简化仿真环境模型状态以及该性能指标对智能体模型的结构及参数等进行优化调节，使其能够形成更优策略。

在s15中，对经过初步训练后的智能体进行保存。

具体的，收敛智能体模型的保存主要是以数据文件、数据库记录等形式，对已经经过初步训练且较优性能较好的智能体的结构及参数等进行持久化存储，以便之后可直接进行使用。

简化环境下的模型与训练旨在使智能体能够将其探索范围从整个可行的解空间快速收敛至较优解附近，为下一步在保真环境下智能体参数细调及补充训练提供更佳的初始状态，以及更小的搜索范围。在该过程中，简化环境及模型对真实物理环境下的系统的核心机理模型进行构建，该机理模型须反映出物理系统的核心特性。同时，由于面临的搜索空间庞大，智能体训练需海量数据的支撑，因此，该简化环境及模型须具备结构较简单、体量较轻等条件，以便于基于云仿真的多实例并行仿真支撑技术结合，实现快速、并行仿真推演，进而在较短时间内实现针对虚拟环境的智能体模型的训练收敛。

在本实施例的一些可选地实现方式中，所述s2包括：

s21、构建多个保真环境模型；

s22、对多个所述保真环境模型进行校验；

s23、根据经过校验后的多个所述保真环境模型来构建所述保真环境；

s24、将经过初步训练后的智能体在所述保真环境下进行补充训练；

s25、对经过补充训练后的智能体在所述保真环境的性能进行评价，若满足要求，则进入s3，若不满足要求，则返回至s23进行迭代。

具体的，在s21中，保真环境模型的构建主要基于基本原理对真实物理系统的构成及细节行为来进行构建，具体包括：获取多个真实物理系统的构成及相对应的细节行为；根据多个所述真实物理系统的构成及相对应的细节行为来分别构建多个所述保真环境模型。同时，对于在构建简化环境模型中的尚未考虑的扰动及噪声等部分，在此步骤中也需要予以考虑，并且需要分散至各个部分中进行分别考虑。

下面，仍以汽车模型构建为例，对此步骤的具体内容进行简要介绍。众所周知，汽车由多个系统组成，如发动机、传动系统、控制系统、冷却系统等等。对于汽车的保真环境模型的构建，其各部分的模型构建主要包括基于控制科学、热力学、传热学、一般力学等学科对上述分系统的原理模型进行构建，以微分方程、偏微分方程、离散事件调度等数学公式表述；系统集成模型构建则主要涉及各个模块之间的变量间关系建模、数据交换接口建模等。上述过程的模型构建可实现对整个汽车系统模型建立。为保证模型真实度及可信度，仍需进一步采用具体实验数据对上述模型中的具体结构及参数进行修正。

同时，对于扰动及噪声，以汽车对于方向转弯指令的跟随系统为例，其是通过消除当前车辆实际方向于指令方向之间的偏差实现的。而车辆的实际方向需要基于传感器测量获取。在实际系统中，此测量值是包含测量扰动及噪声的。此部分噪声及扰动也需要模型建立。

进一步的，在所述s22中，保真环境模型的校验主要通过vv&a进行模型校验，以保证在要求的指标方面，保真环境模型与真实物理系统的行为在误差可接受范围内保持一致。保真环境模型校验的具体数据主要来自两个部分：(a)真实物理系统的实测数据。此部分数据通过对物理系统添加传感器进行实际测量并汇总整理后获得。(b)半实物仿真系统的测量数据，该部分数据主要在下一步中的半实物仿真验证过程中，通过采用传感器对实物部分系统的相关变量进行实际测量获得。

进一步的，在所述s23中，根据经过校验后的多个保真环境模型来构建保真环境，构建完成后，在s24中，在保证环境下来对经过初步训练后的智能体进行补充训练。

具体的，保真环境下的智能体细调训练主要涉及基于上述构建的保真环境，在可接受时间范围内，对前一步已初步训练的智能体模型进行细调训练，使智能体能够捕捉核心原理之外的系统细节特征，并在此基础上形成决策，以更加适应真实物理环境。具体而言，此步骤包括如下过程：

(1)智能体输入输出改造：由于保真环境与简化环境下的模型已发生变更，需对智能体输入输出的量进行适应性改造。

(2)智能体模型扩展设计及实现：此过程主要基于前一步的智能体模型进行扩展设计，通过在前一步智能体模型的基础上针对系统各部分组成补充扩展智能体结构(如以神经网络为例，则涉及模块数、层数、神经元数目等)。

(3)智能体扩展模型细调训练：此过程主要涉及上述扩展智能体在保真环境下的训练。与智能体在简化环境中的训练相同，保真环境模型可通过生成数据的形式支持监督、半监督等形式训练，也可通过与智能体仿真交互的形式生成数据进而驱动智能体训练。

进一步的，在s25中，训练收敛后，将对智能体在当前保真环境下的性能是否满足要求进行评价，若不满足则返回上一步，通过调整简化模型、调整训练算法、以及补充训练等手段，对智能体模型进行调整。

需要说明的是，经过补充训练后的智能体也可以数据文件、数据库记录等形式，对训练较优的性能较好的智能体的结构及参数等进行持久存储，以便以后可直接进行使用。

保真环境下的智能体细调补充训练旨在构建满足逼真度要求的保真模型及环境，并在该模型及环境的条件下，对简化环境及模型条件下训练收敛的智能体进一步训练及微调，使智能体向真实物理系统条件下的最佳决策拟合逼近。在该过程中，保真环境是基于简化环境进行实现，其不仅须完整反映真实物理环境下系统的各个机理特性，还须通过vv&a仿真模型验证，验证其与真实物理系统在表现逼近程度上满足给定要求。同时此部分训练也要求智能体在简化环境模型下训练所得模型的基础之上，对保真环境中新增加的复杂特性及特点进行适应。由于模型及环境相比于简化条件在复杂度和精细度上均有较大程度的增加，因此该过程的训练仅为少量训练，以保真环境数据对智能体进行细调训练，实现智能体向真实物理环境的适应。

在本实施例的一些可选地实现方式中，所述s3包括：

s31、构建半实物仿真环境；

s32、对智能体在所述半实物仿真环境下的性能进行评价，若不满足要求，则返回至s23进行迭代。

具体的，所述s31包括：将所述保真环境中的一部分保真环境模型模块更换为真实物理系统；根据所述保真环境中的另一部分环境模块以及所述真实物理系统构建所述半实物仿真环境。

半实物仿生环境的构建主要以硬件在环的形式实现，通过将保真环境系统中部分保真环境模型通过端口接入，更换为真实物理系统，实现保真环境向真实环境的进一步逼近，以对上述训练收敛的智能体在真实物理系统中的可用性及性能进行验证，具体而言，包括：

(1)计算机保真环境模型构建及其与真实物理系统间数据的联通与交互；

(2)智能体决策所需数据的实测采集；

(3)补充用于保真环境模型校验的实测数据的采集；

下面，仍以汽车模型构建为例，对此步骤的具体内容进行简要介绍。如上所述，汽车由多个系统组成，如发动机、传动系统、控制系统、冷却系统等等。在保真环境构建的过程中，已对上述系统及部分的保真环境模型实现了分别构建及系统集成。此步骤中，可将发动机系统或传动系统模型等整个替换为实际系统，并通过端口通信等技术实现与原保真环境的集成及交互，实现汽车仿真模型数字仿真部分与实际系统部分的联合仿真，完成半实物仿真环境的搭建。

进一步的，在所述s32中，智能体的智能评价指标设计主要设计对智能体在当前半实物仿真环境下的性能是否满足要求进行评价指标设计，具体需结合具体应用案例开展。

仍以汽车模型构建为例，如汽车转向控制系统受智能体模型控制，且我们对于汽车智能转向控制的性能有所要求，则可考虑汽车转向操纵性及稳定性、转向轻便性、最小转弯半径、转向车轮稳定效应等方面的指标进行评价。

在上文中，已对智能体在当前半实物仿真环境下的性能是否满足要求进行评价指标设计，此部分主要设计对上述指标的具体评价计算，并评估是否满足要求，若不满足，则返回s23进行迭代，通过调整保真环境模型，调整训练算法，以及补充训练等手段，对智能体进行训练及调整。

在完成上述两步训练后，将仿真环境进一步物理化，即在虚拟环境中引入真实物理系统的多个部分，以半物理系统验证训练收敛智能体模型的有效性。考虑到半物理条件下，仿真过程复杂程度和仿真耗时均将进一步提升，因此，此部分数据难以单独对智能体开展训练，但此部分数据可与保真环境下的数据融合，并采用融合的数据对智能体进行训练。

综上所述，本实施例具有原理明确、设计简单的优点，通过基于简化环境下的智能体初步训练、基于保真环境下的智能体补充训练、以及半实物仿真环境下的智能体性能验证，实现从模型训练向模型在物理空间应用的平滑过渡，实现可接受时间范围内，在实际系统中具备良好可靠性智能体的训练，使现有的数据驱动计算智能的方法的应用领域得到进一步扩展，并具备向真实物理系统迁移应用的能力。

本发明的另一个实施例提供了一种智能体训练系统，如图2所示，包括：

简化环境模块，用于构建简化环境，在所述简化环境下进行智能体的初步训练；

保真环境模块，用于构建保真环境，在所述保真环境下进行智能体的补充训练；

半实物仿真模块，用于构建半实物仿真环境，在所述半实物仿真环境下进行智能体的性能验证。

本发明的再一个实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述智能体训练方法。如图3所示，适于用来实现本实施例提供的服务器的计算机系统，包括中央处理单元(cpu)，其可以根据存储在只读存储器(rom)中的程序或者从存储部分加载到随机访问存储器(ram)中的程序而执行各种适当的动作和处理。在ram中，还存储有计算机系统操作所需的各种程序和数据。cpu、rom以及ram通过总线被此相连。输入/输入(i/o)接口也连接至总线。

以下部件连接至i/o接口:包括键盘、鼠标等的输入部分；包括诸如液晶显示器(lcd)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至i/o接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，提据本实施例，上文流程图描述的过程可以被实现为计算机软件程序。例如，本实施例包括一种计算机程序产品，其包括有形地包含在计算机可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。

附图中的流程图和示意图，图示了本实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、计算模块、检测模块等。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。例如，简化环境模块还可以被描述为“简化环境构建模块”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本发明的智能体训练方法。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

技术特征：

1.一种智能体训练方法，其特征在于，包括以下步骤：

s1、构建简化环境，在所述简化环境下进行智能体的初步训练；

s2、构建保真环境，在所述保真环境下进行智能体的补充训练；

s3、构建半实物仿真环境，在所述半实物仿真环境下进行智能体的性能验证。

2.根据权利要求1所述的训练方法，其特征在于，所述s1包括：

s11、构建多个简化环境模型；

s12、对多个所述简化环境模型的原理进行正确性验证；

s13、根据经过正确性验证后的多个所述简化环境模型来构建所述简化环境；

s14、在所述简化环境下对智能体进行初步训练；

s15、对经过初步训练后的智能体进行保存。

3.根据权利要求2所述的训练方法，其特征在于，所述s11包括：

获取多个真实物理系统的核心原理以及相对应的机理行为；

根据多个核心原理以及相对应的机理行为来构建多个所述简化环境模型。

4.根据权利要求2所述的训练方法，其特征在于，所述s12包括：

将多个所述简化环境模型的原理与多个真实物理系统的核心原理分别进行对比，根据对比结果来对多个所述简化环境模型的原理进行正确性验证。

5.根据权利要求1所述的训练方法，其特征在于，

所述s2包括：

s21、构建多个保真环境模型；

s22、对多个所述保真环境模型进行校验；

s23、根据经过校验后的多个所述保真环境模型来构建所述保真环境；

s24、将经过初步训练后的智能体在所述保真环境下进行补充训练；

s25、对经过补充训练后的智能体在所述保真环境的性能进行评价，若满足要求，则进入s3，若不满足要求，则返回至s23进行迭代；

所述s3包括：

s31、构建半实物仿真环境；

s32、对智能体在所述半实物仿真环境下的性能进行评价，若不满足要求，则返回至s23进行迭代。

6.根据权利要求5所述的训练方法，其特征在于，所述s21包括：

获取多个真实物理系统的构成及相对应的细节行为；

根据多个所述真实物理系统的构成及相对应的细节行为来分别构建多个所述保真环境模型。

7.根据权利要求5所述的训练方法，其特征在于，所述s31包括：

将所述保真环境中的一部分保真环境模型模块更换为真实物理系统；

根据所述保真环境中的另一部分环境模块以及所述真实物理系统构建所述半实物仿真环境。

8.一种智能体训练系统，其特征在于，包括：

简化环境模块，用于构建简化环境，在所述简化环境下进行智能体的初步训练；

保真环境模块，用于构建保真环境，在所述保真环境下进行智能体的补充训练；

半实物仿真模块，用于构建半实物仿真环境，在所述半实物仿真环境下进行智能体的性能验证。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述计算机可读存储介质在计算机上运行时，使得所述计算机执行权利要求1-7中任一项所述的方法。

技术总结

本发明公开一种智能体训练方法，包括以下步骤：S1、构建简化环境，在所述简化环境下进行智能体的初步训练；S2、构建保真环境，在所述保真环境下进行智能体的补充训练；S3、构建半实物仿真环境，在所述半实物仿真环境下进行智能体的性能验证。本发明实现从模型训练向模型在物理空间应用的平滑过渡，实现可接受时间范围内，在实际系统中具备良好可靠性智能体的训练，使现有的数据驱动计算智能的方法的应用领域得到进一步扩展，并具备向真实物理系统迁移应用的能力。

技术研发人员：贾政轩;林廷宇;肖莹莹;施国强;李伯虎;张迎曦

受保护的技术使用者：北京仿真中心

技术研发日：.10.24

技术公布日：.02.21

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。