第一句子网 > 无人驾驶车辆的控制方法及装置电子设备存储介质与流程

无人驾驶车辆的控制方法及装置电子设备存储介质与流程

时间：2020-06-06 13:51:14

本公开涉及计算机技术领域，尤其涉及一种无人驾驶车辆的控制方法、无人驾驶车辆的控制装置、电子设备及计算机可读存储介质。

背景技术：

随着自动驾驶技术的飞速发展，无人驾驶车辆作为当今自动化和智能化集成的先进技术，受到了人们的广泛关注，很多企业更是先后发布了其自己研发的无人驾驶车辆。在实际的运行场景中，如何对无人驾驶车辆进行合理控制，使其能够适应各种道路环境，从而在道路上安全通行是非常重要的。

现有的无人驾驶车辆的控制方法通常是基于预设的规则，对无人驾驶车辆进行控制，例如道路指示信息为“左转弯”，则控制无人驾驶车辆进行左转弯，感应到附近有车辆，则停止前进，使无人驾驶车辆原地等待至没有其他车辆。然而，在这种方式中，基于预想的情况制定出的规则通常较为死板，当实际情况与预想情况存在出入时可能会导致无人驾驶车辆无法正常行驶。另外，采上述方式还可能会出现对无人驾驶车辆的控制过于保守的问题，在一些非必要的情况下，为了遵守规则导致通行时间过长，甚至在车流量较大的路口会一直停留在原地无法通行，进一步影响道路交通情况。

因此，如何对无人驾驶车辆进行合理控制，使其安全、有效的在多种道路环境中运行是现有技术亟待解决的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

本公开提供了一种无人驾驶车辆控制方法、无人驾驶车辆控制装置、电子设备及计算机可读存储介质，进而至少在一定程度上克服现有的无人驾驶车辆控制较为保守，难以使无人驾驶车辆在多种道路环境中进行有效通行的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种无人驾驶车辆的控制方法，包括：将目标车辆当前所处的区域映射为网格地图；根据所述区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息；将所述状态信息输入预先训练的深度强化学习网络，得到关于所述目标车辆的控制指令；根据所述控制指令对所述目标车辆进行控制。

在本公开的一种示例性实施例中，所述将目标车辆当前所处的区域映射为网格地图，包括：将所述目标车辆当前所处的区域按照预设精度划分为多个网格单元，得到所述区域对应的网格地图；所述根据所述区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息，包括：确定所述区域中的障碍物和所述目标车辆在所述网格地图中所处的网格单元；根据每个所述网格单元是否被所述障碍物或所述目标车辆占据，确定所述区域的状态信息。

在本公开的一种示例性实施例中，所述根据每个所述网格单元是否被所述障碍物或所述目标车辆占据，确定所述区域的状态信息，包括：将所述网格地图映射为所述区域的状态信息矩阵，其中，被所述障碍物或所述目标车辆占据的网格单元对应的所述状态信息矩阵中的元素为1，未被所述障碍物或所述目标车辆占据的网格单元对应的所述状态信息矩阵中的元素为0。

在本公开的一种示例性实施例中，所述方法还包括：获取所述目标车辆的预设行驶路线，并根据所述预设行驶路线确定所述区域中的潜在碰撞子区域；所述根据所述区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息包括：根据所述潜在碰撞子区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息。

在本公开的一种示例性实施例中，所述控制指令包括前进指令或刹车指令。

在本公开的一种示例性实施例中，所述深度强化学习网络通过以下方式获得：获取多个样本状态信息；将所述样本状态信息输入神经网络中，得到所述样本状态信息对应的样本控制指令；获取所述样本状态信息和所述样本控制指令对应的代价值；根据所述代价值，调整所述神经网络的参数，以训练并得到所述深度强化学习网络。

在本公开的一种示例性实施例中，所述方法还包括：获取所述目标车辆当前所处的区域；如果所述区域为无保护路口区域，则执行将目标车辆当前所处的区域映射为网格地图的步骤。

根据本公开的一个方面，提供一种无人驾驶车辆的控制装置，包括：地图映射模块，用于将目标车辆当前所处的区域映射为网格地图；状态确定模块，用于根据所述区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息；指令获得模块，用于将所述状态信息输入预先训练的深度强化学习网络，得到关于所述目标车辆的控制指令；车辆控制模块，用于根据所述控制指令对所述目标车辆进行控制。

在本公开的一种示例性实施例中，所述地图映射模块包括：网格划分单元，用于将所述目标车辆当前所处的区域按照预设精度划分为多个网格单元，得到所述区域对应的网格地图；所述状态确定模块包括：网格确定单元，用于确定所述区域中的障碍物和所述目标车辆在所述网格地图中所处的网格单元；状态确定单元，用于根据每个所述网格单元是否被所述障碍物或所述目标车辆占据，确定所述区域的状态信息。

在本公开的一种示例性实施例中，状态确定模块包括：矩阵映射单元，用于将所述网格地图映射为所述区域的状态信息矩阵，其中，被所述障碍物或所述目标车辆占据的网格单元对应的所述状态信息矩阵中的元素为1，未被所述障碍物或所述目标车辆占据的网格单元对应的所述状态信息矩阵中的元素为0。

在本公开的一种示例性实施例中，无人驾驶车辆的控制装置还包括：碰撞子区域确定模块，用于获取所述目标车辆的预设行驶路线，并根据所述预设行驶路线确定所述区域中的潜在碰撞子区域；状态确定模块，用于根据所述潜在碰撞子区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息。

在本公开的一种示例性实施例中，所述控制指令包括前进指令或刹车指令。

在本公开的一种示例性实施例中，无人驾驶车辆的控制装置还包括：判断模块，用于获取所述目标车辆当前所处的区域；以及如果所述区域为无保护路口区域，则执行将目标车辆当前所处的区域映射为网格地图的步骤。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开的示例性实施例具有以下有益效果：

将目标车辆当前所处的区域映射为网格地图，根据区域中的障碍物和目标车辆在所述网格地图中的位置，确定区域的状态信息，将状态信息输入预先训练的深度强化学习网络，得到关于目标车辆的控制指令，根据控制指令对目标车辆进行控制。一方面，将目标车辆当前所处的区域进行网格化处理，并根据网格地图确定区域的状态信息，通过对获取的大量复杂的信息进行合理且有效的处理，在简化信息的同时，保留其信息的完整性，并基于此确定目标车辆的控制指令，控制过程便捷，且提高了无人驾驶车辆的控制效率；另一方面，本示例性实施例通过深度强化学习网络对区域的状态信息的处理，并根据不同的状态信息确定目标车辆的控制指令，针对不同的交通环境可以具有较好的应变能力，提高了无人驾驶车辆控制的灵活性，使其能够在多种道路环境下高效行驶，且避免了通过设置规则控制无人驾驶车辆可能导致通行缓慢、甚至无法通行的问题；再一方面，本示例性实施例中，对无人驾驶车辆的控制方法无需依赖于道路环境中的指示标识，通过目标车辆所在的区域的状态信息既可以确定控制指令，因此，其应用范围更加广泛。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本示例性实施例中一种无人驾驶车辆的控制方法的流程图；

图2示意性示出本示例性实施例中一种无人驾驶车辆的控制方法的子流程图；

图3示意性示出本示例性实施例中目标车辆所在区域的示意图；

图4示意性示出本示例性实施例中目标车辆所在区域映射为网格地图的示意图；

图5示意性示出本示例性实施例中另一种无人驾驶车辆的控制方法的子流程图；

图6示意性示出本示例性实施例中一种无人驾驶车辆的控制装置的结构框图；

图7示意性示出本示例性实施例中一种用于实现上述方法的电子设备；

图8示意性示出本示例性实施例中一种用于实现上述方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

本公开的示例性实施例首先提供了一种无人驾驶车辆的控制方法，本实施例方法的应用场景可以是：无人驾驶车辆通过交通环境复杂的道路，或者没有交通信号灯的路口时，通过本示例性实施例可以有效控制无人驾驶车辆，安全迅速的行驶。

下面结合附图1对本示例性实施例做进一步说明，如图1所示，无人驾驶车辆的控制方法可以包括以下步骤s110～s140：

步骤s110，将目标车辆当前所处的区域映射为网格地图。

其中，目标车辆是指本示例性实施例中待控制的无人驾驶车辆。无人驾驶车辆，即自动驾驶汽车，其是一种可以通过电脑系统实现无人驾驶的智能车辆。当前所处的区域是指目标车辆在运行过程中以目标车辆为基准的一预设范围，例如无人驾驶车辆行驶在xx路上，则xx路从起点到终点的整条道路，或者以无人驾驶车辆为中心前后预设长度内的道路等均可以作为该无人驾驶车辆所处的区域；或者无人驾驶车辆行驶至某一路口，则以该路口中心为圆心，向路口各个通行方向延伸预设半径内的道路可以被认为是该无人驾驶车辆当前所处的区域等。目标车辆当前所处的区域可以根据需要进行自定义设置，例如当目标车辆在路况较复杂且车辆较多的地方行驶时，所处区域的范围可以设置的较小，以便针对性的应对可能出现的情况；当目标车辆在道路状况良好的地方行驶时，可以设置较大范围的区域，以从宏观角度对目标车辆进行控制等等，目标车辆当前所处区域的形状、范围大小等设置，本公开对此不做具体限定。

目标车辆当前所处的区域通常可以以地图的形式反映，本示例性实施例可以将目标车辆当前所处的区域的高精度地图映射为规则性地图，即网格地图，以便后续进行数据获取与处理等。

步骤s120，根据区域中的障碍物和目标车辆在网格地图中的位置，确定区域的状态信息。

其中，障碍物是指除目标车辆以外的，可能会影响目标车辆正常行驶的对象，例如行人、车辆或者绿化带等等。各障碍物以及目标车辆所处的位置可以根据其位置坐标映射至网格地图中，使各障碍物可以在网格地图中占据各自的网格单元。进一步的，区域的状态信息即为能够反映目标车辆周围障碍物在网格地图中的状态信息，例如各障碍物在网格地图的各个网格单元中的占据情况，或者在各个网格单元的运行趋势等等。状态信息可以通过向量或矩阵等多种形式进行表示。

在本示例性实施例中，可以通过在道路附近或目标车辆周围安装传感器等装置，以感知周围障碍物的位置和距离等，以使其更好的映射至网格地图中，还可以获取目标车辆所处区域的图像，通过对图像进行分析，以确定障碍物的位置，例如可以将目标车辆所处区域的图像进行二值化处理，以区分障碍物和非障碍物等等。

步骤s130，将状态信息输入预先训练的深度强化学习网络，得到关于目标车辆的控制指令。

在本示例性实施例中，可以通过预先建立的深度强化学习网络确定目标车辆的控制指令。其中，控制指令可以包括前进指令或刹车指令，具体的，前进指令还可以包括减速前进、加速前进等与速度有关的指令，或者左偏移前进、右偏移前进等与方向有关的前进指令等等，关于前进指令和刹车指令的具体更为细化的控制指令还可以有很多，本公开对此不做具体限定。本示例性实施例，通过步骤s120确定的状态信息，将反映该状态信息的向量或矩阵输入深度强化学习网络中进行处理，判断当前目标车辆的行驶路线中是否具有安全隐患，从而得到对目标车辆进行控制的控制指令。

步骤s140，根据控制指令对目标车辆进行控制。

即可以根据上述前进指令或刹车指令控制目标车辆进行前进或刹车等行为。本示例性实施例通过训练的深度强化学习网络对状态信息进行处理，能够充分结合当前目标车辆周围的环境状态，得到智能化的控制指令，并根据该控制指令进行安全行驶。

基于上述说明，在本示例性实施例中，将目标车辆当前所处的区域映射为网格地图，根据区域中的障碍物和目标车辆在所述网格地图中的位置，确定区域的状态信息，将状态信息输入预先训练的深度强化学习网络，得到关于目标车辆的控制指令，根据控制指令对目标车辆进行控制。一方面，将目标车辆当前所处的区域进行网格化处理，并根据网格地图确定区域的状态信息，通过对获取的大量复杂的信息进行合理且有效的处理，在简化信息的同时，保留其信息的完整性，并基于此确定目标车辆的控制指令，控制过程便捷，且提高了无人驾驶车辆的控制效率；另一方面，本示例性实施例通过深度强化学习网络对区域的状态信息的处理，并根据不同的状态信息确定目标车辆的控制指令，针对不同的交通环境可以具有较好的应变能力，提高了无人驾驶车辆控制的灵活性，使其能够在多种道路环境下高效行驶，且避免了通过设置规则控制无人驾驶车辆可能导致通行缓慢、甚至无法通行的问题；再一方面，本示例性实施例中，对无人驾驶车辆的控制方法无需依赖于道路环境中的指示标识，通过目标车辆所在的区域的状态信息既可以确定控制指令，因此，其应用范围更加广泛。

在一示例性实施例中，上述步骤s110可以包括以下步骤：

步骤s210，将目标车辆当前所处的区域按照预设精度划分为多个网格单元，得到区域对应的网格地图；

进一步，步骤s120可以包括：

步骤s220，确定区域中的障碍物和目标车辆在网格地图中所处的网格单元；

步骤s230，根据每个网格单元是否被障碍物或目标车辆占据，确定区域的状态信息。

在本示例性实施例中，在将区域对应的地图映射为网格地图时，可以根据预设精度将其划分为多个网格单元，具体的，可以是沿经度和纬度，根据事先设定的划分精度，将区域地图分为多个网格单元，必要时，可以为每一网格单元进行编号，基于此可以将目标车辆所处的区域进行网格化处理，即得到区域对应的网格地图。上述沿经度和纬度进行网格单元的划分，仅为示例性说明，在本示例性实施例中，还可以沿任意特定方向划分网格单元。另外，网格单元的划分精度也可以根据需要进行自定义设置，例如根据车辆的平均长度设置每一网格大小的尺寸；或者随机设置网格单元的划分精度(如0.5m×0.5m)等等，本公开对此不做具体限定。特别的，网格地图根据目标车辆所处区域的环境差异，其网格单元的划分可以是规则的，也可以是不规则的。

在本示例性实施例中，可以根据障碍物和目标车辆所在的位置，确定其在网格地图中所在的网格单元。当网格单元的划分精度较粗时，考虑到有些障碍物的空间占比较小(如行人)，可能会出现多个障碍物占据同一网格单元的情况；当网格单元的划分精度较细时，每一障碍物或目标车辆将可以占据一唯一的网格单元。因此采用合适的划分精度，可以更好的确定当前区域的状态信息。状态信息可以以各网格单元的占据情况确定，图3示出了一目标车辆a可以以a-a1路线行驶或a-a2路线行驶时，目标车辆所在区域的示意图，其中还包括多个其他车辆(障碍物)，对其进行网格化处理，确定障碍物所在的网格单元后，映射为如图4所示的网格地图，可以看到各个车辆可以占据一个网格单元。

在一示例性实施例中，上述步骤s230可以包括：

将网格地图映射为区域的状态信息矩阵，其中，被障碍物或目标车辆占据的网格单元对应的状态信息矩阵中的元素为1，未被障碍物或目标车辆占据的网格单元对应的状态信息矩阵中的元素为0。

即本示例性实施例可以通过数值化的形式将各网格单元的占据情况进行表示，并据此建立状态信息矩阵。其中，矩阵中元素为1时，表示网格单元被占据，为0时，表示网格单元空闲(未被占据)。在本示例性实施例中，可以建立与网格地图具有相同行列数的状态信息矩阵，使得每个网格单元都可以对应矩阵中的元素，则矩阵中i行j列中的元素即表示第i行第j列的网格单元中是否有障碍物占据，还可以根据需要建立与网格地图行列数不同的矩阵，例如为了便于计算，对得到的各网格单元进行处理，忽略不重要的行或列，以将网格地图映射为降维后的状态信息矩阵等等。

在本示例性实施例中，上述状态信息还可以表示为向量形式，例如根据网格地图中每一行(每一列)网格单元的占据情况，确定每一行(每一列)的向量，再将得到的所有向量进行拼接，得到目标向量。

另外，考虑到不同障碍物的对目标车辆行驶过程的影响程度不一样，且各障碍物各自行驶特点也不一样，例如车辆行驶速度快，危险程度高，行人行动速度慢，危险程度一般等等。因此，可以对各个障碍物进行不同安全等级的划分，并将其标注在每一网格单元中，以生成信息更为丰富的状态信息。例如大型车辆较为危险，其占据的网格单元可以标记为“1”，行人危险程度次之，其占据的网格单元可以标记为“2”，绿化带危险程度一般，其占据的网格单元可以标记为“3”，不会造成危险的绿植和台阶等障碍物所占据的网格单元可以标记为“4”等等。需要说明的是，上述表示方法仅为示意性说明，可以根据实际需要及障碍物特点进行自定义设置，本公开对此不做具体限定。

在一示例性实施例中，自动驾驶车辆的控制方法还可以包括：

获取目标车辆的预设行驶路线，并根据预设行驶路线确定区域中的潜在碰撞子区域；

进一步的，上述步骤s120可以包括：

根据潜在碰撞子区域中的障碍物和目标车辆在网格地图中的位置，确定区域的状态信息。

其中，预设行驶路线是指预先设置的目标车辆的运行路线，例如无人驾驶车辆在经过十字路口时，设置该路口下，预设行驶路线为左转弯，则无人驾驶车辆则会左转弯行驶等。考虑到实际行驶过程中，并非目标车辆所在区域的所有障碍物均对目标车辆的行驶造成影响，例如如果目标车辆需要直行通过路口，则反向直行已经通过路口的车辆则对目标车辆不会产生影响，根据考虑这一类车辆与不考虑这一类车辆所确定的区域的状态信息，得到的控制指令可能是相同的。因此，为了简化获取的数据，减少不必要的计算量，提高对无人驾驶车辆控制的有效性，本示例性实施例可以在预设行驶路线中确定区域中的潜在碰撞子区域，即该区域的障碍物可能会对目标车辆的行驶造成影响，例如目标车辆直行通过十字路口时，前方的道路区域；或者目标车辆左转弯通过十字路口时，左前方的道路区域等等。进一步的，根据潜在碰撞子区域中障碍物和目标车辆在网格地图中的位置，确定区域的状态信息。

在一示例性实施例中，上述深度强化学习网络可以通过以下方式获得：

步骤s510，获取多个样本状态信息；

步骤s520，将样本状态信息输入神经网络中，得到样本状态信息对应的样本控制指令；

步骤s530，获取样本状态信息和样本控制指令对应的代价值；

步骤s540，根据代价值，调整神经网络的参数，以训练并得到深度强化学习网络。

其中，样本状态信息可以通过获取多个样本车辆的在行驶过程中的相关数据确定，例如通过网约车平台获取多个车辆作为样本车辆，确定其历史行驶事件的行驶轨迹、在各个道路环境下的行驶习惯、以及行驶过程中车辆所在区域的其他车辆的行驶状态等，与步骤s120相似，也可以通过对车辆所在区域进行网格化处理，结合各个障碍物的位置，确定样本状态信息。进一步的，深度强化学习网络的训练过程可以是，以样本状态信息为输入，训练神经网络，输出关于样本车辆的样本控制指令，根据得到样本状态信息可以得到一系列代价值，基于代价值对神经网络的参数进行调整，以得到训练完成的深度强化学习网络。其中，代价值可以反映输出的控制指令对当前运行的车辆的控制是否合理，其实质上可以为每个状态信息对应的控制指令的预测结果，当预测某一状态信息确定的控制指令可以使车辆安全通行，其代价值较高，反之代价值较低。在本示例性实施例中，对代价值造成影响的因素可以有多个方面，可以通过设置不同的奖惩策略确定其大小，具体的，可以包括：(1)判断车辆根据控制指令运行时是否会发生碰撞，如果发生碰撞，则具有较高的代价值，如果未发生碰撞，则具有较低的代价值；(2)判断车辆的平均通行速度，在安全通行的前提下，车辆的平均通行速度越高，说明车辆的行驶效率越高，自然其代价值较高，如果车辆的平均通行速度较低，说明车辆在通行过程中遇到异常情况，则代价值较低等等。

在一示例性实施例中，无人驾驶车辆的控制方法还可以包括以下步骤：

获取目标车辆当前所处的区域；

如果区域为无保护路口区域，则执行步骤s110。

其中，无保护路口可以是指没有交通指示信息的路口，例如无信号指示灯或信号指示灯故障的路口，或者无道路指示牌或路面指示标识的路口等等。本示例性实施例可以特别应用于这一类，指示信息较少甚至没有的道路环境下，充分结合可获取的数据信息，对目标车辆进行有效控制。另外，如果判断目标车辆所处的区域为保护路口区域，则可以结合其路口的指示信息与当前区域的状态信息共同确定目标车辆的控制指令。

本公开的示例性实施例还提供了一种无人驾驶车辆的控制装置。参照图6，该装置600可以包括，地图映射模块610，用于将目标车辆当前所处的区域映射为网格地图；状态确定模块620，用于根据区域中的障碍物和目标车辆在网格地图中的位置，确定区域的状态信息；指令获得模块630，用于将状态信息输入预先训练的深度强化学习网络，得到关于目标车辆的控制指令；车辆控制模块640，用于根据控制指令对目标车辆进行控制。

在一示例性实施例中，地图映射模块可以包括：网格划分单元，用于将目标车辆当前所处的区域按照预设精度划分为多个网格单元，得到区域对应的网格地图；状态确定模块包括：网格确定单元，用于确定区域中的障碍物和目标车辆在网格地图中所处的网格单元；状态确定单元，用于根据每个网格单元是否被障碍物或目标车辆占据，确定区域的状态信息。

在一示例性实施例中，状态确定模块可以包括：矩阵映射单元，用于将网格地图映射为区域的状态信息矩阵，其中，被障碍物或目标车辆占据的网格单元对应的状态信息矩阵中的元素为1，未被障碍物或目标车辆占据的网格单元对应的状态信息矩阵中的元素为0。

在一示例性实施例中，无人驾驶车辆的控制装置还可以包括：碰撞子区域确定模块，用于获取目标车辆的预设行驶路线，并根据预设行驶路线确定区域中的潜在碰撞子区域；状态确定模块，用于根据潜在碰撞子区域中的障碍物和目标车辆在网格地图中的位置，确定区域的状态信息。

在一示例性实施例中，控制指令可以包括前进指令或刹车指令。

在一示例性实施例中，深度强化学习网络可以通过以下方式获得：获取多个样本状态信息；将样本状态信息输入神经网络中，得到样本状态信息对应的样本控制指令；获取样本状态信息和样本控制指令对应的代价值；根据代价值，调整神经网络的参数，以训练并得到深度强化学习网络。

在一示例性实施例中，无人驾驶车辆的控制装置还可以包括：判断模块，用于获取目标车辆当前所处的区域；以及如果区域为无保护路口区域，则执行将目标车辆当前所处的区域映射为网格地图的步骤。

上述装置中各模块/单元的具体细节在方法部分的实施例中已经详细说明，未披露的细节内容可以参见方法部分的实施例内容，因此此处不再赘述。

本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本公开的这种示例性实施例的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。

其中，存储单元存储有程序代码，程序代码可以被处理单元710执行，使得处理单元710执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元710可以执行图1所示的步骤s110～s140，也可以执行图2所示的步骤s210～s230等。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)721和/或高速缓存存储单元722，还可以进一步包括只读存储单元(rom)723。

存储单元720还可以包括具有一组(至少一个)程序模块725的程序/实用工具724，这样的程序模块725包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施例的方法。

本公开的示例性实施例还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图8所示，描述了根据本公开的示例性实施例的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施例，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

技术特征：

1.一种无人驾驶车辆的控制方法，其特征在于，包括：

将目标车辆当前所处的区域映射为网格地图；

根据所述区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息；

将所述状态信息输入预先训练的深度强化学习网络，得到关于所述目标车辆的控制指令；

根据所述控制指令对所述目标车辆进行控制。

2.根据权利要求1所述的方法，其特征在于，所述将目标车辆当前所处的区域映射为网格地图，包括：

将所述目标车辆当前所处的区域按照预设精度划分为多个网格单元，得到所述区域对应的网格地图；

所述根据所述区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息，包括：

确定所述区域中的障碍物和所述目标车辆在所述网格地图中所处的网格单元；

根据每个所述网格单元是否被所述障碍物或所述目标车辆占据，确定所述区域的状态信息。

3.根据权利要求2所述的方法，其特征在于，所述根据每个所述网格单元是否被所述障碍物或所述目标车辆占据，确定所述区域的状态信息，包括：

将所述网格地图映射为所述区域的状态信息矩阵，其中，被所述障碍物或所述目标车辆占据的网格单元对应的所述状态信息矩阵中的元素为1，未被所述障碍物或所述目标车辆占据的网格单元对应的所述状态信息矩阵中的元素为0。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标车辆的预设行驶路线，并根据所述预设行驶路线确定所述区域中的潜在碰撞子区域；

所述根据所述区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息包括：

根据所述潜在碰撞子区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息。

5.根据权利要求1所述的方法，其特征在于，所述控制指令包括前进指令或刹车指令。

6.根据权利要求1所述的方法，其特征在于，所述深度强化学习网络通过以下方式获得：

获取多个样本状态信息；

将所述样本状态信息输入神经网络中，得到所述样本状态信息对应的样本控制指令；

获取所述样本状态信息和所述样本控制指令对应的代价值；

根据所述代价值，调整所述神经网络的参数，以训练并得到所述深度强化学习网络。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标车辆当前所处的区域；

如果所述区域为无保护路口区域，则执行将目标车辆当前所处的区域映射为网格地图的步骤。

8.一种无人驾驶车辆的控制装置，其特征在于，包括：

地图映射模块，用于将目标车辆当前所处的区域映射为网格地图；

状态确定模块，用于根据所述区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息；

指令获得模块，用于将所述状态信息输入预先训练的深度强化学习网络，得到关于所述目标车辆的控制指令；

车辆控制模块，用于根据所述控制指令对所述目标车辆进行控制。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。

技术总结

本公开提供了一种无人驾驶车辆的控制方法、无人驾驶车辆的控制装置、电子设备及计算机可读存储介质，属于计算机技术领域。该方法包括：将目标车辆当前所处的区域映射为网格地图；根据所述区域中的障碍物和所述目标车辆在所述网格地图中的位置，确定所述区域的状态信息；将所述状态信息输入预先训练的深度强化学习网络，得到关于所述目标车辆的控制指令；根据所述控制指令对所述目标车辆进行控制。本公开可以对无人驾驶车辆进行有效控制，使其安全高效的行驶。

技术研发人员：高萌

受保护的技术使用者：北京京东乾石科技有限公司

技术研发日：.10.10

技术公布日：.01.07

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。