强化学习算法在机器人轨迹优化控制与智能纠偏中的应用*

时间：2023-05-29 14:55:21　来源：雅意学习网本文已影响人

陈宇翔，栗强强

(1.义乌工商职业技术学院建筑工程学院，义乌 322000；
2.重庆移通学院大数据与计算机科学学院，重庆 401520)

机器人是现代制造业的核心装备之一，随着自动化控制技术、计算机科学技术、微电子技术、和人工智能技术的快速发展[1-2]，机器人已经广泛应用于汽车制造、工程机械、电器电子、医疗卫生、军事国防、野外救援、水下探险等诸多领域[3-5]。从全球机器人产业的发展来看，已经进入了第三代机器人发展阶段，即智能机器人时代已经到来[6]。当前，机器人的智能化水平显著提升，且具有较强的自适应能力和自主学习能力[7]。智能机器人的自主控制和运行能力是通过导航定位、轨迹路线规划、运动控制等多项技术协同实现，其中机器人的轨迹规划和智能纠偏，决定了机器人的智能化水平和控制精度[8-9]，也是衡量机器人能否满足工业发展需求的重要标准之一。目前针对机器人运动轨迹规划可以从全局和局部两个视角进行优化控制，其中全局规划从完整的环境信息出发，控制更为灵活，如高志伟等[10]基于全局视角提出一种最优控制法，通过构建泛函极值数学模型求解极大值，提高机器人的轨迹精度。但该方法的轨迹控制精度受环境复杂度及障碍物的影响，且算法较为复杂、代价过高；
郭娜等[11]基于局部路径规划的视角提出模糊逻辑控制方法，在遵循总体路径规划的基础上，根据传感器获得的实时位置信息、状态信息，实时地修正轨迹偏差。但模糊逻辑控制缺乏系统性，当移动轨迹路径较为复杂时无法准确定义控制目标，进而导致对机器人控制精度的降低。

近些年，人工智能技术和机器学习算法发展较快，在自动控制领域发挥了关键的作用，其中强化学习是机器学习的重要分支，强化学习在机械自动化控制方面具有较大的优势，因为强化学习算法无需预先给定模拟数据，对于数据集样本容量的要求也较低，因此具有更好的适用性。强化学习采用了一种奖励制的信息更新模式，以便于持续地获取学习信息并实现系统参数的更新和挑战。本文将经典的强化学习算法进行优化和改进，并将其应用于机器人的轨迹控制的智能纠偏中，实现全局控制和局部控制的结合，提高对机器人运行过程中的控制精度。

机器人按照功能和用途主要分为工业机器人和特种机器人，工业机器人在工业企业中应用较为普遍，主要由机身、机械臂、末端执行器构成；
而特种机器人需要根据实际用途进行特殊设计[12-13]，本文主要以工业机器人为例探讨对机器人的行进轨迹控制和智能纠偏。机器人要实现其功能，在结构设计上主要包括控制部分、机械部分、传感部分、驱动系统、人机交互系统、和机器环境交互系统等6大部分，如图1所示。

图1 工业机器人结构设计

工业机器人普遍采用连杆和关节的设计模式，其中连杆的优势在于机械结构简单，位移空间大，能够覆盖较大的工作范围[14]；
关节的活动空间灵活、可靠性高，且具有良好的高速性能。驱动关节时要求关节和连杆之间具有一定的间隙[15]，以更好地驱动连杆运动，连杆回转方向在平行面内摆动，对于关节的负载有一定的要求，也会和设定的运动轨迹发生偏离，并产生一定的误差。设计关节结构时，如果负载能力强可以利用修正梯形或修正正弦曲线实现对工业机器人的轨迹纠偏。分析机器人在空间内的运动轨迹变化情况，通过分析工业机器人的连杆参数和各关节的旋转角度变化情况，可以任意调整末端执行器的轨迹和方向。在笛卡尔坐标系A内，机器人移动轨迹内任一点P的位置矢量可以用列向量AP表示，3个轴向的坐标分量分别为Px、Py和Pz。当机器人运动时，相对于连杆不动的坐标系成为静系，跟随连杆运动的坐标系称为动系，连杆O′B在坐标系OXYZ中的位置关系，如图2所示。

图2 连杆在坐标系的位置关系图3 机器人关节连杆的D-H运动坐标系

连杆O′B上的任一点Q在空间内的坐标用齐次坐标系表示为：

Q=[xQ,yQ,zQ,0]T

(1)

连杆O′B的空间姿态，由动系坐标轴的方向来决定，而机器人各关节的空间变化关系，基于D-H坐标系来表示，如图3所示。

连杆i所在动系Z轴与关节i的转轴重叠，连杆i两端轴线的垂线与关节i的转轴相垂直，且方向指向相邻的连杆，以4轴的机器人为例，除了首个连杆和最后一个连杆以外，其他连杆间都有公共法线法线间的距离为di，ai是连杆长度，αi是连杆i和连杆i-1的夹角，机器人运动中的各参数变化描述，如表1所示。

表1 机器人运动过程中各参数变化描述

对工业机器人的运动学过程进行分析，是实现对工业机器人精确运动轨迹控制的最重要基础性工作，利用数学工具和动静系的齐次坐标变换[16]，可以实习对机器人的正逆运动学求解，再基于强化学习算法修正机器人运动轨迹的偏差。

(2)

强化学习策略优化的目标是选取出最佳的执行策略，纠正机器人运动中产生的轨迹偏差，并执行精准的轨迹控制。强化学习算法根据机器人当前的指令动作和策略的执行情况，判定动作的执行效果，如果工业机器人的行为是积极的和准确的，奖励函数的值会增加，反之奖励函数的值会降低，在t时刻奖励函数表示为：

rt=R(st,ηt,st+1)

(3)

奖励函数值不仅受到当前时刻策略的影响，同时也受到下一时刻机器人运动策略的影响。值函数的意义是在奖励函数值不断增大的基础上，使累计收益值趋于最大化，其中平均奖惩回报是典型的值函数之一，表示为：

(4)

在强化学习算法的执行中，寻找最优策略是算法的关注重点，在识别出的最优策略下工业机器人的运动轨迹最趋近于理论值，偏差最小。依据马尔科夫链的基本性质，在给定策略π的条件下，t时刻状态值函数Kπ(st)表示为：

(5)

式中，p是从状态st转移到s′的概率；
φ是策略执行中的折扣因子。但强化学习过程中，从初始状态就开始执行最优策略的概率较低，需要持续地对模型做优化，但系统的参考信息和指导信息均缺乏，特别是当状态之间切换时最优策略的执行难度更大。通过对经典强化学习算法进行优化来提升算法的性能，具体的优化过程是累计已经获得的奖励值，并将实时的反馈结果作为下个动作的执行参考数据，目的是通过不断地迭代更新Q值，并使下一时刻的运动轨迹更接近于理论值。本文的优化算法采用基于值的优化方案，在t+1时刻获取到最佳的收益期望，算法的更新规则如下：

Kπ(st+1)←Kπ(st)+π[r+φKπ(st+1)-Kπ(st)]

(6)

在优化算法模式下所确定的参数体系能够使模型的累计回报率最大，进而改善机器人的轨迹优化控制精度。

为实现机器人伺服系统沿着期望的轨迹运动，本文利用优化强化学习算法对各关节和连杆位置、速度实施全程控制。优化强化学习算法通过计算当前状态下平均奖惩回报，修正下一时刻的轨迹偏差，同时不断提升控制过程的累积回报率。机器人位置控制的目的是使各环节和末端执行器的行进精度更高，趋近于理论值。对机器人位置控制的结构包括对关节的位置矢量控制与对连杆的空间位姿控制，具体如图4、图5所示。

图4 机器人关节位置矢量控制结构

图5 机器人关节期望位姿矢量控制结构

其中，ld是关节的期望位置矢量：

ld=[ld1,ld1,…,ldn]T

(7)

xd=[xd1,xd1,…,xdn]T

(8)

在机器人的关节位姿矢量控制结构中ζd表示期望的位姿：

(9)

(10)

机器人关节位姿矢量控制结构能够同时实现对机器人空间位置，运动速度及运动加速度的多维控制，因此在控制精度方面效果更优，而优化强化学习算法通过连接和计算不同时刻的运动奖励值，实时调整机器人运动各种参数，使机器人轨迹运动的位置、空间位姿、移动速度和加速度等均实现最优化，从而使机器人的末端执行器运动更加地平稳。在笛卡尔空间内对机器人末端执行器的运动速度进行分解，机器人末端执行器在第t时刻的空间位姿s(t)表示为：

s(t)=[xd,yd,zd,φ,x,t]

(11)

将机器人的末端执行器空间位姿与空间内的广义坐标体系建立联系，则空间位姿s(t)可以表示为：

(12)

式中，J(l)是关于机器人末端执行器广义坐标矢量的雅克比矩阵。当机器人的自由度数量与其操作空间内的自由度数量同步时，机器人的自由度数量不会存在冗余，通过对雅克比矩阵J(l)的逆矩阵求解，即可以计算出机器人的期望关节相对应的速度矢量，和末端执行器的速度矢量，以便于随时通过参数调整纠正轨迹出现的偏差：

(13)

在已知笛卡尔坐标系内各关节和末端执行器的期望位置和期望移动速度后，再基于优化的强化学习方法分析每个周期内的奖惩回报，便于在下一个运动周期内更好地控制与理论轨迹的偏差。

4.1 实验环境设置

本文基于MATLAB软件进行仿真实验，所选择的实验机器人类型为工业企业的小型搬运机器人，其中机器人行进路径中的障碍物与企业实际的车间设备布局趋同，尽量接近于真实的情况。实验的硬件CUP为Intel Core i9主频3.6 GHz，GPU为16 GB的NIVDIA GTX 960ti，ROM 2 TB，RAM 16 GB，计算机编程语言为PYTHON，在机器人路径规划中其他核心参数设计，如表2所示。

表2 其他相关的实验参数设置

4.2 实验结果与分析

基于MATLAB软件规划的工业机器人理论行进轨迹，如图6所示。

图6 系统规划的理论行进路线图7 各控制算法行进路径规划对比

图中显示的是真实企业生产线布局，即设备的大小和规格不一致，工业机器人在行进中需要根据设定好的轨迹前进，但必须实时纠正轨迹偏差，避免与设备发生碰撞。最优机器人行进路径需要保证两个条件，其一是完全规避行进路径中所有的障碍物，不能够与设备发生碰撞；
其二是要确保行进的路径为最佳路径，即机器人行进的路径距离最短，耗时最少。首先，对基于文献[10]、文献[11]两种传统轨迹控制算法来规划的行进路线，与基于强化学习算法规划的行进路线进行对比，具体如图7所示。

由实际的仿真结果可知，基于文献[10-11]的两种传统轨迹控制算法与理论值出现了一定程度的偏差。这主要由于设备的纵向排布无规则，当机器人行进时识别到前方有障碍物时会适时调整行进路线，但无法保证是最优路径。而本文提出的基于强化学习算法的机器人行进轨迹，与理论设定的行进轨迹完全重叠。

在优化强化学习算法控制下，机器人能够根据每个周期内的奖惩回报，适时调整关节和连杆的位姿与角度，确保行进方向的合理性，并能够与理论路线的数据相融合，优选出距离最短的路径。工业机器人行进轨迹优化还包括对末端执行器的控制，便于机器人能够准确地在工位上摆放零件。本文通过对比一个配送周期内机器人总体的工作效率，来对比分析本文提出的优化强化学习算法的总体效率，在确保零件摆放成功的基础上耗时最短表明效率越高，相关的仿真数据统计结果，如表3所示。

表3 各控制算法下机器人的工作效率对比 (s)

机器人工作效率对比结果显示，在本文优化强化学习算法控制下，机器人从起点到终点的运行时间最短为21 s；
向工位摆放10个零件的时间为35 s，相对于文献[10]和文献[11]两种传统算法耗时大幅度缩短，且没有出现零件掉落的情况。在基于优化强化学习算法控制下，工业机器人的末端执行器轨迹控制与理论轨迹的偏差较小。从机器人末端执行器行进轨迹上随机抽取15个样本点，观测理论值与实际值之间的偏差，统计结果如表4所示。

表4 末端执行器轨迹控制偏差 (mm)

续表

统计结果显示优化强化学习算法控制下机器人末端执行器与理论轨迹的偏差均值仅为0.04，方差值为0.01，这表明机器人末端执行器的运动轨迹已经接近于理论值，能够更好地确保零件摆放的稳定性，防止工作中零件发生掉落。与两种传统方法相比，本文提出算法在均值和方差控制方面，具有较大的优势。

为更好地提升对机器人轨迹的控制精度，本文提出一种经过优化的机器人轨迹控制与纠偏算法，对机器人关节位置矢量及位姿矢量进行全面控制，提高末端执行器的稳定性并强化机器人系统的纠偏性能。仿真实验相关数据也验证了提出优化强化学习算法的优势，利用强化学习算法规划的轨迹路线与理论路线基本重合，在机器人的实际运行中通过轨迹控制也可以改善末端执行器的控制偏差。

猜你喜欢位姿执行器连杆多场下压电喷油器执行器电学特性试验研究内燃机与配件(2022年19期)2022-12-02更正说明液压与气动(2022年10期)2022-11-27自动驾驶汽车执行器故障冗余算法汽车实用技术(2022年15期)2022-08-19基于位置依赖的密集融合的6D位姿估计方法现代信息科技(2020年22期)2020-06-24X-431实测篇2010年奔驰B200空调执行器电机学习汽车维修技师(2019年2期)2019-08-23曲柄摇杆机构的动力学仿真山东工业技术(2019年16期)2019-07-19优化ORB 特征的视觉SLAM电子技术与软件工程(2019年6期)2019-04-26基于单目视觉的工件位姿六自由度测量方法研究科技与创新(2018年12期)2018-06-22连杆的设计及有限元分析汽车实用技术(2017年16期)2017-09-21470Q汽油机连杆设计汽车实用技术(2014年9期)2014-02-20

推荐访问:纠偏机器人算法

强化学习算法在机器人轨迹优化控制与智能纠偏中的应用*

4.1 实验环境设置

4.2 实验结果与分析

最新文章

热门文章