生成式AI如何变革机器人工作流程

【导(dǎo)语(yǔ)】MathWorks 机器人产品经理 YJ Lim 分享前沿成果：生成式 AI 正重塑机器人领域，让机器人更灵活易用。从传统独立模块到生成式 AI 端到端系统，变革显著。MathWorks 弥合前沿研究与实际应用鸿沟，MATLAB 和 Simulink 提供诸多有力工具。结合生成式 AI，机器人应用迎(yíng)来(lái)新(xīn)可(kě)能(néng)，MathWorks 诚(chéng)邀(yāo)您(nín)体(tǐ)验(yàn)示(shì)例(lì)，共(gòng)探(tàn)生(shēng)成(chéng)式(shì) AI 在(zài)机(jī)器(qì)人(rén)领(lǐng)域的(de)无(wú)限(xiàn)潜(qián)力(lì)与(yǔ)未(wèi)来(lái)走(zǒu)向(xiàng) 。

本(běn)文来(lái)自(zì) MathWorks 博(bó)客(kè)，Autonomous System 自(zì)主系(xì)统(tǒng)栏(lán)目(mù)。

作(zuò)者(zhě)：YJ Lim，MathWorks 机(jī)器(qì)人产品经理

翻译：叶女士(人机版)

非(fēi)常(cháng)激(jī)动(dòng)地(de)和(hé)大(dà)家(jiā)分(fēn)享(xiǎng)我(wǒ)们(men)最(zuì)近(jìn)的(de)一(yī)些(xiē)酷(kù)炫(xuàn)成(chéng)果(guǒ)：我(wǒ)们(men)正(zhèng)在(zài)利(lì)用(yòng)生(shēng)成(chéng)式(shì) AI，让(ràng)机(jī)器(qì)人(rén)变(biàn)得(de)更(gèng)加(jiā)灵(líng)活(huó)，使(shǐ)用(yòng)起(qǐ)来(lái)也(yě)更(gèng)加(jiā)便(biàn)捷(jié)!

生(shēng)成(chéng)式(shì) AI 已(yǐ)成(chéng)为(wèi)近年来最具影响力的技术趋势之一，推动了像 deepseek，ChatGPT 这样的工具，改变了我们的生活和工作方式。除此之外，生成式 AI 也正在重塑各行各业，机器人领域也不例外。在 MathWorks，我们非常期待探索这项技术如何简化和提升机器人运行的方式，让先进的机器人技术变得更加易用和多样化。

该领域的一个典型例子是 Google’s Robotics Transformer 2 (RT-2) [1]。RT-2 展示了生成式AI的巨大潜力，使机器人具备了前所未有的感知、规划和行动的适应能力。这些模型利用大规模网络数据，帮助机器人泛化知识、在非结构化环境中执行任务，并且只需极少的针对性训练。虽然前景令人振奋，但仍然面临一些挑战，比如如何将这些模型集成到现实世界的工作流程中——而这，正是 MathWorks 的用武之地。

从传统到生成式 AI 方法的转变

传统上，自主系统通常由感知、规划和控制等独立模块组成。虽然这些模块能够实现预(yù)期功能，但在集成和适应新环境时往往需要投入大量精力。

图示：现有的机器人任务实现方式——在传统机器人系统中，任务通常被分解为若干子任务，如目标检测、抓取和运动规划。感知模块负责检测并估算物体的姿态，而运动规划模块则计算任务执行所需的轨迹。在动态环境下，这些步骤往往需要多次重复执行，对于像放置多个物体这样的多步骤任务，会导致系统变得复杂且效率低下。

以传统的感知流程为例：

目标检测：可以使用 YOLOv4 检测器对图像中的物体进行识别(示例[2])。

姿态估算：通过多步流程估算被检测物体的三维位置和朝向(示例[3])。

训练与部署：每添加一个新物体或更换环境，都需要重新训练和配置系统，这不仅耗时，而且难以大规模推广。

图示：现有的姿态估算方法实现机器人任务(参见此示例[4])。在现有的感知流程中，主要目标是检测图像中的物体并估算其三维姿态，通常会用到 YOLOv4 检测器。尽管这种方法有效，但需要大量的训练和姿态估算步骤，因此在面对新物体或新环境时，扩展和应用起来既繁琐又具有挑战性。

生成式 AI 则改变了这一传统做法，将感知、规划和控制集成到一个端到端的系统中。VLA(视觉-语言-动作)模型能够处理文本指令和摄像头图像，预测(cè)机器(qì)人(rén)动作，并根据反馈不断优化这些动作。这类模型具备以下特点：

基于 transformer 架构——与 ChatGPT 等模型采用相同的技术基础;

能(néng)够(gòu)结(jié)合(hé)视觉和语言输入进行推理并生成相应动作;

作为“具身智能”系统，将抽象理(lǐ)解(jiě)与实际物理动作相连接。

这种端到端的方法大大简化了开发流程，使机器人更容易适应新的任务和环境。

图示：基于 transformer 架构的机器人 VLA(视觉-语言-动作)模型能够根据文本指令和摄像头图像，在一个简化的步骤中预测机器人动作，这与传统系(xì)统(tǒng)中(zhōng)任务分解、感知和运动规划等多个独立阶段不同。这些模型通过视觉反馈不断迭代优化动作，从而提升准确性，但在实际执行时仍需依赖底层控制器，并且在真实应用中需要安全层来保障可靠性。与 ChatGPT 和 DALL-E 等模(mó)型(xíng)不(bù)同，VLA 模型通过将决策过程融入物理机器人系统，实现了“具身智能”。

生成式 AI 与机器人技术在 MathWorks 的结合

在 MathWorks，我们致力于将生成式 AI 领域的前沿研究与机器人实际应用之间的鸿沟弥合。我们 MATLAB 和 Simulink 中的工具为机器人基础模型提供了有力补充，例如：

即插即用：可直接在 MATLAB 和 Simulink 中访问和部署此(cǐ)类(lèi)模(mó)型(xíng)。

测(cè)试(shì)验(yàn)证(zhèng)：利(lì)用(yòng)生(shēng)成(chéng)式(shì)模(mó)型的输出，仿真机器人动力学、优化运动规划和轨迹控制(通过 Robotics System Toolbox)。

三维可视化：逼真的3D动画将机器人行为生动展现，便于在仿真环境中评估性能。

安全保障：为机器人系统的现实应用提供验证和确认工具，确保安全关键型场景的可靠性。

真实部署：支持从仿真无缝过渡到实际部署，包括在资源受限设备上的测试或利用云端推理。

例如，我们开发了一个名为“RobotPolicy”的 Simulink 模块，可与基础模型集成，在闭环系统中展示其能力。该模块能够接收任务指令和视觉观测，输出机器人动作，并支持如 RT1-X 和 Octo 等预训练的小型模型。

图示：在 Simulink 中仿真和测试机器人基础模型。Simulink 中的“RobotPolicy”模块可以集成来自 HuggingFace 等平台的基于 Python 的基础模型。它能够处理任务指令和观测图像，生成机器人动作，明确(què)指(zhǐ)定(dìng)末(mò)端(duān)执(zhí)行(xíng)器(qì)的(de)位(wèi)置(zhì)和(hé)姿(zī)态(tài)。整(zhěng)个(gè)工(gōng)作(zuò)流(liú)程(chéng)包(bāo)括(kuò)自(zì)然(rán)运(yùn)动(dòng)的(de)位(wèi)姿(zī)控(kòng)制(zhì)、具(jù)有(yǒu)真(zhēn)实(shí)感(gǎn)的(de) 3D 仿(fǎng)真(zhēn)环(huán)境(jìng)，以(yǐ)及(jí)动(dòng)作的迭代生成直至完成任务，从而实现生成式 AI 在机器人领域的无缝测试与部署。

现实应用与未来展望

结合 MATLAB 和 Simulink 的生成式 AI 为各类机器人应用领域带来了令人兴奋的新可能，例如：

零样本部署：得益于基础模型在多样化数据集上的广泛训练，机器人能够在从未见过的环境中执行任务。

涌现能力：不仅能执行基础指令，机器人还可完成需要推理的复杂任务，比如挑选健康饮品或理解符号化指令。

仿真驱动开发：高保真(zhēn)仿(fǎng)真(zhēn)有(yǒu)助(zhù)于(yú)优(yōu)化(huà)模(mó)型(xíng)和(hé)加(jiā)速(sù)测(cè)试(shì)，缩(suō)小(xiǎo)仿(fǎng)真(zhēn)与(yǔ)现(xiàn)实(shí)部(bù)署(shǔ)之(zhī)间(jiān)的(de)差(chà)距(jù)。

针(zhēn)对(duì)特(tè)定(dìng)任(rèn)务(wu)的(de)微(wēi)调(diào)：借(jiè)助(zhù)基(jī)础(chǔ)模(mó)型(xíng)中(zhōng)学(xué)到(dào)的(de)先(xiān)验(yàn)知(zhī)识，机器人仅需极少的数据就能适应新任务或新环境。例如，只需少量样本，便可在数小时内完成对高精度操作或长时序任务的模型微调。

亲自体验

我们非常乐意帮助您探索生成式 AI 如何变革机器人工作流程。目前，我们准备在 GitHub 上发布示例，同时您也可以直接联系我们，申请试用代码的访问权限。

这个示例将展示：

机器人基础模型与 Simulink 的集成

机器人任务的仿真与可视化

如何将这些模型适配到具体应用中

欢迎联系我们获取试用代码，亲自体验生成式 AI 带来的各种可能。我们期待您的反馈和宝贵见解!

加入讨论

生成式 AI 仍在不断发展，提升成功率和实现可扩展性等问题仍需攻克。随着更多数据和高保真仿真的出现，我们相信该领域将会快速进步。在 MathWorks，我们很高兴能够参与这一进程，并期待听到您对生成式 AI 在机器人领域创造新机遇的看法。

欢迎分享您的想法，并亲自试用 GitHub 上的示例，体验这些创新应用的可能性：

您目前是否在探索生成式 AI 在机器人领域的应用?在您看来，生成式AI在哪些机器人应用中能够产生重大影响?

机器人VLA基础模型(如 Google 的 RT-X 和 Covariant 的 RFM-01)可以实现端到端的任务处理(涵盖感知、规划和执行)。您认为这些模型有可能取代传统算法吗?

机器人基础模型在实际部署中仍需底层控制器、额外的安全机制和大量测试。您认为基于模型的设计(Model-Based Design)能否在保障这些模型功能安全方面发挥关键作用?

MATLAB/Simulink 为基础模型的连接、仿真、测试和部署提供了便捷工具。您是否有兴趣将 MATLAB/Simulink 用于这些用途?