GPT-4研究测试：https://higpt4.cn

Claude-3研究测试（全面击败GPT-4）：https://hiclaude3.com

结合附加的专家模块，浙江大学团队提出了一种用于多模态多智能体训练的分层知识蒸馏方法。多Agent在自组织的分层系统中协作，实现思维链条的精细化和高效的部署。这里的智能体通过教师模型进行分层训练，模拟动态并调整任务，这意味着仅使用多模态语言模型（MLM）就可以实现有效的合作。经过蒸馏，STEVE-2可以通过单一模型开发出高效的体感代理，无需专家指导即可完成精确的开放任务。

论文标题：我们真的需要一个复杂的代理系统吗？将具体代理提炼为单一模型

论文链接：https://arxiv.org/pdf/2404.04619.pdf

方法

整体框架如上图所示。在图（a）中，STEVE-2接受文本任务描述和图像作为每个步骤的输入状态。 STEVE-2 可以模块化为三个组件：

ViT 充当视觉编码器，将图像编码为嵌入。多层感知器(MLP) 层将ViT 生成的嵌入与语言空间对齐。 LLM充当语言解码器，接受指令标记的拼接和线性投影层的输出作为输入来生成文本动作。然后使用该文本操作来检索代码操作。 STEVE-2生成从图（b）中的教师Agent（多功能MLM的组合）中提取的动作序列，两者在Multi-Agent系统中以分层组织结构的形式并行工作。它利用多模态语言模型的认知和协作能力，在开放环境中处理视觉（）、音频（）和物体（）目标，管理和执行复杂的多智能体任务：

表示指挥代理的视觉、音频和其他属性的状态列表是初始任务。然后获取指挥代理的操作，即代理的总数。

图(c)的分层架构主要包括两部分：高层的集中式规划管理器代理为表示，低层的分布式执行指挥者代理为表示，Actions 通过以下方式获取：

Actor 代理通过以下方式实现：是可选的附加操作。

在分层多代理系统中，每个教师代理通过不同的提示执行这三种不同的MLM。然后通过带有DPO 损失的分层知识蒸馏，STEVE-2 学习了这三个代理的性能：

多模态教师模型

多模式教师模型MLM 包含三个关键代理：经理、指挥和演员。每个代理都配备了规划器、描述器、批评者和技能模块。

他们共同制定任务计划、处理多模式数据、通过反馈优化策略并有效分配子任务。然后，他们将战略转化为具体行动，协调团队组建，并确保任务分配与中央指示一致。同时，通过课程学习，模型可以不断学习并适应复杂的任务。此外，该模型还维护一个多模态存储器，用于存储描述符生成的长期描述和规划器修改的轨迹，以支持更有效的决策和执行。

基于MLM的自适应规划

在规划阶段，大型语言模型从文本观察中过滤掉与任务相关的条件句子。通过预定义模板巧妙地将附加信息集成到文本中，使计划更加全面。然后，结合任务说明和这些描述性文本，LLM 的语言组件用于生成行动计划。

这种方法利用分层大型语言模型的强大功能来生成更准确的情况描述和计划，与完全集成的模型相比，显着降低了生成不切实际元素的风险。

自主错误修正与主动规划

STEVE-2 通过闭环反馈机制改进规划，该机制分析反馈并使用不言自明的功能自动纠正错误，无需人工干预或附加信息。它提前识别并纠正计划中潜在的问题，对每一步进行模拟和评估，以减少因计划失败而造成的困难情况。这种主动的方法使其能够预测资源不足等可能阻碍任务完成的问题。

带有额外专家信息的教师模型

现有的开放代理在面对不确定指令下的复杂任务时常常不知所措。特别是对于导航和创建等高度开放的任务，由于语言指令可能缺乏信息，且结果复杂多样，因此需要代理独立想象和补充指令中未明确说明的细节。

具体来说，作者扩展到了更多的Expert，修改了VQ-VAE 以生成用于创作任务的3D 占用空间，并使用多模态信号的动态地图来处理导航任务。需要注意的是，该部分仅与教师模型集成，以避免直接向STEVE-2部分提供提示信息，防止作弊。这种方法还确保了STEVE-2 的轻量级。表达如下：

其中，代表文本描述的多模态知识。状态用表示。 Expert 将文本对象目标转换为.此过程为教师模型提供了详细的任务描述。这为Agent提供了更丰富的任务信息并减少了不确定性。

知识蒸馏

其中，损失函数为知识蒸馏损失。作者在实验中采用了DPO 损失，该损失使用响应与非首选响应的相对对数概率，并结合动态的每个样本权重来防止模型退化。这种方法被证明在使语言模型符合教师偏好方面具有优越性。交叉熵：

逻辑函数和超参数用于控制与参考代理的偏差。参考代理是通过对基于规则的教师生成的数据集进行行为克隆而获得的。

该模型使用最大似然估计（MLE）进行训练，并添加正则化项以防止智能体偏离教师的准确分布，保持生成多样性，并避免过早收敛到简单任务。

为了稳定训练过程，MLM代理被初始化为。然而，由于分布不可计算，使用DAgger收敛到最优代理以克服累积误差和分布偏移问题。

实验

多模态导航任务

任务包括多模态目标搜索、连续区块搜索和地图探索。实验结果如下表所示，

STEVE-2表现出了最好的性能，这展示了在不同操作模式下的多个导航任务中多智能体协作的效率。当使用较少的法学硕士时，处理效率和模块减少会显着提高。

多模式目标搜索。多模态目标搜索技术可以准确识别图像、物体和音频目标。在游戏中，对象标签帮助识别项目，图像标签帮助定位对象，音频标签捕获玩家范围之外的声音。通过分解任务层次结构，STEVE-2的性能比当前最先进的LLM方法提高了5.5倍，而成功率保持不变。连续块搜索。连续区块搜索是对智能体探索能力和定位钻石区块熟练程度的综合评估。在此过程中，智能体的目标是用最少的迭代次数找到尽可能多的块。借助动态地图和层次结构，可以更有效地发现和部署更多区块，从而提高搜索效率。地图探索。地图探索的目的是让智能体更新尽可能多的地图信息。在同等环境感知条件下，对于未到达的区域，系统会以文本形式提供状态信息。此外，每步移动的最大距离限制为50 个方块。在此限制下，STEVE-2表现出了优异的性能，与最先进的LLM方法相比，性能提高了1.9倍，效率提高了3倍。

多模态创造任务

为了评价创作任务的完成情况，分为收集材料和建造两个部分。实验结果如下表所示：

建筑一代。由于建筑生成的复杂性和独特性，代理需要具有想象能力来填写指令中未明确说明的细节。为此，作者使用微调后的VQ-VAE作为3D占用空间生成工具来帮助智能体想象。同时，将多视图占用状态作为教师模型的输入，训练模型执行相应的动作。为了进一步简化架构并提高性能，还使用了知识蒸馏方法，仅使用一个代理和一个大语言模型。这种简化不仅显着提高了输出质量，甚至在某些方面超越了更复杂的结构，展现出强大的潜力和效率。下图是该方法的代表性输出结果并与GT（Ground Truth）进行比较：

由于摘要文本的创建方式多种多样，因此需要使用FID 索引和手动统计偏好来确定生成的结果是否符合描述。 STEVE-2在FID分数上实现了3.2倍的提升，在GPT-4V和人类主观偏好分数上均名列前茅，在保证高精度的同时也展现出了优异的性能。

消融实验

下表是材料收集和建筑创建的消融实验。

从上述实验结果可以看出，STEVE-2模型在系统性能方面明显优于教师模型GPT-4V，导航效率提升1.8倍，创作质量提升4倍。

知识蒸馏进一步改进了模型，使其从头开始导航和生成高质量建筑的效率提高了24 倍。

用户评论

孤败

这个研究真是太厉害了！把多Agent模型变成单一模型，还取得更好的效果？简直颠覆传统思维！我一直在关注多Agent领域的进展，这绝对是一个值得期待的方向，希望能看到更深入的研究和应用。

有17位网友表示赞同！

咆哮

浙江大学的科研能力果然强悍啊！把复杂的multi-agent问题简化成一个单一模型，这种创新思路太棒了！之前总是担心多Agent模型训练成本高、效果不稳定，现在看来或许真的有更好的解决方案了。

有18位网友表示赞同！

﹏櫻之舞﹏

感觉这篇文章有点过于技术性，对非专业人士来说很难理解。虽然标题很吸引人，但是内容还是希望能更直观易懂，这样更能吸引大众关注多Agent技术的进步。

有10位网友表示赞同！

虚伪了的真心

单一模型比多Agent模型效果更好？我不太相信这种说法！多Agent模型最大的优势就在于可以分工协作，模拟更加复杂真实世界的场景。如果只用一个模型，怕是无法完全捕捉到这种复杂性。

有7位网友表示赞同！

灬一抹丶苍白

也许蒸蒸这个过程就是关键吧？把多种模型的优势整合在一起，形成更强大的单一模型。这种方法很有创新性，将来可能在各个领域都有广泛应用！

有14位网友表示赞同！

青山暮雪

这篇文章对多Agent技术的未来发展提供了新的思路，尤其是“蒸一蒸”的训练方法值得深入探究！希望能看到更多实证研究来验证这种方法的可行性和有效性。

有17位网友表示赞同！

瑾澜

我一直相信单一模型就能解决一切问题？真是太天真了！多Agent模型在某些任务中仍然占据优势，不能因为简单的改进就完全否定它。需要根据实际情况选择合适的模型架构。

有16位网友表示赞同！

麝香味

浙江大学的研究成果确实很令人期待！但我个人更关注的是这种技术如何应用于实际场景中。例如，我们可以利用蒸蒸的原理来构建更加智能的聊天机器人或决策支持系统吗？

有15位网友表示赞同！

在哪跌倒こ就在哪躺下

单一模型真的比多Agent模型强？这要看具体的任务要求吧？对于简单重复的任务，可能单一模型更有效率；但是对复杂决策或博弈型场景来说，多Agent模型也许还是更有优势。

有11位网友表示赞同！

抚笙

蒸蒸这个概念很有意思，就像炼丹一样把多种模型的精华融入一个新的模型中。这为未来多Agent技术的研发提供了全新的方向！期待看到更多优秀研究作品！

有18位网友表示赞同！

自繩自縛

我觉得这篇博文说得太简单了，缺乏对“蒸一蒸”过程的具体细节解释。如果能深入浅出地描述这个训练方法，相信更能吸引读者理解和探讨。

有6位网友表示赞同！

在哪跌倒こ就在哪躺下

这篇文章让我看到了多Agent技术的未来发展趋势！将复杂的多Agent系统简化成单一模型，不仅可以解决传统问题，而且还能带来更高的效率和可扩展性。

有13位网友表示赞同！

。婞褔ｖīｐ

浙江大学的研究一直走在前列！这次的成果再次证明了他们在人工智能领域的深厚积累。相信“蒸一蒸”方法将在未来引发更多关于多Agent建模的思考和研究。

有15位网友表示赞同！

▼遗忘那段似水年华

我觉得这个说法听起来有点太完美了。虽然单一模型可能在某些方面更方便，但多Agent模型能模拟更加复杂的相互作用关系，这对于某些特定任务来说依然是优势所在。

有13位网友表示赞同！

人心叵测i

看了这篇博文，我对未来人工智能的发展充满了期待！如果可以将复杂的多Agent系统优化成单一模型，那将会是巨大的进步！希望这种技术早日应用于实际场景中，给人们带来更多便利。

有17位网友表示赞同！

無極卍盜

多Agent模型的训练流程往往比较复杂且耗时长，而这篇博文提出的“蒸一蒸”方法能够简化模型结构，提高训练效率。这对于推动多Agent技术的快速发展是至关重要的！

有15位网友表示赞同！

七夏i

我更关注的是这种技术具体的应用场景。例如，它能否用于构建更加智能的决策支持系统或者解决一些复杂的社会问题？

有17位网友表示赞同！

上一篇厦门3天2夜深度游攻略：全面游玩指南

返回首页返回专栏

下一篇返回列表

当地美食

留言跟帖

(网友评论仅供其表达个人看法，并不表明本站立场)

网友评论

美人游记

主题推荐

阿尔山有什么好玩的阿尔
阿尔山是一个非常美丽的旅游景点，今天小编就是要来和大家介绍一下...
2018-01-17 820
重庆采茶地点重庆周边采
重庆采茶的地方非常多，这里山多，自然气候非常适合种植茶叶，对于当地...
2018-04-02 44
唐山到新疆自驾游线路推荐
德赛罗人鱼这本小说可以说是非常精彩了，这篇其实可以单独推出来的...
2018-01-19 540
广深港高铁票价是多少
广深港高铁的票价最终曝光了，本次的高铁线路是中国首次由内地和香...
2018-01-17 6
湖南旅游最值得去的6个地
南岳衡山位于衡阳市南岳区，是我国五岳之一。衡山七十二群峰，层峦叠...
2024-06-27 62
黄山！别人家男朋友做的旅游
闺蜜男朋友做的黄山旅游攻略！！！仔细看了个遍，真的太详细太用心了❤️吧...
2024-08-19 95

浙大：蒸后多个药剂变单一模型，效果更佳

方法

多模态教师模型

基于MLM的自适应规划

自主错误修正与主动规划

带有额外专家信息的教师模型

知识蒸馏

实验

多模态导航任务

多模态创造任务

消融实验

用户评论

相关游记

当地美食

留言跟帖

网友评论

热门景点

美人游记

主题推荐

内容列表

正文内容

评论