狗狗币专家观点DeepMind最新...

DeepMind最新研究:这个AI Agent,几分钟学会人类专家行为,登上Nature子刊

-

原文来源:学术头条

图片来源:由无界 AI生成

只需要几分钟,就可以成功模仿专家行为,并记住所有学过的知识,Google DeepMind 研发的 AI Agent,登上了 Nature 子刊。

据介绍,在 3D 模拟中,该智能体能够在第一次见到的任务中实时模仿专家,并从第三人称视角实时可靠地获取来自人类搭档的知识。

虽然该智能体之前从来没有见过人类,但它可以在各种有挑战性的导航问题中从人类和 AI 专家中快速学习。例如,它可以在包含大量障碍的复杂地形中穿梭。

相关研究论文以“Learning few-shot imitation as cultural transmission”为题,已发表在 Nature 子刊 Nature Communications 上。

研究团队认为,该研究结果是对具身 AI 实现快速知识传播的一次概念验证,是朝着人类-AI 互动的开放式文化演变迈出的第一步。

另外,AI 从业者可以从人类社会学习中汲取灵感,构建出适应当下人类伙伴的具身 AI 智能体,并妥善保护隐私。此外,具备社会学习能力的 AI 智能体或许还可以为研究人类文化能力发展提供全新的建模工具。

具备实时文化传播能力

文化传播(Cultural transmission)是一项通用技能,使人们能够在社交中实时获取和使用信息,同时具备高度的准确度和记忆力。在人类社会中,文化演化使得技能、工具和知识代代相传,并在这些过程中不断积累和完善。

在这项工作中,研究团队通过应用智能体-环境共适应(agent environment co-adaptation)的方法,成功生成了一个具备实时文化传播能力的 AI 智能体。

如上图,为实现这一目标,他们引入了一个虚拟的 3D 任务空间,每个任务都包含由程序生成的地形、障碍物和目标球。

在每个任务中,AI 智能体需要按照特定的循环顺序访问目标球以获取奖励,而这个顺序是在任务开始时随机确定的。然而,AI 智能体并不知道正确的顺序,所以它必须通过实验或从专家那里学习来弄清楚。不过,这个任务空间设计得很复杂,可以通过调整世界的大小、障碍物的数量、地形的崎岖程度以及目标球的数量等参数来改变导航的难度。

研究人员通过精心设计的实验发现,AI 智能体文化传播的出现需要一组最小而充分的训练要素,被命名为 MEDAL-ADR,包括函数逼近、记忆、专家共同参与者、专家丢失、对专家的注意偏向以及自动领域随机化。

图|MEDAL-ADR 要素

其中,记忆通过 LSTM 网络实现,专家共同参与者是硬编码的机器人,而自动领域随机化有助于训练 AI 智能体在多样化的任务中展现出更好的行为。

这些组件的巧妙组合构成了一个强大的 AI 智能体,其文化传播能力在回忆(recall)、泛化(generalisation)和保真度(fidelity)三个方面均表现出色。

回忆评估了智能体在没有专家在场的情况下复制演示的能力,泛化衡量了智能体是否能够在未知任务上进行文化传播,而保真度则计算了智能体选择与专家演示者的一致性程度。

最引人注目的是,这个 AI 智能体的“大脑”神经元展现出了强大的解释力,专门负责编码社交信息和目标状态。这一方法不仅使 AI 智能体在训练分布之外实现了泛化,而且在专家离开后的单一情境内依然能够回想起演示,为实际应用场景提供了更多可能性,尤其是在人类数据收集困难、任务变化多样且隐私至关重要的情况下。

一些局限性

尽管该研究提出的 MEDAL-ADR 方法可以使 AI 智能体在开放式学习中适应多样的文化环境。

但是,研究者团队也指出了评估方法上的一些局限性。

首先,研究没有从多个人中测试文化传播,而是选择了研究团队内的一个单一参与者。因此,研究无法对跨越人群的强大性做出统计显著的断言。

其次,导航任务对合理的人类行为的多样性有一定的限制。为了更深入地了解通用的文化传播,研究需要具有更广泛和深度策略的任务。

最后,研究人员并未明确区分训练过的智能体是否记住了地理路径,以及是否记住了正确球体顺序。

MEDAL-ADR 在 GoalCycle3D 任务空间之外是否更为通用?答案可能是有条件的“否”。

GoalCycle3D 是一个庞大的、程序生成的任务空间,其作用类似于更广泛类别任务的导航代表。这些任务涉及到需要反复进行战略选择序列的活动,比如烹饪、导航和问题解决。

然而,该方法需要一些环境条件,包括专家的可见性、退出和程序生成。如果在某个环境中无法创建近似条件,那么该方法就无法应用。

此外,研究人员并不认为 MEDAL-ADR 方法是人类文化传播发展的直接模型。但是,他们鼓励未来的研究者进行更多实验证明,如比较 MEDAL-ADR 的模型与不同阶段儿童或非人动物的行为,以及在实验室环境中研究人类和 AI 的文化积累。这种实证研究有望加深对文化传播、元学习和开放式学习相关问题的理解。

研究团队表示,他们期待未来 AI 和文化进化心理学领域的跨学科交流。

论文链接:

https://www.nature.com/articles/s41467-023-42875-2‌

LEAVE A REPLY

Please enter your comment!
Please enter your name here

热门新闻

狗狗币市值短暂超过西南航空公司

据u.today消息,狗狗币(DOGE)的市值在本周飙升了300%之后,短暂地超过了全球最大的低成本航空公司西南航空的市...

彭博社:预测比特币今年将上涨至40万美元

比特币的涨幅与2013年的约55倍和2017年的约15倍相似。

知名投行摩根士丹利为何选择新增比特币敞口?

12只摩根士丹利的投资基金将在比特币金融产品中配置资金以获得风险敞口

一文读懂元宇宙、NFT 和 GameFi 的关系

GameFi 改变了现实传统游戏中多方各自为阵的割裂模式
spot_img