如何教人工智能模仿人类的思想和行为
人工智能系统可以模仿人类智能的某些方面,并取得令人印象深刻的结果,包括检测物体、导航环境、下棋,甚至生成文本。但是克隆人类行为也有其局限性。如果没有思想作为行动的后盾,人工智能系统在面对新情况时可能会变得脆弱,并犯不可预测的错误。
英属哥伦比亚大学和矢量研究所的科学家最近的一个项目展示了让人工智能系统像人类一样思考的好处。他们提出了一种名为“思想克隆”的技术,可以同时训练人工智能的思想和行动。
思想克隆可以使深度学习模型为其行为生成一种推理过程,并将该推理传递给人类操作员。思想克隆有很多好处,包括培训效率、故障排除和错误修复,以及防止有害行为。
(资料图片)
许多深度学习系统都是在人类生成的数据上进行训练的。例如,训练数据可以是国际象棋游戏中的走法列表,也可以是策略游戏中的动作序列。它可以是现实世界的行为,比如完成仓库中的任务。通过在一个足够大的数据集上进行训练,人工智能代理将能够在该任务上创建一个人类行为模型。
克隆行为但是,虽然该模型可以学习模仿人类行为并在许多任务中达到相同的结果,但它不一定能学习这些行为背后的推理。如果没有思维过程,人工智能代理将无法将学习到的动作推广到新的设置中。因此,它将需要一个更大的训练数据集,包括所有可能的场景。面对看不见的边缘情况,它仍然是不可预测的。
思想克隆背后的假设是,如果你训练一个模型的行为和相应的思想,那么这个模型将学习行为和目标之间的正确联系。它还将能够生成并传达其行为背后的推理。
为了在ML模型中实现思想克隆,您需要在训练期间为模型提供多个信息流。一种是行动观察,例如玩家在游戏中所执行的移动。第二种是思想流,比如动作背后的解释。例如,在即时战略游戏中,AI观察到玩家在桥前移动了几个单位。同时,它会收到一个文本解释,上面写着“阻止敌军过桥”之类的内容。
认为克隆这种方法有几个好处。首先,人工智能代理将学习得更快,因为他们需要更少的例子来弄清楚为什么某个动作很重要。其次,他们会表现得更好,因为他们能够将同样的推理推广到看不见的情况。第三,他们将通过表达他们所采取的每一个行动背后的原因来提高安全性。例如,如果AI代理正在追求正确的目标,但打算采取不安全的行动(例如,为了按时到达目的地而闯红灯),那么它可以在造成损害之前被阻止。因此,如果它出于错误的原因采取了正确的行动,它可以被引导到正确的方向上。
教人工智能模仿人类思维研究人员提出了一个由两部分组成的深度学习架构,试图完成一项任务。“上层组件”处理一系列想法和环境观察,并试图预测下一个有助于模型实现其目标的想法。“下层组件”接收环境观察和上层组件的输出,并尝试预测要采取的正确行动。
模型重复这个过程,并使用每个阶段的结果作为下一阶段的输入。在训练期间,模型可以访问人类产生的思想和行动序列。它将这些信息作为基本事实来调整参数,并将思想和行动预测的损失降至最低。经过训练的模型应该能够为看不见的任务生成正确的思想和行动序列。
该模型使用转换器、长短期记忆(LSTM)网络和视觉语言模型来处理文本命令和视觉数据,将它们融合在一起,并跨多个步骤跟踪嵌入。研究人员在GitHub上发布了他们的结果,包括模型权重,训练模型的代码,以及生成训练和测试数据的代码。(在人工智能实验室减少分享并对模型细节保密的背景下,这是一个有希望的进展。)
思想克隆架构(来源:arXiv)在他们的实验中,作者使用了BabyAI,这是一个网格世界平台,人工智能代理必须完成不同的任务。代理可以执行各种操作,如捡起物体、开门和导航房间。BabyAI平台的优势在于,它可以通过编程方式生成世界、任务、解决方案和叙述来训练AI系统。研究人员创建了一个包含100万个场景的数据集来训练他们的思维克隆模型。
为了测试他们的技术,研究人员创建了两个不同的模型。第一个被训练为纯粹的行为克隆,这意味着它只接受环境观察。第二个是思想克隆训练,接收行为数据和关于每个动作背后原因的明文解释流。
结果表明,思想克隆明显优于行为克隆,并且收敛速度更快,因为它需要更少的训练样本来推广到未见过的样本。他们的实验还表明,思想克隆在非分布(out-distribution,OOD)示例(与模型训练示例非常不同的任务)中的表现也优于行为克隆。
思想克隆还使研究人员能够更好地理解人工智能代理的行为,因为每一步,它都用自然语言进行规划和推理。事实上,这种可解释性特征使研究人员能够在训练期间调查模型的一些早期错误,并迅速调整他们的训练制度,使其朝着正确的方向发展。
考虑在BabyAI环境下克隆(来源:arXiv)在安全方面,研究人员开发了一种叫做预防犯罪干预的技术,通过检查模型的思维流来自动检测和防止危险行为。他们观察到,在他们的实验环境中,犯罪预防干预“几乎完全消除了所有不安全行为,从而展示了TC代理在提高人工智能安全性方面的巨大潜力。”
将思想克隆应用于现实世界的人工智能认为克隆是人工智能研究和发展的一个有趣和有前途的方向。它适用于其他试图创建具身和多模态深度学习模型的活动,例如谷歌的PaLM-E和DeepMind的Gato。人类智能比目前的人工智能强大得多的部分原因是我们能够同时吸收和处理不同形式的信息。实验表明,多模态人工智能系统的鲁棒性和效率要高得多。
然而,思想克隆并非没有挑战。首先,BabyAI环境简单且具有确定性,这使得深度学习模型更容易了解其细微差别和复杂性。现实世界更混乱,更不可预测,也更复杂。
这种方法的另一个挑战是创建训练数据。在执行任务时,人们不一定要叙述他们的每一个动作。我们共有的知识和相似的生理特征,使我们不需要明确地说出我们的每一个意图。作者提出了一种解决方案,可以使用YouTube视频,让人们在执行任务时进行解释。然而,即便如此,人类的行为也充满了无法用纯文本解释的隐含原因。
思想克隆在互联网规模的数据和复杂问题上的表现还有待观察。但正如该论文的作者所说,它为“人工智能、人工智能安全性和可解释性的科学研究”创造了新的途径。
关键词:
相关阅读
-
如何教人工智能模仿人类的思想和行为
人工智能系统可以模仿人类智能的某些方面,并取得令人印象深刻的结果, -
“朱卫峰”牌辣椒面被检出质量不合格 ...
近日,西安市香芝源调味食品有限公司因食品质量不合格被市场监管部门通 -
厦门中骏天荟:预售监管资金被挪用?存...
厦门中骏天荟:预售监管资金被挪用?存在交付风险?官方最新回复!,厦 -
兆科眼科-B:用于治疗近视的NVK002第III...
兆科眼科-B(06622)公布,用于治疗近视的NVK002(该公司核心产品之一)为 -
伊涅斯塔INS晒照:期待开启新阶段,并把...
伊涅斯塔INS晒照:期待开启新阶段,并把我的经验带给酋长FC,酋长,fc,in -
重磅产品,获批!ETF赛道又将迎来新产品
ETF赛道又将迎来新产品!自2019年诞生以来,科创板一直是市场关注焦点 -
湖北省竹山县市场监管局打好长江“十年...
从检查结果来看,各渔具店经营者都较好地了解了长江“十年禁渔”工... -
【Steam周销量排行榜】《博德之门3》强...
V社于日前公布了2023年8月的最新一期Steam销量排行榜。一如既往,榜单 -
厄瓜多尔警方在总统候选人遇刺现场附近...
当地时间8月9日晚间,厄瓜多尔警方在总统候选人费尔南多·比利亚维... -
埃斯顿:关于新品发布情况,请留意公司...
埃斯顿00274708月09日在投资者关系平台上答复了投资者关心的问题投资者 -
皮尔磁:全球在线培训服务——随时随地...
几十年以来,皮尔磁作为“安全大使”,通过其学院将机械安全知识带... -
坐不八万为何叫“八万人体育场”?沪媒...
直播吧8月9日讯本赛季申花将主场迁至上海体育场,这座体育场又被大家成 -
2023全国银行招聘人数汇总(8月8日)
2023全国银行招聘人数汇总(8月8日) -
中标|水发集团100MW组件项目预中标!天...
中标|水发集团100MW组件项目预中标!天合、晶科、晶澳入围,国际能源网 -
《天气之子》上映3天遭网友吐槽,画质很...
然而,画面备受称赞,剧情却遭到各种吐槽,许多观众表示看不懂。观众: -
16强对阵全部出炉!世乒赛冠军3:0晋级...
16强对阵全部出炉!世乒赛冠军3:0晋级,田志希申裕斌是头号种子,田志 -
8月9日生意社不锈钢板基准价为13874.29元/吨
8月9日,生意社不锈钢板基准价为13874 29元 吨,与本月初(13778 57元 -
正保会计网校:财会高端人才紧缺 职业...
近年来,我国经济转入高质量发展阶段,面对经济发展带来的商业模式转变 -
港股异动 | 齐合环保(00976)盘中跌超4...
智通财经APP获悉齐合环保00976盘中跌超4截至发稿跌306报0475港元成交额 -
体验历史与青春的碰撞(行走蓉城)
成都大运会期间,宽窄巷子成为展现成都历史文化与现代生活的一个“...