任务执行模型ACT-1,你的贴心小管家

在这里插入图片描述

AI模型最近几年在不同领域大放异彩。其中不同类型的Transformer模型,在不同领域都有及其重要的贡献。

  • 语言模型:GPT,PaLM,Chinchila
  • 编码:Codex,AlphaCode
  • 图像生成:DALL-E,Imagen

除了上述领域外,这篇文章开发了新的一个领域:在数据场景下执行任务,并发布了新模型称为Action Transformer(ACT-1)。

这个模型令人感兴趣的点在于:

  • 它能够在电脑面前使用任意一个软件,API工具等,用来辅助需要在电脑前完成的工作
  • 需要利用到自然语言推断,用来告诉模型我们到底需要做什么

**ACT-1是一个大型的Transfromer模型,它能够在浏览器上执行相应的动作。**比如在Chrome浏览器上,类似于插件的形式,观察网页内容同时执行正确的动作:像点击,输入,滑动等。同时它也能够完成较为复杂的任务。

比如:在网页上输入需要订的酒店类型和预算,它能够帮你在网页上进行操作:
在这里插入图片描述

它也能够执行更加复杂的任务和操作:例如可以完成在Salesforce上需要10+的点击动作的任务
在这里插入图片描述

同时它也能够在excel中,根据输入的命令,来给出计算公式:
在这里插入图片描述

不仅仅在单独软件上进行操作,ACT-1也能够协作多个不同的软件,执行给定的任务指令。
在这里插入图片描述

该作者任务,自然语言接口将会极大的改变人们在电脑前的工作,他们给出了未来的畅想:

  • **未来与电脑的互动将会更多的使用自然语言,而不是使用软件GUI进行操作。**相当于我们只要输入命令给它,它会自己自动执行任务
  • **初学者不需要培训,也会是一个熟练的使用者。**任何人只要使用自然语言,都能够表达自己的想法,而不需要特定的专业知识。软件会变得更加强大,而不会仅仅局限于一个下拉菜单的长度。
  • 以后软件的文档和手册,不是给用户看的,而是直接让模型进行学习。
  • **让AI突破更多的领域,会使得AI在未来更像是我们的工作伙伴。**在可以遇见的未来,AI会在设计,工程等领域辅助人们实现更加复杂的功能。

目前这个软件正在测试中,有兴趣的可以去官网进行申请,加入waitlist等待测试哦~

目前ACT-1模型还有很多不足的地方,因此创作团队还是希望它能够不断学习,争取做更多复杂的任务。同时论文细节还没有放出来,等放出来之后可以具体看看。

值得一提的是,该团队的负责人,就是Transformer的作者Vaswani,果然大佬都是非同寻常的。
在这里插入图片描述

本期就到这里,我是leo~,欢迎关注我的知乎/公众号“算法一只狗”,我们下期再见。

猜你喜欢

转载自blog.csdn.net/qq_30232405/article/details/127132278