活动报名丨谷歌DeepMind研究科学家刘睿博：利用沙盒训练社会对齐语言模型 - 代码天地

活动报名丨谷歌DeepMind研究科学家刘睿博：利用沙盒训练社会对齐语言模型

业界资讯 2023-07-01 06:29:35 阅读次数: 0

2023年6月26日（周一）上午11点「青源Live第62期丨利用沙盒训练社会对齐语言模型」将在线举办，谷歌DeepMind研究科学家刘睿博，欢迎预约观看并参与线上交流。

刘睿博

谷歌 DeepMind 研究科学家

刘博士毕业于达特茅斯学院，目前是谷歌 DeepMind 研究科学家。刘博士长期从事 AI 对齐研究，其以第一作者身份参与的研究成果多次发表在 ICLR, NeurlPS, ACL, EMNLP, AAAI, AIJ, CSCW 等顶级会议和期刊。他还荣获 AAAI 21 最佳论文。

“

利用沙盒训练社会对齐语言模型

让语言模型的行为符合人类社会价值观是当前语言模型开发的重要环节，相应的训练也被称为社会对齐。本次报告我们介绍一种新颖的社会对齐方案：我们通过构建社交游戏，使得自主智能体在社交活动中模仿人类形成价值观的过程，其游戏数据经过结构化处理用于对齐训练。我们还提出了一个简单易行的对齐算法——稳定对齐。稳定对齐是一个动态的对比学习算法，它利用游戏中得到的奖励作为调制信号，动态调整对比学习的边界。相比于当前主流的 RLHF 或者 RLAIF 方案，我们发现利用游戏规则引导下的复杂交互所产生的 “渐进式价值观提高” 游戏数据，以及稳定可扩展的对齐算法是高效社会对齐训练的关键。

论文标题：Training Socially Aligned Language Models in Simulated Human Society

论文链接：

https://arxiv.org/abs/2305.16960

代码地址：

http://github.com/agi-templar/Stable-Alignment

活动时间：6月26日（周一）11:00-12:00（上午）

活动形式：线上直播，扫描下方二维码报名

猜你喜欢

转载自blog.csdn.net/BAAIBeijing/article/details/131346098

活动报名丨谷歌DeepMind研究科学家刘睿博：利用沙盒训练社会对齐语言模型

无需额外训练提升模型30%性能！DeepMind科学家点赞MIT博士生实习成果

谷歌首席科学家：搞研究的痛苦，搞工程的人不懂

谷歌研究科学家：ChatGPT秘密武器的演进与局限

人工智能呼唤社会科学家

来自谷歌首席的灵魂追问：想当研究科学家，一事无成你受得了吗？

OpenAI首席科学家最新访谈：对模型创业两点建议、安全与对齐、Transformer够好吗？...

GMIS 2017 | 第四范式首席研究科学家陈雨强：机器学习模型，宽与深的大战

利用Python做绝地科学家(外挂篇)

利用Python做绝地科学家（外挂篇）

中国科学家成功筛选拉沙病毒入侵抑制剂

谷歌周彦祺：LLM浪潮中的女性科学家多面手丨智源大会嘉宾风采

为什么Python是数据科学家的首选语言

亚马逊首席科学家李沐「实训营」国内独家直播，马上报名！

谷歌顶级量子科学家详述他为何从谷歌辞职

数据科学家的来历

数据科学家的定义

数据科学家的起源

揭秘星际2人工智能AlphaStar：DeepMind科学家回应一切

活动报名｜如何使用70万预算从头训练千亿语言大模型

避免五大误区丨新手数据科学家进阶之路

数据科学家教你如何科学地利用A/B测试快速迭代产品？

沙盒模型

【数据科学家】什么是数据科学？

谷歌科学家、Hinton亲传弟子Ilya Sutskever的深度学习综述及实际建议

谷歌首席科学家：半监督学习的悄然革命

ChatGPT|谷歌首席决策科学家Cassie Kozyrkov介绍 ChatGPT

华人AI女神：从洗碗工到谷歌首席科学家，她是如何逆袭的？

这种精度高，消耗资源少的大模型稀疏训练方法被阿里云科学家找到了！已被收录到IJCAI

这种精度高，消耗资源少的大模型稀疏训练方法被阿里云科学家找到了！

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)