2023年6月26日(周一)上午11点「青源Live第62期丨利用沙盒训练社会对齐语言模型」将在线举办,谷歌DeepMind研究科学家刘睿博,欢迎预约观看并参与线上交流。
刘睿博
谷歌 DeepMind 研究科学家
刘博士毕业于达特茅斯学院,目前是谷歌 DeepMind 研究科学家。刘博士长期从事 AI 对齐研究,其以第一作者身份参与的研究成果多次发表在 ICLR, NeurlPS, ACL, EMNLP, AAAI, AIJ, CSCW 等顶级会议和期刊。他还荣获 AAAI 21 最佳论文。
“
利用沙盒训练社会对齐语言模型
让语言模型的行为符合人类社会价值观是当前语言模型开发的重要环节,相应的训练也被称为社会对齐。本次报告我们介绍一种新颖的社会对齐方案:我们通过构建社交游戏,使得自主智能体在社交活动中模仿人类形成价值观的过程,其游戏数据经过结构化处理用于对齐训练。我们还提出了一个简单易行的对齐算法——稳定对齐。稳定对齐是一个动态的对比学习算法,它利用游戏中得到的奖励作为调制信号,动态调整对比学习的边界。相比于当前主流的 RLHF 或者 RLAIF 方案,我们发现利用游戏规则引导下的复杂交互所产生的 “渐进式价值观提高” 游戏数据,以及稳定可扩展的对齐算法是高效社会对齐训练的关键。
论文标题:Training Socially Aligned Language Models in Simulated Human Society
论文链接:
https://arxiv.org/abs/2305.16960
代码地址:
http://github.com/agi-templar/Stable-Alignment
活动时间:6月26日(周一)11:00-12:00(上午)
活动形式:线上直播,扫描下方二维码报名