聚焦大模型!隐语技术团队研究成果被 ICASSP 与 ICLR 两大顶会收录

导语:2023年,「大模型」走到了聚光灯下,技术圈的“头部玩家”们纷纷入场,其潜能和价值正在被不断挖掘与释放。与此同时,大模型相关的隐私安全问题也受到了越来越多关注。隐语技术团队聚焦大模型推理和训练过程的隐私安全问题展开研究,目前所提出的分布式训练框架能保证在联邦训练过程中任何一方都无法在未授权的情况下拿到通信(隐私)的参数,从而达到保护各方数据和模型安全的目的,未来也将继续探索新的联邦大模型训练框架和策略。

01

论文标题:《A Fast, Performant, Secure Distributed Training Feamework For LLM 》(一个针对大模型的快速,高性能,安全的分布式训练框架)
论文作者:黄炜(蚂蚁集团),王莹桂(蚂蚁集团),程安达(蚂蚁集团),周爱辉(蚂蚁集团),余超凡(蚂蚁集团),王磊(蚂蚁集团)
收录顶会 -- ICASSP
2024 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2024)将于2024年4月14日在韩国首尔召开。本次共投稿 5796 篇论文,接收率为 45%。蚂蚁集团隐私计算部隐语团队关于安全高效的大模型联邦(分布式)训练架构的论文被接收。
关键词:Federated LLM, Security, TEE, Lightweight encryption
论文摘要
大模型对不同任务具有强大的理解和解释能力,对于数据也拥有很强的记忆和处理能力。这也标志着无论是数据还是模型本身的参数都是大模型拥有者的重要财产,即其既不想模型参数泄漏也不想数据泄漏。分布式(联邦)大语言模型(LLM)是使用分散数据共同训练特定领域大语言模型的重要方法。然而,恶意窃取服务器或客户端的模型参数和数据已经成为亟待解决的紧迫问题,所以需要一个新颖的分布式大模型训练框架,使得任何一方都无法窃取各个客户端的数据,以及无法拿到微调的参数。
为了解决上述问题,在本文中,我们提出了一种基于模型切片的安全分布式大型语言模型。在这种情况下,我们在客户端和服务器端都部署了可信执行环境(TEE),并将微调结构(LoRA或P-tuning v2)放入TEE中。然后,通过轻量级加密 (One Time Pad) 在TEE和常规环境 (GPU) 中执行安全通信。
为了进一步降低设备成本以及提高模型性能和准确性,我们提出了一种分割微调方案。具体而言,我们按层切分大语言模型,并将后续层放置在服务器端的 TEE 中(客户端不需要 TEE)。然后,我们提出了稀疏参数微调(SPF)与 LoRA 部分结合起来,以提高下游任务的准确性。大量实验表明,我们的方法在保证安全性的同时也保证了准确性。
论文链接https://arxiv.org/abs/2401.09796


02

论文标题:《Enhanced Face Recognition using Intra-class Incoherence Constraint》(利用类内不一致性约束增强的人脸识别技术)
论文作者:黄源清(蚂蚁集团),王莹桂(蚂蚁集团),杨乐(坎特伯雷大学),王磊(蚂蚁集团)
收录顶会--ICLR
国际表征学习大会“ICLR”(International Conference on Learning Representations)是机器学习领域的顶级学术会议之一。ICLR 2024 将于5月7日至5月11日在奥地利维也纳召开。本次会议共收到7262篇投稿,总体接受率约为 31%。蚂蚁集团隐私计算部隐语团队关于通过增强表征学习能力提升人脸识别精度的论文被接受为 spotlight(被接收为 spotlight 的论文占5%)。
关键词:Representation learning, Face recognition, Intra-class Incoherence
论文摘要
当前的人脸识别(FR)算法已经达到了高度精确的水准,因此要实现进一步的提升变得越来越具有挑战性。尽管现有的FR算法主要集中在优化边界和损失函数上,但对特征表征空间的探索却受到了有限的关注。因此,本文旨在从特征表征空间的角度来提高人脸识别的性能。首先,我们考虑了两个表现出明显性能差异的人脸识别模型,其中一个模型相比另一个展现出了更高的识别准确率。我们在优势模型的特征上沿着劣势模型的特征作正交分解,获得了两个子特征。令人惊讶的是,我们发现垂直于劣势模型的子特征仍然具有一定程度的识别能力。我们调整了子特征的模,并通过向量加法重新组合它们。实验表明,这种重新组合很可能有助于提升面部特征表示,甚至优于原始优势模型的特征。
受到这一发现的启发,我们进一步考虑了在只有一个人脸识别模型可用的情况下如何提高识别精度。我们受到知识蒸馏的启发,引入了类内不一致性约束(IIC)来解决这个问题。在多个人脸识别基准的测试结果表明,通过引入 IIC,现有的最先进的人脸识别方法可以得到进一步改进。
此外,我们还正在大模型蒸馏上进行相关探索。我们发现引入 IIC 对 Bert(transformer模型)进行蒸馏同样能够提升模型精度。我们在 ICLR 2023 的spotlight工作mpcformer上,在训练阶段加入我们提出的 IIC,发现最后得到的模型精度表现要优于原论文中的模型。后续我们将持续研究 IIC 对其他的大语言模型蒸馏性能的影响。
论文链接https://openreview.net/forum?id=uELjxVbrqG&referrer=%5BAuthor%20Console%5D(%2Fgroup%3Fid%3DICLR.cc%2F2024%2FConference%2FAuthors%23your-submissions)

微软开源基于 Rust 的 OpenHCL 字节跳动商业化团队模型训练被“投毒”,内部人士称未影响豆包大模型 华为正式发布原生鸿蒙系统 OpenJDK 新提案:将 JDK 大小减少约 25% Node.js 23 正式发布,不再支持 32 位 Windows 系统 Linux 大规模移除疑似俄开发者,开源药丸? QUIC 在高速网络下不够快 RustDesk 远程桌面 Web 客户端 V2 预览 前端开发框架 Svelte 5 发布,历史上最重要的版本 开源日报 | 北大实习生攻击字节AI训练集群;Bitwarden进一步脱离开源;新一代MoE架构;给手机装Linux;英伟达真正的护城河是什么?
{{o.name}}
{{m.name}}

猜你喜欢

转载自my.oschina.net/u/5915128/blog/11033121