深入理解联邦学习——联邦学习概念的产生

分类目录:《深入理解联邦学习》总目录


从1955年达特茅斯会议开始,人工智能经过两起两落的发展,迎来了第三个高峰期。第一个高峰期的出现是因为人们看到了AI的希望,也就是自动化算法对提高效率的希望,但是受算法能力的限制,机器不能完成大规模数据训练和复杂任务,AI进入了第一个低谷。第二个高峰来自于霍普菲尔特神经网络的提出,以及BP算法实现了神经网络训练的突陂,使得大规模神经网训练成为可能。但是这的却发现算力和数不够,专家系统的设计跟不上工业的成长需求,引发了AI的第二个低谷。2006年,深度字习神经网络被提出,加上近年来算法和算力的巨大提升和大数据的出现,人工智能迎来了第三个高峰。2016年的AlphaGo,其总计使用了30万盘棋局作为训练数据并且接连战胜两位人类职业围棋选手,我们真正看到了人工智能进发出的巨大潜力,也更加憧憬人工智能技术可以在自动骘驶,医疗、金融等更多、更复杂,更前沿的域施展拳脚。

AIphaGo的巨大成功使得人们自然而然地希望像这种大数据驱动的人工智能会在各行各业得以实现。但是真实的情况却让人非常失望:除了有限的几个行业,更多领域存在着数据有限且质量较差的问题,不足以支撑人工智能技术的实现。更多的应用领域有的只是小数据,或者质量很差的数据。这种“人工智能到处可用”的错误的认知会导致很严重的商业后果。一个案例是IBM的沃森,一个非常有名的问答(QA)系统,即给一个问题 Q Q Q,它能很精准找到答案 A A A。沃森可以用一个高维的表示来表达这个问题 Q Q Q,这种表示可以比喻为成物理学里的光谱,棱镜把一束光分解成不同频率的光,形成光谱。有了这个光谱以后,可以和答案库里对应答案,概率相应高的就是可能的答案。整个流程应该说非常简单,但问题就是要有一个很健全的答案库。IBM在电视大赛上取得了成功之后,就把这个应用在一些听起来比较好的垂直领域一一医疗领域。然而,最近在一个美国的癌症治疗中心,发现这个应用非常不理想,从而导致了这个项目的失败。我们可以看一看在医疗领域,这些领域里的问题和答案来自哪里?比如输入有病症、基因序列、病理报告、各种各样的检测、各种论文,沃森的任务是利用这些数据来做诊断,帮助医生。但是,经过一段时间的实践发现,这些数据的来源远远不够,导致了系统效果很差。医疗领域需要非常多的标注数据,而医生的时间却非常宝贵,不能像其他的一些计算机视觉应用一样,可以由大众普通人来完成数据标注。所以在医疗这样的专业领域,这种标注的数据非常有限。有人估计,把医疗数据放在第三方公司标注,需要动用1万人用长达10年的时间才能收集到有效的数据。这就说明,在这些领域,即使动用很多人来做标注,数据也不够。这就是我们面临的现实。

同时数据源之间存在着难以打破的壁垒,一般情况下人工智能的所需要的数据会涉及多个领域,例如在基于人工智能的产品推荐服务中,产品销售方拥有产品的数据、用户购买商品的数据,但是没有用户购买能力和支付习惯的数据。在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。

另一方面,随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。每一次公众数据的泄露都会引起媒体和公众的极大关注,例如最近Facebook的数据泄露事件就引起了大范围的抗议行动。同时各国都在加强对数据安全和隐私的保护,欧盟2018年正式施行的法案《通用数据保护条例》(GeneralData ProtectionReguIation,GDPR)表明,对用户数据隐私和安全管理的日趋严格将是世界趋势。这给人工智能领域带来了前所未有的挑战,研究界和企业界目前的情况是收集数据的一方通常不是使用数据的一方,如A方收集数据,转移到B方清洗,再转移到C方建模,最后将模型卖给D方使用。这种数据在实体间转移,交换和交易的形式违反了GDPR,并可能遭到法案严厉的惩罚。同样,中国在2017年起实施的《中华人民共和国网络安全法》和《中华人民共和国民法总则》中也指出网络运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范围和数据保护义务。这些法规的建立在不同程度上对人工智能传统的数据处理模式提出了新的挑战。在这个问题上,人工智能的学界和企业界,目前并无较好的解决方案来应对这些挑战。

要解决大数据的困境,仅仅靠传统的方法已经出现瓶颈。两个公司简单的交换数据在很多法规包括GDPR是不允许的。用户是原始数据的拥有者,在用户没有批准的情况下,公司间不能交换数据。其次,数据建模使用的目的,在用户认可前不可以改变。所以,过去的许多数据交换的尝试,例如数据交易所的数据交换,也需要巨大的改变才能合规。同时,商业公司所拥有的数据往往有巨大的潜在价值。两个公司甚至公司间的部门都要考虑利益的交换,在这个前提下,往往这些部门不会把数据与其他部门做简单的聚合。这将导致即使在同一个公司内,数据也往往以孤岛形式出现。

如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能系统能够更加高效、准确地共同使用各自的数据,是当前人工智能发展的一个重要课题。联邦学习就是为了解决数据孤岛的问题,其提出一个满足隐私保护和数据安全的一个可行的解决方案:

  • 各方数据都保留在本地,不泄露隐私也不违反法规
  • 多个参与者联合数据建立虚拟的共有模型,并且共同获益的体系
  • 在联邦学习的体系下,各个参与者的身份和地位平等
  • 联邦学习的建模效果和将整个数据集放在一处建模的效果相同,或相差不大(在各个数据的用户对齐(User Alignment)或特征(Feature Alignment)对齐的条件下);
  • 迁移学习是在用户或特征不对齐的情况下,也可以在数据间通过交换加密参数达到知识迁移的效果

联邦学习使多个参与方在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,解决数据孤岛问题

参考文献:
[1] 杨强, 刘洋, 程勇, 康焱, 陈天健, 于涵. 联邦学习[M]. 电子工业出版社, 2020
[2] 微众银行, FedAI. 联邦学习白皮书V2.0. 腾讯研究院等, 2021

猜你喜欢

转载自blog.csdn.net/hy592070616/article/details/132675072