把黑人识别成“灵长类动物”，算法怎么也有“偏见”？

又搞错了！

这几天有一件事在国外网络上传得沸沸扬扬，某Facebook用户在观看一段新闻视频时，收到了系统的自动提示，“是否愿意继续观看关于灵长类动物的视频？”，但是这内容可与动物世界无关，是一段黑人男子与警察争执的视频。

毫无疑问，是Facebook的AI推送机制出错了，把视频内的黑人错误识别为了灵长类动物。事件曝出后，Facebook发言人迅速出面道歉，并表示要重新调查推荐功能，以“防止类似事件再此发生”。

图片来源自《纽约时报》

“再次”？事实上，这一类事件并不是头次发生，2015年，一个黑人软件开发者在推特上发文称，谷歌的照片服务把他和朋友的照片标记为了“大猩猩”，和此次事件如出一辙，又是图像识别出的错，处理结果也类似，谷歌尴尬道歉并表示软件需要调整。

而他们亡羊补牢的办法是——嗯......删除掉“黑猩猩”、“大猩猩”、“猴子”这些图片类目。究其原因，黑人低曝光度、扁平的面部特征，导致从技术上难以辨别他们。

图片来源自《连线》

数据集，从“根”里就有问题

但是问题只出现在技术层面吗？

尽管在我们看来，AI没有情感的束缚、利益的牵扯，足够“铁面无私”。但实际上，人类的意志依然深深地影响着人工智能。

AI需要通过输入的大量数据来实现学习，如果输入的数据内含有问题呢？

有一项研究利用ImageNet数据库训练图像生成算法，结果发现自动生成的图片中，女性多穿着低胸装或比基尼，而男性则穿着更正式，这种巧合明显与现实情况有所区别。回溯结果后发现问题出在数据库，因为被投喂的数据中，原始图像数据就是同样模式，男性多以职业形象现身，而女性则穿着暴露。

所以，算法的“偏见”其实来自现实。更糟糕的是，随着AI与社会的结合度加深，这份“偏见”会再次传导回现实生活。

英国达姆勒警局与警局合作开发的HART系统，可以预测嫌疑犯再次犯案风险，来决定后续处置结果，是拘留还是保释而HART决策依据来自于2008～2013年的历史犯罪数据。魔幻的是，在这套系统评定下，黑人被断定犯案的概率是白人的两倍，毫无疑问，在司法实践里这会造成多大的不公。

图片来源自网络

“黑箱”问题难止

数据集的倾向性已经是个危险，而“技术黑箱”是另一个严峻问题。目前主流的人工智能开发路径主要为机器学习和神经网络。而在经过大量训练后，即使是创造它的工程师也很难了解输出结果的内在逻辑。就像一个黑色的箱子，你只能看见放进去的内容和出来的结果，无法了解中间的复杂过程。

如果人工智能保持以“黑箱”的状态深度参与社会生活，概率上会出现危险又隐蔽的伤害，在涉及国计民生的领域，那后果更加难以预计。在“黑箱”面前，发现谬误是困难的，解决它更是难上加难。

图片来源自网络

为了更美好的世界

从数据集的“不公”到“黑箱”的混沌，算法的偏见就像是一面镜子，反映了这个社会存在的阴暗角落，看似公正的裁决却在隐秘地彰显甚至扩大不公。

万幸的是，近年来，算法伦理问题得到了大量关注，相关举措也层出不穷。如欧盟在2019年颁布的《可信伦理AI指南》、《算法责任与透明治理框架》，同年腾讯发布的“科技向善”使命愿景，都在探讨如何避免算法偏见，推动研发更合理公开的AI机制。

图片来源自网络

技术的应用，归根结底还是要看人，现阶段的问题正是摆在人工智能应用进程的一块巨石，虽然艰难，但一旦迈过就有天地宽广。社会的共同关注，政商学各界的一齐努力，都在推动AI技术向更宜人发展。始终坚定科技向善的信念，我们也必将创造更加美好可持续的世界。