"众包中的统计推断与激励机制" 主题报告速记与评述（三）

笔者按 ：机器学习正在走向基于“语义”的可解释模型的新时代。但在很多场合，例如“语义”驱动的监督学习器在能够达到更强泛化能力前，也还需要数据驱动型算法，而后者的“养料”是标注的大数据，周登勇博士的这个报告介绍了大数据标注的关键技术。
其它评述链接在此。

概要

报告分两个主要部分，并主要围绕第二部分展开讨论：
1. 为什么需要众包？
2. 提升众包质量的策略：提出了基于众包的标记质量和众包动机两个问题，并分别给出并介绍了统计推断机制和激励机制设计两个解决方案。

1. 为什么需要众包(Crowd-Sourcing)？

其实这个问题不如反过来问，比如为什么不用半监督学习呢？为什么不用杉山将的弱监督学习呢？为什么不用Dr. Fei-Sha 多任务学习(multi-task learning)、领域适应(domain adaptation)和零样本学习(zero-shot learning)解决小数据问题呢？

周博士的回答是：基于众包的标注可以做到既省时间又省钱，而且引用了ML领域的经典Remark：“更多的数据可以打败聪明的算法”，并举了一个10倍数据量+SVM性能超过1倍数据量+深度学习的例子。

个人注解：周博士的举例说明数据可以打败算法是正确的，但是需要认真考察上述说法所考虑的语境(context)。用一句话说：基于大规模标注数据集的监督学习不会被淘汰，但需要新的学习模式予以搭配，才能从根本上突破现有人工智能的范式和水平。

具体展开来说：
1. 标注数据集是人类智能与监督型机器智能之间的接口：数据驱动的算法尤其是监督学习的深度学习算法，需要大规模的标注数据，在能够处理好过拟合的前提下，数据集当然是数量越大、标注质量越高越好。
2. 标注数据集不是机器智能持续突破的解药：在Dr.Fei博士的报告中我们已经了解到，带标签的大数据不是万能的，在实际情况中经常会遇到，缺少语义的标签没法解决小数据学习问题。
3. 突破监督学习才是智能突破的方向：类比教育学领域的学习理论，监督学习类比为示教学习，而人类智能突破更重要的是自主学习和终生学习，而后两者均不依赖于完整的数据标注(示教)。

请忽略我的评述，让我们回到大规模数据集支撑的数据驱动监督算法的“黄金时代”。下面进入报告主要部分：如何提升基于众包标注数据集的质量。

2. 提升基于众包标注数据集质量的策略

2.1 问题：

标注者水平不足(Lack of Expertise)
+ 标注者动机不足(Lack of Incentive)
–> 含噪的标注数据(Noised Labeled Data)
–> 可能导致低质量(Low Quality)

因此，需要提升标注水平和动机。前者的解决方案是采用合适的统计推断方法，后者的解决方案是设计合适的激励机制。

2.2 众包数据的统计推断

如果每个数据只由一个非专业人士标注，那么可以提升标注水平的方式就很有限了。报告在基于低成本标注的前提下，允许多个非专业人士对同一个数据进行标注，从而产生冗余性。

针对同一个数据的多个标注，可以考虑投票机制：可以认为每个标注的质量是平等的，但是很显然，这只是个被“淘汰”的benchmark，除非没有任何先验知识，没必要采用这种方式。

扫描二维码关注公众号，回复： 3586332 查看本文章

于是周博士介绍了他们的工作[NIPS 2012]，算法更具体的介绍参考CCAI公众号介绍，为了避免重复，本文只做简要回顾：
1. 基于极小极大熵原理(minimax conditional entropy method)建模优化问题，里边的极大是“用尽量无偏见的平坦的分布去拟合观测数据”，外边的极小是“最小化标注者所引入的不确定性”。
MiniMaxEntropy-1
2. 迭代优化：基于拉格朗日对偶法，一种最常用的凸优化问题解法，其中的拉格朗日算子分别代表了标注者能力(worker ability)和标注难度(item difficulty)。

个人注解
1. 对算法的具体注解：这种拉格朗日分解法不仅能够解决上述优化问题，还可以很方便地实现分布式的迭代优化算法，基于通信媒介和局部信息交换实现分布式标注。因此，报告中的方法可以在分布式标注(人)、多学习器系统(机)和人-机混合标注系统中推广使用，我的小组在做类似的工作。
2. 对宏观设计的注解：从信息论与编码的角度理解，每次标注可以理解为对真实信息的一次编码(encoding)。尽管每次观测或编码都是有噪的，但只要有先验知识，就可以通过合适方法从每次标注中获取一定的有用信息量，设计比“平均投票”更好的信息融合机制，从而获得比单次解码(decoding)更好的性能。
3. 最小最大化熵[NIPS 2012]不是的唯一选择。面向不同场景，还可以设计对应的算法解决新问题。当然，最小最大化熵作为普遍适用的方法也可以解决很多别的问题。比如，我们也在做多时间切片的longitudinal数据集中常见的attrition问题。

2.3 众包的激励机制设计

首先明确，众包的激励机制不是纯粹的机器学习问题了，而是商业问题，或者说博弈问题。众包的标注需求方可以设计奖惩规则(Rules)，从而影响标注提供方的趋利行为(behaviour)，而这个博弈问题存在一个对抗：
1. 需求方希望尽量“少付出资金投入，多得到优质标注”
2. 提供方希望尽量“少付出标注劳力，多得到资金回报”

为了解决上述问题，报告提出了两个朴素准则：
1. “真实”（truthful）准则：引导标注提供方，只在有足够的自信前提下才提供标注。
2. “没有免费午餐”（no-free-lunch）准则：如果标注提供方所作的标注都是错的，就不给任何回报。

并且证明了“Double-or-Nothing”规则是唯一满足上述两个朴素准则的奖惩规则 ，具体参见[NIPS 2015]。

个人注解
既然是唯一满足两个基本朴素原则的奖惩规则，那么就皆大欢喜了？个人认为并不是，回顾报告所考虑场景所作的假设：而标注需求者是唯一的，标注提供者是足够的，并且标注提供者之间没有沟通。那么，如果考虑两个上述假设不成立的场景：
1. 标注提供者是相对稀有的(比如专业性较高的标注任务)，而且标注需求者不是唯一的，因此存在竞争关系。
2. 标注提供者之间可以沟通，形成某种松散的或紧密的组织。

问题变得很open了。因此，还有许多值得一做的有趣工作。

主要参考文献

[NIPS 2012] Learning from the wisdom of crowds by minimax entropy
[NIPS 2015] Double or Nothing: Multiplicative Incentive Mechanisms for Crowdsourcing