"众包中的统计推断与激励机制" 主题报告速记与评述(三)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zb14zb14/article/details/76222623

笔者按 :机器学习正在走向基于“语义”的可解释模型的新时代。但在很多场合,例如“语义”驱动的监督学习器在能够达到更强泛化能力前,也还需要数据驱动型算法,而后者的“养料”是标注的大数据,周登勇博士的这个报告介绍了大数据标注的关键技术。
其它评述链接在此。

概要

报告分两个主要部分,并主要围绕第二部分展开讨论:
1. 为什么需要众包?
2. 提升众包质量的策略:提出了基于众包的标记质量和众包动机两个问题,并分别给出并介绍了统计推断机制和激励机制设计两个解决方案。

1. 为什么需要众包(Crowd-Sourcing)?

其实这个问题不如反过来问,比如为什么不用半监督学习呢?为什么不用杉山将的弱监督学习呢?为什么不用Dr. Fei-Sha 多任务学习(multi-task learning)、领域适应(domain adaptation)和零样本学习(zero-shot learning)解决小数据问题呢?

周博士的回答是:基于众包的标注可以做到既省时间又省钱,而且引用了ML领域的经典Remark:“更多的数据可以打败聪明的算法”,并举了一个10倍数据量+SVM性能超过1倍数据量+深度学习的例子。

个人注解:周博士的举例说明数据可以打败算法是正确的,但是需要认真考察上述说法所考虑的语境(context)。用一句话说:基于大规模标注数据集的监督学习不会被淘汰,但需要新的学习模式予以搭配,才能从根本上突破现有人工智能的范式和水平。

具体展开来说
 1. 标注数据集是人类智能与监督型机器智能之间的接口:数据驱动的算法尤其是监督学习的深度学习算法,需要大规模的标注数据,在能够处理好过拟合的前提下,数据集当然是数量越大、标注质量越高越好。
 2. 标注数据集不是机器智能持续突破的解药:在Dr.Fei博士的报告中我们已经了解到,带标签的大数据不是万能的,在实际情况中经常会遇到,缺少语义的标签没法解决小数据学习问题。
  3. 突破监督学习才是智能突破的方向:类比教育学领域的学习理论,监督学习类比为示教学习,而人类智能突破更重要的是自主学习和终生学习,而后两者均不依赖于完整的数据标注(示教)。

请忽略我的评述,让我们回到大规模数据集支撑的数据驱动监督算法的“黄金时代”。下面进入报告主要部分:如何提升基于众包标注数据集的质量。

2. 提升基于众包标注数据集质量的策略

2.1 问题:

标注者水平不足(Lack of Expertise)
+ 标注者动机不足(Lack of Incentive)
–> 含噪的标注数据(Noised Labeled Data)
–> 可能导致低质量(Low Quality)

因此,需要提升标注水平和动机。前者的解决方案是采用合适的统计推断方法,后者的解决方案是设计合适的激励机制。

2.2 众包数据的统计推断

如果每个数据只由一个非专业人士标注,那么可以提升标注水平的方式就很有限了。报告在基于低成本标注的前提下,允许多个非专业人士对同一个数据进行标注,从而产生冗余性

针对同一个数据的多个标注,可以考虑投票机制:可以认为每个标注的质量是平等的,但是很显然,这只是个被“淘汰”的benchmark,除非没有任何先验知识,没必要采用这种方式。

扫描二维码关注公众号,回复: 3586332 查看本文章

于是周博士介绍了他们的工作[NIPS 2012],算法更具体的介绍参考CCAI公众号介绍,为了避免重复,本文只做简要回顾:
  1. 基于极小极大熵原理(minimax conditional entropy method)建模优化问题,里边的极大是“用尽量无偏见的平坦的分布去拟合观测数据”,外边的极小是“最小化标注者所引入的不确定性”。
MiniMaxEntropy-1
  2. 迭代优化:基于拉格朗日对偶法,一种最常用的凸优化问题解法,其中的拉格朗日算子分别代表了标注者能力(worker ability)和标注难度(item difficulty)。

个人注解
 1. 对算法的具体注解:这种拉格朗日分解法不仅能够解决上述优化问题,还可以很方便地实现分布式的迭代优化算法,基于通信媒介和局部信息交换实现分布式标注。因此,报告中的方法可以在分布式标注(人)、多学习器系统(机)和人-机混合标注系统中推广使用,我的小组在做类似的工作。
 2. 对宏观设计的注解:从信息论与编码的角度理解,每次标注可以理解为对真实信息的一次编码(encoding)。尽管每次观测或编码都是有噪的,但只要有先验知识,就可以通过合适方法从每次标注中获取一定的有用信息量,设计比“平均投票”更好的信息融合机制,从而获得比单次解码(decoding)更好的性能。
  3. 最小最大化熵[NIPS 2012]不是的唯一选择。面向不同场景,还可以设计对应的算法解决新问题。当然,最小最大化熵作为普遍适用的方法也可以解决很多别的问题。比如,我们也在做多时间切片的longitudinal数据集中常见的attrition问题。

2.3 众包的激励机制设计

首先明确,众包的激励机制不是纯粹的机器学习问题了,而是商业问题,或者说博弈问题。众包的标注需求方可以设计奖惩规则(Rules),从而影响标注提供方的趋利行为(behaviour),而这个博弈问题存在一个对抗:
  1. 需求方希望尽量“少付出资金投入,多得到优质标注”
  2. 提供方希望尽量“少付出标注劳力,多得到资金回报”

为了解决上述问题,报告提出了两个朴素准则:
  1. “真实”(truthful)准则:引导标注提供方,只在有足够的自信前提下才提供标注。
  2. “没有免费午餐”(no-free-lunch)准则:如果标注提供方所作的标注都是错的,就不给任何回报。

并且证明了“Double-or-Nothing”规则是唯一满足上述两个朴素准则的奖惩规则 ,具体参见[NIPS 2015]。
double-or-nothing

个人注解
既然是唯一满足两个基本朴素原则的奖惩规则,那么就皆大欢喜了?个人认为并不是,回顾报告所考虑场景所作的假设:而标注需求者是唯一的,标注提供者是足够的,并且标注提供者之间没有沟通。那么,如果考虑两个上述假设不成立的场景:
 1. 标注提供者是相对稀有的(比如专业性较高的标注任务),而且标注需求者不是唯一的,因此存在竞争关系。
 2. 标注提供者之间可以沟通,形成某种松散的或紧密的组织。

问题变得很open了。因此,还有许多值得一做的有趣工作。

主要参考文献

[NIPS 2012] Learning from the wisdom of crowds by minimax entropy
[NIPS 2015] Double or Nothing: Multiplicative Incentive Mechanisms for Crowdsourcing

猜你喜欢

转载自blog.csdn.net/zb14zb14/article/details/76222623