LIMUML04数据标注(note)

数据标注的思维导图

在这里插入图片描述

目标:是提升模型还是提升标注,本小节讨论提升标准,提升模型后面介绍。
如果有足够标注:使用半监督学习
没有足够标注,有足够预算:请人标注
没有足够预算:使用弱监督学习
问题: 什么是弱监督学习器

半监督学习

Semi-Supervised Learning(SSL)
有标注数据和未标注数据要满足以下假设:
假设1: 连续性假设:如果两个样本特征相似,则这两个样本很有可能有相同的标号
假设2:聚类的假设:数据内在具有比较好的聚类效果,类内的数据可能有相同的标号
假设3:流形假设:虽然收集到的数据维度高,但是数据本质上可能是低维的,数据复杂度远比看到的低,可以通过降维实现。

Self-training (自学习)

一种最基本的半监督学习

  1. 进行训练
  2. 对未标号的数据进行预测,得到label (伪标号)
  3. 将标号数据与伪标号数据进行融合
  4. 重复

ps: 只将概率很高的确信的结果留下加入新一轮训练中,不确信的留在后面。
在这里插入图片描述

众包

在这里插入图片描述

其他技术

如MIT place 365
是或不是
在这里插入图片描述

主动学习

与半监督学习相似,已有一些标号,还有一些没有。 主动是指人的主动
选择最有趣的样本去打标。

  • 不确定采样 ,将最不确定的样本进行人工采样
  • 与半监督学习类似,使用贵的模型,训练多种模型,实行投票制,确认类别。
    在这里插入图片描述

主动学习 与 自学习

一开始有部分已标好的数据,进行训练得到一个模型,对其样本进行预测,对最置信的样本放进标号样本里,如果不确认,将样本反馈给人工进行标注。不断重复。
在这里插入图片描述

质量控制

发给多个标注工
在这里插入图片描述

若监督学习

  • 半自动生成标号。在这里插入图片描述
  • 数据编程。用启发式算法去标号。
  •   		关键词搜索 模式匹配 第三方模型
    
  • 总结一些规律,辅助打标

比如判断YouTube 的评论是正常的还是机器或者广告。通过规律,如果 check out in x .lower. 如果情绪值大于0.9等。

总结

1 自训练
2 众包
数据编程 如启发式编程

猜你喜欢

转载自blog.csdn.net/weixin_39107270/article/details/130712945