前言
随着短视频的兴起,每天有大量的短视频被生产并上传到各大视频平台,面对海量的短视频,如何提升这些短视频的智能分发效率是各大短视频平台面临的重要课题。
视频的标签技术是内容理解的一种重要手段,已经在业界被广泛应用于推荐系统的各个环节:用户画像、召回、排序等。标签一般分为“类型标签”和“内容标签”两大类别,类型标签是对短视频内容进行层次分类,分类体系是预先定义好的;而内容标签是根据不同的短视频内容生成的不同的关键词或短语,用来表征短视频的内容,它是一个开放的集合。本文将详细介绍爱奇艺在短视频场景中内容标签技术。
内容标签技术难点
短视频一般由短视频文本标题、封面图、视频内容等元素组成,要想较准确的抽取出内容标签,需要综合利用这些多模态信息。如何将这些不同模态的信息融合起来应用于模型中并取得较好的结果是需要较多的探索;又因为内容标签是一个开放集合,如何判断哪些词语可以作为内容标签也是比较困难的。在实际人工标注过程中发现,两个人同时标注同一批数据,标注的完全一致率只有22.1%,以下是一些标注例子:
最后,大量的内容标签并没有在文本标题中出现,我们称这种标签为“抽象标签”,如短视频标题:“母亲染病雪上加霜,女儿自强渴望工作”,其内容标签为:“励志”、“正能量”。根据我们的统计,有40%以上的标签为抽象标签。
内容标签算法迭代之路
爱奇艺的内容标签模型的演变经过了文本模型、融合封面图模型、融合BERT向量模型和进一步融合视频帧模型四个阶段之后,形成了最终的解决方案。下面分别对这