案例来源:@阿里巴巴机器智能
案例地址:https://mp.weixin.qq.com/s/m31WKGLIe6P2bA02b8uV8Q;https://arxiv.org/pdf/1801.01725.pdf
0. 背景:阿里巴巴平台上的商户为了提高用户搜索中的召回率,会在标题堆砌很多关键词。在手机淘宝的搜索结果中,需要对长标题进行压缩,提高C端用户的体验,提高点击率
1. 目标:对搜索结果长标题进行压缩
2. 已有方法:
1)抽取式摘要
a. 贪心方法
b. 基于图的方法
c. 基于约束的优化方法
2)生成式摘要
3. 本文提出的多任务学习方法
1)两个Sequence to Sequence任务:
a. 主任务:商品标题压缩,采用Pointer Network模型,通过attention机制选取原始标题的关键字输出。训练数据是女装类目下的商品原始标题和手淘推荐频道达人改写的商品短标题
b. 辅助任务:搜索query生成,由商品原始标题生成搜索query,采用带attention机制的encoder-decoder模型。训练数据是女装类目下的商品原始标题和对应的引导成交的用户搜索query
2)两个任务共享编码网络参数,并对两者的对原始标题的注意力分布进行联合优化,使得两个任务对于原始标题中重要信息的关注尽可能一致
3)学习框架
4. 效果评估:
1)在真实线上环境中进行了AB测试,相比线上原来的ILP压缩方法,本文提出的多任务学习方法在CTR和CVR两个指标上分别有2.58%和1.32%的提升
2)示例:本文方法Agree-MTL