- 只要用户输入就可能会出错,比如用户搜索,文本编辑,语音识别。
- 错误主要分为四种:错别字,与上下文不符(eg 惊醒 or 警醒),知识图谱(eg xxx是先生 or xxx是女士),图文搭配(eg 做飞机 or 坐飞机)
工业上前两种的研究比较多,后两种难度很大,暂时没有成熟的应用方法。
- 方法:规则检测,序列标注,MT(SMT,NMT)
MT:建模,看做一个同语言翻译问题
- 工程上难点:架构,数据,模型
数据:没有平行语料,人工标注成本大
模型:需要在线学习
- 工程实践:架构设计,候选召回,候选排序
架构设计:架构要可插拔
结构:错误点识别(基础解析),候选召回(倒排,基础检索),候选排序(ranking),多结果合并(多队列融合,特性展现)
候选召回:Phrase表,ED编辑距离
Phrase表:音近形似PT和用户反馈PT去噪声;单表,多表压缩
ED编辑距离:汉字注音;双删除,模糊音,形近字等;模型概率化编辑距离
候选排序:树模型;GBDT和LR在线学习,用负反馈迭代;word2vec对上下文先验知识进行建模;树模型和NN融合