讲座笔记：中文纠错 - 代码天地

讲座笔记：中文纠错

其他 2018-07-18 05:09:23 阅读次数: 0

只要用户输入就可能会出错，比如用户搜索，文本编辑，语音识别。
错误主要分为四种：错别字，与上下文不符（eg 惊醒 or 警醒），知识图谱（eg xxx是先生 or xxx是女士），图文搭配（eg 做飞机 or 坐飞机）

工业上前两种的研究比较多，后两种难度很大，暂时没有成熟的应用方法。

方法：规则检测，序列标注，MT（SMT，NMT）

序列标注：EMB|POS，Parser，PMI

MT：建模，看做一个同语言翻译问题

工程上难点：架构，数据，模型

架构：需要可插拔式架构，即可以根据场景需求组合模型
数据：没有平行语料，人工标注成本大

模型：需要在线学习

工程实践：架构设计，候选召回，候选排序

架构设计：架构要可插拔

结构：错误点识别（基础解析），候选召回（倒排，基础检索），候选排序（ranking），多结果合并（多队列融合，特性展现）

候选召回：Phrase表，ED编辑距离

Phrase表：音近形似PT和用户反馈PT去噪声；单表，多表压缩

ED编辑距离：汉字注音；双删除，模糊音，形近字等；模型概率化编辑距离

候选排序：树模型；GBDT和LR在线学习，用负反馈迭代；word2vec对上下文先验知识进行建模；树模型和NN融合

猜你喜欢

转载自blog.csdn.net/thormas1996/article/details/80878853

讲座笔记：中文纠错

讲座笔记：中文分词基础介绍

讲座笔记

中文纠错实战

中文用户输入纠错综述

房产讲座笔记

敏捷讲座笔记

音频会议讲座笔记

讲座心得笔记

中文词语自动纠错_编辑距离

中文纠错Pycorrector是如何收获2000 Star的？

基于文法模型的中文纠错系统

纠错

中文文本纠错_论文Spelling Error Correction with Soft-Masked BERT(ACL_2020)学习笔记与模型复现

执行力讲座笔记

考研讲座笔记——张雪峰

创业大讲座笔记

创新创业讲座笔记

社交技能讲座笔记

中文语法纠错全国大赛获奖分享：基于多轮机制的中文语法纠错

课堂笔记&总结与遇错纠错篇

全国中文纠错大赛达观冠军方案分享：多模型结合的等长拼写纠错

在线中文文字纠错错别字检测云服务

中文文本纠错算法走到多远了？

中文纠错（Chinese Spelling Correct）最新技术方案总结

【深度学习】PyCorrector中文文本纠错实战

基于N-gram模型的中文文本纠错研究

从n-gram中文文本纠错，到依存树中文语法纠错以及同义词查找

《解密腾讯海量服务之道》讲座笔记

CEO谈人工智能——讲座笔记

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)