泰文分词 - 代码天地

泰文分词

其他 2021-01-25 06:37:29 阅读次数: 0

泰文的分词研究开始于1990年左右，经过近30年的研究，已经有好几种算法被应用于解决该问题。这些算法可以被分为两大类：

基于字典的：例如Chrome’s v8 BreakIterator 和 PyThaiNLP’s newmm，以及Cutkum，SWATH，上述开源项目中PyThaiNLP功能最全面。
基于机器学习的：基于标记数据，binary classification
2.1 基于CNN卷积神经网络的：DeepCut
2.2 基于RNN循环神经网络的：Sertis’ Bi-GRU

一般而言，基于字典的算法分词速度更快，但是应对未登录词的能力较弱；基于机器学习的方法往往质量更好，能够适应不同领域的词汇，但是速度相对较慢。例如，上述分词方法中DeepCut的召回率最好，但分词过细，PyThaiNLP’s newmm 方法的分词粒度较好，但召回率最低。

github链接：

猜你喜欢

转载自blog.csdn.net/singdo123/article/details/109599176

泰文分词

机器翻译系统中的泰文分词

被动语态动词的过去分词

非谓语动词篇-----过去分词

LHL'PTA 7-4英文单词排序

动词过去式和过去分词不规则变化

柬文分词的效果评估

英文单词、句子

反转英文单词

英文单词

python英文单词

英文单词排序

英文单词总结

编程英文单词

英文单词小记

Solr4.2.1中文分词

nutch-1.0中文分词

推荐中文分词：腾讯文智

solr6.5.1中文分词

java常用英文单词

英文单词个数的统计

在线英文单词翻译

英文单词的标准缩写

常见英文单词

软件测试英文单词

统计英文单词次数

编程常用英文单词

英文单词Advanced的意思

英文单词词频统计

飘英文单词统计

今日推荐

周排行

AIZU 2224 Save your cats(并查集)

HTTP响应头状态码详解

Python socket编程（2）

MaxCompute Studio使用心得系列7—作业对比

Supervisor安装使用

LeetCode 164. Maximum Gap

mysql面试题: 一张表里面有ID自增主键，当insert了17条记录之后，删除了第15,16,17条记录，再把mysql重启，再insert一条记录，这条记录的ID是18还是15

nutch1.2 DeleteDuplicates IndexMerger 详解

OC - @property与setter,getter方法

SpringBoot @Transactional的rollbackFor属性

每日归档

更多

2024-09-19(0)

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)