机器翻译系统中的泰文分词

  1. 泰文分词的目的:由于泰文的书写是连在一起的,没有明显的分隔符,只使用空格来起到类似句号或逗号的作用。

  2. 基于字典的分词:缺点是无法收录命名实体词、数字或新词。
    词典中收录的词不一定是最小的有意义的单位,可以是复合词(แม่น้ำ ดูแล ช่างทอง)或者短语。

2.1 泰文正字法: 虽然和英文相比,泰文词语之间没有分割符,没有形态标记和时态变化,无法根据词形判断词性,也没有大写字母和小写字母的区分。
但是泰文也有一些独特的标记,例如空格表示句子或词的结束。
第一组字符: Non-spacing Character 非空格字符,包含元音符号、音调符号和特殊符号,当和辅音结合之后,不会使继续要书写的位置产生向右移动,这一组的字符无法独立存在,包括在这里插入图片描述
第二组字符: 必须有辅音符号在后的字符,包括
在这里插入图片描述
第三组字符:必须有辅音字符在前的字符,包括
在这里插入图片描述
第四组字符:字符顶部的不发音符号,由于其出现在词尾不发音的字符顶部,因此不会是词的开头。
第五组字符:剩余的字符。

总结,由于泰文字符存储在X-TIS系统里(2bite码),作为混合码的一部分,第一组字符就不用考虑。

同时,第二组、第三组和第四组的字符是很好的标记。

猜你喜欢

转载自blog.csdn.net/singdo123/article/details/109602856