机器翻译的数据预处理

主要分为三大块:

1.数据筛选:去除那些训练集中不对齐、质量差的句对。相关的技巧有很多:

  1. 去重:重复的数据会使训练过程有偏。可以简单地去除完全相同的句对,也可以计算每两个句子之间的局部哈希值,把相似度小于某个阈值的句对都去除;
  2. 去空行:空行不能提供任何信息,而且可能会引起BUG;
  3. 特殊符号处理:这个就需要通过肉眼来观察,然后确定一个特殊符号列表了。常见的,包含控制字符、转义字符、URL符号等的都需要处理,至于处理方式是删除符号、还是删除句对,就得人为确定了;

  上面几步不需要tokenize就可以做,下面几步要在tokenize之后再进行。

  1. 长度筛选:长度太短的句对,对训练没有帮助;长度太长的句对,在送入模型后也会进行截断,所以也没有必要保留;
  2. 长度比筛选:长度比偏离3倍标准差的句对,基本上都是有问题的句对,可以删去;
  3. 对齐筛选:计算对齐得分,前向和后向相加,得分太低的句对都可以删除;
  4. 语言模型筛选:计算语言模型得分,源端和目标端相加,得分太低的句对都可以删除;

2.tokenization:对输入的文本进行分词、大小写转换等操作。注意,因为翻译是生成式任务,所以很多操作需要保证是可恢复的,也就是说,切分完了之后,还得有能力还原,最后送给用户的是未经过切分的语句。

  1. 全半角转换:有些时候输入文本中存在全角的符号、数字等,这个都需要统一转换为半角;
  2. 标点正则化:比如英文中不应当出现中文的标点符号,所以如果出现了,就需要进行转换;
  3. 编码正则化:在Unicode中,某些字符能够用多个合法的编码表示,这个时候就需要进行编码正则化。python的unicodedata模块里实现了这个功能。
  4. tokenize:对于英文来说,tokenize主要是将标点和句子切分开;对于中文/日语来说,除了将标点和句子分开,更重要的是将连续的字符切分开。这一步非常重要,而且要记录好切分的规则,以便于生成结果后进行还原。
  5. truecase:即将每个单词的大小写形式转换为它原本的写法。这个并非简单地将全部大写转换为小写(比如命名实体类似UN, USA就不会做处理),而是将那些句首的大写字母转换为小写(比如将My转换为my)。不过个人认为,基于子词的机器翻译,本身是有能力处理大小写问题的,所以引入truecase可能还会有额外的误差。

3.子词切分:常见的算法大概就是wordpiece和BPE两种,有很多开源工具可以使用,这里不再赘述。

接下来就是训练和解码流程了。等到解码得到结果之后,还需要进行三步操作:

  1. 去子词。一般的子词切分都是固定的符号,一条linux命名就可以去除了;
  2. detruecase。如果你做了truecase,记得把模型留着,然后这里要进行detruecase;
  3. detokenize。记得把tokenize的规则记录好,然后这里要进行detokenize;

猜你喜欢

转载自blog.csdn.net/bonjourdeutsch/article/details/107406581