机器翻译的数据预处理

主要分为三大块：

1.数据筛选：去除那些训练集中不对齐、质量差的句对。相关的技巧有很多：

去重：重复的数据会使训练过程有偏。可以简单地去除完全相同的句对，也可以计算每两个句子之间的局部哈希值，把相似度小于某个阈值的句对都去除；
去空行：空行不能提供任何信息，而且可能会引起BUG；
特殊符号处理：这个就需要通过肉眼来观察，然后确定一个特殊符号列表了。常见的，包含控制字符、转义字符、URL符号等的都需要处理，至于处理方式是删除符号、还是删除句对，就得人为确定了；

上面几步不需要tokenize就可以做，下面几步要在tokenize之后再进行。

2.tokenization：对输入的文本进行分词、大小写转换等操作。注意，因为翻译是生成式任务，所以很多操作需要保证是可恢复的，也就是说，切分完了之后，还得有能力还原，最后送给用户的是未经过切分的语句。

全半角转换：有些时候输入文本中存在全角的符号、数字等，这个都需要统一转换为半角；
标点正则化：比如英文中不应当出现中文的标点符号，所以如果出现了，就需要进行转换；
编码正则化：在Unicode中，某些字符能够用多个合法的编码表示，这个时候就需要进行编码正则化。python的unicodedata模块里实现了这个功能。
tokenize：对于英文来说，tokenize主要是将标点和句子切分开；对于中文/日语来说，除了将标点和句子分开，更重要的是将连续的字符切分开。这一步非常重要，而且要记录好切分的规则，以便于生成结果后进行还原。
truecase：即将每个单词的大小写形式转换为它原本的写法。这个并非简单地将全部大写转换为小写（比如命名实体类似UN, USA就不会做处理），而是将那些句首的大写字母转换为小写（比如将My转换为my）。不过个人认为，基于子词的机器翻译，本身是有能力处理大小写问题的，所以引入truecase可能还会有额外的误差。

3.子词切分：常见的算法大概就是wordpiece和BPE两种，有很多开源工具可以使用，这里不再赘述。

接下来就是训练和解码流程了。等到解码得到结果之后，还需要进行三步操作：