由于本人在处理thchs30语料时,在语料对齐的时候缺少一句话,so本人经过在师兄的帮忙下终于将kaldi中thchs30中所有的语料进行了对齐,在此感谢师兄,关于处理确实数据主要采用下面的两种方法:
(1)comm命令法:
comm -3 file1 file2
采用此方法有一个问题就是,如果两个文件的排序不一致将会报错,采用此方法进行文件的比较;
(2)grep命令法:
grep -vwf file1 file2
该命令主要做的是统计file1中没有,file2中有的行。
附加:
在进行文件对比的时候,以thchs30为例,我们需要打印说话人的id以及句子的id。采用shell编程主要有两种方法:
(1) grep -E ^[ABCD] filename
(2) awk '{print $n}'