文件对比-linux 基本操作(基于thchs30)

  由于本人在处理thchs30语料时,在语料对齐的时候缺少一句话,so本人经过在师兄的帮忙下终于将kaldi中thchs30中所有的语料进行了对齐,在此感谢师兄,关于处理确实数据主要采用下面的两种方法:

  (1)comm命令法:

      comm -3 file1 file2

      采用此方法有一个问题就是,如果两个文件的排序不一致将会报错,采用此方法进行文件的比较;

  (2)grep命令法:

       grep -vwf file1 file2

       该命令主要做的是统计file1中没有,file2中有的行。


  附加:

       在进行文件对比的时候,以thchs30为例,我们需要打印说话人的id以及句子的id。采用shell编程主要有两种方法:

      (1) grep -E ^[ABCD] filename

      (2) awk '{print $n}'

猜你喜欢

转载自blog.csdn.net/xwei1226/article/details/80634951