GIZA++的使用

安装很简单,直接在根目录make就可以。

建一个tool目录,将GIZA++-v2内的plain2snt.out,snt2cooc.out,GIZA++复制到tool中,再将mkcls-v2下的mkcls也复制进去,同时把chinese_segment.txt和english_segment.txt也放进去。

接下来,执行下面的指令来完成将普通文本转化为 GIZA++ 格式
./plain2snt.out chinese_segment.txt english_segment.txt

接下来是获得共现文件
./snt2cooc.out chinese_segment.vcb english_segment.vcb chinese_segment_english_segment.snt > chn_eng.cooc
./snt2cooc.out english_segment.vcb chinese_segment.vcb english_segment_chinese_segment.snt > eng_chn.cooc

接下来构建GIZA++所需的mkcls文件
./mkcls -pchinese_segment.txt -Vchinese.vcb.classes opt(注意-p和-V和后面的文件名是连起来的)
./mkcls -penglish_segment.txt -Venglish.vcb.classes opt(同上)

接下来运行GIZA++来实现对齐操作
./GIZA++ -S chinese_segment.vcb –T english_segment.vcb –C chinese_segment_english_segment.snt -CoocurrenceFile chn_eng.cooc  -O c2e
./GIZA++ -S english_segment.vcb –T chinese_segment.vcb –C english_segment_chinese_segment.snt -CoocurrenceFile eng_chn.cooc  -O e2c

猜你喜欢

转载自blog.csdn.net/bonjourdeutsch/article/details/97131124