数据准备（快速构建ASR系统）

数据准备在Kaldi官方文档中已经有了较为全面、详尽的说明。
然而在自己拿到语音数据后，要快速构建一个简单的ASR语音识别系统，对于新手来说，思路可能并不
清晰。
下面，以自己的操作过程为例，进行简单的说明。

1. 音频文件

　　首先需要准备的是音频文件，划分为3部分，分别放在train，dev，test目录下的wav文件夹中。train中的数据作训练用，dev中的作模型调校，test中的作测试。

音频文件建议为采样率16k，位深16bit，单声道的wav文件。

2. 音频相关数据

其他必须提供的音频相关的文件有text，wav.scp，utt2spk。spk2utt可由utt2spk转换得到。

text

text即音频的转译文本，包含音频中每句话对应的文本信息，格式为：

<utt-id> <text-transcription>

其中，utt-id为语句的id。

wav.scp

wav.scp将音频文件和对应转译文本关联起来，格式为

<utt-id> <path-of-audio>

utt2spk

utt2spk将描述了语句的说话人信息，格式为

<utt-id> <speaker-id>

spk2utt

说话人对应的所有语句，可由以下命令得到

utils/utt2spk_to_spk2utt.pl utt2spk > spk2utt

3. 语言数据

首先需要提供的是音素集，发音词典和语言模型。

音素集，发音词典
根据之前的文章语音识别之发音字典，确定音素集phones.txt，并生成发音词典lexicon.txt。
语言模型
根据之前的文章构建语言模型（二）：模型训练与评估，生成apra格式的LM。

然后，需要生成silence_phones.txt, optional_silence.txt, nonsilence_phones.txt

silence_phones.txt

静音音素。写入sil
optional_silence.txt

可选静音音素。写入sil
nonsilence_phones.txt
非静音音素。音素集phones.txt除去silence_phones.txt中的所有音素，不能包含<eps>.

还需要设置oov词，训练过程中，词汇表外的所有词都会被映射成oov。在lexicon中需要加入该oov词及其发音

<SPOKEN_NOISE> sil

4. 训练模型，构建系统

　　需要准备的数据基本完成，接下来可以在kaldi中调用接口，训练模型(train_mono.sh)，生成解码图(mkgraph.sh)，并利用测试集数据进行测试(decode.sh)。

5. 音频目录结构，源码

音频相关数据的目录结构，及部分文件如下图所示
这里写图片描述

源码如下：

#run.sh
#!/bin/bash

. ./cmd.sh ## You'll want to change cmd.sh to something that will work on your system.
           ## This relates to the queue.
. ./path.sh

H=`pwd`  #exp home
n=8      #parallel jobs

#corpus and trans directory
speech_data=/mnt/Corpus/Speech/HUB4CHN

#data preparation 
#generate text, wav.scp, utt2pk, spk2utt
local/data_prep.sh $H $speech_data || exit 1;

#produce MFCC features 
rm -rf data/mfcc && mkdir -p data/mfcc &&  cp -R data/{train,dev,test} data/mfcc || exit 1;
for x in train dev test; do
   #make  mfcc 
   steps/make_mfcc.sh --nj $n --cmd "$train_cmd" data/mfcc/$x exp/make_mfcc/$x mfcc/$x || exit 1;
   #compute cmvn
   steps/compute_cmvn_stats.sh data/mfcc/$x exp/mfcc_cmvn/$x mfcc/$x || exit 1;
done

#prepare language stuff
#build a large lexicon that invovles words in both the training and decoding. 
(
  echo "make word graph ..."
  cd $H; mkdir -p data/{dict,lang,graph} && \
  echo sil > data/dict/silence_phones.txt
  echo sil > data/dict/optional_silence.txt
  grep -v -F -f data/dict/silence_phones.txt phones.txt | grep -v '<eps>' | cut -f 1 > data/dict/nonsilence_phones.txt
  echo -e "<SPOKEN_NOISE>\tsil" | cat - $H/lexicon.txt | sort -u > data/dict/lexicon.txt || exit 1;
  utils/prepare_lang.sh --position_dependent_phones false data/dict "<SPOKEN_NOISE>" data/local/lang data/lang || exit 1;
  gzip -c $H/my.lm > data/graph/word.3gram.lm.gz || exit 1;
  utils/format_lm.sh data/lang data/graph/word.3gram.lm.gz $H/lexicon.txt data/graph/lang || exit 1;
)

#monophone
steps/train_mono.sh --boost-silence 1.25 --nj $n --cmd "$train_cmd" data/mfcc/train data/lang exp/mono || exit 1; 

#test monophone model  (mkgraph & decode)
local/my_decode.sh --mono true --nj $n "steps/decode.sh" exp/mono data/mfcc &

#local/data_prep.sh(仅列出关键部分)

dir=$1
corpus_dir=$2

cd $dir

echo "creating data/{train,dev,test}"
mkdir -p data/{train,dev,test}

#create wav.scp, utt2spk.scp, spk2utt.scp, text
(
for x in train dev test; do
  echo "cleaning data/$x"
  cd $dir/data/$x
  rm -rf wav.scp utt2spk spk2utt word.txt phone.txt text
  echo "preparing scps and text in data/$x"
  cp $corpus_dir/$x/wav.scp wav.scp
  cp $corpus_dir/$x/utt2spk utt2spk
  cp $corpus_dir/$x/text text
  cp text word.txt

  sort wav.scp -o wav.scp
  sort utt2spk -o utt2spk
  sort text -o text

done
) || exit 1

utils/utt2spk_to_spk2utt.pl data/train/utt2spk > data/train/spk2utt
utils/utt2spk_to_spk2utt.pl data/dev/utt2spk > data/dev/spk2utt
utils/utt2spk_to_spk2utt.pl data/test/utt2spk > data/test/spk2utt


#local/my_decode.sh(仅列出关键部分)

decoder=$1
srcdir=$2
datadir=$3

#decode word
utils/mkgraph.sh $opt data/graph/lang $srcdir $srcdir/graph_word  || exit 1;
$decoder --cmd "$decode_cmd" --nj $nj $srcdir/graph_word $datadir/test $srcdir/decode_test_word || exit 1

6. 参考文章

数据准备-Kaldi官方文档 http://www.kaldi-asr.org/doc/data_prep.html
Kaldi傻瓜教程-Kaldi官方文档 http://www.kaldi-asr.org/doc/kaldi_for_dummies.html