第一句子网 > kaldi 的安装和thchs30语音识别测试

kaldi 的安装和thchs30语音识别测试

时间：2023-07-29 12:02:08

kaldi 的安装和测试

文章目录

kaldi 的安装和测试1. 下载源码2. 安装3. Kaldi 目录介绍子目录egs子目录src训练、识别、测试语料下载测试结果

1. 下载源码

git clone /kaldi-asr/kaldi.git kaldi --origin upstreamcd kaldigit pull

2. 安装

cd kaldicd tools

检测依赖

extras/check_dependencies.sh

根据指示安装缺失的包，直到看到：

extras/check_dependencies.sh: all OK.

然后make

make

看到下面这句话就表示完成：

All done OK.

完成之后切换到src目录在make

cd ../src./configuremake

看到下面这句话就表示完成了：

echo DoneDone

3. Kaldi 目录介绍

egs ：此目录为 Kaldi 例子目录，其中例子包含了不乏语音识别、语种识别、声纹识别、关键字识别等。misc : 此目录包含了一些 pdf、以及相关 docker、htk 等资源scripts: 此目录只用来存放 Rnnlm，以及相应的运行脚本。src : 此目录为 Kaldi 的源代码目录，Kaldi 的多数算法的源代码都存放于此，其中不乏GMM、Ivector、Nnet等一系列的算法。tools：此目录主要存放 Kaldi 依赖库的安装脚本windows：此目录为在 Windows 平台运行所必须的脚本以及相关的执行程序。

子目录egs

Aishell : 此目录为中文语音识别和声纹识别相关例子。Aishell2 ：此目录主要为中文语音识别例子，但是针对 Aishell 在脚本方面更加规整。ami : 此目录主要涉及到多信道语音识别的例子。an4 : 此例子为 CMU 提供语音识别例子，并没有涉及神经网络。apiai_decode: 此例子为解码器使用的例子，其中包含了如何使用预训练模型，这里主要针对的是 Nnet3 解码。aspire: 此为ASpIRE 挑战赛的例子，其中包含了怎样使用噪声数据构建多条件数据的例子。aurora4: 此例子主要介绍 RBM 预训练。babel: 此例子主要是用来训练 KWS （Key Word Search）。babel_multilang: 此例子为训练多语音 KWS。bentham: 手写笔识别的例子。bn_music_speech : 音乐与语音区分的例子。callhome_diarization : 说话人分割的例子。callhome_etyptian: 埃及语语音识别例子。chime1-5 : 主要针对 CHiME 竞赛开放的例子。cigar : 图像分类的例子。commonvoice: Mozilla Common Voice 语音识别的例子。csj : 日语语音识别例子。dihard_ : DiHARD Speech Diarization CHALLENGE 的例子。fame : 富里西语语音识别和声纹识别的例子。farsdat: 主要用来声学语音研究和语音识别的例子。fisher_callhome_spanish : 使用 Callhome 预料进行语音识别的例子。fisher_english: 英文双声道 8000 Hz 对话电话语音数据集的语音识别例子。fisher_swbd: 包含 fisher 数据集以及 swbd 数据集的语音识别例子。gale_arabic: 阿拉伯语语音识别例子。gale_mandarin: 普通话语音识别例子。gp: 全球电话语音识别例子（多语种语音识别例子）。heroico: 西班牙语音识别例子。houst: 普通话电话语音识别例子。hub4_english : 英语新闻广播语音识别例子。hub4_spanish: 西班牙新闻广播语音识别例子。iam: IAM 手写笔识别例子。iban: 语音识别例子。ifnenit: 阿拉伯语手写笔识别例子。librispeech: 英语语音识别例子。lre/lre07 : 语种识别例子。madcat_ar : 手写笔识别例子。madcat_zh: 中文手写笔识别例子。mini_librispeech: 英语语音识别例子。mult_en: 英语 LVCSR 例子。pub: RNNLM 模型构建例子。reverb: REVERB 挑战赛例子。rimes: 法语手写笔识别例子。rm: 英语语音识别例子，包含了如何进行迁移学习。sitw: sitw 说话人识别挑战赛的例子。sprakbanken: 丹麦语语音识别例子。sprakbanken_swe: 瑞典语语音识别例子。sre08/10/16: 说话人识别的例子。svhn: 图像分类的例子。swahili: 班图人语语音识别例子。swab: 双声道对电话语音识别例子。tedium: 英语语音识别例子。thchs30: 普通话语音识别例子。tidigits: 基础语音识别的例子。timit: 主要是 GMM/HMM 语音识别例子。tunisian_msa: 阿拉伯语音识别例子。uw3：OCR 识别例子。voxceleb: 说话人识别例子。vystadial_cz: 捷克语语音识别例子。voxforge: 基础语音识别例子，以及对应的在线 demo 的例子。vystadial_en: 英文语音识别例子。wsj: wsj 英文语音识别例子。yesno: 独立词语音识别例子。yomdle_fa/korean/russian/tamil/zh: OCR 识别例子。zeroth_korean: 朝鲜语语音识别例子。

子目录src

base : Kaldi 基础目录，主要包括与 Kaldi 项目相关的基础宏定义、类型定义等。bin : Kaldi 的基础 bin 目录，主要是包括基础的执行程序。例如，查看 tree 信息、矩阵拷贝等基础操作。cudamatrix : Kaldi 矩阵计算相关 GPU 计算目录matrix : Kaldi 矩阵计算相关 CPU 计算目录itf : Kaldi 相关的 interfacehmm : Kaldi 相关隐马尔可夫算法的代码目录utils : Kaldi 相关，语音算法无关的工具目录，例如，线程操作、io操作、文本操作等。probe : Kaldi 相关的 exp（指数）测试目录transform : Kaldi 相关的特征转换算法目录fstext : Kaldi 中 fst 相关的算法基础目录fstbin : Kaldi 中 fst 对应的算法执行文件夹feat : Kaldi 相关的特征提取算法目录featbin : Kaldi 相关的特征提取可执行目录gmm : Kaldi 相关的 GMM 算法基础目录gmmbin : Kaldi 相关的 GMM 算法可执行文件目录ivector : Kaldi 相关的 ivector 算法基础目录ivectorbin : Kaldi 相关的 ivector 算法的可执行目录，以及基于能量的 vad 执行目录。kws : Kaldi 相关的关键字搜索基础算法目录kwsbin : Kaldi 相关的关键字搜索执行目录lat : Kaldi 相关的网格生成基础算法目录latbin : Kaldi 相关的网格生成算法的可执行文件目录lm : Kaldi 自带的语言模型基础算法目录lmbin : Kaldi 相关语音模型的可执行文件目录nnet : Kaldi 相关的 nnet1 基础算法实现目录nnetbin : Kaldi nnet1相关的算法可执行文件目录nnet2 : Kaldi nnet2 相关的基础算法实现目录nnet2bin : Kaldi nnet2 相关的算法可执行文件目录nnet3 : Kaldi nnet3 相关基础算法实现目录nnet3bin : Kaldi nnet3 相关实现算法的可执行文件目录online : Kaldi online1 相关解码算法的实现目录onlinebin : Kaldi online1 相关解码器算法的可执行目录online2 : Kaldi online2 相关解码器算法的实现目录online2bin : Kaldi online2 相关解码器算法的可执行目录rnnlm : Kaldi rnnlm 相关的语音模型基础算法实现目录rnnlmbin : Kaldi rnnlm 相关的语音模型的可执行目录sgmm2 : Kaldi sgmm2 相关的子空间 GMM 基础算法实现目录sgmm2bin : Kaldi sgmm2 相关的子空间 GMM 基础算法可执行目录tfrnnlm : Kaldi 相关的 Tensorflow rnnlm 基础算法目录tfrnnlmbin : Kaldi 相关的 Tensorflow rnnlm 基础算法实现的可执行目录

训练、识别、测试

语料下载

本例实验 THCHS-30 ，所以下载 /18/

下载完成后解压至任意文件夹，这里放在

/home/kaldi/media/thchs30-openslr

然后修改脚本：

cd kaldi/egs/thchs30/s5vim cmd.sh

#export train_cmd=queue.pl#export decode_cmd="queue.pl --mem 4G"#export mkgraph_cmd="queue.pl --mem 8G"#export cuda_cmd="queue.pl --gpu 1"export train_cmd=run.plexport decode_cmd="run.pl --mem 4G"export mkgraph_cmd="run.pl --mem 8G"export cuda_cmd="run.pl --gpu 1"

修改run.sh

vim run.sh

路径改为语料的存放路径：

#corpus and trans directory#thchs=/nfs/public/materials/data/thchs30-openslrthchs=/home/kaldi/media/thchs30-openslr

然后运行 run.sh 训练

测试结果

去egs下，打开voxforge，里面有个online_demo，直接考到thchs30下。

在online_demo里面建2个文件夹online-data work,

在online-data下建两个文件夹audio和models，

audio下放你要回放的wav，

models建个文件夹tri1，把s5下的exp下的tri1下的final.mdl和35.mdl考过去。

把s5下的exp下的tri1下的graph_word里面的words.txt,和HCLG.fst，考到models的tri1下。

修改online_demo的run.sh:

#注释掉这段#if [ ! -s ${data_file}.tar.bz2 ]; then# echo "Downloading test models and data ..."# wget -T 10 -t 3 $data_url;# if [ ! -s ${data_file}.tar.bz2 ]; then# echo "Download of $data_file has failed!"# exit 1# fi#fi

#tri2b_mmi改成tri1#ac_model_type=tri2b_mmiac_model_type=tri1

#model为final.mdl#online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 #--rt-max=0.85\# --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \# scp:$decode_dir/input.scp $ac_model/modelonline-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85\--max-active=4000 --beam=12.0 --acoustic-scale=0.0769 \scp:$decode_dir/input.scp $ac_model/final.mdl

运行./run.sh就是开始识别了。

提示./run.sh –test-mode live命令就是从麦克风识别。

如果报错 “没有online-wav-gmm-decode-faster” ，就去src的online和onlinebin下面重新make clean然后make

结果：

SIMULATED ONLINE DECODING - pre-recorded audio is usedThe (bigram) language model used to build the decoding graph wasestimated on an audio book's text. The text in question is"King Solomon's Mines" (/ebooks/2166).The audio chunks to be decoded were taken from the audio book readby John Nicholson(/king-solomons-mines-by-haggard/)NOTE: Using utterances from the book, on which the LM was estimatedis considered to be "cheating" and we are doing this only forthe purposes of the demo.You can type "./run.sh --test-mode live" to try it using yourown voice!online-wav-gmm-decode-faster --verbose=1 --rt-min=0.8 --rt-max=0.85 --max-active=4000 --beam=12.0 --acoustic-scale=0.0769 scp:./work/input.scp online-data/models/tri1/final.mdl online-data/models/tri1/HCLG.fst online-data/models/tri1/words.txt 1:2:3:4:5 ark,t:./work/trans.txt ark,t:./work/ali.txt File: 1刘宗下今年六十岁五十年代进入海外就不工作一久久斯年十二月任外交安堡首席秘书 File: 2福安广告公司方面说他们并不赞成差朦胧重广告但上头有压力没有谈 File: 3他奇怪自己不仅无疑死去前就由中与对手劈杀较量跃跃欲试的行径 File: 4塞军为职业运动员最常二十四千米业余运动员进场二十一前青年运动员进场时五千米 File: 5今年来影坛哨所魔鬼亚辖耀涛文刀杀人鲜血淋淋的凶杀场面的承诺某些娱乐篇必不可少的内容

可见 ,准确度较低

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。