第一句子网 > 使用HTK搭建英文大词汇量连续语音识别系统（一）

使用HTK搭建英文大词汇量连续语音识别系统（一）

时间：2019-11-22 00:41:17

在整个语音识别系统的搭建中，参考了博客/qq_43150721/article/details/98646889，自己动手搭建时，遇到了博客中没提到的问题，故记录下。

一、准备工作

TIMIT语音库

本文使用TIMIT语音库对系统进行训练和测试，这里分享TIMIT语音库如下：

链接：/s/1Im5wSu-njmI9ci7CtIzGew

提取码：3inh

下载后，将压缩包中TIMIT文件夹解压，我在电脑D盘新建文件夹D:\HTK\dataset_TIMIT并解压至此。设置环境变量，连接VCVARS32

每次打开cmd，一定要设置环境变量，执行以下两步：

path=%path%;D:\Microsoft Visual Studio\VSpro\VC\Auxiliary\Build

然后输入VCVARS32。

path=%path%;D:\HTK\htk\bin.win32

如果嫌每次设置环境变量麻烦，也可以一次性解决，操作如下：

进入控制面板->系统，点击高级系统设置：

点击“环境变量"->在系统变量中选中”Path“，点击编辑，新建bin.win32和VS路径：

至此环境变量设置完成，打开cmd，输入HInit检验一下，如图：

3. 在D:\HTK中创建新文件夹data1，用于存放使用HTK的各种工具生成的我们所需要的文件。

二、建立发音字典，生成dict1、monophones1、dlog文件

1.用python对timit语音库中所有的.txt文本的路径及内容进行抓取，建立训练数据集抄本文件trainprompts

用python创建抄本文件trainprompts，代码如下：

import osimport re# make English text cleandef clean_en_text(text):# keep English '-' ''' and spacecomp = pile('[^A-Z^a-z^\-^\' ]')return comp.sub('', text)for root,dirs,files in os.walk(r"D:\HTK\dataset_TIMIT\TIMIT\TRAIN"):for file in files:if file.endswith('.TXT'):root_txt=os.path.join(root,file)#文本路径a=root_txt.split('.',1)abs_path = os.path.join(root,file)with open(abs_path) as f:txt=clean_en_text(f.read()) #文本内容#print(root_txt+txt.upper())a1=open("D:\HTK\dataset_TIMIT\make_trainprompts.txt",'a')a1.write(a[0]+txt.upper()+'\n')a1.close()

执行后会在D:\HTK\dataset_TIMIT\中生成make_trainprompts.txt，去掉后缀修改名称即得到trainprompts文件。此文件内容为timit/train文件下所有wav的地址（注意最后文件名不带任何后缀）和文字内容，部分内容如下：

D:\HTK\dataset_TIMIT\TIMIT\TRAIN\DR1\FCJF0\SA1 SHE HAD YOUR DARK SUIT IN GREASY WASH WATER ALL YEAR
D:\HTK\dataset_TIMIT\TIMIT\TRAIN\DR1\FCJF0\SA2 DON’T ASK ME TO CARRY AN OILY RAG LIKE THAT
D:\HTK\dataset_TIMIT\TIMIT\TRAIN\DR1\FCJF0\SI1027 EVEN THEN IF SHE TOOK ONE STEP FORWARD HE COULD CATCH HER

2.使用HTK自带脚本prompts2wlist，将上述抄本文件trainprompts转换为wlist文件，从句子中得到排序好的单词列表

在data文件夹中新建scripts文件夹，在HTK samples文件中搜索prompts2wlist，把这个文件拷贝到data1/scripts文件中，将trainprompts文件移至data1文件夹下，依次执行如下命令：

D:cd HTK/dataperl scripts/prompts2wlist trainprompts wlist

格式为perl+prompts2wlist工具地址+trainprompts地址+生成的wlist文件的地址。

这样在data1文件夹下生成wlist文件，部分内容如下：

'EM
–
A
ABBREVIATE
ABIDES
ABILITY
ABLE

3.处理TIMIT自带的发音字典TIMITDIC.TXT

TIMIT语音库自带的发音字典是TIMIT/DOC中的TIMITDIC.TXT，使用如下代码进行处理，得到TIMITDIC1.TXT。

def delblankline(infile, outfile):infopen = open(infile, 'r', encoding="utf-8")outfopen = open(outfile, 'w', encoding="utf-8")db = infopen.read()outfopen.write(db.replace(';', '\n'))infopen.close()outfopen.close()delblankline("D:\HTK\dataset_TIMIT\TIMIT\DOC\TIMITDIC.TXT", "D:\HTK\dataset_TIMIT\TIMIT\DOC\TIMITDIC_1.txt")

将TIMITDIC1.TXT中前面的说明删去，得到：

再将前面4个单词的空格和换行去掉，如图：

继续用代码将前面的单词转换为大写，执行：

import redef clean_en_text(text):# keep Englishcomp = pile('[^A-Z^a-z^\-^\'^\n^\~ ]')return comp.sub('', text)a1=open("D:\HTK\dataset_TIMIT\TIMIT\DOC\TIMITDIC_1.txt",'r+')b=[]txt1=a1.readlines()a1.close()for lines in txt1:a=linesb=a.split(' ',1)c=b[0].upper()+' '+b[1].replace('\n',' ')+'sp\n'd=clean_en_text(c)a2=open("D:\HTK\dataset_TIMIT\TIMIT\DOC\TIMITDIC_2.txt",'a')a2.write(d)a2.close()

得到TIMITDIC_2.txt文件，如图：（！注意，此代码不要运行第二遍，否则得到的TIMITDIC_2.txt文件内容顺序会出错）

！注意格式：大写单词+一个空格+小写发音+结尾为sp\n，从单词A开始按字母顺序排列

将TIMITDIC_2.txt文件名称去掉后缀改为timit，并放在data1文件夹下。

用记事本分别打开wlist和timit文件，在含有“’”符号的单词前添加‘\’符号，即：

wlist中：\'EM
timit中：\'EM ax m sp

接下来对timit文件进行处理，执行以下步骤：

将位于“\‘EM”单词前面的所有单词按照字母顺序插入到相应位置

例如：将

BOURGEOISIE b uh r zh w aa z iy sp
插入到：
BOURGEOIS b uh r zh w aa sp和BOWL b ow l sp中
形成：
BOURGEOIS b uh r zh w aa sp
BOURGEOISIE b uh r zh w aa z iy sp
BOWL b ow l sp

搜索”~“符号，将多音词的词性连同符号 "~"一起删去,再放到相应的正确位置

例如，原文本为：