第一句子网 - 唯美句子、句子迷、好句子大全
第一句子网 > 讯飞平台TTS语音合成python

讯飞平台TTS语音合成python

时间:2022-05-25 14:40:31

相关推荐

讯飞平台TTS语音合成python

利用讯飞平台TTS在线语音合成python版

文章目录

准备工作一、下载安装ffmpeg二、Python实现代码总结

准备工作

提示:这里可以添加本文要记录的大概内容:

首先在讯飞网站注册登录账号,并实名认证,因为实名认证可领取部分免费服务。然后在控制台点击创建新应用,如下图所示,填写好内容后,点击提交再点击刚创建的应用,找到在线语音合成(流式版),点击后右侧有APPID,APISecret,APIKey等信息,之后用Python api的时候会用到、

![在这里插入图片描述](https://img-/38758fb1c3144cd5abdff4d80dba765c.png

一、下载安装ffmpeg

可以直接自己到网上去搜索相关内容,也可以用百度网盘直接获取,解压文件后,进入bin目录,复制当前路径,例如D:\ffmpeg-N-103197-gbff7d662d7-win64-gpl\bin,添加到环境变量的系统变量中。在命令行输入ffmpeg -version后,出现下图则成功。

二、Python实现代码

运行下面代码即可生效。最后实现的是.wav的可播放文件

# -*- coding:utf-8 -*-## author: iflytek## 本demo测试时运行的环境为:Windows + Python3.7# 本demo测试成功运行时所安装的第三方库及其版本如下:# cffi==1.12.3# gevent==1.4.0# greenlet==0.4.15# pycparser==2.19# six==1.12.0# websocket==0.2.1# websocket-client==0.56.0# 合成小语种需要传输小语种文本、使用小语种发音人vcn、tte=unicode以及修改文本编码方式# 错误码链接:/document/error-code (code返回错误码时必看)# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #import websocketimport datetimeimport hashlibimport base64import hmacimport jsonfrom urllib.parse import urlencodeimport timeimport sslfrom wsgiref.handlers import format_date_timefrom datetime import datetimefrom time import mktimeimport _thread as threadimport osimport waveSTATUS_FIRST_FRAME = 0 # 第一帧的标识STATUS_CONTINUE_FRAME = 1 # 中间帧标识STATUS_LAST_FRAME = 2 # 最后一帧的标识class Ws_Param(object):# 初始化def __init__(self, APPID, APIKey, APISecret, Text):self.APPID = APPIDself.APIKey = APIKeyself.APISecret = APISecretself.Text = Text# 公共参数(common)monArgs = {"app_id": self.APPID}# 业务参数(business),更多个性化参数可在官网查看self.BusinessArgs = {"aue": "raw", "auf": "audio/L16;rate=16000", "vcn": "xiaoyan", "tte": "utf8"}self.Data = {"status": 2, "text": str(base64.b64encode(self.Text.encode('utf-8')), "UTF8")}# 使用小语种须使用以下方式,此处的unicode指的是 utf16小端的编码方式,即"UTF-16LE"”# self.Data = {"status": 2, "text": str(base64.b64encode(self.Text.encode('utf-16')), "UTF8")}# 生成urldef create_url(self):url = 'wss://tts-/v2/tts'# 生成RFC1123格式的时间戳now = datetime.now()date = format_date_time(mktime(now.timetuple()))# 拼接字符串signature_origin = "host: " + "ws-" + "\n"signature_origin += "date: " + date + "\n"signature_origin += "GET " + "/v2/tts " + "HTTP/1.1"# 进行hmac-sha256进行加密signature_sha = hmac.new(self.APISecret.encode('utf-8'), signature_origin.encode('utf-8'),digestmod=hashlib.sha256).digest()signature_sha = base64.b64encode(signature_sha).decode(encoding='utf-8')authorization_origin = "api_key=\"%s\", algorithm=\"%s\", headers=\"%s\", signature=\"%s\"" % (self.APIKey, "hmac-sha256", "host date request-line", signature_sha)authorization = base64.b64encode(authorization_origin.encode('utf-8')).decode(encoding='utf-8')# 将请求的鉴权参数组合为字典v = {"authorization": authorization,"date": date,"host": "ws-"}# 拼接鉴权参数,生成urlurl = url + '?' + urlencode(v)# print("date: ",date)# print("v: ",v)# 此处打印出建立连接时候的url,参考本demo的时候可取消上方打印的注释,比对相同参数时生成的url与自己代码生成的url是否一致# print('websocket url :', url)return urldef on_message(ws, message):try:message = json.loads(message)code = message["code"]sid = message["sid"]audio = message["data"]["audio"]audio = base64.b64decode(audio)status = message["data"]["status"]print(message)if status == 2:print("ws is closed")ws.close()if code != 0:errMsg = message["message"]print("sid:%s call error:%s code is:%s" % (sid, errMsg, code))else:with open('./test.pcm', 'ab') as f:f.write(audio)except Exception as e:print("receive msg,but parse exception:", e)# 收到websocket错误的处理def on_error(ws, error):print("### error:", error)# 收到websocket关闭的处理def on_close(ws):print("### closed ###")# 收到websocket连接建立的处理def on_open(ws):def run(*args):d = {"common": monArgs,"business": wsParam.BusinessArgs,"data": wsParam.Data,}d = json.dumps(d)print("------>开始发送文本数据")ws.send(d)if os.path.exists('./test.pcm'):os.remove('./test.pcm')thread.start_new_thread(run, ())def pcm2wav(pcm_file, wav_file, channels=1, bits=16, sample_rate=16000):# 打开 PCM 文件pcmf = open(pcm_file, 'rb')pcmdata = pcmf.read()pcmf.close()# 打开将要写入的 WAVE 文件wavfile = wave.open(wav_file, 'wb')# 设置声道数wavfile.setnchannels(channels)# 设置采样位宽wavfile.setsampwidth(bits // 8)# 设置采样率wavfile.setframerate(sample_rate)# 写入 data 部分wavfile.writeframes(pcmdata)wavfile.close()if __name__ == "__main__":# 填写个人应用相关信息wsParam = Ws_Param(APPID='APPID', APISecret='',APIKey='',Text="学院以杭州、宁波为基地,以长三角地区为重点,积极争取地方政府支持与合作,为地方社会经济建设服务。学院本部立足杭州,加强与浙江省政府及杭州市政府在软件人才培养政策上的沟通和协作,把软件学院人才培养模式纳入到浙江省软件产业发展、软件人才培养和打造“数字浙江”、“天堂硅谷”的统一规划内。")websocket.enableTrace(False)wsUrl = wsParam.create_url()ws = websocket.WebSocketApp(wsUrl, on_message=on_message, on_error=on_error, on_close=on_close)ws.on_open = on_openws.run_forever(sslopt={"cert_reqs": ssl.CERT_NONE})pcm2wav("test.pcm", "test.wav")

这是最后生成的文件

总结

第一次做的时候在网上改了很多代码都没能成功实现,运行时总是会出一些bug,这里做一个整体的汇总,希望大家也能顺利实现TTS😊

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。