itchat个人练习 语音与文本图灵测试例程
背景介绍
itchat是一个开源的微信个人号接口,使用python调用微信从未如此简单。
使用不到三十行的代码,你就可以完成一个能够处理所有信息的微信机器人。
官方文档参考https://itchat.readthedocs.io/zh/latest/
最近要做一个自动应答机器人,获得用户消息GUI+语义分析+机器学习给出答案。
准备工作
需要安装ffmpeg(百度搜索官网,下载windows版解压后把bin目录添加到系统变量的path中)
pip安装 pydub,SpeechRecognition
pip install pydub
pip install SpeechRecognition
绑定消息
GUI这部分使用微信的itchat接口,安装和新手教程可以自己参考官方文档。
绑定语音消息回复的方式为:
@itchat.msg_register(RECORDING)
def tuling_reply(msg):
其中用的是RECORDING是因为之前代码最开始有from itchat.content import *,否则就要使用itchat.content.RECORDING
关于@修饰符的作用,网上百度就有,说下自己的思考:
@de
def func1:
----- 等价于 ------
func1 = de( func1 )
Python解释器读到函数修饰符“@”的时候,后面步骤会是这样了:
1. 去调用de函数,de函数的入口参数就是那个叫“func1”的函数;
2. de函数被执行,入口参数的(也就是func1函数)会被调用(执行);
换言之,修饰符带的那个函数的入口参数,就是下面的那个整个的函数。
参考https://blog.csdn.net/972301/article/details/59537712和 https://blog.csdn.net/fwenzhou/article/details/8733857
所以我们使用@的时候,itchat.msg_register这个函数就被执行了,我们定义的tuling_reply作为参数传了进去,所以才会读取到消息就用这个函数处理消息
语音识别
由于微信保存的语音消息都是mp3格式,看了一圈发现只有腾讯语音识别支持mp3,之前尝试过腾讯一句话识别语音API,但是官方没有最新的例程,并且居然不同部分用的是不同版本的文档说明,导致我鉴权一直失败。到后来仔细研读了下,自己写了代码,鉴权应该是通过了,但是返回的消息是x‘\98'这样的一个中文字符,并且解码会失败,这才发现可能是因为腾讯的只支持中文,虽然我在这个随笔的例子是中文语音识别,但我实际项目要做的是英文语音识别。不过在这中间也学到了一些东西,比如加密算法的使用,还有python3的二进制和字符串消息的转换关系。
import binascii
import hashlib
import hmac
import urllib.parse
import urllib.request
import time
import random
import base64 def asr(msg):
msg['Text'](msg['FileName'])#保存mp3语音
timeData = str(int(time.time())) # 时间戳
nonceData = int(random.random()*10000) # Nonce,官网给的信息:随机正整数,与 Timestamp 联合起来, 用于防止重放攻击
with open(msg['FileName'], 'rb') as f:
voiceData = f.read()#读取mp3语音,获得byte数据,格式是b'\x..'
os.remove(msg['FileName'])#删除mp3语音
DataLenData = len(voiceData)#读取未base64编码之前的文件长度
tmp = int(timeData)#time stamp
signDictData = {#需要注意的是字典的key值要按照ascii码升序排序,并不一定是字典序,可以使用sorted(signDictData.keys())来查看ascii码排序结果
'Action' : actionData,
'Data': base64.b64encode(voiceData).decode('utf8'),#base64编码,编码后是二进制,再用decode解码
# 'Data': voiceData,
'DataLen': DataLenData,
'EngSerViceType': EngSerViceTypeData,
'Nonce' : nonceData,
'ProjectId':0,
'Region': 'ap-shanghai',
'SecretId' : secretId,
# 'SignatureMethod': 'HmacSHA256',#加密算法可选,不指定这个参数默认是HmacSHA1加密
'SourceType': SourceTypeData,
'SubServiceType': SubServiceTypeData,
'Timestamp' : tmp,
'UsrAudioKey': UsrAudioKeyData,
'Version': versionData,
'VoiceFormat': VoiceFormatData
}
# 请求方法 + 请求主机 +请求路径 + ? + 请求字符串
requestStr = "%s%s%s%s%s"%(requestMethod,uriData,"/","?",dictToStr(signDictData))
# signData = urllib.parse.quote(sign(secretKey,requestStr,'HmacSHA1'))
#生成签名字符的时候一定是使用的没有经过urlencode编码的requestStr字符串,下面的加了encode的就是把字符串变成byte,sha1是算法,decode是把二进制解码为字符串。digest()是把hmac.new()的结果解析成字符串,然后经过base64编码为byte,再解码为字符串
signData = binascii.b2a_base64(hmac.new(secretKey.encode('utf-8'), requestStr.encode('utf-8'), hashlib.sha1).digest())[:-1].decode()
# 上述操作是实现签名,下面即进行请求
# 先建立请求参数, 此处参数只在签名时多了一个Signature
actionArgs = {
'Action' : actionData,
'Data': base64.b64encode(voiceData).decode('utf8'),
# 'Data': voiceData,
'DataLen': DataLenData,
'EngSerViceType': EngSerViceTypeData,
'Nonce' : nonceData,
'ProjectId':0,
'Region': 'ap-shanghai',
'SecretId' : secretId,
'SourceType': SourceTypeData,
'SubServiceType': SubServiceTypeData,
'Timestamp' : tmp,
'UsrAudioKey': UsrAudioKeyData,
'Version': versionData,
'VoiceFormat': VoiceFormatData,
"Signature": signData
}
# 根据uri构建请求的url
requestUrl = "https://%s/?"%(uriData)
# 将请求的url和参数进行拼接,使用urlencode会修改掉参数中的/和=等符号的表示方式
requestUrlWithArgs = requestUrl + urllib.parse.urlencode(actionArgs) # actionArgs = signDictData #这是深复制,两个字典就是一个字典
# actionArgs["Signature"] = signData # # 根据uri构建请求的url
# requestUrl = "https://%s/?"%(uriData)
# # 将请求的url和参数进行拼接
# requestUrlWithArgs = requestUrl + dictToStr(actionArgs) # 获得response
responseData = urllib.request.urlopen(requestUrlWithArgs).read().decode("utf-8")# 根据uri构建
# return json.loads(responseData)["Response"]["Error"]["Message"] #处理错误消息
return json.loads(responseData)["Response"]["Result"]#处理正确消息
读取语音文件和腾讯API语音识别
后来一直在找能不能用别的语音api,由于百度的参考文档最多,我在其中就发现大家为了能够把音频发到百度语音api上,就使用了pydub对原音频文件进行了转码,这样我们就可以发送wav格式的语音,由于本来是想识别英文呢语音的,所以我还是尝试外国公司的api。
尝试了微软语音识别,7天免费的那个,官方文档对于REST接口的参考太少了,并且都不是python的,这时候我在github上发现了一个SpeechRecognition项目,原来以为是只有谷歌语音识别的接口,尝试了一下结果果然被墙了,用了代理之后还是无法访问,然后我就看了github主页的Transcribe an audio file,在里面找到了不止一个接口,其中就有Microsoft Bing Voice Recognition的例程,调用非常简单,只需要语音文件和密钥,并且支持语音文件的格式转码,自动给你转成对应必应api的语音参数格式,各位可以自己进入r.recognize_bing()函数定义,在里面详细描述了如何使用必应语音服务,在这里把原话复制下来供参考:
"""
Performs speech recognition on ``audio_data`` (an ``AudioData`` instance), using the Microsoft Bing Speech API. The Microsoft Bing Speech API key is specified by ``key``. Unfortunately, these are not available without `signing up for an account <https://azure.microsoft.com/en-ca/pricing/details/cognitive-services/speech-api/>`__ with Microsoft Azure. To get the API key, go to the `Microsoft Azure Portal Resources <https://portal.azure.com/>`__ page, go to "All Resources" > "Add" > "See All" > Search "Bing Speech API > "Create", and fill in the form to make a "Bing Speech API" resource. On the resulting page (which is also accessible from the "All Resources" page in the Azure Portal), go to the "Show Access Keys" page, which will have two API keys, either of which can be used for the `key` parameter. Microsoft Bing Speech API keys are 32-character lowercase hexadecimal strings. The recognition language is determined by ``language``, a BCP-47 language tag like ``"en-US"`` (US English) or ``"fr-FR"`` (International French), defaulting to US English. A list of supported language values can be found in the `API documentation <https://docs.microsoft.com/en-us/azure/cognitive-services/speech/api-reference-rest/bingvoicerecognition#recognition-language>`__ under "Interactive and dictation mode". Returns the most likely transcription if ``show_all`` is false (the default). Otherwise, returns the `raw API response <https://docs.microsoft.com/en-us/azure/cognitive-services/speech/api-reference-rest/bingvoicerecognition#sample-responses>`__ as a JSON dictionary. Raises a ``speech_recognition.UnknownValueError`` exception if the speech is unintelligible. Raises a ``speech_recognition.RequestError`` exception if the speech recognition operation failed, if the key isn't valid, or if there is no internet connection.
"""
Bing语音识别使用说明
所以我们只需要获得正确的密钥,调用这个函数就可以啦,要注意的是中文语音识别需要在传入参数中设置language="zh-CN"
需要注意的是微软一元试用云服务的活动不支持必应语音识别这个模块,需要访问全球标准的网站才行,试用免费账户需要VISA或者master信用卡,也可以使用具有office服务的公司账户登录注册,就不需要信用卡信息了。
代码
全代码如下:
# -*- coding: UTF-8 -*-
import requests
import itchat
import json
from itchat.content import *
import os
import speech_recognition as sr
from pydub import AudioSegment def get_response_tuling(msg):
# 这里我们就像在“3. 实现最简单的与图灵机器人的交互”中做的一样
# 构造了要发送给服务器的数据
apiUrl = 'http://www.tuling123.com/openapi/api'
data = {
'key' : '8edce3ce905a4c1dbb965e6b35c3834d',
'info' : msg,
'userid' : 'wechat-robot',
}
try:
r = requests.post(apiUrl, data=data).json()
# 字典的get方法在字典没有'text'值的时候会返回None而不会抛出异常
return r.get('text')
# 为了防止服务器没有正常响应导致程序异常退出,这里用try-except捕获了异常
# 如果服务器没能正常交互(返回非json或无法连接),那么就会进入下面的return
except:
# 将会返回一个None
return def asr(msg):
#语音消息识别转文字输出
msg['Text'](msg['FileName'])
song = AudioSegment.from_mp3(msg['FileName'])
song.export("tmp.wav", format="wav")
r = sr.Recognizer()
with sr.AudioFile('tmp.wav') as source:
audio = r.record(source) # read the entire audio file
os.remove('tmp.wav')
os.remove(msg['FileName'])
# recognize speech using Microsoft Bing Voice Recognition
BING_KEY = "======修改成你自己的密钥=======" # Microsoft Bing Voice Recognition API keys 32-character lowercase hexadecimal strings
try:
text = r.recognize_bing(audio, key=BING_KEY,language="zh-CN")
print("Microsoft Bing Voice Recognition thinks you said " + text)
return text
except sr.UnknownValueError:
print("Microsoft Bing Voice Recognition could not understand audio")
except sr.RequestError as e:
print("Could not request results from Microsoft Bing Voice Recognition service; {0}".format(e)) @itchat.msg_register(TEXT)#因为之前把itchat.content全部import了,里面有TEXT变量
def tuling_reply_text(msg):
# 注册文字消息获取后的处理
# 为了保证在图灵Key出现问题的时候仍旧可以回复,这里设置一个默认回复
defaultReply = 'I received a: ' + msg['Text']
return get_response_tuling(msg['Text']) or defaultReply @itchat.msg_register(RECORDING)
def tuling_reply(msg):
# 注册语音消息获取后的处理
# 为了保证在图灵Key出现问题的时候仍旧可以回复,这里设置一个默认回复
defaultReply = 'I received a: ' + msg['Type'] # 如果图灵Key出现问题,那么reply将会是None
asrMessage = asr(msg)
return get_response_tuling(asrMessage) or defaultReply # 为了让实验过程更加方便(修改程序不用多次扫码),我们使用热启动hotReload=True
itchat.auto_login(hotReload=True)
itchat.run()
itchat个人练习 语音与文本图灵测试例程的更多相关文章
- C#语音朗读文本 — TTS的实现
TTS, Text To Speech的缩写,是使用语音朗读文本的技术.目前,在国内应用较多的是排队叫号系统 Windows 平台的TTS,通常使用的是微软自带的 Speech API. Window ...
- AWS机器学习初探(2):文本翻译Translate、文本转语音Polly、语音转文本Transcribe
AWS机器学习初探(1):Comprehend - 自然语言处理服务 这几个服务的功能和使用都很直接和简单,因此放在一篇文章中介绍. 1. 文本翻译服务 Translate 1.1 功能介绍 AWS ...
- Python itchat模块的使用,利用图灵机器人进行微信消息自动回复
一.下载安装itchat模块 二.小实验:获取微信好友头像信息 这需要用itchat模块中的一个方法 itchat.get_friends()#获取微信所有微信好友信息 现在我们导入itchat,打印 ...
- 文本转语音TTS(文本阅读和视频配音制作)MP3
DL-TTS 通过AI驱动引擎可将文本转化为逼真的语音,它可以:(1)生成逼真的合成语音实现与人声的语调和情感匹配的流畅.发音自然的文本转语音.(2)细化的文本转语音控制支持多种语言,并可调整语速.语 ...
- 上传图片,语音,和富文本(webuploader,dropzone, froala)
首先是上传图片,使用的百度webuploader 自己修改后可以实例化多个uploader对象: HTML: <!DOCTYPE html> <html xmlns="ht ...
- DelphiXE10.2怎么安装文本转语音(TTS)语音转文本(SR)控件(XE10.2+WIN764)
关资料: http://edn.embarcadero.com/article/29583 http://blog.sina.com.cn/s/blog_53866d7501017r1o.html 问 ...
- 问题-DelphiXE10.2怎么安装文本转语音(TTS)语音转文本(SR)控件(XE10.2+WIN764)
相关资料: http://edn.embarcadero.com/article/29583 http://blog.sina.com.cn/s/blog_53866d7501017r1o.html ...
- LUIS 语义识别API调用方法
本例使用itchat获取微信文字消息,发送给LUIS返回识别消息,再将返回消息格式化后通过微信发回 关于itchat的使用参考我的另外一篇随笔itchat个人练习 语音与文本图灵测试例程 # -*- ...
- C# 利用TTS实现文本转语音
TSS(Text To Speech),语音朗读文本的技术,在Windows下台下,微软给我们提供了一套API接口(Speech API).金山词霸的朗读功能就是用的这个接口. WindowsXP自带 ...
随机推荐
- SpringBoot实战(九)之Validator
表单验证,是最为常见的,今天演示的是利用hibernate-validtor进行校验,有的时候,虽然前端方面通过jQuery或者require.js校验框架进行校验,可以减轻服务器的压力和改善用户体验 ...
- 如何在ubuntu中安装CP-ABE
cpabe依赖pbc,pbc依赖gmp,gmp依赖M4.bison.flex,所以先安装后面的 安装m4 $ sudo apt-get install m4 安装 flex 安装 bison 1 ...
- 通讯协议(三)Protocol Buffers协议
Protocol Buffers是Google开发一种数据描述语言,能够将结构化数据序列化,可用于数据存储.通信协议等方面. 不了解Protocol Buffers的同学可以把它理解为更快.更简单.更 ...
- 【洛谷P2680】运输计划
题目链接 题目大意: 一棵\(n\)个点的带边权的数,给定\(m\)条树上两点间的路径,现在你可以让树上任意一条边的权值变为零, 问如何选边使得\(m\)条路径中边权和最大的路径的边权和最小 \(\m ...
- 开源Webshell利用工具——Altman
开源Webshell利用工具--Altman keepwn @ 工具 2014-06-04 共 6114 人围观,发现 43 个不明物体收藏该文 Altman,the webshell tool,自己 ...
- Python 学习笔记(十五)Python类拓展(二)方法
方法 绑定方法和非绑定方法 绑定方法和非绑定方法在创建时没有任何区别,同一方法,既可以为绑定方法,也可以为非绑定方法,一切不同都只在调用时的手法上有所区别. 绑定方法即该方法绑定类的一个实例上,必须将 ...
- cocoscreator 2.04 配置 visual code 断点调试
1,cocoscreator ,chrome浏览器,visual code 这三个软件的安装 2,官网配置visual code 环境 https://docs.cocos.com/creator/m ...
- Oracle 实例管理
理解初始化参数文件实例由内存中构建它的参数来定义.许多参数(但不是全部)可以在启动后更改.有些参数在启动时就固定了,只能在关闭实例并再次启动时更改. 静态和动态参数文件参数文件由两类:静态参数文件(也 ...
- Java并发编程(七)终结线程
线程的状态 一个线程会有如下五个状态 1.新建:线程在被创建时会暂时处于这种状态,此时系统为线程分配资源并对其进行初始化 2.就绪:此时线程已经可以运行,只是系统没有为其分配CPU时间. 3.运行:系 ...
- 关于TCP传输的三次握手四次挥手策略
简单小总结: 一般为了能够准确无误地把数据送达目标处,TCP协议采用了三次握手策略.用TCP协议把数据包送出去后,TCP不会对传送后的情况置之不理,它一定会向对方确认是否成功送达. 注:握手过程中使用 ...