python语音大模型有哪些

转载

网络安全守护神 2024-11-04 11:14:10

文章标签 python语音大模型有哪些聊天机器人语音助手 python 第三方接口 文章分类 Python 后端开发

“零基础-- 搭建一个属于自己的机器人”

首先请想象一下，当你回到家，只有一个人在家，但却没有人聊天，然后你发出了一个命令，电脑便开始自动与你对话，而你不需要打字，不需要看屏幕，因为她会自己发出声音，回应你的问题，以及问候。

01—编程思路很重要

有一个好的想法，并把它用代码实现出来，怎么实现，这就比较重要了。

首先，想一下，假如没有看这篇文章，你们会怎么去实现自动回复的机器人，然后再来看我的解决方式，因为我这个也不是最优的解决方式。

思路：

1、首先想到的是宏观的，我想要说话，然后让机器立马做出响应，并通过喇叭回答我们，这是我们的需求。

2、我们把他拆分，变成一些小的需求。

（1）我要说话，会产生声音，系统不能翻译声音，那我们要记录下我们发出的声音。

（2）将声音转化为文字。

（3）将文字发送给自己训练的机器人，但自己训练机器人比较难，这时候使用第三方接口，自动回复，就像公众后台的小灵机器人一样。

3、那我们具体的流程就出来了。

声音---->音频文件----->调用第三方接口（语音识别）------->文字------->发送给图灵机器人------->机器人做出回复------->返回文字------->文字转语音---->输出并发出声音。

突然感觉一阵头晕

python语音大模型有哪些_python

，怎么调来调去的。

02—语音生成音频文件

语音生成文件，我们需要录音，并保存到文件中，那python要怎么实现启动录音并保存文件呢？

好好想一想！

这里需要导入一个模块，正所谓，那里不会导哪里！嘿嘿，python就是这么强。

导入模块，这里需要安装一个pip install pyaudio

import wave
from pyaudio import PyAudio,paInt16

有兴趣的可以去了解一下，继续来看实现代码

def save_wave_file(filename,data):#保存音频文件
    wf=wave.open(filename,'wb')
    wf.setnchannels(1)
    wf.setsampwidth(2)
    wf.setframerate(8000)
    wf.writeframes(b"".join(data))
    wf.close()

def my_record():#实现录音
    pa=PyAudio()
    stream=pa.open(format = paInt16,channels=1,
                   rate=8000,input=True,
                   frames_per_buffer=2000)
    my_buf=[]
    count=0
    print("正在录音")
    while count<2*15:#控制录音时间,15秒
        audio= stream.read(2000)
        my_buf.append(audio)
        count+=1
        # print('.')
    save_wave_file('01.wav',my_buf)#调用保存音频文件函数
    stream.close()
    print("录音完成！")

语音生成音频文件搞定

03—音频文件转文字

我们已经在上面获取到了音频文件，那要怎么把音频文件转化为文字呢？

我们继续：

这里可以使用第三方的语音识别接口，这里我使用的事百度的接口，因为比较简单，相关的api大家可以自己去研究一下。

导入模块：pip install baidu_aip

from aip import AipSpeech

导入我们需要的模块名，然后将音频文件发送给出去，返回文字。

这里的三个参数就交给大家去获取了。

def audio_word():
    APP_ID = ''
    API_KEY = ''
    SECRET_KEY = ''
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    def get_file_content(filePath):
        with open(filePath, 'rb') as fp:
            return fp.read()
    ret = client.asr(get_file_content('01.wav'), 'wav', 16000, {'dev_pid': 1537, })
    print(ret)#获取识别到的文字

这里我没有做异常处理，来考验一下大家的能力，给大家链接让大家自己动手试一下，

这是百度的文档，和开放平台，需要使用的可以申请一个自己的应用试一下：

相关文档 http://ai.baidu.com/docs#/ASR-Online-Python-SDK/top

开放平台 https://console.bce.baidu.com/ai/#/ai/speech/app/detail~appId=608501

04—与机器人对话

好了，到这里了，我们的声音成功转化为文字，然后呢？

这次再调用第三方接口，做自动应答。

这里我调用的是图灵机器人，大家也可以去了解一下。

因为某些原因，这里我直接使用了平台对话框的聊天机器人，

如下（这里需要导入requests模块）：

def tu_ling(text):

    url = "http://www.tuling123.com/robot-chat/robot/chat/227960/jwt7"
    data = {"perception": {"inputText": {"text": text}}, "userInfo": {"userId": "demo123"}}
    header = {
        "Referer": "http://www.tuling123.com/member/robot/1140264/center/frame.jhtml?page=0&child=0",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4094.1 Safari/537.36"}
    tuling = requests.post(url, json=data, headers=header)
    conent = tuling.json()

我是不会告诉你，这里我使用的是爬虫的方式的

python语音大模型有哪些_聊天机器人_02

05—文字转换为语音

好了，（敲黑板）重点，前年没有考，去年没有考，今年一定考

我们要把文字转换为语音，使用输出设备输出，怎么弄？

怎么办？再导入一个模块呀！

pip install Pywin32

导入成功之后，我安装的时候，pywin32好像是python2的代码，需要修改几个地方，让它支持python3

然后就是调用

import win32com.client
speaker = win32com.client.Dispatch("SAPI.SpVoice")
speaker.Speak("我是语音助手，小灵！")

好了我们的语音伙伴就这么搞定了。

分解开来看，感觉是不是非常简单呢！还等什么，自己也制造一个吧！

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：centor7 启动ZooKeeper并开机启动

下一篇：下列关于spring自动装配的说法正确的是

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python语音大模型有哪些

python语音大模型有哪些

51CTO博客