当你实现了文本式大模型得语音对话,接下来要做的其中一项任务是将回复得文本语音播报。那么就需要用到在线文本转语音,将转换得语音音频文件进行播放即可。
最近对于大模型的对话研究一直在用DeepSeek何Kimi去帮助写代码,但是由于DeepSeek最近总是服务繁忙,所以主要使用Kimi,之前写的文章ESP32C3接入DeepSeek大模型测试,就是Kimi帮忙完成的。(最近已经离不开大模型的使用,从去年觉的大模型一般,到现在离不开,后面会写一篇大模型使用心得,为什么要使用大模型,什么样的人可以用)。
回归今天得主题,我这里是的是阿里云在线文本转语音。其实也有很多其他的,但是我发现好多都已经关闭开发API,比如科大讯飞,已经关闭,下图看嫂接口地址为wss,ESP32C3只能访问http,如果有小伙伴有方法可以交流。(何Python版本也有关系)。
接下来看阿里云的在线文本转语音,使用的是语音合成CosyVoice,也有很多去他的模型可以选择。
就在上述界面下,即可得到Python代码,注意加入自己的API Key。
这样就输出了output.mp3的音频文件,再配合MAX98357即可播放音频,但是要注意MAX98357播放的是WAV格式。
如下是语音可选择得音色,有20种可选。其中包括中文普通话、东北口音、英语等。
欢迎在留言区互动。最近小智很火,需要套件玩耍的小伙伴可以入手。