首页 理论教育 建立语音交互系统:以小曼为例

建立语音交互系统:以小曼为例

时间:2023-06-24 理论教育 版权反馈
【摘要】:语音交互是指人与机器通过语音进行交流,而机器一旦拥有了语音识别能力和语音合成能力就具备了与人类语音交互的能力。以小曼为例,简单介绍一下如何建立一个语音交互系统。图11—3语音交互情景流程图整个流程可以简单归纳成三个状态:1.小曼机器人在通电后先做简单介绍,告知唤醒方法并进入关机状态。这样,小曼一旦通电初始化就会执行指令,通过机身的喇叭播放开机介绍语音。

建立语音交互系统:以小曼为例

语音交互是指人与机器通过语音进行交流,而机器一旦拥有了语音识别能力和语音合成能力就具备了与人类语音交互的能力。以小曼为例,简单介绍一下如何建立一个语音交互系统。

小曼内部使用的语音模块集成了语音识别模块和语音合成模块。语音模块需要与电脑连接才能正常工作,所以在电脑的设备管理器中需要为语音模块安装驱动程序。通常情况下,电脑的操作系统会在语音模块连接之后自动识别并安装相应的驱动程序。语音模块与电脑连线见附录部分图11所示。

驱动程序安装完成后,还需要在【端口设置】页面进行端口传输率的设置(通常情况下使用波特率为115 200)。这样,接下来在电脑上创建的语音交互程序才能通过连接端口按照设定的传输率上传到语音模块。

图11—2 语音模块的端口设置

语音模块的生产商一般都会提供交互式图形编程软件,借助这些软件可以对一些参数,如麦克风的灵敏度、输出音量、朗读音库、音高、语速、语音文件格式等进行配置。同时,还可以按照应用场景编写需要合成语音的文字,调整语音的音效。

下面将为小曼设计一个简单的语音交互情景,先看一下交互情景的流程图,如图11—3所示。

图11—3 语音交互情景流程图

整个流程可以简单归纳成三个状态:(www.xing528.com)

1.小曼机器人在通电后先做简单介绍,告知唤醒方法并进入关机状态。

2.通过呼叫机器人名字,让小曼从关机状态进入待机状态,等待接收语音指令。

3.接收到关机指令,从待机状态进入关机状态。

为了实现这样一个语音交互小程序,需要为其建立2个模态:关机模态和待机模态。关机模态是通电后的默认模态,所以类型上属于初始模态,其他模态在类型上都属于普通模态,待机模态就是一种普通模态。接着要为每个模态建立识别词条列表,如唤醒识别的词条可以是“小曼”“嘿,小曼!”“你好,小曼!”。在关机状态下一旦以上三个词条中的一个被识别出来,机器人就会从关机模态进入待机模态。

模态和识别词条列表建立完毕后语音识别部分就完成了,接着要为语音合成部分建立语音库。语音库里包含了整个应用场景会用到的语音文件。目前,普遍使用的是mp3格式的语音文件,wav格式的语音文件也会被一些语音板支持。当然,也可以使用音频转换软件在不同格式音频之间进行转换。表11—1是这个语音交互情景所使用语音文件的列表。

表11—1 语音文件列表

语音库建立完成以后就可以将语音文件分别指定相应的执行指令,如给初始化指令分配0010开机介绍语音文件。这样,小曼一旦通电初始化就会执行指令,通过机身的喇叭播放开机介绍语音。同样,在小曼识别出唤醒词条后也会与人进行互动,说出“您好,我是小曼!有什么可以帮您?”“我在,有什么可以帮您?”,然后进入待机模态。如果在待机模态下,小曼不能理解或无法识别对话者说的词条,她会进行未识别处理,请对话者再说一遍。

按设计的流程将整个交互情景完成后需要将工程编译下载到语音模块并进行相应的调试,然后机器人小曼就可以和你互动啦。有了语言模块,小曼不仅能听懂我们说的话,还能给出适当的回应,真正做到与人类“无障碍交流”。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈