可穿戴产品交互方式变革，语音识别技术应用前景

时间：2023-10-17 理论教育版权反馈

【摘要】：解放双手，语音、姿势（手势）、眼球等交互方式更加适合可穿戴产品，也是电子产品未来交互方式的变革方向。语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术三个方面。近期，语音识别互联网公司纷纷投入人力、物力和财力展开此方向的研究和应用，目的是利用语音交互的新颖性和便利模式迅速占领客户群。但其要想像传统交互形式一样进入大众化消费领域，还需要技术的改进、人们交互习惯的改变等。

智能手机/平板电脑的传统交互方式，如点按、触摸等，在小屏幕甚至无屏幕的可穿戴设备上并不适用或者体验较差。解放双手，语音、姿势（手势）、眼球等交互方式更加适合可穿戴产品，也是电子产品未来交互方式的变革方向。

（一）语音交互

语音交互是一种基于语音识别技术的智能交互方式。语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则和模型训练技术三个方面。

语音识别主要有以下五个问题：

（1）对自然语言的识别和理解。首先，必须将连续的讲话分解为词、音素等单位；其次，要建立一个理解语义的规则。

（2）语音信息量大。语音模式不仅对不同的说话人不同，对同一说话人也是不同的。例如，一个说话人在随意说话和认真说话时的语音信息是不同的。

（3）语音的模糊性。说话人在讲话时，不同的词可能发音听起来是相似的。这在英语和汉语中都很常见。

（4）单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。

（5）环境噪声和干扰对语音识别有严重影响，致使识别率低。

近几年来，借助机器学习领域深度学习研究的发展，大数据语料的积累，以及云计算、高速移动网络的普及，语音识别技术得到突飞猛进的发展。

（1）将机器学习领域深度学习研究引入到语音识别声学模型训练，使用带RBM（Restricted Boltzmann Machine，受限玻尔兹曼机）预训练的多层神经网络，极大地提高了声学模型的准确率。在此方而，微软公司的研究人员率先取得了突破性进展。他们使用深层神经网络模型（DNN）后，语音识别错误率降低了30%，是近20年来语音识别技术方面最快的进步。

（2）目前大多主流的语音识别解码器已经采用基于有限状态机（WFST）的解码网络。该解码网络可以把语音模型、词典和声学共享音字集统一集成为一个大的解码网络，大大提高了解码的速度，为语音识别的实时应用提供了基础。

（3）由于互联网的快速发展以及手机等移动终端的普及应用，目前可以从多个渠道获取大量文本或语音方面的语料。这为语音识别中的语言模型和声学模型的训练提供了丰富的资源，使得构建通用大规模语言模型和声学模型成为可能。在语音识别中，训练数据的匹配和丰富性是推动系统性能提升的最重要的因素之一。但是，语料的标注和分析需要长期的积累和沉淀。随着大数据时代的来临，大规模语料资源的积累将提到战略高度。

（4）云计算及3G，4G无线网络的普及，将云端语音识别成为可能，依赖云端数据库及处理能力，可大幅提高语音识别能力，实时语音翻译成为可能。

近期，语音识别互联网公司纷纷投入人力、物力和财力展开此方向的研究和应用，目的是利用语音交互的新颖性和便利模式迅速占领客户群。由于视频通话、音频通话兴起，社交软件公司，如腾讯做语音识别领域将拥有一个天然优势，即方便采集和拥有海量的各种用户语音特征信息（语料资源）。

目前，国外的苹果Siri、微软Cortana，国内的科大讯飞、云知声、百度语音等语音识别应用已大规模应用到智能手机中，如图8-21所示。AppleWatch、三星Gear手表也已支持语音交互。未来，基于语音识别的语音交互将更加广泛地应用于可穿戴领域。

图8-21　语音交互软件

（二）姿势（手势）交互

姿势交互是利用计算机图形学等技术识别人的肢体语言，并转化为命令来操作设备。因为手势在日常生活中使用最为频繁，且便于识别，所以所有基于肢体语言的研究主要以手势识别为主，而对身体姿势和头部姿势语言的研究较少。

手势交互系统中主要有几个部分：人、手势输入设备、手势分析和被操作的设备或界面。

（1）人。手势交互系统面向大众，而不只是老年人和残疾人，普通用户也可以使用这些产品。(www.xing528.com)

（2）手势输入设备。比起鼠标和键盘操作，手势交互是更加方便的交互方式。早期需要穿戴手套，对于普通用户来说比较累赘；之后摄像头作为输入设备，用户并不需要与实体设备接触，而且可以分析手势的3D运动轨迹。

（3）手势分析。随着计算机图形学等科学的发展，识别率得到提升，可以实时捕捉手臂和手指的运动轨迹。技术推动了人机交互的发展。

（4）被操作的设备或界面。可以识别的手势更多，可以输入的命令更多，不再限定于特定平台执行某项特定的任务。

将手势交互技术与可穿戴产品相结合，可赋予可穿戴产品新的功能和应用场景。MYO腕带（手势控制臂环）就是这样的一款手势识别专用产品。它通过感应器捕捉用户的手臂肌肉运动时产生的生物电变化，从而判断佩戴者的意图，再将处理的结果通过蓝牙发送至受控设备。

手势交互率先在游戏领域得到应用，未来将逐步进入人工智能、培训教育和仿真技术领域。但其要想像传统交互形式一样进入大众化消费领域，还需要技术的改进、人们交互习惯的改变等。

（三）图像识别交互

图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，如图8-22所示。传统的图像识别，如光学字符识别（Optical Character Recognition，OCR），已有广泛应用。可穿戴产品，尤其是配备摄像头的智能眼镜或头戴式的虚拟现实设备，对基于图像识别的交互，如图片搜索，可用摄像头拍下照片，云端就会通过图像识别、人脸识别帮你快速找到你所要了解的信息并呈现在你面前。甚至，通过人脸识别技术，未来你的脸就是一个“凭证”，配上硬件的支持，就可以实现各种需要验证的功能。例如，在购物时直接“刷脸”支付，代替信用卡；在下班回家时取代实体钥匙，成为开门的凭据等。

图8-22　图像识别交互

图像识别技术尚未成熟，基于图像识别的交互也仅仅处在概念阶段：借助深度学习技术、大数据及云计算，未来将会有更多的交互应用基于图像识别。

（四）眼球交互

眼球交互技术，主要是依靠计算机视觉、红外检测或者无线传感等实现用眼睛控制计算机、手机等电子设备，以及用眼睛来画画、拍摄、移物等，如图8-23示所。

图8-23　眼球交互

从计算机视觉的角度看，眼球技术主要包括眼球识别与眼球跟踪。眼球识别是通过研究人眼虹膜和瞳孔的生物特征的采集与分析，常应用于重要场合的身份识别，如重要场所安检、机要部门门禁等。眼球跟踪主要是研究眼球运动信息的获取、建模和模拟，应用范围更为广泛，逐渐出现体验与娱乐方面的应用。三星GalaxyS4，S5基于眼球识别的智能暂停和智能滚动、谷歌眼镜的眨眼拍摄等，都是已有的商业案例。

当然，眼球技术也面临一系列的难题，影响其规模商用和用户体验。

（1）眼球信息获取方式具有一定局限性。虹膜识别设备的造价高、体积大、对采集现场要求比较高，如拍摄角度、响应时间、噪声干扰（可降低可靠性）等。用眼球控制平板电脑光标，需要保持平板电脑处于一定的摆放角度，否则容易造成光标失控，影响体验。

（2）眼球运动属于精细运动，获取难度大。眼球转动无论是力度还是幅度都不如手部及其他肢体动作那么明显，对眼球运动信息的获取和解释造成困难。

（3）眼球操作时间不宜过长。医生建议人们看计算机和手机的时间不宜过长，而眼球操作在原有用眼的基础上势必增加用眼疲劳，影响眼睛健康。

（4）眼球运动数学建模和动作模拟难度大。数学模型对眼球运动模拟的准确性与合理性存在较高难度，如何使得眼球操作如手操作一样方便需要业界的持续研究和改善。

（5）眼球技术应用范围窄，用户体验待提升。眼球识别和追踪由于难度高、技术未成熟，目前的应用领域相对较窄，特别是消费电子及可穿戴领域的成功案例还很少，且用户体验一般。

纵观这几类新的交互方式：语音交互具备在可穿戴产品领域规模推广的条件，也符合可穿戴设备需解放双手的使用场景；姿势（手势）识别，类似智能手机，也可以借助传感器在可穿戴产品中得以广泛应用，另外，专门用于捕捉人体姿势的可穿戴产品也将有较为广阔的市场前景。图像识别、眼球识别等由于技术、成本、体验等限制，实现规模化商用还需等待。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

建筑工程

经济发展

传统文化

民事诉讼

中国传统

程序设计

轨道交通

解决方法

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

可穿戴产品交互方式变革，语音识别技术应用前景

相关推荐

可穿戴产品交互方式变革，语音识别技术应用前景

有关虚拟现实与人工智能应用技术融合性研究的文章

相关推荐