首页 理论教育 多源视觉信息融合的RGB-D行为识别算法及其泛化能力提升

多源视觉信息融合的RGB-D行为识别算法及其泛化能力提升

时间:2023-11-19 理论教育 版权反馈
【摘要】:在融合RGB和深度图像序列进行人体行为识别时,除了会面对传统行为识别过程中的各种类内差异性挑战,如光照、尺度、执行方式等的变化。因此,研究对这些外部变化因素鲁棒的RGB-D行为识别算法,提高人体行为识别方法的泛化能力就是首要解决的问题。

多源视觉信息融合的RGB-D行为识别算法及其泛化能力提升

人体行为识别是由计算机对视频帧序列进行处理与分析,自动得到视频中的人体目标正在执行的行为。它是一个涉及计算机视觉、图像处理、机器学习模式识别人工智能等多学科交叉融合的研究方向。人体行为识别研究既涵盖了单个的人体动作、手势识别,也包括人与物,人与人的交互行为识别以及群体动作识别,是计算机视觉领域中最具发展潜力和活跃的研究方向之一。

早期的人体行为识别主要以普通摄像机提供的可见光或者灰度图像序列为研究对象。随着视频采集传感器的不断进步,尤其是近年来出现的彩色-深度(RGB-D)传感器,使得人体行为识别发展到一个新的阶段。图4-1给出了一个由Kinect深度摄像机采集的可见光、深度图像以及可视化的人体骨骼结构。在融合RGB和深度图像序列进行人体行为识别时,除了会面对传统行为识别过程中的各种类内差异性挑战,如光照、尺度、执行方式等的变化。在进行特征提取与表达时,还会面临RGB与深度图像在表现形式上的差异,多模态数据的语义一致性,同一模态和异质模态数据上的类内变化、类间模糊问题等。

(1)光照、尺度、执行方式等的变化:人体行为采集过程中,可能会受到光照条件变化,拍摄视角变化、部分遮挡、复杂动态背景等的影响。同时由于人体运动具有高度的自由度,使得同一行为表现形式多样化。此外,每个人的动作执行习惯、动作执行速率、动作执行顺序、动作执行时的姿态等也可能会不同。以上这些因素都会给人体的检测、跟踪以及姿态估计带来困难,从而直接影响人体行为识别的精确性和高效性。因此,研究对这些外部变化因素鲁棒的RGB-D行为识别算法,提高人体行为识别方法的泛化能力就是首要解决的问题。

图4-1 由Kinect采集的MSR Daily Activity 3D数据集中的RGB和深度图像示例(www.xing528.com)

(2)不同模态图像的表现差异:RGB图像表现了图像的颜色、纹理信息,而深度图像具有比较低的分辨率,缺少颜色、纹理、外观等信息。这就导致很多RGB图像上的底层特征如二值特征,在深度图像上描述能力不足。同时由于RGB图像与深度图像的像素点之间具有一对一的对应关系,而使得相同的局部时空特征具有一定的关联性。因此,针对两种模态图像的显著性差异和局部信息的相关性,如何同时完成对RGB和深度图像提取紧致、有效的局部时空特征,充分挖掘它们之间相似的统计特性,便成为RGB-D行为识别过程中的一个关键问题。

(3)多模态特征的语义一致与复杂流形结构:多模态特征数据从不同角度描述了人体行为模式,具有不同的统计特性和表达能力。但是它们所表达的行为在语义上是一致的,从而使得不同模态特征之间存在较强关联性。同时,在多模态特征数据间也存在多种复杂的流形结构,如样本之间在同一模态特征内和不同模态特征上的空间分布结构。这些空间分布结构能够更好地描述数据间的关联关系。因此,如何在保持多模态特征数据的流形结构前提下,从原始的多模态底层特征中学习具有语义一致性的高层特征表达是需要解决的一个关键问题。

为了克服以上挑战,国内外许多一流的学术机构围绕深度摄像机提供的多源多模态数据在人体行为识别方面开展了一系列的研究。其中,比较有代表性的国内外研究机构和实验室有:美国东北大学协同多媒体实验室、美国佛罗里达大学计算机视觉研究中心、Facebook人工智能研究院、苏黎世联邦理工大学计算机视觉实验室、澳大利亚伍伦岗大学高级多媒体研究实验室、新加坡南洋理工大学博云搜索实验室、微软亚洲研究院、中国科学院计算技术研究所智能信息处理重点实验室、清华大学国家智能技术与系统重点实验室、北京大学深圳研究院机器感知重点实验室、浙江大学数字媒体计算与设计实验室、中山大学计算科学重点实验室等。在实际应用方面,RGB-D人体行为识别在现实生活中很多领域有着重要应用,例如,在游戏领域,可以用来识别人体的肢体动作和手势,从而能够和虚拟现实技术结合来提高玩家的游戏体验;在人机交互领域,可以用来识别语言障碍人士的手语,从而更加智能和便捷的实现他们与普通人的沟通交流;在智能交通无人驾驶领域,可以用来检测和识别道路上的行人、车辆以及它们的行为,实现车辆的车道偏离预警、碰撞预警、自动泊车等,提升车辆行驶的安全性;在智能监护领域,可以用来检测和识别独居老人的跌倒行为,从而在老人发生危险的时候,及时地发出警报,以免错过最佳抢救时间;此外,还可以利用深度摄像机提供的RGB-D数据实现手势的分割和识别,从而在智能家居、商务办公、自动驾驶在线教育等手势系统中有重要应用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈