多源视觉信息行为识别

时间：2023-11-19 理论教育版权反馈

【摘要】：早期的RGB-D行为识别数据集包括：MSRActionPair、MSRDaily-Activity3D、UTDMHAD、ORGBD等。这些数据集的公开极大地促进了RGB-D行为识别算法的发展，常见数据库的具体信息如表5-9所示。表5-9常见的RGB-D人体行为数据库为了验证本书中所提算法和模型的有效性，本书主要使用ORGBD、MSRDaily-Activity3D、SYSU 3DHOI、UTD-MHAD、NTU RGB+D以及Cha Learn LAP IsoGD等数据库进行RGB-D行为识别的测试。图5-20给出了该数据库部分行为动作的RGB（左）和深度（右）图像示例。不同的是，该数据库是专门针对RGB-D交互行为识别问题而设计的。

多源视觉信息行为识别

实验主要基于三大主流的视频行为数据集：UCF101、HMDB-51和Kinetics-400。UCF101（图5-16）包含101个类别的动作，总计13 320个视频。其中动作种类较为丰富，包含尺度变化、相机移动、物体外观、姿态、视角、背景、光照等差异。数据来源主要为电影、公共数据集、谷歌视频存档等。HMDB-51（图5-17）包含51个动作类别，总计6 849个视频，其中每个类别至少包含101个视频，数据集整体较为均衡。Kinetic-400数据集（图5-18）包含400个动作类别，其中每个类别都包含大于400个训练视频样例，其行为类别多样，包含有个人的动作行为、人际间的交互行为、需要时间推理的行为和强调对于对象进行区分的行为等，每个视频的长度在10 s左右。同时由于该数据集的规模较大，训练时对计算资源的规模要求较高。实验室使用时，在有限的计算资源下训练时长较长，该数据集是当前最具挑战性的数据集之一。综上所述，实验基于以上三个主流的视频行为数据集，并根据实际的计算资源配置进行实验分析。

pagenumber_ebook=241,pagenumber_book=225

图5-16　UCF-101数据集样例图

pagenumber_ebook=241,pagenumber_book=225

图5-17　HMDB-51数据集样例图

pagenumber_ebook=241,pagenumber_book=225

图5-18　Kinetics-400数据集样例图

RGB-D行为识别数据集

与其他基于数据驱动的计算机视觉任务一样，数据在行为识别研究中也有着重要的作用。为了促进RGB-D行为识别的研究，国内外很多研究机构和课题组从不同的研究角度以及应用背景收集并公开了RGB-D行为数据库，同时也为其设计了相应的验证标准，从而使得研究人员可以公平地测试某种行为识别算法。

早期的RGB-D行为识别数据集包括：MSRActionPair、MSRDaily-Activity3D、UTDMHAD、ORGBD等。这些数据集是在Kinect刚出现时所建立的，数据规模相对比较小，通常只有几百个样本数据，行为类别也不会超过20，同时数据集中的类内变化也比较单一。近年来，随着RGB-D数据的采集成本降低以及深度学习技术的发展，使得诸如SKIG、NTU RGB+D、Cha Learn LAP IsoGD等大规模RGB-D行为数据集被不断公开。这些数据库包含了现实生活中可能遇到的多种类内变化因素，如拍摄视角、光照变化以及遮挡、动作执行者在尺度和执行方式上的差异等。这些数据集的公开极大地促进了RGB-D行为识别算法的发展，常见数据库的具体信息如表5-9所示。

表5-9　常见的RGB-D人体行为数据库

pagenumber_ebook=242,pagenumber_book=226

为了验证本书中所提算法和模型的有效性，本书主要使用ORGBD、MSRDaily-Activity3D、SYSU 3DHOI、UTD-MHAD、NTU RGB+D以及Cha Learn LAP IsoGD等数据库进行RGB-D行为识别的测试。接下来，对这六个数据库及其测试标准作详细介绍。

（1）ORGBD数据集：该数据集的每种动作数据都包含具有显著形状和纹理的物体，同时该数据库规模比较小，不需要大量的时间训练特征提取模型。因此，利用该数据集进行基于底层特征的行为识别算法测试是具有理论意义的。

该数据集包含了16个动作执行者的7种动作，每个人执行每种动作两次（两种动作执行姿态：正面和侧面），共有224个视频序列。数据集中所包含的7个动作分别为：喝水、吃东西、用笔记本电脑、玩手机、打电话、用遥控器和看书。这7个动作的拍摄环境相对固定，没有明显的遮挡以及光照变化。但是该数据集中具有明显的姿态和尺度变化，从而对行为识别算法有一定挑战性。为了测试算法的性能，提供者将前8个动作执行者的数据作为训练样本，剩余的作为测试样本。图5-19给出了该数据集中部分动作对的RGB（左）和深度（右）图像示例。

pagenumber_ebook=242,pagenumber_book=226

图5-19　ORGBD数据集中一些动作的RGB-D图像示例

该数据集在动作的执行姿态、动作执行者尺度方面具有显著类内变化

（2）MSRDaily-Activity3D数据集：与MSRActionPair数据集一样，该数据集也是针对RGB-D行为识别问题而设计的。同时该数据集也具有较小的规模，而且收集的都是日常生活中经常发生的动作。因此，利用该数据集进行多模态浅层学习算法的测试是具有重要的理论和现实意义。

该数据集包含由10个受测对象所执行的16种日常行为，每个受测者都以站立和坐着的方式执行同一行为。因此该数据库共有320个视频，每个视频都记录了对应的RGB视频，深度视频和人体三维骨骼数据。数据集包含的16种日常行为既有一些人与物的交互行为如打电话、用笔记本电脑、用吸尘器、玩游戏手柄、扔纸、弹吉他等，也有一些日常的个体行为如走、静坐、躺在沙发上、起立和坐下等。此外，这些日常行为的采集也是在固定拍摄视角的环境中完成的。由于动作执行者以两种不同的姿态执行每类动作，所以该数据库能够用来测试算法在尺度上的鲁棒性。为了能够测试算法的性能，提供者采用交叉验证的方式进行实验，即随机将5个人的160个视频序列用来训练，剩下的160个作为测试。图5-20给出了该数据库部分行为动作的RGB（左）和深度（右）图像示例。

pagenumber_ebook=243,pagenumber_book=227

图5-20　MSRDaily Activiy3D数据集中动作的RGB-D图像示例(www.xing528.com)

该数据集包含了动作执行者尺度、动作执行者姿态、遮挡等类内变化因素

（3）SYSU 3DHOI数据集：与以上两者数据集一样，该数据集也是小规模数据集。不同的是，该数据库是专门针对RGB-D交互行为识别问题而设计的。因此，该数据集可以用来进行多模态浅层学习算法的性能测试。

该数据集专注于人与物体的交互。其是由40位受测者来执行12种不同的交互行为（喝水、倒水、打电话、玩手机、背书包、整理书包、坐在椅子上、移动椅子、拖地和扫垃圾），共480个样本数据。每个受测者从6种不同的物体：水杯、手机、椅子、书包、钱包、扫把（或拖把）中选择一种进行操作。每种物体只与两种不同的交互行为相关。由于被操纵物体的运动和外观非常相似，以及动作参与者的变化大，使得该数据库具有一定的挑战性。为了能测试算法的性能，提供者设置了两种测试方案。第一种测试方案样本的交叉验证，即每个类别随机取一半样本数据作为训练，其余的作为测试。第二种为个体交叉验证，即随机选择20个受测者的数据作为训练，剩下的为测试。对于上述每种测试方案重复30次取平均值作为最终识别结果。图5-21给出了该数据库的部分RGB和深度图像示例。

pagenumber_ebook=244,pagenumber_book=228

图5-21　SYSU 3DHOI数据集中动作的RGB-D图像示例

该数据集在动作执行者尺度以及交互物体的外观上具有显著的类内、类间变化

（4）UTD-MHAD数据集：与以上数据集一样，该数据集也是针对RGB-D的行为识别问题而设计的。同时该数据集中的动作序列都是模拟体感游戏中的动作或行为。因此，利用该数据集进行算法测试有着重要理论和现实意义。

该数据集包含了27种动作类别和861个动作序列。这些动作是由8个受测对象（4男4女）所完成的，其中每个受测对象需要执行每类动作4次。虽然数据集的采集背景和环境比较单一，但是在执行动作的过程中，对受测者的执行速度和执行方式不进行限制，同时动作执行者在尺度上也有较大变化。因此，该数据库也具有一定的类内变化。此外，该数据集中的动作序列都是无实物动作，这也给动作的识别带来一定挑战性。除了RGB-D图像数据和人体骨骼数据，该数据集还提供了动作执行过程中的惯性传感器采集的加速度、角速度信息。为了能够测试不同算法的性能，提供者只将受测对象的ID标签为1、3、5、7的样本作为训练样本（431个样本数据），将剩余受测对象的样本作为测试样本（430个样本数据）。图5-22给出了该数据库部分动作的RGB和深度图像示例。

pagenumber_ebook=244,pagenumber_book=228

图5-22　UTD-MHAD数据集中动作的RGB-D图像示例

该数据集包含了动作执行速度、执行方式、执行者尺度等类内变化因素

（5）NTU RGB+D数据集：与上述数据集一样，该数据集也是针对RGB-D的行为识别问题而设计的。不同的是，该数据集有较大的规模和拍摄视角变化，适用于训练深度神经网络模型。因此，利用该数据集进行深度学习算法的测试是有重要理论和实际意义的。

该数据集是是目前所有RGB-D行为数据集中包含行为类别数目和受测对象最多的数据集。其包含5万多个视频序列，4百多万个视频帧以及60个日常行为。这些日常行为既包括一些个体行为（如扔东西、跌倒、呕吐等），也包括一些人与物体的交互（如喝水、吃东西、看书等）以及人与人交互（如握手、拥抱、踢腿等）。同时这些日常行为是由40个受测对象（10～35岁）在3种不同的拍摄视角（摄像机位于受测者正面、左侧45°、右侧45°）下所采集的。由于该数据集在拍摄视角和受测者尺度上有丰富的变化，使得该数据集在算法鲁棒性方面具有较大挑战。在性能测试方面，提供者设置了两种不同方式：对象交叉验证和视角交叉验证。在对象交叉验证中，将20个受测对象（ID为1、2、4、5、8、9、13、14、15、16、17、18、19、25、27、28、31、34、35、38）的行为数据作为训练集（40 320个样本），剩余样本作为测试集（16 560个样本）。而在视角交叉验证中，将第1个摄像头视角下的样本作为测试集（18 960个样本），剩下的作为训练集（37 920个样本）。图5-23给出了该数据库部分人体行为的RGB和裁剪后的深度图像示例。

pagenumber_ebook=245,pagenumber_book=229

图5-23　NTU RGB+D数据集中人体行为的RGB-D图像示例

该数据集包含了拍摄视角、光照、动作执行者尺度以及动作执行方式等类内变化因素

（6）Cha Learn LAP IsoGD数据集：与NTU RGB+D数据集一样，该数据集也具有较大的数据规模。不同的是，该数据库主要是为RGB-D的手势识别问题设计的，与一些人体行为相比手势动作的持续时间比较短，同时该数据集是在复杂的外部环境下拍摄的。因此，利用该数据集进行深度学习算法的测试是有重要理论和实际意义的。

该数据集包括了47 933个RGB-D视频序列，249个手势动作以及21个受测对象。这249个手势既有一些聋哑人的手势语言，交通信号手势，也包括一些艺术表演中出现的手势和日常交流过程中使用的手势。由于该数据集是由第一代Kinect所拍摄，而导致采集的RGB和深度图像分辨率比较低。同时该数据集在动作执行者的衣着、位置、背景和光照方面有着丰富的变化。为了更好地评估算法性能，提供者将数据集划分成训练集，验证集和测试集。其中训练集包含35 878个视频片段和17个受测对象，验证集和测试集中的受测对象都是2个，分别有5 784个和6 271个视频序列。为了使得算法评估更有挑战性，在划分的过程中，当受测对象的某个样本出现在训练集中时，其所有样本都不会出现在验证集和测试集中。图5-24给出了该数据库的部分RGB和深度手势图像示例。

pagenumber_ebook=246,pagenumber_book=230

图5-24　Cha Learn LAP IsoGD中部分手势的RGB-D图像示例

该数据集包含了光照、复杂背景、动作执行者的尺度、动作执行姿态等类内变化因素

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

建筑工程

经济发展

传统文化

民事诉讼

中国传统

程序设计

轨道交通

解决方法

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

多源视觉信息行为识别

相关推荐

多源视觉信息行为识别

有关多源视觉信息感知与识别的文章

相关推荐