
[精选]行为识别国内外现状资料.doc
4页1.原始视频的特征提取(1) 光流场 光流场是空间运动物体在观测成像面上像素运动的瞬时速度 它利用图像序列中的像素强度 数据的时域变化和相关性来研究图像的灰度在时间上的变化与场景巾物体结构及其运动的 关系光流法通常假设相邻帧的图像差异非常小,从而获取对真实运动场的近似估计【 31它不用预知任何先验知识, 即能提供有关运动速度及图像中运动区域的简洁描述, 适用于摄 像机运动的情形 但光流法易受噪声及光照变化的影响, 且计算较为复杂, 很难用于实时的 视频监控系统2) 点轨迹 目标的运动轨迹也可以作为特征, 从而大致推断出目标运动所属的行为类别 但图像平面上 的轨迹对平移、 旋转和缩放等变换比较敏感, 因此在大多情形下, 此特征显得不够可靠常 用的替代特征表达有轨迹速度、时空曲率等【 4, 51运动轨迹的获取比较依赖于精确的跟踪算法从原始视频中提取点轨迹特征同样容易受到噪声、遮挡及混乱背景等的影响3) 人体形状表达 在摄像机固定的情形下, 假设背景已知, 通过背景剪除法可以很容易得到运动人体形状 基 于全局、边界及骨架等的描绘子都可以用来表达人体形状全局方法 16,71 如剪影、矩等是 在整体形状区域内计算描绘子,而边界方法仅考虑形状轮廓【 81,骨架i方法则是用一组ID骨架曲线代表一个复杂的人体形状,比如中轴变换 [91 等。
4) 滤波器响应空时滤波器响应是一个广义上的分类 Zhang等【Io】存时间轴上计算高斯导数,将滤波器响应较高的区域作为运动区域 Laptevl " 1利用一组空时高斯导数滤波器将 Harris角点检测扩展应用于三维的视频数据从而检测出空时兴趣点 这类方法大都基于简单的卷积操作, 运 算快速而简便 当视频分辨率较低的情形下, 提取光流或剪影特征较为困难, 利用滤波器响 应特性可以从视频数据中提取有效的底层特征2.低层特征的描述与识别我们将低层特征的描述与识别方法分为三类①: 非参数方法、 空时体方法和参数时序法, 分 别对现有方法进行归类,并作一个简短的综述2.1 非参数方法(1 )模板匹配法 这类方法需要对每种行为的特征建立相应的模板, 将获取的特征数据与模板相匹配, 通过计 算两者之间的相似度进行识别 PoIana 和 NeIson[4 刀将整个序列分解为多个周期行为,利 用二维网格特征识别各种行为 Bobick 和 Davis[391 将图像序列转换为运动能量图像 (膨酣 )和运动历史图像(朋m)模板,MEI反映运动覆盖的范围及强度,而 MHI反映运动在时间上的变化情况Weinland等【拍】提出运动历史体积(MHV)模板,从多个视角重建目标并将其投 影到圆柱坐标系,提取 Fourier 变换特征以描述行为。
Wang 和 Suter[451 也将整个行为过程 融合为基于轮廓的平均运动形状 (MMS)和基于运动前景的平均运动能量(彳A扭)两个模板模板匹配法计算复杂度低、 实现简单, 但它本身无法描述动态系统, 也不能完全反映数据在空 问上的分布属性,具有一定的局限性而且不同行为之间执行速率的不同、 噪声、 光照等因素都会影响模板匹配的准确性2) 目标建模法 行为可以通过建立人体动态表观模型进行描述常见的人体模型有棍图模型【 109] 、2D 模型例及3D模型513D人体建模是最常用的人体结构表征方法,通过跟踪人体模型中主要 关节点的坐标、关节之间的角度、关节点运动的速度及角速度可以分析人体各种行为 3D模型包含深度信息, 因此它能够有效解决自遮挡和自碰撞问题 行为本身也可以看成是一个 3D空时目标,如Mahmood等【1刁在联合X. Y-T空间将整个行为表示为圆柱体模型 Yalmaz和Shahll31将跟踪获得的人体 2D轮廓堆叠成联合 X. Y-T空间中的目标,这种表达同时刻画 了人体表观及动态运动特性从 X. Y玎空问的表达中提取的各种几何特征,如峰、凹点、谷及脊等, 可以作为目标表面的捕述, 但它需要建立序列帧点与点之间的对应关系。
Gorelick 等【6】采用背景剪除后的二值剪影替代人体轮廓,构造出 X. Y-T空间一上的空时目标,虽然它不需要建立序列 l;!!ji 之间轮廓点之间的对应关系,但仅适用于摄像机固定的情形3) 流形学习法 行为识别中所处理的视频数据处于三维空间, 若将序列中每帧图像转换为向量并按时序排列 构成矩阵处理,将会遭遇“维数灾难” ,同时也会引起小样本问题而流形学习方法假设数 据均匀采样J:高维欧氏空间中的低维流彤,从高维采样数据中恢复低维流形结构,并求出 相应的嵌入映射, 以实现降维 它可分为线性方法及非线性方法 线性流形学习假设数据位 于线性空问,包括 PCA、ICA等方法但在实际情形下,数据并非位于线性空间,需要从大 量样本中学习流形的内部几何结构 非线性流形学习方法大体分为两类, 一类基于全局方法, 如等距映射(届g纠尸),计算每一个数据点与其他数据点关系而建立全连接图另一类方法 基于局部, 即考虑每个数据点与它邻域内的点的关系, 定义图中的边及其权重, 如拉普拉斯 特征映射一些非线性方法的线性近似,如 Lppt48,108l ,加入类别信息的流形方法如LSTDE[491可以直接求得投影矩阵用于解决新样本的低维嵌入问题。
流形学习方法可用于 行为分析中原始数据的降维,采用 NN/kNN、SVM及Boosting等方法对低维空间中的特征数据进行分类可以识别不同行为2. 2 空时体方法(1) 空时滤波法视频数据可以看成由每帧图像按时序构成的空时体, 具有三维空时结构的滤波器可以用来描 述视频数据的空时特性,进而提取行为特征 Chomat和Crowley/" 1从视频中分割出不同的空时体,用方向和空间上的不同尺度及时问上的单一尺度构成的 Gabor 滤波器组在每个像 素点上计算局部表观模型, 通过每帧中单个像素点概率空间的平均值对行为进行识别 为了适应不同的执行速率,Manor等f”在时间上的不同尺度得到空时梯度表示的归一化局部直 方图, 并使用卡方距离度量它与存储模板之间的相似度 滤波器方法虽然实现简单, 但在实 际应用中, 滤波器的合适带宽并非先验已知, 需要不同空间和时间尺度上的滤波器组获取其 动态行为, 且每个滤波器产生的响应与输入体的维数相同, 因此这种方法必须付出较高的计 算代价2) 基于部分的方法视频数据可以看成是局部的集合,其中每个子部分都包含着明显的运动模式 Laptev[111 将Harris 角点检测器扩展到空时表示形式,在不同级别的尺度上计算空时梯度,由每个点及其 邻域内的梯度信息产生空时二阶矩的估计, 从而提取局部特征。
Dollar 等 fl 61 在训练数据中 的空时兴趣点上提取空时梯度,采用 K 均值聚类方法获取特征原型,对视频体进行建模 Niebles 掣"1 从包含空时兴趣点的子体积中提取特征并聚类乍成 Bag. of-Words 模型,采用 SVMs识别各种行为不同的行为可能包含相似的空时子部分,而子部分之间的几何关系却 各不相同 但以上这些方法都不能对局部的全局几何进行建模, 在不同行为之间可能造成歧 义性 Boiman 等 f18 】和 Wong 掣 1 叨将全局几何引入到基于部分的视频体表示,将其看成 是各子部分的星群 当子部分数目较多时, 这种方法的计算量也会相应地增大 Song 等 1201 采用三角化的方法逼近星群之问的连接关系, 从而解决计算花费偏高的问题 Niebles 和 Li[2” 提出一个层级模型,其中较高的层级是各部分的星群,星群中的各部分则由低层 Bag. of-Features 构成基于部分的方法大多需要基于空时兴趣点提取梯度或强度特征,在 比较平滑的运动中, 兴趣点十分稀疏, 在行为本身不连续或视频质量不高的情形下, 梯度或 强度特征也显得不够可靠3) 分体匹配法 分体匹配法一般通过匹配输入视频体与三维模板分体之间的相似度从而对人体行为进行分 析。
与基于部分的方法不同, 它不需要在不同尺度空问中获取行为特征, 而是直接判断其所 包含的局部空时片段(Local Spatio. Temporal Patches)之间的运动相似度来寻求匹配然而, 从视频体分割出分体再进一步得到空时片段, 反复地匹配空时片段之间的相似度, 同样也会 产生巨大的计算花费 Shechtman 和 Irani[221 通过发掘空时运动之间的相关性实现未知行为 数据与模板之间的匹配 Ke掣241通过空间观上的像素点聚类得到分体,分体是空间上的连续区域, 而视频体可以看成是任意形状分体的集合 给定的一段视频被重复分割成多个分 体,将每个分体区域与已知行为的模板相匹配, 寻找与模板达到最大匹配的最少分体的集合Yuan等【51】利用基于贝叶斯的互信息最大化方法将提取的空时兴趣点根据其所属的行为类 别按正/负投票输出, 行为检测即是寻找包含最大投票输出值的分体 分体匹配法容易受到 背景变化的影响, 但对噪声及遮挡等干扰因素则具有一定 征【23】,则可降低这类方法对表 观变化的敏感性4) 基于张量的方法将行为表示为三维空时体, 则可以很自然地作为一个三阶张量, 其中两维表示空间, 另一维 表示时间。
传统的视频处理方法需要将视频中人体行为所在的每帧图像转为向量并按时问顺 序堆叠成矩阵处理,由于矩阵的向量由图像转换而来,一般具有很高的维数,以 100x120大小的图像为例, 对应于矩阵中的向量为 12000 维与这种传统表示相比, 张量以自然地形 式表示数据,既避免造成了维数灾难,又保留了视频数据内部图像的窄问结构信息 Kim 等【25】将典型性相关分析(CCA扩展应用到三阶张量情形,实现测试行为与已知类别行为之 间相关性的直接度量 Vasilescu[261 将行为类别、人的身份及关节轨迹分别作为张量独立的 一维,构成高阶 (三阶或三阶以上 )张量,张量分解为对应的模式则可得到行为类别或行为者 的身份Wblf等[27】把Low. Rank SVM扩展到张量空间并用于行为识别当然,张量方法 也可与其它方法相结合,如凌等【 521采用Tensor PCA、Tensor LPP及有监督的Tensor LPP获取行为的低维特征表示, 进而通过最近邻方法识别各种不同行为 基于张量的方法不需要 中间层表示,比如部分、分体等,直接在行为之间实现整体匹配其它特征如光流场、空时 滤波响应等也可加入到张量框架中, 作为张量空间中任何独立的一维构成高阶张量, 以增强 不同行为之问的可辨识度。
2. 3 参数时序方法 非参数方法和空时体方法一般用于识别简单行为固, 而参数时序法则更适用于复杂行为, 如 芭蕾舞视频中的旋转动作,交响乐中的指挥手势等1 )隐马尔可夫模型 (删)隐马尔可夫模型能够匹配时变数据, 是一种比较常用的状态空问法 它涉及训练和分类两个阶段训练阶段指定模型的隐藏状态数,优化相应的状态转换和输 m 概率,便于产生与特 定行为特征相对应的输出类别符号 分类阶段需要计算 HMM 对应于行为特征的不同测试符 号的概率Yamato等【281对每个行为类别的前景图像序列建模, 能够识别击球、拦网等网球动作随后, HMM 也被广泛用于手势识别‘ 29'301 场景中一般存在着交互式行为,但 HMM 的结构导致它只能为单一的动态过程建模,为解决此问题, Brand 等【 31】提出耦合隐马尔可夫模型 (CoupledHMM) 为多个交互的动态过程进行建模,可以将多个动态过程的特 征空问分解,减少状态个数并降低了算法复杂度 Honggeng 和 Nevatial321 将状态间隔的先 验置信度引入。
