
实[3]和基于内容的视频检索与解说[4,5]等方面有着广泛的应用前景和潜在的
andmonitoring)[6],主要研究用于战场及普通民用场景监控的自动视频理解
技术;实时视觉监控系统W4[7]不仅能够定位和分割出人的身体部分以及实现多
人跟踪,而且能检测人是否携带物体等简单行为;1999年欧盟Framework5程序
委员会设立重大项目ADVISOR系统[8],旨在开发一个公共交通(如地铁、机场)
的安全管理系统,它覆盖了人群和个人的行为模式分析、人机交互等研究;2000
强国防、民用等场所抵御恐怖袭击的能力;英国雷丁大学(UniversityofReading)
等;此外还有能够对人进行跟踪与行为理解的实时系统Pfinder(person
finder)[11],由欧盟和奥地利科学基金会共同资助的大型视频监控技术研究项
动化所模式识别国家重点实验室[13]、亚洲微软研究院[14]、北京大学视觉与听
觉信息处理国家重点实验室[15]以及清华大学等对人视觉分析关键技术进行了
深入的研究。在学术方面,一些国际权威期刊如PAMI、IP、IJCV、CVIU、IVC
和重要的学术会议如CVPR、ICCV和ICPR等将智能化视频监控技术研究,尤其是
踪人,并对其行为进行理解与描述。其中运动检测[16~18]、目标分类[19]、跟
踪[20~23]属于视觉分析中的底层和中层处理部分(有兴趣的读者可参考文献
[24~28]);而行为理解和描述是经过对运动对象的连续跟踪观察,分析识别目
可见,关于人行为理解研究的会议文章从2002年起急剧增加,并且到2005和
2006年每年发表的会议论文均保持在70篇以上;期刊文章从2003年也开始大
幅增加,尤其是2007年前5个月的文章数量就超过2005年全年的数量并接近
2006年全年发表的数量。行为理解已经成为了未来研究的前瞻性方向之一。因
理解世界[29],也就是通过视觉观察来分析和理解人类活动及场景信息等。行为
运动表征、行为识别、高层行为与场景理解等几个基本过程[30~33](图2)。
Hu[27]等人对行为理解的方法有所阐述,但他们都是简单性地总结分析其方法,
(如形状信息包括侧影、轮廓,运动信息包括位置、速度、方向等)描述人运动,
表1为2000—2007年400多篇关于行为理解研究的权威期刊与重要国际会
其比例均保持在30%以上。另外,时空特征在行为理解研究中开始得到越来越广
基于外观形状特征[34~42]方法是先利用人体几何结构、轮廓或姿态以及区
特征方法[43~47]则没有利用有关人体结构的任何形状信息,而是直接从图像序
势,研究人员采用两者的混合特征[49~51]识别人的行为。此外,时空特征[52~57]
用人体运动参数限制条件和最优策略如最小帄方[58]或随机采样策略如粒子滤
波[59,60]等方法最小化损失函数来求得当前的运动姿态。常用的模型结构可以
分为矩形框、棍棒形状[61]、二维轮廓[38]和3D立体模型[58]。基于模型方法
[62])。常用的形状分析方法有质心—边界距离[34,36]、傅里叶描述符[41]、
形状上下文[42]和统计形状分析[32,35,63,64]等。其中,质心—边界距离方法
边界点相交,造成细节的丢失。Poppe等人[41]提出用傅里叶描述算子恢复人姿
很好。Mori和Malik[42]则提出用形状上下文[65]描述算子表征人体侧影形状来
状上下文描述算子不同的是,Hu[66]提出一种基于区域的不变矩理论,并构造出
模式识别中。Poppe和Poel[67]对傅里叶描述算子、形状上下文和不变矩三种算
状上下文直方图在形变侧影描述上比Hu更具有优势。20 世纪70年代后期,
Dryden等人[63]提出的统计形状理论发展成一种用形状概率分布分析物体形状
的实用统计方法,并且在图像分析、目标识别等领域得到广泛应用。文献[64]
Procrustes均值形状作为极点,构造一个与数据集近似的线性空间——切空间;
N.Vaswani等人[68]提出用形状变化的动态特性来建模和分类动作;Liu等人[69]
统计形状理论,Veeraraghavan等人[35]提出用自回归模型(AR)和帄稳自回归
模型(ARMA)学习形状变化的动态特性,并用模型之间的距离量测作为两个形状
角影响大,所以许多学者[58,70~72]研究基于多视角环境中人的行为分析和识别。
动匹配[43,45,73],思想是在一帧图像中提取出兴趣点或区域、典型特征,并且
[44,46,47,74]。与运动轨迹不同的是,光流法是计算空间运动物体表面上像素
外观形状特征跟踪问题[75,76](自遮挡、重新初始化、外观改变、运动信息缺
乏等)等。所以近年来时空特征在行为识别中得到了大量的使用[52~57]。Bobick
和Davis[52]集合时空运动特征,提出了用运动历史图(MHIs)和运动能量图
(MEIs)来描述运动。其中运动历史图反映运动是怎么产生的,而运动能量图反
帧分组(frame grouping)来描述运动信息。用迭代滤波方法对视频序列中的每
为动作的能力有限。所以研究人员[56~58]通过采用融合两种特征的方法来对人
被测试序列的识别结果。Bobick和Davis[52]将图像序列目标运动信息转换成运
动能量图像(MEI)和运动历史图像(MHI),采用马氏距离度量测试序列与模板之间
的相似性;Masoud等人[53]则采用无限冲击响应滤波器来描述运动,并将其投
影到特征空间,然后用Hausdorff距离度量测试序列与参考序列之间的相似性。
此外,还有学者采用Procrustes距离[50]来度量测试序列与模板之间的相似性。
对运动的时分限制条件进行建模,鲁棒性较差。为此,Veeraraghavan等人[35]
时变数据序列匹配方法,常用于微生物学的DNA匹配、字符串和符号的比较以及
语音分析[77]。DTW算法的思想是给定参考模板特征矢量序列与输入特征矢量序
间轴上总的累计失真最小。对DTW而言,即使测试序列模式与参考序列模式的时
考序列之间的模式匹配。DTW具有概念简单、算法鲁棒的优点,能够对图像序列
进行分类。文献[35]在形状空间中用动态时间规整方法计算两个形状序列之间的
距离来识别动作和步态,取得了很好的分类结果。然而,DTW算法计算量较xc体育大,
基于状态转移图模型方法[78,79]是将每个静态姿势或运动状态作为图中的
程。常用于行为理解的图模型方法有隐马尔可夫及其改进模型[80~95]、动态贝
与DTW相比,隐马尔可夫模型是一种更加成熟的匹配时变数据的技术。HMMs
状态构成的隐过程决定,是一种随机状态机。HMMs的使用涉及到训练和分类两
图像特征相匹配。受HMMs在语音数据分析[80]成功应用的影响,研究人员将HMMs
用于视觉识别[73,81~83]。Bregler[81]基于人体动力学在不同抽象等级的统计
支撑,一个是腿在空中的摆动);在高层处理阶段,HMMs被用来作为这些中级
动力系统的混合模型以表达复杂的运动,识别过程通过最大化HMMs的后验概率
来完成。实验表明,在学习能力和处理未分割的连续数据流方面,HMMs比DTW
计(Baum Welch 算法);对观测矩阵的初始值比较敏感,如果初始值选择不
层与共享结构。为了识别复杂动作与人们之间的交互行为,Brand等人[84]提出
模行为中两个相互关联的随机过程,并用CHMM对手势进行识别。结果表明,与传
统HMMs相比,CHMM具有更好的分类效果,计算速度快,而且对初始条件不敏感。
Fine等人[87]为处理自然序列中复杂的多尺度结构,提出了层级隐马尔可夫模
的结构,所以能够更为清楚地表达出人运动中不同层次的行为细节。Nguyen等人
[88,89]采用HHMM识别人的行为,并取得了很好的分类效果。此外还有抽象隐马
由于HMMs不能有效处理三个或三个以上独立的过程[86],学者提出了HMMs