xc体育官网-无穿戴AI动作分析训练系统_xc运动科技责任有限公司

基于视觉的人体运动分析论文1
栏目:公司动态 发布时间:2026-03-21
   实[3]和基于内容的视频检索与解说[4,5]等方面有着广泛的应用前景和潜在的  andmonitoring)[6],主要研究用于战场及普通民用场景监控的

  

基于视觉的人体运动分析论文1(图1)

  实[3]和基于内容的视频检索与解说[4,5]等方面有着广泛的应用前景和潜在的

  andmonitoring)[6],主要研究用于战场及普通民用场景监控的自动视频理解

  技术;实时视觉监控系统W4[7]不仅能够定位和分割出人的身体部分以及实现多

  人跟踪,而且能检测人是否携带物体等简单行为;1999年欧盟Framework5程序

  委员会设立重大项目ADVISOR系统[8],旨在开发一个公共交通(如地铁、机场)

  的安全管理系统,它覆盖了人群和个人的行为模式分析、人机交互等研究;2000

  强国防、民用等场所抵御恐怖袭击的能力;英国雷丁大学(UniversityofReading)

  等;此外还有能够对人进行跟踪与行为理解的实时系统Pfinder(person

  finder)[11],由欧盟和奥地利科学基金会共同资助的大型视频监控技术研究项

  动化所模式识别国家重点实验室[13]、亚洲微软研究院[14]、北京大学视觉与听

  觉信息处理国家重点实验室[15]以及清华大学等对人视觉分析关键技术进行了

  深入的研究。在学术方面,一些国际权威期刊如PAMI、IP、IJCV、CVIU、IVC

  和重要的学术会议如CVPR、ICCV和ICPR等将智能化视频监控技术研究,尤其是

  踪人,并对其行为进行理解与描述。其中运动检测[16~18]、目标分类[19]、跟

  踪[20~23]属于视觉分析中的底层和中层处理部分(有兴趣的读者可参考文献

  [24~28]);而行为理解和描述是经过对运动对象的连续跟踪观察,分析识别目

  可见,关于人行为理解研究的会议文章从2002年起急剧增加,并且到2005和

  2006年每年发表的会议论文均保持在70篇以上;期刊文章从2003年也开始大

  幅增加,尤其是2007年前5个月的文章数量就超过2005年全年的数量并接近

  2006年全年发表的数量。行为理解已经成为了未来研究的前瞻性方向之一。因

  理解世界[29],也就是通过视觉观察来分析和理解人类活动及场景信息等。行为

  运动表征、行为识别、高层行为与场景理解等几个基本过程[30~33](图2)。

  Hu[27]等人对行为理解的方法有所阐述,但他们都是简单性地总结分析其方法,

  (如形状信息包括侧影、轮廓,运动信息包括位置、速度、方向等)描述人运动,

  表1为2000—2007年400多篇关于行为理解研究的权威期刊与重要国际会

  其比例均保持在30%以上。另外,时空特征在行为理解研究中开始得到越来越广

  基于外观形状特征[34~42]方法是先利用人体几何结构、轮廓或姿态以及区

  特征方法[43~47]则没有利用有关人体结构的任何形状信息,而是直接从图像序

  势,研究人员采用两者的混合特征[49~51]识别人的行为。此外,时空特征[52~57]

  用人体运动参数限制条件和最优策略如最小帄方[58]或随机采样策略如粒子滤

  波[59,60]等方法最小化损失函数来求得当前的运动姿态。常用的模型结构可以

  分为矩形框、棍棒形状[61]、二维轮廓[38]和3D立体模型[58]。基于模型方法

  [62])。常用的形状分析方法有质心—边界距离[34,36]、傅里叶描述符[41]、

  形状上下文[42]和统计形状分析[32,35,63,64]等。其中,质心—边界距离方法

  边界点相交,造成细节的丢失。Poppe等人[41]提出用傅里叶描述算子恢复人姿

  很好。Mori和Malik[42]则提出用形状上下文[65]描述算子表征人体侧影形状来

  状上下文描述算子不同的是,Hu[66]提出一种基于区域的不变矩理论,并构造出

  模式识别中。Poppe和Poel[67]对傅里叶描述算子、形状上下文和不变矩三种算

  状上下文直方图在形变侧影描述上比Hu更具有优势。20 世纪70年代后期,

  Dryden等人[63]提出的统计形状理论发展成一种用形状概率分布分析物体形状

  的实用统计方法,并且在图像分析、目标识别等领域得到广泛应用。文献[64]

  Procrustes均值形状作为极点,构造一个与数据集近似的线性空间——切空间;

  N.Vaswani等人[68]提出用形状变化的动态特性来建模和分类动作;Liu等人[69]

  统计形状理论,Veeraraghavan等人[35]提出用自回归模型(AR)和帄稳自回归

  模型(ARMA)学习形状变化的动态特性,并用模型之间的距离量测作为两个形状

  角影响大,所以许多学者[58,70~72]研究基于多视角环境中人的行为分析和识别。

  动匹配[43,45,73],思想是在一帧图像中提取出兴趣点或区域、典型特征,并且

  [44,46,47,74]。与运动轨迹不同的是,光流法是计算空间运动物体表面上像素

  外观形状特征跟踪问题[75,76](自遮挡、重新初始化、外观改变、运动信息缺

  乏等)等。所以近年来时空特征在行为识别中得到了大量的使用[52~57]。Bobick

  和Davis[52]集合时空运动特征,提出了用运动历史图(MHIs)和运动能量图

  (MEIs)来描述运动。其中运动历史图反映运动是怎么产生的,而运动能量图反

  帧分组(frame grouping)来描述运动信息。用迭代滤波方法对视频序列中的每

  为动作的能力有限。所以研究人员[56~58]通过采用融合两种特征的方法来对人

  被测试序列的识别结果。Bobick和Davis[52]将图像序列目标运动信息转换成运

  动能量图像(MEI)和运动历史图像(MHI),采用马氏距离度量测试序列与模板之间

  的相似性;Masoud等人[53]则采用无限冲击响应滤波器来描述运动,并将其投

  影到特征空间,然后用Hausdorff距离度量测试序列与参考序列之间的相似性。

  此外,还有学者采用Procrustes距离[50]来度量测试序列与模板之间的相似性。

  对运动的时分限制条件进行建模,鲁棒性较差。为此,Veeraraghavan等人[35]

  时变数据序列匹配方法,常用于微生物学的DNA匹配、字符串和符号的比较以及

  语音分析[77]。DTW算法的思想是给定参考模板特征矢量序列与输入特征矢量序

  间轴上总的累计失真最小。对DTW而言,即使测试序列模式与参考序列模式的时

  考序列之间的模式匹配。DTW具有概念简单、算法鲁棒的优点,能够对图像序列

  进行分类。文献[35]在形状空间中用动态时间规整方法计算两个形状序列之间的

  距离来识别动作和步态,取得了很好的分类结果。然而,DTW算法计算量较xc体育大,

  基于状态转移图模型方法[78,79]是将每个静态姿势或运动状态作为图中的

  程。常用于行为理解的图模型方法有隐马尔可夫及其改进模型[80~95]、动态贝

  与DTW相比,隐马尔可夫模型是一种更加成熟的匹配时变数据的技术。HMMs

  状态构成的隐过程决定,是一种随机状态机。HMMs的使用涉及到训练和分类两

  图像特征相匹配。受HMMs在语音数据分析[80]成功应用的影响,研究人员将HMMs

  用于视觉识别[73,81~83]。Bregler[81]基于人体动力学在不同抽象等级的统计

  支撑,一个是腿在空中的摆动);在高层处理阶段,HMMs被用来作为这些中级

  动力系统的混合模型以表达复杂的运动,识别过程通过最大化HMMs的后验概率

  来完成。实验表明,在学习能力和处理未分割的连续数据流方面,HMMs比DTW

  计(Baum Welch 算法);对观测矩阵的初始值比较敏感,如果初始值选择不

  层与共享结构。为了识别复杂动作与人们之间的交互行为,Brand等人[84]提出

  模行为中两个相互关联的随机过程,并用CHMM对手势进行识别。结果表明,与传

  统HMMs相比,CHMM具有更好的分类效果,计算速度快,而且对初始条件不敏感。

  Fine等人[87]为处理自然序列中复杂的多尺度结构,提出了层级隐马尔可夫模

  的结构,所以能够更为清楚地表达出人运动中不同层次的行为细节。Nguyen等人

  [88,89]采用HHMM识别人的行为,并取得了很好的分类效果。此外还有抽象隐马

  由于HMMs不能有效处理三个或三个以上独立的过程[86],学者提出了HMMs