计算机视觉的一大研究热点是人体姿态估计,还有很多问题急需解决,比如遮挡,交互等等。在最近的CVPR2020里边也有很多这方面的工作。本文站长主要是想谈谈基于深度学习的实时多人姿态估计。
人体姿态估计要干嘛?
关于人类活动规律的研究,必定是计算机视觉领域首要关注的内容。其中,人体姿态估计便是计算机视觉领域现有的热点问题,其主要任务是让机器自动地检测场景中的人“在哪里”和理解人在“干什么”。
随着信息化时代的迅速发展,人类每时每刻都在通过多种多样的手段和途径获得海量的可视化图像数据,这使得基于自然场景图像的人姿态估计研究在现实生活中拥有很多潜在的应用价值。图1展示了自然场景图像中人体姿态估计的研究应用。
Fig.1: 自然场景图像人体姿态估计的研究应用
在信息化的时代,视频监控正在银行、超市以及公安机关等关乎人民财产、人身安全的重要场所发挥着举足轻重的角色。面对海量的视频图像序列,为了及时地制止现场事故的进一步发生,工作人员必须长时间且精神高度集中地观察视频监控画面并对异常事件作出处理。
除了工作人员很难长时间地保持高度警惕外,长期投入大量的人力来监测小概率发生的事件也不是单位机构提倡的做法。因此,实现视频监控的智能化成为一种互联网时代的必然趋势。但是,实现智能视频监控的前提条件是让机器自动地识别视频图像序列中的人体姿态,从而进一步分析视频图像中人类的行为活动。
这就涉及到了我们下面所要说的人体行为分析了。
人体行为分析又为那般?
人体行为分析理解成为了近几年研究的热点之一。在人体行为分析理解的发展过程中,研究人员攻克了很多技术上的难关,并形成了一些经典算法,但仍有很多尚未解决的问题。从研究的发展趋势来看,人体行为分析的研究正由采用单一特征、单一传感器向采用多特征、多传感器的方向发展。而人体姿态估计作为人体行为识别的一个重要特征,是进行人体行为分析的基础,是人体行为分析领域备受关注的研究方向之一。
人体姿态估计是指从图像中检测人体各部分的位置并计算其方向和尺度信息。人体行为分析是基于多帧图像的前后关系进行分析理解,而人体姿态识别是针对单帧静态图像进行处理。正确识别出多帧连续的静态图像的姿态信息,为实现正确的行为分析理解提供了可能。因此,人体姿态估计的准确性与实时性直接影响人体行为分析的准确性和实时性,确保实时准确的姿态识别是进行下一步行为分析的基础。
现在,我们的人体姿态估计课题的发展已越来越贴近实际,例如在步态分析、人机交互以及视频监控等领域,人体姿态估计均具有广泛的应用前景。所以呢,研究人体姿态估计还是蛮有意思的,好玩 !
当前姿态估计算法有哪些?
目前主流的人体姿态估计算法可以划分为传统方法和基于深度学习的方法。
基于传统方法的人体姿态估计
传统方法一般是基于图结构和形变部件模型,设计2D人体部件检测器,使用图模型建立各部件的连通性,并结合人体运动学的相关约束不断优化图结构模型来估计人体姿态。
其缺点是什么?
First,传统方法虽然拥有较高的时间效率,但是由于其提取的特征主要是人工设定的HOG和SHIFT特征,无法充分利用图像信息,导致算法受制于图像中的不同外观、视角、遮挡和固有的几何模糊性。同时,由于部件模型的结构单一,当人体姿态变化较大时,部件模型不能精确地刻画和表达这种形变,同一数据存在多个可行的解,即姿态估计的结果不唯一,导致传统方法适用范围受到很大限制。
Second,另一方面,传统方法很多是基于深度图等数字图像提取姿态特征的算法,但是由于采集深度图像需要使用专业的采集设备,成本较高,所以很难适用于所有的应用场景,而且采集过程需要同步多个视角的深度摄像头以减小遮挡问题带来的影响,导致人体姿态数据的获取过程复杂困难。因此这种传统的基于手工提取特征,并利用部件模型建立特征之间联系的方法大多数是昂贵和低效的。
基于深度学习的人体姿态估计算法
随着大数据时代的到来,深度学习在计算机视觉领域得到了成功的应用。因此,考虑如何将深度学习用于解决人体姿态估计问题,是人体姿态估计领域的学者们继图结构模型后所要探索的另一个重点。早期利用深度学习估计人体姿态的方法,都是通过深度学习网络直接回归出输入图像中关节点的坐标。
总结
六阶段双分支网络结构在关节点预测精度上略高于现有传统的的人体姿态估计算法。本次站长采用的算法利用自底向上的思想,首先预测出所有骨点位置,并将骨点连接形成图结构,通过图优化实现多人体姿态估计。算法运行效率方面,由于网络同时预测出关节点位置和关节点之间的空间关系,为多人姿态估计算法提供更加稀疏的二分图,降低二分图优化复杂度而达到了实时的效果。
机器人公司 机器人应用 智能医疗 物联网 机器人排名 机器人企业 教育机器人 机器人开发 独角兽 消毒机器人品牌 消毒机器人 |