行人检测作为计算机视觉领域最基本的主题之一,多年来被广泛研究。尽管最先进的行人检测器已在无遮挡行人上取得了超过 90% 的准确率,但在严重遮挡行人检测上依然无法达到满意的效果。究其根源,主要存在以下两个难点:
严重遮挡的行人框大部分为背景,检测器难以将其与背景类别区分;
给定一个遮挡行人框,检测器无法得到可见区域的信息;
Tube Feature Aggregation Network(TFAN)新方法,即利用时序信息来辅助当前帧的遮挡行人检测,目前该方法已在 Caltech 和 NightOwls 两个数据集取得了业界领先的准确率。
核心思路
利用时序信息辅助当前帧遮挡行人检测
目前大部分行人检测工作都集中于静态图像检测,但在实际车路环境中大部分目标都处于运动状态。针对严重遮挡行人的复杂场景,单帧图像难以提供足够有效的信息。为了优化遮挡场景下行人的识别,地平线团队提出通过相邻帧寻找无遮挡或少遮挡目标,对当前图像中的遮挡行人识别进行辅助检测。
实验新方法
Proposal tube 解决严重遮挡行人检测
如下图,给定一个视频序列,首先对每帧图像提取特征并使用 RPN(Region Proposal Network)网络生成 proposal 框。从当前帧的某个 proposal 框出发,依次在相邻帧的空间邻域内寻找最相似的proposal框并连接成 proposal tube。
姚霆指出,当前的多模态技术还是属于狭隘的单任务学习,整个训练和测试的过程都是在封闭和静态的环境下进行,这就和真实世界中开放动态的应用场景存在一定的差异性
优酷智能档突破“传统自适应码率算法”的局限,解决视频观看体验中高清和流畅的矛盾
通过使用仿真和量化指标,使基准测试能够通用于许多操作领域,但又足够具体,能够提供系统的有关信息
基于内容图谱结构化特征与索引更新平台,在结构化方面打破传统的数仓建模方式,以知识化、业务化、服务化为视角进行数据平台化建设,来沉淀内容、行为、关系图谱,目前在优酷搜索、票票、大麦等场景开始进行应用
NVIDIA解决方案架构师王闪闪讲解了BERT模型原理及其成就,NVIDIA开发的Megatron-BERT
自然语言处理技术的应用和研究领域发生了许多有意义的标志性事件,技术进展方面主要体现在预训练语言模型、跨语言 NLP/无监督机器翻译、知识图谱发展 + 对话技术融合、智能人机交互、平台厂商整合AI产品线
下一个十年,智能人机交互、多模态融合、结合领域需求的 NLP 解决方案建设、知识图谱结合落地场景等将会有突破性变化
中国移动联合产业合作伙伴发布《室内定位白皮书》,对室内定位产业发展现状及面临的挑战,深入分析了垂直行业的室内定位需求,并详细阐述了实现室内定位的技术原理, 及室内定位评测体系
机器人、无人机、自动驾驶汽车等加快落地,智慧城市深入建设,更是为传感器产业带来了难以估量的庞大机遇
Cosero是德国波恩大学的Sven Behnke团队根据家庭环境中的日常操作任务而研制的一款仿人操作机器人基于深度学习方法的目标姿态估计和RGB-D SLAM等感知测量
机器人的学习分为三个部分的轨迹预测包括示教者的手部运动轨迹、示教者的身体移动轨迹以及被操作物体的运动轨迹
通过2D激光雷达信息采用Hector SLAM实现机器人对地图的感知和自主导航规划,通过顶部的RGB-D相机采集目标物体深度和RGB图像信息