计算机视觉(CV)和自然语言处理(NLP)早先是两个较为独立的研究领域。CV 重点关注如何用计算机代替人眼对目标完成识别、跟踪、测量等任务,对图像进行处理;NLP 则研究计算机如何处理、运用自然语言,包括语言生成、问答、对话等任务。近年来,以深度神经网络为代表的机器学习和模式识别技术被广泛应用于 CV 和 NLP 领域,取得了目前最先进的效果。
近年来,研究者们试图将动作控制也引入到「视觉-语言」任务的框架中。吴琦将此类任务命名为 V3A(Vision, Ask, Answer, Act),在给定视觉输入后,我们希望机器能够提出问题、回答问题、并通过和人以及机器之间的语言交流执行某些动作。
例如,「Vision+Ask」的任务包含视觉问题生成、根据问题生成查询、图像描述等;「Vision+Answer」的任务包含视觉问答、视觉对话等;「Vision+Act」的任务包含指称表达、视觉对齐(visual grounding)、语言引导的视觉导航、具身视觉问答、具身指称表达等。
对于联邦学习技术,数据应用推广的经验,并深入探讨联邦学习在政务,医疗,金融,广告,物流的应用价值,以期为数据应用价值的释放带来解读和参考
DeepTech通过科研数据分析、专家访谈等方式洞悉先进计算领域发展趋势,探寻具备技术颠覆性,有商业化前景的先进计算技术,提炼出 2022 年先进计算技术及应用七大趋势
一种基于水凝胶弹性体混合物的仿生机器皮肤.分为三层结构,中间的水凝胶层构成机器皮肤的主体,可以实现电信号的传递,实现静态和动态触觉的模态识别
基于康复机器人内部传感器识别记录训练过程中的运动学参数,能够实时定量评估不同的运动模式,还能够掌握患者是否主动参与训练等情况
智能机器人视觉方面的工作,主要体现在感知、理解、学习及推理4个方面,涉及到目标检测、目标追踪、人体姿态估计、人脸识别、行为识别、推理等技术
从大型仿人机器人整机构型国内外研究现状入手,围绕机器人整机构型、关节运动特点、伺服驱动器、减速器、仿真平台等方面进行深度讲解,最后就大型仿人机器人整机构型未来发展趋势给出自己的见解
HRI的MTL可以使机器人更轻松,更智能地与新用户进行交互,即使使用诸如RL这样的数据密集型方法,也可以避免社交交互失败的不利影响。MTL和多模态ML已用于自动识别自闭症谱系障碍(ASD)儿童
服务机器人潜在危险有:电击、与能量有关的危险、着火、与热有关的危险、机械危险、辐射、化学危险等
视频搜索是涉及信息检索、自然语言处理(NLP)、机器学习、计算机视觉(CV)等多领域的综合应用场景
驱动系统由4个200W无刷直流电机构成,通过50:1的空心轴减速机可以最高达2m/s的速度在玉米、高粱等农作物的地里前进
通过2D激光雷达信息采用Hector SLAM实现机器人对地图的感知和自主导航规划,通过顶部的RGB-D相机采集目标物体深度和RGB图像信息
机器人的学习分为三个部分的轨迹预测包括示教者的手部运动轨迹、示教者的身体移动轨迹以及被操作物体的运动轨迹
Cosero是德国波恩大学的Sven Behnke团队根据家庭环境中的日常操作任务而研制的一款仿人操作机器人基于深度学习方法的目标姿态估计和RGB-D SLAM等感知测量
机器人、无人机、自动驾驶汽车等加快落地,智慧城市深入建设,更是为传感器产业带来了难以估量的庞大机遇
中国移动联合产业合作伙伴发布《室内定位白皮书》,对室内定位产业发展现状及面临的挑战,深入分析了垂直行业的室内定位需求,并详细阐述了实现室内定位的技术原理, 及室内定位评测体系