计算机视觉(CV)和自然语言处理(NLP)早先是两个较为独立的研究领域。CV 重点关注如何用计算机代替人眼对目标完成识别、跟踪、测量等任务,对图像进行处理;NLP 则研究计算机如何处理、运用自然语言,包括语言生成、问答、对话等任务。近年来,以深度神经网络为代表的机器学习和模式识别技术被广泛应用于 CV 和 NLP 领域,取得了目前最先进的效果。
近年来,研究者们试图将动作控制也引入到「视觉-语言」任务的框架中。吴琦将此类任务命名为 V3A(Vision, Ask, Answer, Act),在给定视觉输入后,我们希望机器能够提出问题、回答问题、并通过和人以及机器之间的语言交流执行某些动作。
例如,「Vision+Ask」的任务包含视觉问题生成、根据问题生成查询、图像描述等;「Vision+Answer」的任务包含视觉问答、视觉对话等;「Vision+Act」的任务包含指称表达、视觉对齐(visual grounding)、语言引导的视觉导航、具身视觉问答、具身指称表达等。
资料获取 | |
服务机器人在展馆迎宾讲解 |
|
新闻资讯 | |
== 资讯 == | |
» 人形机器人未来3-5年能够实现产业化的方 | |
» 导诊服务机器人上岗门诊大厅 助力医院智慧 | |
» 山东省青岛市政府办公厅发布《数字青岛20 | |
» 关于印发《青海省支持大数据产业发展政策措 | |
» 全屋无主灯智能化规范 | |
» 微波雷达传感技术室内照明应用规范 | |
» 人工智能研发运营体系(ML0ps)实践指 | |
» 四驱四转移动机器人运动模型及应用分析 | |
» 国内细分赛道企业在 AIGC 各应用场景 | |
» 国内科技大厂布局生成式 AI,未来有望借 | |
» AIGC领域相关初创公司及业务场景梳理 | |
» ChatGPT 以 GPT+RLHF 模 | |
» AIGC提升文字 图片渗透率,视频 直播 | |
» AI商业化空间前景广阔应用场景丰富 | |
» AI 内容创作成本大幅降低且耗时更短 优 | |
== 机器人推荐 == | |
服务机器人(迎宾、讲解、导诊...) |
|
消毒机器人排名 导览机器人 |