从斯坦福大学的 VIMA 机器人智能体,到谷歌 DeepMind 推出首个控制机器人的视觉 - 语言 - 动作(VLA)的模型 RT-2,大模型加持的机器人研究备受关注。
当前,自监督和语言监督的图像模型已经包含丰富的世界知识,这对于泛化来说非常重要,但图像特征是二维的。我们知道,机器人任务通常需要对现实世界中三维物体的几何形状有所了解。
基于此,来自 MIT CSAIL 和 IAIFI 的研究者利用蒸馏特征场(Distilled Feature Field,DFF),将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来,让机器人能够利用 2D 基础模型中丰富的视觉和语言先验,完成语言指导的操作。
论文地址://arxiv.org/abs/2308.07931
具体来说,该研究提出了一种用于 6-DOF 抓取和放置的小样本学习方法,并利用强大的空间和语义先验泛化到未见过物体上。使用从视觉 - 语言模型 CLIP 中提取的特征,该研究提出了一种通过开放性的自然语言指令对新物体进行操作,并展示了这种方法泛化到未见过的表达和新型物体的能力。
研究团队用一个讲解视频详细介绍了 F3RM 方法的技术原理:
运动控制器以传感器为信号敏感元件,以电机或动力装置和执行单元为控制对象的一种控制装置,为电机或其它动力和执行装置提供正确的控制信号
典型的机器人电子电气结构主要由以下部分组成, 电源管理,环境感知,中央控制单元,电机控制,人机界面, 可选组件和其他应用
通过动力元件推动工作介质(液体或气体)在缸体内产 生压力差而驱动执行元件,与其他驱动方式相比,液压和气压驱动具有输出功率密度大,易于实现远距离控制以及输出力大等优点
微型驱动器和减速器的发展为手指驱动系统的微型化和集成化创造了条件,其直线驱动器将旋转电机,旋转直线转换结构和减速机都集成在灵巧手内部
混合置式灵巧手将一部分驱动器放在手臂,既保证了驱动力,也降低了灵巧手本体的体积, 使得灵巧手更加拟人化
驱动器内置式灵巧手各关节具有较好的刚性,更利于传感器的直接测量,且模块化设计利于更换维护;整手尺寸较大,关节灵活度下降
灵巧手的外观设计更加拟人化,手指本体更加纤细;可以采用更大的驱动电机,从而增大手指的输出力;驱动器与手本体之间距离远增加了控制器设计的难度
第一阶段是从 20 世纪 70 年代—20 世纪 90 年代,典型代表是日本的 Okada、美国的 Stanford/JPL 和 Utah/MIT;第二阶段是从 20 世纪 90 年代到 2010 年
灵巧手是机器人操作和动作执行的末端工具,满足两个条件:指关节运动时能使物体产生任意运动,指关节固定时能完全限制物体的运动,定义灵巧手是指数≥3,自由度≥9 的末端执行器
特斯拉公布了 6 种规格的执行器,旋转执行器采用谐波减速器+电机的方案,线性执行器采用丝杠+电机的方案,对于手掌关节,其采用了空心杯电机+蜗轮蜗杆的结构
人形机器人有更强的柔性化水平,更好的环境感知能力和判断能力,首要需要解决的问题是如何实现像人一样去运动,能够兼顾可靠性
28个执行器分别为肩关节(单侧三自由度旋转关节)6个,肘关节(单侧直线关节)2个,腕部关节(单侧2个直线+1个旋转)6个,腰部(二自由度旋转关节)2个