机器人通过收集大量触觉数据来识别物体的方法存在一定的限制。一方面机器人触觉传感器收集大量物体的触觉数据过程资源耗费大,另一方面日常生活能接触到的物体种类庞大。近期在IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS发表的一篇《A Deep Learning Framework forTactile Recognition of Known as Well as Novel Objects》文章中提出了一种基于卷积神经网络的综合触觉识别框架,它可以利用对象的语义属性描述和触觉数据的融合来实现对新对象的识别。相对于传统学习方法有较大优势,因为语义信息更容易获得,可以由人工[1]提供,也可以从语义数据库(如Wikipedia[2])自动挖掘。
1、机器人触觉识别总体框架
文中设计的总体识别框架,如图1所示。首先从触觉数据出发,可以将一个物体识别为一个已知的物体(之前接触过的)或一个新的物体。已知对象的识别是利用训练数据构建的多类分类器来实现的,而新奇对象的识别依赖于基于属性的ZSL方法。此外,通过一次学习(one-shotlearning, OSL),只从一个训练样本开始,就可以实现触觉数据的合成。
2. 特征生成器G
用训练集训练一个包含CONVXF和FCFY的神经网络CNNXY对Y进行分类。利用语义属性向量训练一个反卷积神经网络G来合成触觉特征。为提高特征生成器G的品质,使合成的触觉特征尽可能接近从真实触觉数据中提取的特征。文中加入另一个卷积神经网络D来对抗训练G,其中D用来区分合成触觉特征或者真实的触觉特征。利用训练好的G,合成触觉特征。
3. 平台搭建
文中使用语义属性集:A ={吸收性、凹凸性、可压缩性、冷热、模糊性、硬的、多毛的、金属的、多孔的、粗糙的、光滑的、柔软的、固体的、有弹性的、湿软的、有纹理的、厚的}。使用公开的PHAC-2数据集,该数据集包含60种物体每一种都在[4]中进行了10次试验。数据通过SynTouch BioTac触觉传感器获得。对BioTac读数进行预处理,并按照[5]中使用BioTac读数对A中包含的属性进行二元分类,获得了一个由6000个样本组成的原始触觉数据集(60种物体每种10个样本进行10次试验)。
文中随机选择6个对象作为Z,54个作为Y,为了确保系统对Y和Z选择具有鲁棒性,这个随机过程重复了七次以生成不同的Z和Y。表1为文中使用的网络架构。FCFY和FCFZ都是单层全连接网络。在卷积层之后是针对非线性的ReLU激活函数。卷积层和全连接层的权值都使用Xavier方法[6]进行初始化,所有反卷积层都使用Gaussian初始化器进行初始化。文中用softmax函数和多项式逻辑损失训练完全连接层,用交叉熵损失训练D。
4. 实验评估
1)目标分类
图2给出了PHAC-2对象及其属性的例子,以及split 1的测试对象。虽然测试对象(用蓝色框起来)在语义上与训练对象不同,但是这两个集合共享相同的属性,每个测试对象都有区别于其他对象的属性向量。验证了Z和Y之间的共享属性,验证了中每个对象的属性向量的唯一性,从而允许使用文中框架来执行ZSL。
图2 PHAC-2对象及其属性示例
2)已知对象的多重分类
从每个中随机选取10个样本作为测试数据,剩下的90个样本用于训练CNNXY。表2表示了该框架达到的识别精度。我们可以看到,识别精度是非常高的。这个结果很重要,因为它影响了CONVXF的训练,从而也影响了对新对象的识别。
表2 的多类分类的识别精度(%)
3)合成触觉特征的评估
如果缺少真实的训练数据,则利用合成的特征来训练识别系统。因此,可以单独使用合成特征对框架进行训练并使用真实特征进行测试,以未知目标识别的准确性程度来评估合成触觉特征的质量。在表3中,测试了在使用真实触觉特征和使用合成触觉特征替代真实触觉特征这两种情况下,系统的识别表现。
表3 使用每个类0、10、50、90或100个样本训练FCFZ后,多类分类(真实触觉特征训练)和ZSL(合成触觉特征)的识别准确率(%)
从表4中很明显看到,使用真实触觉特征进行训练的效果明显优于合成触觉特征训练。但是,在没有真实触觉信息可用的情况下,多类分类器是无法区分对象的,会按平均概率进行分类。然而,对于所有的对象分类,ZSL却可以给出一个高于概率的分类精度。还有,增加训练的合成触觉特征样本数量并不会提高准确度,这可能是因为每个类的合成触觉特征都是由相同的属性向量(通过添加少量的噪声)合成的,这种相似性,为一个对象生成多个特征会导致过拟合。文中还分析了使用对抗神经网络的必要性,如果跳过算法2和仅使用算法1训练生成器,那么系统性能会下降,这是因为合成的触觉数据与真实触觉数据有较大差别。
表4有GAN和无GAN的ZSL识别精度(%)
5. 总结
这篇论文设计了一个触觉识别框架,利用触觉数据能够识别已知和未知对象。在对未知对象的识别分类上,精度达到36%,这是传统训练模式达不到的。此外,该框架有效利用输入的数据,如果有足够的数据可用时,可以达到较高的多类分类精度。该框架仍然存在一些限制,首先领域移位问题[7]和语义属性空间与触觉特征空间的相关性限制了对新对象的识别。此外该框架能够识别的新类集合必须是已知的,添加新类需要修改FCFZ的输出层,同理添加新属性需要修改的输入层。此外,文中使用了由[4]设计的语义二进制属性。探讨非语义属性和实值属性可以提高[8]、[9]识别的准确性和泛化能力。最后,文中只根据触觉数据来识别物体,可以结合视觉进一步拓展,如在[10],[11]。考虑到CNN在图像识别和生成[12]方面的良好表现,视触觉融合识别可以显著提高识别性能,这是非常有研究价值的。
机器人公司 机器人应用 智能医疗 物联网 机器人排名 机器人企业 教育机器人 机器人开发 独角兽 消毒机器人品牌 消毒机器人 |