常见的人工智能大模型有 NLP(Natural Language Processing,自然语言处理)
大模型、CV(Computer Vision,计算机视觉)大模型和多模态大模型等。
NLP 大模型
现状
分别在语言理解与生成、智能创作、机器翻译、智能对话、知识图谱和定制化语言解决方案落地应用,整体算法发展顺利,
数据源可获得性较强,产品迭代速度较快。
挑战
语言的歧义、文化差异及多样化、情感分析困难。
预期未来发展
以多个数据信息维度约束来验证情感分析及文本分析的准确
性。
CV 大模型
现状
2D 数据工业质检、智慧城市
落地完善,应用场景多、可商
业化市场大,拥有最佳实践;
人脸、OCR 识别发展较为成
熟。
挑战
3D/4D数据识别面临变形、光照、遮挡等可以依靠大规模预训练模型解决部分痛点的问题;算法处理复杂。
预期未来发展
打通数据融合以突破 3D/4D
获取瓶颈。
多模态大模型
现状
面临数据成本高、模型开
发难、算力资源不足等。
挑战
融合不同模态的信息并提高模型的标识能力。
预期未来发展
多模态将持续拓展各行业
场景下的信息融合应用。
从技术的角度来看,大模型发端于自然语言处理领域,继语言模态之后,如视觉大模型
等其他模态的大模型研究,也开始逐步受到重视。2023 年,是人工智能大模型快速发展的
一年,据不完全统计,国内公开的 AI 大模型数量已经超过 200 个,但国内大模型的能力与
迭代速度距离国际先进水平尚有差距。目前,人工智能技术的发展正面临着大量跨模态任务
的挑战,跨多个模态的数据融合问题开始变成行业探究的重点。随着国内人工智能企业和人
形机器人企业加大合作力度,未来在大模型的赋能下,机器人拥有了更加智慧的大脑,自主
学习能力大幅提升
NLP 大模型是人工智能领域的重要研究方向,CV大模型是指基于深度学习的计算机视觉模型,多模态大模型是指将文本、图像、视频、音频等多模态信息联合起来进行训练的模型
机器人大脑提高人形机器人的人-机-环境共融交互能力,支撑全场景落地应用;机器人小脑提升人形机器人非 结构化环境下全身协调鲁棒移动、灵巧操作及人机交互能力
英伟达 GR00T让人形机器人理解自然语言文本,语音,视频,以模仿人类运动;阿里云机器人大模型可赋予机器人知识库问答,工艺流程代码生成,机械臂轨迹规划,3D目标检测和动态环境理解等全方位能力
纯视觉方案:成本低,技术成熟度高,产业链成熟度高,符合人眼逻辑;易受天气影响,易受光照影响,算力需求较高,需要大量图像训练集;激光雷达方案:识别率高,环境适应力强,产业链成熟度高
摄像头可实现测距,但精度较低,通过 AI 算法识别,但难 以识别非标准障碍物;毫米波雷达纵向精度高,横 精度低;激光雷达是高精度,3D 建模,易识别;
本田 ASIMO由四个运行着 VxWorks 实时操作系统的处理器构成;欧洲 ICUB使用名为 ARCHER 的学习型算法体系;特斯拉 Optimus用Optimus 的神经网络
人形机器人将实现从0到1量产,根据我们测算,2025年和2030年全球人形机器人市场规模 分别有望达到1.4亿元和249.5亿元,2025-2030年全球人形机器人CAGR有望达到182%
人形机器人灵巧手进行抓取动作,空心杯电机为核心部件;信号解析 汇总执行 输出转速 (高速、低扭矩) 降速增扭 直线传动转 换为旋转传 动 驱动传导 感知及力 反馈
旋转执行器分布于肩部、手部等多自由度关节,作用是将某物旋转到一定角度完成旋转运动;驱动关节完成旋转动作,减速器为核心部件
线性执行器位于膝肘等单自由度及腕踝等双自由度关节,将电机旋转运动转为直线运动;变旋转运动为直线运动,行星滚柱丝杠为核心部件
人形机器人感知系统成本占比7.3%,执行系统成本占比53.2%;线性执行器成本占比31.0%;旋转执行器成本占比17.9%;其他成本占比39.5%
执行系统BOM占比最高,约53.2%(其中直线、旋转、手部分别 占31.0%、17.9%、4.3%);感知系统占7.3%,其他芯片、电池等部件合计占比39.5%