近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器 智能的边界,展现出通用人工智能的“曙光”。如何准确、客观、全 面衡量当前大模型能力,成为产学研用各界关注的重要问题。设计合 理的任务、数据集和指标,对大模型进行基准测试,是定量评价大模 型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平, 指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管 治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智 能技术产业发展的重要抓手。全球主要学术机构和头部企业都十分重 视大模型基准测试,陆续发布了一系列评测数据集、框架和结果榜单, 对于推动大模型技术发展产生了积极作用。然而,随着大模型能力不 断增强和行业赋能逐渐深入,大模型基准测试体系还需要与时俱进, 不断完善。
本研究报告首先回顾了大模型基准测试的发展现状,对已发布的 主要大模型评测数据集、体系和方法进行了梳理,分析了当前基准测试存在的问题和挑战,提出了一套系统化构建大模型基准测试的框架 —— “方升”大模型基准测试体系,介绍了基于“方升”体系初步开 展的大模型评测情况,并对未来大模型基准测试的发展趋势进行展望。 面向未来,大模型基准测试仍存在诸多开放性的问题,还需要产学研 各界紧密合作,共同建设大模型基准测试标准,为大模型行业健康有 序发展提供有力支撑
人工智能技术发展迅速,大模型、RAG、AGENT、 具身智能、 AGI等新概念和新技术层出不穷。大模型基准测试作为研究较为深入 的领域,将带动其他新技术的研究。当前虽然 AGI 仍未有明确的定 义,但针对 AGI 的探索性评测研究已有初步成果。例如微软发布论 文《通用人工智能的火花:GPT-4 的早期实验》,通过数学、编程、 视觉、医学、法律、心理学等复杂度较高的任务证明GPT-4已经进入 AGI 的早期阶段。北京通用人工智能研究院发布《通智测试:通用人 工智能具身物理与社会测试评级系统》,提出一种基于能力和价值维 度的 AGI 的评测方法。中国科学院和美国俄亥俄州立大学等先后推 出AGIBench 和MMMU 评测数据集,从多模态、多学科、多粒度等 维度衡量大模型距离AGI 的差距。虽然当前AGI 的发展仍然处于初 期阶段,但通过基准测试的研究,可以为未来 AGI 的发展方向提供 思路,并对AGI 的能力进行监控以指引其正向发展。
智能服务机器人 |