当前位置：首页 > 新闻资讯 > ai智能 > 大模型基准测试体系研究报告（2024年） -方升大模型基准测试体系

大模型基准测试体系研究报告（2024年） -方升大模型基准测试体系

来源：中国信息通信研究院编辑：九游集团品牌时间：2024/10/18 主题：其他 [加盟]

近几年，大模型推动人工智能技术迅猛发展，极大地拓展了机器智能的边界，展现出通用人工智能的“曙光”。如何准确、客观、全面衡量当前大模型能力，成为产学研用各界关注的重要问题。设计合理的任务、数据集和指标，对大模型进行基准测试，是定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平，指引未来学术研究，牵引产品研发、支撑行业应用，还可以辅助监管治理，也有利于增进社会公众对人工智能的正确认知，是促进人工智能技术产业发展的重要抓手。全球主要学术机构和头部企业都十分重视大模型基准测试，陆续发布了一系列评测数据集、框架和结果榜单，对于推动大模型技术发展产生了积极作用。然而，随着大模型能力不断增强和行业赋能逐渐深入，大模型基准测试体系还需要与时俱进，不断完善。

本研究报告首先回顾了大模型基准测试的发展现状，对已发布的主要大模型评测数据集、体系和方法进行了梳理，分析了当前基准测试存在的问题和挑战，提出了一套系统化构建大模型基准测试的框架 —— “方升”大模型基准测试体系，介绍了基于“方升”体系初步开展的大模型评测情况，并对未来大模型基准测试的发展趋势进行展望。面向未来，大模型基准测试仍存在诸多开放性的问题，还需要产学研各界紧密合作，共同建设大模型基准测试标准，为大模型行业健康有序发展提供有力支撑

人工智能技术发展迅速，大模型、RAG、AGENT、具身智能、 AGI等新概念和新技术层出不穷。大模型基准测试作为研究较为深入的领域，将带动其他新技术的研究。当前虽然 AGI 仍未有明确的定义，但针对 AGI 的探索性评测研究已有初步成果。例如微软发布论文《通用人工智能的火花：GPT-4 的早期实验》,通过数学、编程、视觉、医学、法律、心理学等复杂度较高的任务证明GPT-4已经进入 AGI 的早期阶段。北京通用人工智能研究院发布《通智测试：通用人工智能具身物理与社会测试评级系统》,提出一种基于能力和价值维度的 AGI 的评测方法。中国科学院和美国俄亥俄州立大学等先后推出AGIBench 和MMMU 评测数据集，从多模态、多学科、多粒度等维度衡量大模型距离AGI 的差距。虽然当前AGI 的发展仍然处于初期阶段，但通过基准测试的研究，可以为未来 AGI 的发展方向提供思路，并对AGI 的能力进行监控以指引其正向发展。

附件：大模型基准测试体系研究报告（2024年） -方升大模型基准测试体系

大模型基准测试体系研究报告（2024年） -方升大模型基准测试体系

通用大模型2024年发展趋势：多功能与小型化

2024汽车AI大模型TOP10分析报告-汽车行业的应用现状和发展趋势

AI视频生成研究报告-由检索生成、局部生成走向依靠自然语言提示词的全量生成

中国未来五十年人工智能行业生态全景—AI基础层全景

中国未来五十年人工智能行业生态全景—关键技术

中国近几年人工智能相关政策汇总

中国人工智能竞争与发展潜力—技术优势

2024智能算力产业发展白皮书-算力规模增速超过50%

大模型安全实践白皮书2024-安全性、可靠性、可控性以及评测四个角度剖析

中国未来50年产业发展趋势白皮书-人工智能、智能制造、大消费、生命科学、碳中和等五大产业

脉脉2024大模型人才报告-人才供需比为1.76，薪酬涨幅保持在30%-50%

AI医学影像行业发展现状与未来趋势蓝皮书-92款人工智能医学影像辅助诊断软件获批

服务机器人(迎宾、讲解、导诊...)