AI 大模型训练数据来源广泛。在算力可获得性提升以及算法同质化趋
势下,训练数据成为影响大模型性能的重要因素。区别于传统 AI 模
型,大语言模型通常使用公共文本数据集的混合体作为预训练语料库,而多模态大模型则需要大规模的图片和音视频等多模态数据。这
些训练数据的来源广泛,包含公开渠道、企业自研、直接购买与合作
交换等。
内容持有者对 AI厂商态度各异。部分内容持有者针对 AI 平台提出了
各种维权诉求,已有数十起版权诉讼正在进行中。同时,另一部分内
容持有者则选择了授权合作道路。版权纠纷实质上是商业利益之争,
内容持有者具体选择诉讼还是合作取决于其商业模式、内容独特性和
行业结构等因素。作家和艺术家们普遍倾向于抵制 AI 公司并控诉其
侵权行为,而新闻媒体在版权斗争中则难以形成统一阵线。
确保训练数据的合法来源对于 AIGC 发展非常关键。我们在去年的
《从 Adobe 看 AIGC 如何重塑创意工具行业》报告中提到,训练
数据的版权问题是 AIGC 商业化落地的重要阻碍。因此,只有解决了
这一问题,才能在确保合法的前提下,推动生成式 AI 的商业落地。
从 2023 年下半年开始,AI 数据版权诉讼开始进入白热化阶段,而
内容合作则于 2024 年上半年加速,表明过去一年中版权问题已经成
为 AI 领域的焦点,并且相关法律问题正在被逐步揭示与尝试解决。
2024 年有望成为 AI训练数据版权之争的关键年。关于 AI 训练数
据版权诉讼,国内外尚未达成判例,重点案例的判决将对未来行业发
展产生重要意义,需持续关注。同时,越来越多的公司正在明确其立场,显示出行业整体对于训练数据版权问题重视程度的提升。2024
年有望成为 AI 数据版权之争的关键年,将会有更多诉讼、谈判和合
作展开,但未来授权合作或快于法律变革与监管介入。
附件:计算机行业浅析AI大模型训练数据来源与版权挑战- AI训练数据版权之争,版权问题重视程度的提升
AI应用在App Store和Google Play的下载量和收入激增,2024年1-8月全球AI应用下载量同比增长26%,达到22亿次,收入增长51%至20亿美元
系统梳理了智能化软件开发的发展历程、现状和面临的挑战,结合大模型和软件开发特点,提出了具体的落地方向、路径和框架,详细阐述了落地所需的核心能力和使能能力,并对多个行业的落地案例进行了深入剖析
AI+协同办公成为AI行业的重要方向,智能PPT作为新兴工具;目标用户市场高达2.6亿人,且呈上升趋势;平均每天2.3小时,年产出达52亿份
中国AI基础数据服务市场规模达到45亿元,预计未来五年复合增长率将达到30.4%;大模型小型化技术成为AI领域的热点研究方向,推动了对高质量数据的大量需求
预计到2030年,技能将发生50%的变化,生成式AI技术可能加速这一变化,人工智能技术超级用户通过频繁尝试和学习不同的AI工具使用方法获得显著的工作效益
白皮书进一步提出了“工业智能体”参考架构,作为工业企业开展数字化规划和落地部署的指引,阐述了在工业智能体参考架构指导下的实践应用
科技引擎重塑运营管理模式,加速智能决策;加速新能源转型应对成本变化的不确定性;绿色供应链促进物流生态可持续发展;全链路仓配一体化助力全球品牌敏捷降本
报告深入分析了智能驾驶行业的现状和未来趋势,强调技术进步和政策支持是推动行业发展的双重动力,智能驾驶端到端大模型是重要的垂直类模型
英伟达通过构建硬件、软件和应用的三重壁垒,形成了强大的产品矩阵和生态系统,包括CUDA、DOCA、Omniverse等平台和工具;达已成为全球图形加速、AI算力的龙头企业
生成式AI技术正迅速发展并对企业产生重大影响,但企业在人才、治理和风险管理方面准备不足;企业主要依赖现成的生成式AI解决方案,而非定制化或私有模型
大模型在通用和行业特定领域都有广泛应用,如搜索引擎、语言翻译、内容推荐、医疗诊断、法律分析等;AI智能体和文生视频大模型是未来的重要发展方向
提供及时专业的行情点评,详细解读市场波动对持仓的影响,通过引入AI的智能服务能力在忙时托管,拓展一线接触外延;支持总分行用户灵活配置、发布 AI智能财富顾问的对话流程