当前位置：首页 > 新闻资讯 > ai智能 > AI视频生成研究报告-由检索生成、局部生成走向依靠自然语言提示词的全量生成

AI视频生成研究报告-由检索生成、局部生成走向依靠自然语言提示词的全量生成

来源：量子位智库编辑：九游集团品牌时间：2024/10/17 主题：其他 [加盟]

技术趋势:视频生成正在由检索生成、局部生成走向依靠自然语言提示词的全量生成,生成内容更加灵活丰富,应用空间广阔

检索生成主要是对现有的视频素材根据关键词和标签进行检索匹配,再进行相应的拼接和排列组合

特点

1 采用传统的跨模态视频检索技术,通过视频标签的或者视频语义理解的方式从数据库中的检索,再将这些素材进行剪辑、组合拼接在一起, 本质上还是键值对匹配的逻辑

2 例如短视频平台的知识类视频、解说类视频, 通过文本关键字在数据库中进行素材检索,然后在进行拼接组合生成

3 创意空间有限,没有贡献增量素材,但成本极低,生成速度极快

仅针对视频的一部分进行生成,例如视频中人物角色、动作、背景、风格化、特殊效果等

特点

1 采用传统的计算机视觉(Cv)、计算机图形学 (CG)技术,但生成功能有限,主要是一些局部的垂点功能

2 例如效果生成,在现有视频上添加多种效果, 如滤镜、光影、风格化、美颜特效等。也可以做局部动态化,如人物的面部表情生成、搞笑表情、爆款特效、舞蹈动作生成等

3 有一定创意空间,生成部分新元素,成本低但应用的场景有限

通过文字、图片、视频作为提示词来进行凭空生成,不依赖外部素材,核心在于大模型的能力

特点

1 采用基于Transformer或者扩散模型的大模型路线,可以通过自然语言或者指导图进行全局生成 (但也可以嵌入已有内容),视频的内容、风格、长短、分辨率、宽高比都可以进行灵活调整

2 例如生成天马行空的创意视频、艺术视频、卡通视频等等,非常灵活

3 创意空间无限,所有的元素都是全新生成,现阶段成本高昂,但天花板高,应用场景广泛

中国在AI基础设施和软件层面严重依赖国际厂商,特别是在计算芯片和存储芯片领域;在软件层面,依赖程度更加严重,软件仍是中国各大企业的常用工具占比达59%

以注意力机制为核心的Transformer架构赋能AI在文本、图像、视频生成、文字交互、智能语音和计算机视觉领域的技术能力增强和应用范围拓宽

生成式人工智能服务管理暂行办法,算力基础设施高质量发展行动计划,关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见,国家新一代人工智能创新发展试验区建设工作指引

中国多年来在人工智能论文发表数量和专利授权数量方面均居世界首位;显著领先于其他国家,中国人工智能专利授权的数量在全球范围内占比达61.3%，位居全球榜首

我国智能算力占比已经超过通用算力，成为整体算力增长的主要驱动力;国算力结构为通用算力：智能算力：超级算力=40%:59%:1%智能算力占比已较大幅度超过通用算力占比

分析了大模型发展趋势挑战的基础上，提出了大模型安全实践总体框架，并从安全性、可靠性、可控性以及评测四个角度对大模型安全技术进行了深度剖析

白皮书将聚焦中国未来核心产业的发展方向，从人工智能、智能制造、大消费、生命科学、碳中和等五大产业出发，探讨中国将如何迎接下一波增长浪潮

大模型领域人才供需比为1.76,整体供大于求,但高端技术岗位如云计算和算法仍紧缺,薪酬涨幅保持在30%-50%,65.79%每周工作超50小时,从业者中82%因技术和前景而主动加入

设备精度提升以及对更精准诊断的追求使得我国医学影像数据大量积累人工智能可以充分利用这些数据进行模型训练；提高了医学诊断效率，减轻了医生工作负担、促进了医疗资源均衡分配

智能体将深入复杂任务处理，手机和电脑智能体将引发应用生态变革;报告讨论了AIAgent产品的构建方式和市场策略，强调了大模型技术基础和行业数据的重要性

AI生产力工具市场快速发展，用户规模和产品类型激增，以AI搜索、写作、翻译等应用为核心的工具正推动工作效率和创造力的提升,生成式AI市场预计将达到4000亿元

国内AI大模型行业迅速发展,形成“6+2”竞争格局,产品覆盖C端和B端，聚焦金融、教育等行业,报告概括了AI大模型行业的主要参与者、核心竞争力、产品与服务、融资情况以及未来趋势