首页
智能设备
数据安全
绿色科技
栏目分类

智能设备

你的位置:未来探索网 > 智能设备 > AGI-Eval团队:AI视频生成模子年度横评,国产模子仍然向上!

AGI-Eval团队:AI视频生成模子年度横评,国产模子仍然向上!

发布日期:2025-02-04 15:24    点击次数:74

AGI-Eval团队:AI视频生成模子年度横评,国产模子仍然向上!

AGI-Eval团队 投稿

量子位 | 公众号 QbitAI

说到2024年AI圈的热点话题,虽然不可错过视频生成模子了!

即使是在12月,国表里视频模子的更新脚步依旧莫得放缓。其中以Sora、可灵AI为代表。

12月9日,OpenAI致密推出视频居品Sora。用户可以创建大肆长宽比例的分辨率高达1080p(最长 20 秒)的视频,可吸收文本、图像和视频输入并生成新视频手脚输出。

12月19日,可灵AI晓谕基座模子再升级,视频生成推出可灵1.6模子,文本响应度、画面好意思感及通顺合感性,均有清亮升迁,画面更雄厚新纯真,同期维持尺度和高品性模式,荒谬是1.6模子的图生视频,里面评测比 1.5 模子合座成果升迁195%。

视频模子竞争强烈,评测榜单也变得尤为进击。

AGI-Eval通过构建上百条评测数据和行家级东说念主工评测团队,对Sora 、及国产头部视频生成模子进行了更深度的专科评测。

主要论断有以下3个:

论断1

与国内头部大模子(国内前三)比较,Sora在视频-文本一致性维度、视频质地上均有小幅逾期。总体来看,国内大模子仍保捏向上水平。

论断2

Sora在通顺质地维度发达略好于可灵1.6,即生成的视频画面在动态流程中的主体一致性和动态幅度更当然。

论断3

在视频-文本一致性维度上,Sora存在文智力会有误、指示顺从不符的问题,即生成的视频骨子与教导词的姿色不符的抖擞。

珍重的榜单排行如下,评测维度包括视频-文本一致性 、视频质地(含实在性、合感性) 、通顺质地等,确保评测截止反馈模子实在水平。

注:以上数据为示例,具体评分请参考AGI-Eval评测社区平台的最新数据。

榜单数据经过归一化责罚,与原始分值有所区别,但排行一致。

AGI-Eval平台联接:https://agi-eval.cn/mvp/listSummaryIndex

珍重评测对比:Sora VS 国内视频生成模子

一都来望望珍重的测评截止。

从视频生成的合座成果来看,Sora在视频质地、创作解放度、格调维持等方面的发达更优,尤其是在动态场景下五官的呈现上更为紧密。

示例对比

【示例1】:文本一致性

Prompt: 地上放着一个篮球、面包和背包,镜头奴隶劳累的通顺员来到物品眼前,提起一样物品用来补充能量。

英文prompt:There is a basketball, a loaf of bread, and a backpack on the ground. The camera follows the exhausted athlete as he approaches the items and picks up one of them to replenish his energy.

该prompt自身较为复杂,同期存在多个实体、东说念主物景色发达,且需要模子进行正确的推理,磨真金不怕火的才气愈加全面。

Sora-1080P

该维度打分:2分

分析:条款生成的实体中,背包缺失,面包发达较差,丢失实体特征;东说念主物动作”提起“不得当,无法判断是否得当推理正确的物体。

可灵1.6

该维度打分:2.67分

分析:条款生成的实体中,面包缺失,”提起“的动作有趋势但发达较差,不异无法判断是否得当推理正确的物体。

Pixverse-V3

该维度打分:3.5分

分析:条款生成的实体及东说念主物动作“提起”均骄傲,也能达成正确的推理,相识需要拿的是面包,但不得当镜头奴隶和东说念主物动作“来到”,相对来说如故发达得可以。

MiniMax-Video-01

该维度打分:3分

分析:条款生成的实体中,面包缺失,“提起”动作不得当,但推理正确,相识需要拿的是面包。

Prompt:高温变色马克杯告白。一个玄色高温变色马克杯正被加入沸水,迟缓变成白色的流程。重心需要隆起马克杯的变色才气。

英文prompt:High-temperature color-changing thermos advertisement. A black high-temperature color-changing thermos cup is being filled with hot water, gradually transforming into white. The key focus is to highlight the thermos cup’s color-changing capability.

该prompt实体较浅陋,但倾向于磨真金不怕火水流、热气、状貌渐变等细节,敞开的细节变化频频来说较为艰辛。

Sora-1080P

该维度打分:2.67分

分析:忽略prompt条款的重心,未体现出变色的流程。

可灵1.6

该维度打分:4分

分析:变色流程不完全得当条款,但相对来说较好。

Pixverse-V3

该维度打分:3分

分析:未体现正在加水,变色有体现,但不得当迟缓变白的条款。

MiniMax-Video-01

该维度打分:2.67分

分析:不异未体现出变色的流程,也无法看出是沸水。

【示例2】:物品生成雄厚性(片刻出现或隐没)

Prompt: 一款创意蛋糕的宣传告白。一把餐刀切开了蛋糕,从蛋糕的切口处涌出了草莓酱。

英文prompt:An advertisement for a creative cake. A dining knife slices through the cake, and strawberry sauce flows out from the cut.

该prompt重在磨真金不怕火通顺细节及实体之间的交互,模子在“切口处涌出了草莓酱”上发达得各有各别。

Sora-1080P

该维度打分:2.5分

分析:该视频中果酱屡次忽然出现和忽然隐没,蛋糕忽然出现缺口,仅针对雄厚性较差。

可灵1.6

该维度打分:3.5分

分析:能看到刀的动作导致蛋糕出现切口,果酱的出现比较突兀分歧理。

Pixverse-V3

该维度打分:3.5分

分析:果酱和刀的形态雄厚,蛋糕的切口出现较为突兀。

MiniMax-Video-01

该维度打分:3分

分析:刀和蛋糕的形态较雄厚,得当切开的景色,但果酱忽然无数出现分歧理。

【示例3】:实体无理

Prompt: 生成一个动画格调的视频,骨子是一个女孩正在巴黎旅行,她的眼前是埃菲尔铁塔。

英文prompt:Generates an animated-style video of a girl traveling in Paris with the Eiffel Tower in front of her.

Sora-1080P

该维度打分:2.67分

分析:配景鸟群出现清亮无理及分歧理滞空,配景行东说念主有粘连及行走姿态清亮分歧理,合座不雅感上较为清亮。

可灵1.6

该维度打分:4分

分析:主体东说念主物及建筑物合座的形态均较好,部分配景东说念主物出现微小无理,合座对不雅感影响较小。

Pixverse-V3

该维度打分:3分

分析:主体东说念主物手指有微小粘连形变,配景建筑物发生形变,不雅感上稍有分歧理。

MiniMax-Video-01

该维度打分:3.5分

分析:主体东说念主物手指微小形变,左侧出现的配景东说念主物面部有微小歪曲,不雅感上稍有分歧理。

Prompt: 共事们正在办公室门前交谈。

英文prompt:Colleagues are talking in front of the office door.

Sora-1080P

该维度打分:2.5分

分析:东说念主物有清亮的穿模,门发生的形变也较清亮,影响严重。

可灵1.6

该维度打分:3.5分

分析:东说念主物合座形象较好,无清亮无理,部分镜头中东说念主物手部存在形变,变成一定的影响。

Pixverse-V3

该维度打分:3分

分析:东说念主物手指形变捏续存在且较严重,较影响视觉成果。

MiniMax-Video-01

该维度打分:3.5分

分析:东说念主物合座形象较好,无清亮无理,部分镜头中东说念主物手部存在形变,变成一定的影响。

【示例4】:镜头手段

Prompt: 创意视频,升镜拉镜聚拢,镜头从一座粗重的城市拉升到空中、天外、天下外,需要展示出地球是其他天下高维人命手中的玻璃球

英文prompt:A creative video combining zoom-in and zoom-out techniques, with the shot pulling up from a bustling city to the sky, into space, and beyond the universe, revealing Earth as a glass ball in the hands of higher-dimensional beings from another universe.

Sora-1080P

该维度打分:3分

分析:拉镜有所发达,但升镜体现较差,视频合座镜头发达较单一。

可灵1.6

该维度打分:4分

分析:视频能较好的体现升镜、拉镜,场景变化的过度比较当然,合座敞开。

Pixverse-V3

该维度打分:3.5分

分析:升镜体现较好,但拉镜未明确发达,视频合座场景升沉较敞开。

MiniMax-Video-01

该维度打分:3分

分析:拉镜有所发达,但升镜体现较差,视频合座成果较为突兀。

是若何评测的?

针对基础模子,AGI-Eval经受了不同的评测本领及不同的评测时势,包含东说念主工主不雅评测、模子打分(modeleval)、众包评测三种时势,磨真金不怕火模子在不同版块下是否有才气着落、格调等影响导致榜单截止各别,反馈模子抽象才气。

东说念主工评测

评测施展:

给定prompt的视频,东说念主工从视频文本一致性、视频质地、通顺质地等维度抽象给被测视频打1-5都备值分,并标注出被测视频的造作标签;视频经受多轮标注的时势,2东说念主打分截止相易则为该prompt截止,若2东说念主打分diff则进入3标,最终3东说念主平均为被测视频最终分数。

评测想路:

视频文本一致性:是否按照prompt的条款生成视频,包括对物体、东说念主物、场景、格调、通顺细节等扫数关联身分的姿色是否完整顺从。

视频质地:

合感性:视频在逻辑、结构、设想、通顺轨迹等维度是否得当旧例,即,是否得当物理法则。

实在性:视频具有传神成果,无清亮AI思路。

通顺质地:视频中的通顺发达是否敞开、连贯、动态成果是否丰富。

评测集先容:

把柄一致性、通顺质地、画面质地等要道性能盘算,构建了包含500条中英文对照样本的黑盒测试集,隐蔽了从动作生成到情谊生成多种复杂场景和才气项及讹诈场景;在构建中也聚拢到了物理学问和百科知识,评估生成视频的实在感和逻辑性。

评测案例:

任务类型:互相影响多实体生成

Prompt:一只猫唤醒了正在睡眠的主东说念主。

模子谜底:

评测分析:

视频抽象打分:3分

一致性:4分,实体生成得当条款,但关于“唤醒”的动作流程体现不完整。

视频质地:3分,通顺流程中东说念主物肢体、猫面部都呈现出变形。

通顺质地:3分,通顺基本连贯,临了猫爪收回动作不当然,机械感较清亮。

任务类型:实体&动作生成

Prompt:跳水通顺员们正在热身。

模子谜底:

评测分析:

视频抽象打分:1分

一致性:1分,条款的实体及动作完全未体现。

视频质地:1分,视觉中心的主体无理,场景下方也存在变形不连贯。

通顺质地:2分,下方杜撰出施行体,通顺连贯性、动态成果、通顺幅度均差。

AGI-Eval评测平台

鉴于传统评测时势难以充分反馈模子的实在水平,AGI-Eval改造性地提议了东说念主机合并评测模式,探索开荒高质地评测社区开荒。

在这种模式下,参与者可以与最新的大模子共同完成任务,既有助于提高任务完成度又便于确立愈加直不雅的差异度。

基于前期的一些用户实验标明,通过这种时势不仅可以赢得更为大略、完善的推理流程姿色,还可以进一步升迁用户与大模子之间的互动体验。

曩昔,跟着更多肖似平台的出现和发展,信服东说念主机合并将成为评测鸿沟的一个进击发展标的。

东说念主机社区联接:https://agi-eval.cn/llmArena/home

AGI-Eval 平台基于实在数据回流、才气项拆解等时势,自建万量级稀奇数据,并经过屡次质检保证准确率。

黑盒100%稀奇化数据,可保证评测数据不可“穿越”。

从数据开荒到模子评测,已毕全层级才气技俩,一级才气涵盖指示顺从、交互才气、阐发才气(含推理、知识、其他阐发才气等);无缺已毕自动与东说念主工评测积蓄拢。

关于Chat模子,平台官方榜单聚拢主不雅、客不雅评测截止,中英文权重漫衍平衡。

客不雅评测基于模子打分,可责罚具有一定解放度问题,准确率95%+;主不雅评测基于三东说念主孤独标注,并纪录细分维度标签截止,全面会诊模子问题。

想要肯求文生视频测评的一又友可以成功联系AGI-Eval团队。

AGI-Eval团队先容

AGI-Eval是由上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模子评测社区,以“评测助力,让AI成为东说念主类更好的伙伴”为服务。平台旨在打造公说念、实在、科学、全面的评测生态,敕令全球共同干涉到大模子评测服务,参与数据构建及丰敷裕趣兴味的东说念主机合并比赛,与大模子协同完成复杂任务,已毕评测有筹画共建。

AGI-Eval多模态评测可联贯全模态(any toany)模子评测(部分榜单待上线),接待诸君模子厂商提报评测合作交流。

文生视频测评肯求时势:

请使用单元邮箱,将测评盘考方针、诡计,盘考机构、肯求者先容和联系时势(手机或微信),发送到邮箱。

邮箱:agieval17@gmail.com,标题是:AGI-Eval文生视频测评肯求

— 完 —

量子位 QbitAI · 头条号签约

和顺咱们,第一时候获知前沿科技动态