4K视频生成!Google版Sora秀肌肉,再度狙击OpenAI(组图)

AppSo 发表于 2024-12-17 16:30:17

<div style='font-size:1em;'>
就在刚刚，Google Deepmind 推出了新的视频模型 Veo 2 和 Imagen 3。

Google CEO Sundar Pichai 第一时间在 X 平台发文介绍了这两款产品：

我们非常荣幸推出 Veo 2，这款全新、最先进的视频模型（具备更强的真实世界物理与运动理解，支持最高 4K 分辨率）。

你可以在 VideoFX 上加入等候名单。

我们改进后的 Imagen 3 模型同样达到了行业领先的成果，并将于今天在 100 多个国家推出，届时将在 ImageFX 平台上线。

根据官方介绍，Veo 2 带来了多项重要突破：<div class='google_ads' style='min-height:330px'>Advertisements<div data-aaad='true' data-aa-adunit='/339474670/6ParkNews/InContent'></div></div>

支持制作高达 4K 分辨率的视频

能够识别指令中的摄像机控制，例如广角、第一人称视角和无人机拍摄

能更真实地模拟物理现象和人类表情变化

相比其他视频模型常见的「错误生成」问题（如多余手指或意外物体），Veo 2 显著降低了这类错误的出现频率，大幅提升了输出结果的真实度。

在安全性方面，所有由 Veo 2 生成的视频都会嵌入不可见的 SynthID 水印，便于识别其 AI 生成的属性。

Google Labs 的视频生成工具 VideoFX 已集成了 Veo 2 的新功能，同时扩大了用户访问范围。

<div style="text-align: center;"></div>

不过，DeepMind 有意控制推广的速度，计划在明年将 Veo 2 的功能逐步引入 YouTube Shorts 等产品，以在扩展应用范围的同时确保模型质量和安全性。

在性能评测方面，Veo 2 展现出了领先优势。

在 Meta 发布的基准测试数据集 MovieGenBench 上，参与者观看了 1003 个提示及其对应的视频。结果显示，Veo 2 在整体用户偏好度和指令遵循准确性方面均位居榜首。<div class='google_ads' style='min-height:330px'>Advertisements<div data-aaad='true' data-aa-adunit='/339474670/6ParkNews/InContent'></div></div>

<br><br>data/attachment/forum/202412/17/img_cdn_138_7961734417015.png<br>

<br><br>data/attachment/forum/202412/17/img_cdn_138_99641734417015.png<br>

测试统一在 720p 分辨率下进行，其中 Veo 生成 8 秒视频，VideoGen 生成 10 秒视频，其他模型则生成 5 秒视频。评分者观看了所有视频的完整长度。

注意看，对比测试对象中也出现了国产 AI 视频模型（可灵 AI、Minimax）以及最新发布的 Sora Turbo。

所有比较均在 720p 分辨率下进行。Veo 的视频样本长度为 8 秒，VideoGen 的为 10 秒，其他模型的为 5 秒。评分者将看到完整视频长度。

<div style="text-align: center;"></div>

尽管 Veo 2 取得了显著进步，但在生成真实、动态或复杂场景的视频时，仍面临着保持场景连贯性的挑战。DeepMind 表示将持续优化这些领域的性能。

与此同时，Imagen 3 也实现了重大突破。

新版本不仅支持创作多种艺术风格（包括现实主义、幻想、肖像等），能够更精确地将文字描述转化为图像，以及生成更明亮、构图更协调的视觉作品。

<br><br>data/attachment/forum/202412/17/img_cdn_138_45741734417016.jpg<br><div class='google_ads' style='min-height:330px'>Advertisements<div data-aaad='true' data-aa-adunit='/339474670/6ParkNews/InContent'></div></div>

<br><br>data/attachment/forum/202412/17/img_cdn_138_80321734417017.jpg<br>

<br><br>data/attachment/forum/202412/17/img_cdn_138_11201734417018.jpg<br>

<br><br>data/attachment/forum/202412/17/img_cdn_138_16351734417018.jpg<br>

即日起，Imagen 3 将通过 Google Labs 的 ImageFX 在全球超过 100 个国家推出。

附上体验地址：

https://labs.google/fx/tools/image-fx/unsupported-country

此外，Google 还推出了名为 Whisk 的工具。

该工具在技术层面整合了最新的 Imagen 3 模型与 Gemini 的视觉理解能力。

Gemini 模型可以自动为图像生成详细描述，这些描述随后会作为输入传递给 Imagen 3。

用户可以通过导入或创作图像，表达特定主题、场景和风格需求，并将这些元素融合重组，创作数字化产品，比如毛绒玩具、珐琅别针或贴纸等。<div class='google_ads' style='min-height:330px'>Advertisements<div data-aaad='true' data-aa-adunit='/339474670/6ParkNews/InContent'></div></div>

今天 DeepMind 在核心技术上的突破，无疑比 OpenAI 简单的功能叠加更具价值，从嵌入 SynthID 水印到采取渐进式推广策略，也让这次更新显得格外厚重。

真正 AI 产品的更新，不仅在于它能做什么，更在于它如何做，以及为谁而做。<div class='google_ads' style='min-height:330px'>Advertisements<div data-aaad='true' data-aa-adunit='/339474670/6ParkNews/InContent'></div></div>

</div>

页: [1]

澳洲同城网's Archiver

4K视频生成!Google版Sora秀肌肉,再度狙击OpenAI(组图)