技术 AI大模型

李飞飞与World Labs的3D AI革命：从单图到沉浸式3D世界的跨越

第一电动永娟 2024-12-04 15:06

12 月 3 日，在人工智能领域，World Labs首席执行官李飞飞博士突然宣布了一项突破性进展：一个能够从单张图像生成完整3D世界的AI系统。这一系统的核心在于其生成的3D世界不仅具有交互性，而且遵循基本的物理几何规则。

图片来源于：量子位

▍3D世界生成：从图像到沉浸式体验

World Labs的AI系统通过单张输入图像生成一个完全交互式的3D世界，支持摄像机移动、深景控制、光影调整及物体插入等操作。与传统AI模型着眼于像素预测不同，这套系统直接预测并生成3D几何结构。这意味着场景在用户改变视角或重新审视时依然保持一致，解决了以往模型缺乏持久性和稳定性的缺陷。

用户可以通过浏览器实时探索生成的3D场景，如同玩游戏般直观自由。从浅景深到希区柯克变焦等专业摄像效果，该技术将摄影级别的操作融入生成式AI系统，显著提升了交互体验。此外，系统还能动态调整光照、修改物体形状及插入新对象，为创作者提供了前所未有的工具。目前不足在于交互的边界范围很窄，活动范围还不够。

图片来源于World Labs X官方

▍技术亮点：

l 实时浏览器渲染：用户可以直接在浏览器中探索生成的3D场景，实现类似电子游戏的自由视角控制。

l 专业摄影效果：支持浅景深、摇镜头变焦等3D摄像机效果。

l 深度感知：通过深度图技术，精确呈现场景中物体与摄像机的距离关系。

l 场景交互：支持改变光照、修改几何形状，以及插入新对象等功能。

l 创意整合：与文本生成图片等AI工具结合，支持艺术创作和工作流优化。

此外，之前大多数生成模型预测的是像素，而这个AI系统直接预测3D场景。所以场景在你移开视线再回来时不会发生变化。官方则表示“这仅仅是3D原生生成AI未来的一个缩影”：“我们正在努力尽快将这项技术交到用户手中！”

图片来源于World Labs X官方

▍从隐身到聚焦：World Labs的发展路径

World Labs成立于2024年1月，是李飞飞首次创业创立的空间智能公司，专注于构建“大世界模型”（LWM）来感知、生成3D世界并与之交互。公司在2024年9月正式结束隐身状态，并宣布过去两轮融资共筹得2.3亿美元，估值达10亿美元，投资方包括a16z、英伟达、领英创始人Reid Hoffman、谷歌前CEO Eric Schmidt及AI教父Geoffery Hinton等。预计公司将在2025年推出首款产品，从世界模型的生成开始逐步支持AR技术、机器人技术及自动驾驶等领域。

图片来源：量子位

李飞飞在《经济人》的内容也强调了“计算机要想拥有人类的空间智能，就需要能够模拟世界、推理事物和地点，并在时间和三维空间中互动。简而言之，我们需要从大型语言模型转向大型世界模型。”

▍从2D到3D：定义生成式AI的新方向

如果说Stable Diffusion 是 2D 快照。Sora 是 2D + 时间快照。那么World Labs 是一个 3D、完全沉浸式快照。在生成式 AI 快速发展的今天，能够从单张图像生成完整 3D 世界的 AI 系统。

这一突破式创新超越了现有生成式AI模型的控制力与一致性局限，为创作者提供了更多可能性。正如李飞飞在《经济人》文章中所强调的，“从大型语言模型转向大型世界模型是AI发展的下一个前沿，也是以人为本的人工智能的核心所在。”

图片来源：量子位

▍技术应用场景：3D多领域场景

World Labs的技术不仅在技术层面上实现了突破，也展现了其在数字创作领域的广泛应用潜力。例如，团队成功将爱德华·霍普的名画《夜游者》转化为一个可探索的3D环境，为艺术创作提供了全新视角和工具。

尽管目前生成3D场景的活动范围和交互边界仍有限，但李飞飞团队表示，这仅是3D原生生成AI未来的缩影。随着技术的进一步发展，World Labs的AI系统有望在影视制作、游戏设计、AR/VR体验、建筑设计等领域产生深远影响。目前该技术正在向部分创作者开放测试，有望为数字创作带来革命性的改变。

图片来源于李飞飞 X官方

在AI技术快速发展的当下，李飞飞和她的World Labs团队正在为人类与机器之间的交互创造更自然、更高效的方式。正如李飞飞所说，“无论如何理论化这一想法，与3D场景交互的体验难以用语言形容。”

来源：第一电动网

作者：永娟

本文地址：https://www.d1ev.com/news/jishu/256146

返回第一电动网首页 >

文中图片源自互联网，如有侵权请联系admin#d1ev.com（#替换成@）删除。

分享到：

发表评论

新闻推荐

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx