12 月 3 日,在人工智能领域,World Labs首席执行官李飞飞博士突然宣布了一项突破性进展:一个能够从单张图像生成完整3D世界的AI系统。这一系统的核心在于其生成的3D世界不仅具有交互性,而且遵循基本的物理几何规则。
图片来源于:量子位
▍3D世界生成:从图像到沉浸式体验
World Labs的AI系统通过单张输入图像生成一个完全交互式的3D世界,支持摄像机移动、深景控制、光影调整及物体插入等操作。与传统AI模型着眼于像素预测不同,这套系统直接预测并生成3D几何结构。这意味着场景在用户改变视角或重新审视时依然保持一致,解决了以往模型缺乏持久性和稳定性的缺陷。
用户可以通过浏览器实时探索生成的3D场景,如同玩游戏般直观自由。从浅景深到希区柯克变焦等专业摄像效果,该技术将摄影级别的操作融入生成式AI系统,显著提升了交互体验。此外,系统还能动态调整光照、修改物体形状及插入新对象,为创作者提供了前所未有的工具。目前不足在于交互的边界范围很窄,活动范围还不够。
图片来源于World Labs X官方
▍技术亮点:
l 实时浏览器渲染:用户可以直接在浏览器中探索生成的3D场景,实现类似电子游戏的自由视角控制。
l 专业摄影效果:支持浅景深、摇镜头变焦等3D摄像机效果。
l 深度感知:通过深度图技术,精确呈现场景中物体与摄像机的距离关系。
l 场景交互:支持改变光照、修改几何形状,以及插入新对象等功能。
l 创意整合:与文本生成图片等AI工具结合,支持艺术创作和工作流优化。
此外,之前大多数生成模型预测的是像素,而这个AI系统直接预测3D场景。所以场景在你移开视线再回来时不会发生变化。官方则表示“这仅仅是3D原生生成AI未来的一个缩影”:“我们正在努力尽快将这项技术交到用户手中!”
图片来源于World Labs X官方
▍从隐身到聚焦:World Labs的发展路径
World Labs成立于2024年1月,是李飞飞首次创业创立的空间智能公司,专注于构建“大世界模型”(LWM)来感知、生成3D世界并与之交互。公司在2024年9月正式结束隐身状态,并宣布过去两轮融资共筹得2.3亿美元,估值达10亿美元,投资方包括a16z、英伟达、领英创始人Reid Hoffman、谷歌前CEO Eric Schmidt及AI教父Geoffery Hinton等。预计公司将在2025年推出首款产品,从世界模型的生成开始逐步支持AR技术、机器人技术及自动驾驶等领域。
图片来源:量子位
李飞飞在《经济人》的内容也强调了“计算机要想拥有人类的空间智能,就需要能够模拟世界、推理事物和地点,并在时间和三维空间中互动。简而言之,我们需要从大型语言模型转向大型世界模型。”
▍从2D到3D:定义生成式AI的新方向
如果说Stable Diffusion 是 2D 快照。Sora 是 2D + 时间快照。那么World Labs 是一个 3D、完全沉浸式快照。在生成式 AI 快速发展的今天,能够从单张图像生成完整 3D 世界的 AI 系统。
这一突破式创新超越了现有生成式AI模型的控制力与一致性局限,为创作者提供了更多可能性。正如李飞飞在《经济人》文章中所强调的,“从大型语言模型转向大型世界模型是AI发展的下一个前沿,也是以人为本的人工智能的核心所在。”
图片来源:量子位
▍技术应用场景:3D多领域场景
World Labs的技术不仅在技术层面上实现了突破,也展现了其在数字创作领域的广泛应用潜力。例如,团队成功将爱德华·霍普的名画《夜游者》转化为一个可探索的3D环境,为艺术创作提供了全新视角和工具。
尽管目前生成3D场景的活动范围和交互边界仍有限,但李飞飞团队表示,这仅是3D原生生成AI未来的缩影。随着技术的进一步发展,World Labs的AI系统有望在影视制作、游戏设计、AR/VR体验、建筑设计等领域产生深远影响。目前该技术正在向部分创作者开放测试,有望为数字创作带来革命性的改变。
图片来源于李飞飞 X官方
在AI技术快速发展的当下,李飞飞和她的World Labs团队正在为人类与机器之间的交互创造更自然、更高效的方式。正如李飞飞所说,“无论如何理论化这一想法,与3D场景交互的体验难以用语言形容。”
来源:第一电动网
作者:永娟
本文地址:https://www.d1ev.com/news/jishu/256146
文中图片源自互联网,如有侵权请联系admin#d1ev.com(#替换成@)删除。