凭一张图就能生成3D世界，现实版的盗梦空间来了？

发布时间：2024-12-06 18:54 浏览量：127

潮新闻

任意一张照片，就可以生成可以闲逛的3D世界。听起来像科幻作家的幻想，但随着AI技术发展，已经成为触手可及的现实。

12月3日，斯坦福大学教授李飞飞宣布，她带领的World Labs团队推出了一张图片便能生成3D世界的AI系统，他们将该系统命名为“大型世界模型”（Large World Model, LWM），称自己为空间智能AI公司。模型一经推出就受到全球网友关注，有人表示，现实版的盗梦空间来了！

World Labs 官网截图

在已经开放的即时演示中，用户可以在浏览器上直接操控，感受World Labs塑造的世界。如输入一张博物馆取景照片，AI会帮你设想出入门，下一间相邻的展馆、展品；输入世界名画《夜晚露天咖啡座》，就可以走进画中，感受完整的街区环境……

那么，“大型世界模型”有何不同？具体应用场景有哪些？又将给AI的发展带来怎样的影响？

一张图，生成3D世界

“还是比较惊喜的。此前Sora本身也有点模拟世界的‘味道’，但‘大型世界模型’是另外一种技术路线，整体上行业觉得超出预期。”中国AIGC产业联盟研究院院长、无界AI联合创始人马千里表示。

“大型世界模型”可以简单视为人工智能形成虚拟世界的工具：用户只需上传一张图片，系统便能根据这张图片中的环境信息，自动生成一个相应范围内的3D虚拟世界。

五花八门的场景。图源：World Labs官网

此外，用户可直接在网页端，通过鼠标或键盘，轻松浏览这个3D世界。而且生成的3D世界具有交互性，用户能够像玩游戏那样，自由地移动相机，来探索这个3D世界，景深、变焦等操作均可行。

“交互性实际上是通过键盘的输入或鼠标移动，向AI输入指令，它会根据指令，实时渲染生成相应的场景，而在此之前，大家所看到的3D场景都是由人工预先构建好的。”浙江大学博士生导师朱霖潮解释道。

此次“大型世界模型”让人惊艳的是，遵循了3D几何物理基本规则，具有真实的深度感和空间感。

一键生成中世纪小镇。图源：World Labs官网

在马千里看来，3D几何物理基本规则的遵循，是AI模型在大量的3D数据训练后，对图像内容达成了充分理解，这体现了AI对现实世界的理解更进一步。

但在遵循现实世界物理规则上，朱霖潮也表示，“大型世界模型”距离实际应用还有一定的距离。“虽然声称引入一些物理机理，但如何生成更遵循物理基本原则的技术细节尚未披露，在某些场景上，也出现渲染错误，比如不同的物体以不自然的方式融合，成为了一团色块。”

不过，据了解，World Labs表示这些只是“早期预览”，他们正在努力提升生成世界的规模和真实度，并探索新的交互方式。

世界生成模型的应用场景广泛

在3D生成赛道，World Labs并不是第一个“吃螃蟹的人”。此前，英伟达、Meta等多家公司也在积极布局物理AI与3D世界的相关技术，市场竞争激烈。

在国内，也有不少企业加入其中。以无界AI为例，企业产品“魔镜”也是利用AI生成3D产品。用户在浏览器上，只要输入一张照片，“魔镜”就可以根据照片上的人物，形成相对应的3D模型，最终可制作成手办模型。

工具的革新，应用场景的落地是大部分人关心的问题。

World Labs在官博中表示，他们计划构建对艺术家、设计师、开发人员、电影制片人和工程师等专业人士有用的工具。允许任何人想象和创造自己的世界，将生成性人工智能的潜力从 2D 图像和视频扩展到3D世界。

希区柯克变焦。图源：World Labs官网

“像‘大型世界模型’这类AI模型的出现，未来也许能够很好地填充VR世界里的数字空间。”马千里解释道，VR里的数字空间建设成本非常高，开发的周期也比较慢，这类工具的出现，将会使得数字空间的建模成本降低，并且能够根据需求，迅速构建出虚拟世界场景，这意味元宇宙将离人们越来越近。

李飞飞的博士生、World Labs联合创始人贾斯汀•约翰逊则在社交媒体上指出，随着这项技术的成熟，未来我们可能不再需要使用手机、平板等不同尺寸的屏幕。他表示，如果你能够将虚拟内容与物理世界无缝融合，那么对所有这些屏幕的需求就会减少。

空间智能时代已经到来

两年前，ChatGPT惊艳发布，从此生成式AI一路狂奔，从平面图像和文本处理，迈向对三维世界的理解。从文生智能到空间智能，生成式的AI正在以极快地速度认知人类的物理世界。

“大型世界模型”的出现，也正是空间智能的一次实际展示。

李飞飞对空间智能的定义是：空间智能是机器在3D空间和时间中感知、推理和行动的能力。在她看来，空间智能是AI领域的下一个前沿技术方向。

今年9月，在接受媒体访谈时，李飞飞表示，空间智能是她的下一个北极星，该技术将改变AI的发展进程。她认为，空间智能与语言智能一样重要，甚至在某些方面可能更古老、更基础，AI的发展不会局限于处理平面图像或文本，而是会迈向对三维世界的理解，这是智能发展的自然延伸。

一键穿越《夜晚露天咖啡馆》的画中世界。图源：World Labs官网

那么，由World Labs开启的空间智能AI，未来对AI发展的影响如何？

朱霖潮表示，人在处理信息过程中，主要还是以视觉信息为主，这样的大模型的出现，可以让更多人去关注视觉模型，包括如何构建一个更好的3D环境，实现符合物理的运动，这些都可能吸引更多的人去往这个领域。

“当前AI投入太大了，方向很重要，这样的AI技术被验证后，那么企业就敢下注赛道，进而促进产业的发展。”马千里说道。

如今，单个图像生成3D世界模型，让我们对空间智能有了初步的理解。未来，或许还有更多大模型的出现。随着AI算法的不断优化，和硬件设备的升级，空间智能将进一步突破现有的技术边界，也许就成为人类生活方式转型的重要驱动力。

大胆想象一下，再加上时间维度，训练成功的话，也许AI真的可以通晓古今，预测未来？

标签：盗梦空间朱霖马千里