李飞飞创业项目推出3D AI模型，有望应用于教育领域

2024-12-03 12:48:30发布来源：多知作者：王上

　　来源|多知

　　作者|王上

　　12月3日，李飞飞创立的“World Labs”刚刚发布了一个最新的AI系统——仅凭一张图片，AI就能生成一个真实、可互动的3D场景。World Labs表示，这是迈向空间智能的第一步。

　　与生成静态内容的 AI 图像/视频生成器不同，World Labs 的系统可创建持久的 3D 环境，即使用户从不同角度探索，也能保持一致。“大多数生成式人工智能工具都是制作图片或视频等 2D 内容”，World Labs 写道。“三维生成则提高了控制力和一致性”。可以说，这是一个突破性技术。

　　不论是Midjourney、FLUX，还是Runway、DreamMachine以及谷歌推出的“世界模型”Genie，大多数GenAI工具仅能制作图像/视频2D内容。

　　World Labs的AI系统则超越了传统生成模型的单纯像素预测，转而直接渲染出完整的3D场景，且场景具有高度的交互性和自由度，用户可以通过键盘或鼠标自由控制视角，甚至可以像玩游戏一样探索这个虚拟世界。

　　当前，3D生成式AI的应用范围已扩展到视频游戏、电影、建筑甚至教育等领域，World Labs推出的AI系统将有望改变这些领域。

　　3D AI系统对教育领域来说有很多的应用场景，未来有更大的想象空间：

　　第一，如果裸眼即可实现3D效果，那么意味着可以直接进行沉浸式学习，使学生在模拟的三维环境中进行学习和探索。这比较适合学习立体几何、物理、生物、医学等科目，还可以用于偏实操性的职业教育的教学中。

　　第二，3D场景也可以与智能硬件结合，加强交互体验。此外，学生可以通过虚拟现实(VR)和增强现实(AR)技术，与3D模型互动，进行模拟实验或历史场景重现。

　　第三，与其他AI产品结合，如在虚拟环境中学习口语等。

　　李飞飞被誉为“AI教母”，现为斯坦福大学计算机科学教授，美国工程院院士，美国国家医学院院士。她的专业领域是计算机视觉和认知神经科学。2023年，她入选了《时代》周刊100个最具影响力AI人物。

　　2009年，李飞飞发布了当时人工智能史上最大的人工编辑的图像数据集 ImageNet，并于2010年创办了 ImageNet 挑战赛(ILSVRC)，极大地推动了计算机视觉识别能力的进步。除了短暂在谷歌工作之外，李飞飞一直在学术界任职。

　　李飞飞也在积极推进人工智能的教育与研究，她于2019年在斯坦福大学成立了以人为本人工智能研究院(HAI)，确保人类能在人工智能中受益。在此之前，李飞飞还和同事们成立了AI4All项目，给女性和有色人种、困难学生等人群提供人种智能课程。

　　今年4月，李飞飞首次下场开始自创业，专注于空间智能，9月，这家名为World Lab正式亮相，该团队集合了李飞飞的学生和相关领域的知名技术人员。

　　其中，Justin Johnson 是李飞飞的学生，也是技术大牛;Ben Mildenhall在 Nerf 方面具有开创性的贡献;Christopher Lassner，他在计算机图形学领域很有名。

　　公开信息显示，World Labs已经获得2.3亿美元的投资，投资者包括 Andreessen Horowitz (a16z)、Ashton Kutcher、英特尔资本、AMD Ventures 和谷歌前CEO埃里克-施密特(Eric Schmidt)。该公司的估值超过 10 亿美元，显示了资本看好“空间智能”技术的未来。

　　此前，李飞飞在接受a16z的专访时提到，视觉空间智能非常根本，与语言一样根本。可以说，图像和视频生成的下一步将依赖于“空间智能”技术的进步，而World Labs正在朝着这个方向努力。

　　“我认为我们实际上现在正处于寒武纪大爆发过程中，因为现在不只是文本，像素、视频、音频方面都在出现可能的 AI 应用和模型。所以这是一个非常激动人心的时刻。”李飞飞在专访中说到。

　　所谓空间智能，Justin Johnson曾在接受a16z的专访时解释，空间智能是机器在三维空间和时间中以三维方式感知、推理和行动的能力，这能帮助它理解事物在三维空间和时间(4D)中的位置，事物的交互方式。这是将 AI 从大型数据中心带出来，放入 3D/4D 世界中，使其理解这个世界的丰富性。

　　目前，World Labs迈出了空间智能技术的重要一步。根据World Labs 官网介绍，3D场景AI系统的优势在于：

　　持久现实：一旦一个3D场景被生成，它就会一直存在。如果你看向别处再回来，场景不会发生变化。

　　实时控制：在生成一个场景后，你可以实时地在其中移动。你可以停留在一朵花的细节上，或者绕过一个角落去看看有什么新发现。

　　正确的几何学：生成的世界遵循基本的3D几何物理规则。它们具有实体感和深度感，这与一些AI生成视频的梦幻性质形成对比。

　　用户还可以应用实时相机效果，如景深调整和推拉变焦，类似于传统的电影制作技术。该技术还支持更多交互式 3D 效果，如动态照明变化和场景修改等功能，甚至还可以修改动画效果，还可以基于浏览器进行实时渲染。

　　李飞飞本人也在社交平台分享了这一成果，表示：“虽然很难用语言完全描述这种通过一张图片或一句话就能生成的3D场景互动体验，但我相信它会给大家带来全新的感受。”

　　World Labs 联合创始人贾斯汀·约翰逊 (Justin Johnson) 所指出的那样，如今创造互动式沉浸式场景需要多年的开发时间和巨额预算。借助 AI 生成的世界模型，他们希望让这个过程更快、更方便，从而让人人拥有创造力。

　　这种技术不仅是艺术创作的巨大工具，也为虚拟现实(VR)提供了无限可能，网友们纷纷表示，这项技术可能是VR应用的一次重大飞跃。

　　不少知名人士也为此点赞，Shopify创始人Tobi Lutke称其为“AI领域的一次革命”，他认为这项技术将会彻底改变创作与互动体验。

　　许多网友认为，World Labs的技术让人“大开眼界”，AI能够从单张图片生成这样的世界，不仅让游戏和电影的制作方式发生变革，还将极大提升设计、教育、艺术等领域的创作效率。

　　还有网友指出，今天，World Labs开启了人工智能内容创作的新时代。在3D AI的引领下，在讲故事和创造力将有无限可能。

　　目前，World Labs的系统已经进入内测阶段，创作者和开发者们均抢先体验，并开始在实际项目中运用这项技术。

　　接下来，World Labs正进一步改善所生成3D场景的大小和真实度。

　　END

　　作者：王上

商学院

Open Talk

李飞飞创业项目推出3D AI模型，有望应用于教育领域

相关阅读