World Labs正进一步改善所生成3D场景的大小和真实度。

李飞飞创业项目推出3D AI模型,有望应用于教育领域

2024-12-03 12:48:30发布     来源:多知    作者:王上  

  来源|多知

  作者|王上

  

  

  12月3日,李飞飞创立的“World Labs”刚刚发布了一个最新的AI系统——仅凭一张图片,AI就能生成一个真实、可互动的3D场景。World Labs表示,这是迈向空间智能的第一步。

  与生成静态内容的 AI 图像/视频生成器不同,World Labs 的系统可创建持久的 3D 环境,即使用户从不同角度探索,也能保持一致。“大多数生成式人工智能工具都是制作图片或视频等 2D 内容”,World Labs 写道。“三维生成则提高了控制力和一致性”。可以说,这是一个突破性技术。

  不论是Midjourney、FLUX,还是Runway、DreamMachine以及谷歌推出的“世界模型”Genie,大多数GenAI工具仅能制作图像/视频2D内容。

  World Labs的AI系统则超越了传统生成模型的单纯像素预测,转而直接渲染出完整的3D场景,且场景具有高度的交互性和自由度,用户可以通过键盘或鼠标自由控制视角,甚至可以像玩游戏一样探索这个虚拟世界。

  

  当前,3D生成式AI的应用范围已扩展到视频游戏、电影、建筑甚至教育等领域,World Labs推出的AI系统将有望改变这些领域。

  3D AI系统对教育领域来说有很多的应用场景,未来有更大的想象空间:

  第一,如果裸眼即可实现3D效果,那么意味着可以直接进行沉浸式学习,使学生在模拟的三维环境中进行学习和探索。这比较适合学习立体几何、物理、生物、医学等科目,还可以用于偏实操性的职业教育的教学中。

  第二,3D场景也可以与智能硬件结合,加强交互体验。此外,学生可以通过虚拟现实(VR)和增强现实(AR)技术,与3D模型互动,进行模拟实验或历史场景重现。

  第三,与其他AI产品结合,如在虚拟环境中学习口语等。

  李飞飞被誉为“AI教母”,现为斯坦福大学计算机科学教授,美国工程院院士,美国国家医学院院士。她的专业领域是计算机视觉和认知神经科学。2023年,她入选了《时代》周刊100个最具影响力AI人物。

  2009年,李飞飞发布了当时人工智能史上最大的人工编辑的图像数据集 ImageNet,并于2010年创办了 ImageNet 挑战赛(ILSVRC),极大地推动了计算机视觉识别能力的进步。除了短暂在谷歌工作之外,李飞飞一直在学术界任职。

  李飞飞也在积极推进人工智能的教育与研究,她于2019年在斯坦福大学成立了以人为本人工智能研究院(HAI),确保人类能在人工智能中受益。在此之前,李飞飞还和同事们成立了AI4All项目,给女性和有色人种、困难学生等人群提供人种智能课程。

  今年4月,李飞飞首次下场开始自创业,专注于空间智能,9月,这家名为World Lab正式亮相,该团队集合了李飞飞的学生和相关领域的知名技术人员。

  其中,Justin Johnson 是李飞飞的学生,也是技术大牛;Ben Mildenhall在 Nerf 方面具有开创性的贡献;Christopher Lassner,他在计算机图形学领域很有名。

  

  公开信息显示,World Labs已经获得2.3亿美元的投资,投资者包括 Andreessen Horowitz (a16z)、Ashton Kutcher、英特尔资本、AMD Ventures 和谷歌前CEO埃里克-施密特(Eric Schmidt)。该公司的估值超过 10 亿美元,显示了资本看好“空间智能”技术的未来。

  此前,李飞飞在接受a16z的专访时提到,视觉空间智能非常根本,与语言一样根本。可以说,图像和视频生成的下一步将依赖于“空间智能”技术的进步,而World Labs正在朝着这个方向努力。

  “我认为我们实际上现在正处于寒武纪大爆发过程中,因为现在不只是文本,像素、视频、音频方面都在出现可能的 AI 应用和模型。所以这是一个非常激动人心的时刻。”李飞飞在专访中说到。

  所谓空间智能,Justin Johnson曾在接受a16z的专访时解释,空间智能是机器在三维空间和时间中以三维方式感知、推理和行动的能力,这能帮助它理解事物在三维空间和时间(4D)中的位置,事物的交互方式。这是将 AI 从大型数据中心带出来,放入 3D/4D 世界中,使其理解这个世界的丰富性。

  目前,World Labs迈出了空间智能技术的重要一步。根据World Labs 官网介绍,3D场景AI系统的优势在于:

  持久现实:一旦一个3D场景被生成,它就会一直存在。如果你看向别处再回来,场景不会发生变化。

  实时控制:在生成一个场景后,你可以实时地在其中移动。你可以停留在一朵花的细节上,或者绕过一个角落去看看有什么新发现。

  正确的几何学:生成的世界遵循基本的3D几何物理规则。它们具有实体感和深度感,这与一些AI生成视频的梦幻性质形成对比。

  用户还可以应用实时相机效果,如景深调整和推拉变焦,类似于传统的电影制作技术。该技术还支持更多交互式 3D 效果,如动态照明变化和场景修改等功能,甚至还可以修改动画效果,还可以基于浏览器进行实时渲染。

  

  

  李飞飞本人也在社交平台分享了这一成果,表示:“虽然很难用语言完全描述这种通过一张图片或一句话就能生成的3D场景互动体验,但我相信它会给大家带来全新的感受。”

  

  World Labs 联合创始人贾斯汀·约翰逊 (Justin Johnson) 所指出的那样,如今创造互动式沉浸式场景需要多年的开发时间和巨额预算。借助 AI 生成的世界模型,他们希望让这个过程更快、更方便,从而让人人拥有创造力。

  这种技术不仅是艺术创作的巨大工具,也为虚拟现实(VR)提供了无限可能,网友们纷纷表示,这项技术可能是VR应用的一次重大飞跃。

  不少知名人士也为此点赞,Shopify创始人Tobi Lutke称其为“AI领域的一次革命”,他认为这项技术将会彻底改变创作与互动体验。

  许多网友认为,World Labs的技术让人“大开眼界”,AI能够从单张图片生成这样的世界,不仅让游戏和电影的制作方式发生变革,还将极大提升设计、教育、艺术等领域的创作效率。

  还有网友指出,今天,World Labs开启了人工智能内容创作的新时代。在3D AI的引领下,在讲故事和创造力将有无限可能。

  目前,World Labs的系统已经进入内测阶段,创作者和开发者们均抢先体验,并开始在实际项目中运用这项技术。

  接下来,World Labs正进一步改善所生成3D场景的大小和真实度。

  END

  作者:王上