AI动态 | 视频扩展模型、游戏AI引擎、多模态大模型、AI原生地图

2024-03-22 09:44:40发布来源：多知网作者：Charles

　　*Meta发布SceneScript

　　*腾讯发布自家研发的游戏AI引擎GiiNEX

　　*快手自主研发大型模型“快意”在综合性能方面超越了GPT-3.5

　　*淘宝天猫集团推出了自家研发的大型模型“淘宝星辰”

　　*谷歌多模态大模型Gemini 1.5 Pro推出API

　　*香港中文大学、上海AI实验室和商汤科技共同推出MOTIA的视频扩展模型

　　*百度地图宣布其“AI向导”用户规模累计破亿

　　*多模态大模型公司「若愚科技」完成超5000万天使轮融资

　　1、Meta发布SceneScript，利用自回归结构化语言模型重建场景

　　据了解，该方法采用场景语言编码器-解码器架构，能够直接从编码的视觉数据中推断出一组结构化的语言命令。

　　为了训练SceneScript，作者生成并发布了一个大规模的合成数据集，名为Aria Synthetic Environments，其中包含10万个高质量的室内场景。这些场景具有以自我中心场景漫游的真实感，并且地面有真实标注的渲染图像。

　　2、腾讯发布自家研发的游戏AI引擎GiiNEX

　　2024年的全球游戏开发者大会上，腾讯发布了自家研发的游戏AI引擎GiiNEX，该引擎利用大型模型和生成式AI技术，针对AINPC、场景制作、内容生成等方面提供了多样化的AIGC能力，包括2D图像、3D城市和剧情等。这一引擎有助于开发者提高高质量内容生成的效率。此外，GiiNEX还将决策AI技术应用于游戏研发测试和模拟玩法等方面。

　　3、快手自主研发大型模型“快意”在综合性能方面超越了GPT-3.5

　　快手自主研发的大型模型“快意”在综合性能方面已显著超越了GPT-3.5，公司有信心在未来半年内达到GPT-4的水平。快手计划将生成模型与生产者工具相结合，帮助创作者降低创作门槛，提高短视频制作的质量和效率。

　　4、淘宝天猫集团推出了自家研发的大型模型“淘宝星辰”

　　淘宝天猫集团推出了自家研发的大型模型“淘宝星辰”，该模型已经在官网上线，成为该集团首个公开的自研大型模型。

　　星辰大模型基于Transformer架构，使用半自研的Megatron-ama框架进行训练，通过学习海量电商消费数据和公开数据，提供增强电商和生活服务场景的文案生成、多轮会话、知识问答和智能决策等功能。

　　淘宝星辰大模型是以电商和生活服务为主要适用场景。提供商品文案编写、商品商家运营、商品数据分析、市场营销策略等经营场景下的智能服务。

　　5、谷歌多模态大模型Gemini 1.5 Pro推出API

　　谷歌向开发人员提供Gemini 1.5 Pro的API支持，鼓励开发人员利用这一强大工具构建产品。Gemini 1.5 Pro模型具有出色的多模态处理能力，开创新可能性。此举引发了苹果内部考虑将Gemini引入iPhone软件的讨论，可能引发AI领域的变革。

　　6、香港中文大学、上海AI实验室和商汤科技共同推出MOTIA的视频扩展模型

　　据了解，该视频扩展模型利用源视频的固有数据特定模式和图像/视频生成，有效实现视频扩展。MOTIA的主要阶段包括输入特定调整和模式感知扩展。提出了额外的策略，包括空间感知插入和噪声传播，以更好地利用扩散模型的生成先验和从源视频中获取的视频模式。

　　7、百度地图宣布AI原生地图“AI向导”用户规模累计破亿

　　全球首个AI原生地图——百度地图宣布其“AI向导”用户规模累计破亿，日均提供超千万次对话。这是自2023年10月17日百度世界大会首发“AI向导”以来，百度地图第一次披露该业务相关数据。

　　百度地图“AI向导”成为继文心一言之后，国内又一个宣布用户破亿的大模型产品。

　　8、多模态大模型公司「若愚科技」完成超5000万天使轮融资

　　本轮融资由东方精工领投，昆仲资本跟投，源合资本担任独家融资顾问。公司称，资金将主要用于产品研发，业务拓展以及团队搭建等方面。

　　公开资料显示，若愚科技是一支源自哈工大的团队，创立于2023年，旨在通过多模态大模型技术打造机器人大脑。在基座模型方面，目前若愚打造了自研的多模态大模型——若愚·九天，据介绍，九天大模型可以支持文本、图片、音频、视频多模态输入和输出。目前，若愚·九天多模态大模型已经在垂直领域进行了细分应用，也针对机器人应用场景进行了专门的训练。

商学院

Open Talk

AI动态 | 视频扩展模型、游戏AI引擎、多模态大模型、AI原生地图

相关阅读