AI新资讯。

AI动态 | 视频扩展模型、游戏AI引擎、多模态大模型、AI原生地图

2024-03-22 09:44:40发布     来源:多知网    作者:Charles  

  *Meta发布SceneScript

  *腾讯发布自家研发的游戏AI引擎GiiNEX

  *快手自主研发大型模型“快意”在综合性能方面超越了GPT-3.5

  *淘宝天猫集团推出了自家研发的大型模型“淘宝星辰”

  *谷歌多模态大模型Gemini 1.5 Pro推出API

  *香港中文大学、上海AI实验室和商汤科技共同推出MOTIA的视频扩展模型

  *百度地图宣布其“AI向导”用户规模累计破亿

  *多模态大模型公司「若愚科技」完成超5000万天使轮融资

  1、Meta发布SceneScript,利用自回归结构化语言模型重建场景

  据了解,该方法采用场景语言编码器-解码器架构,能够直接从编码的视觉数据中推断出一组结构化的语言命令。

  为了训练SceneScript,作者生成并发布了一个大规模的合成数据集,名为Aria Synthetic Environments,其中包含10万个高质量的室内场景。这些场景具有以自我中心场景漫游的真实感,并且地面有真实标注的渲染图像。

  2、腾讯发布自家研发的游戏AI引擎GiiNEX

  2024年的全球游戏开发者大会上,腾讯发布了自家研发的游戏AI引擎GiiNEX,该引擎利用大型模型和生成式AI技术,针对AINPC、场景制作、内容生成等方面提供了多样化的AIGC能力,包括2D图像、3D城市和剧情等。这一引擎有助于开发者提高高质量内容生成的效率。此外,GiiNEX还将决策AI技术应用于游戏研发测试和模拟玩法等方面。

  3、快手自主研发大型模型“快意”在综合性能方面超越了GPT-3.5

  快手自主研发的大型模型“快意”在综合性能方面已显著超越了GPT-3.5,公司有信心在未来半年内达到GPT-4的水平。快手计划将生成模型与生产者工具相结合,帮助创作者降低创作门槛,提高短视频制作的质量和效率。

  4、淘宝天猫集团推出了自家研发的大型模型“淘宝星辰”

  淘宝天猫集团推出了自家研发的大型模型“淘宝星辰”,该模型已经在官网上线,成为该集团首个公开的自研大型模型。

  星辰大模型基于Transformer架构,使用半自研的Megatron-ama框架进行训练,通过学习海量电商消费数据和公开数据,提供增强电商和生活服务场景的文案生成、多轮会话、知识问答和智能决策等功能。

  淘宝星辰大模型是以电商和生活服务为主要适用场景。提供商品文案编写、商品商家运营、商品数据分析、市场营销策略等经营场景下的智能服务。

  5、谷歌多模态大模型Gemini 1.5 Pro推出API

  谷歌向开发人员提供Gemini 1.5 Pro的API支持,鼓励开发人员利用这一强大工具构建产品。Gemini 1.5 Pro模型具有出色的多模态处理能力,开创新可能性。此举引发了苹果内部考虑将Gemini引入iPhone软件的讨论,可能引发AI领域的变革。

  6、香港中文大学、上海AI实验室和商汤科技共同推出MOTIA的视频扩展模型

  据了解,该视频扩展模型利用源视频的固有数据特定模式和图像/视频生成,有效实现视频扩展。MOTIA的主要阶段包括输入特定调整和模式感知扩展。提出了额外的策略,包括空间感知插入和噪声传播,以更好地利用扩散模型的生成先验和从源视频中获取的视频模式。

  7、百度地图宣布AI原生地图“AI向导”用户规模累计破亿

  全球首个AI原生地图——百度地图宣布其“AI向导”用户规模累计破亿,日均提供超千万次对话。这是自2023年10月17日百度世界大会首发“AI向导”以来,百度地图第一次披露该业务相关数据。

  百度地图“AI向导”成为继文心一言之后,国内又一个宣布用户破亿的大模型产品。

  8、多模态大模型公司「若愚科技」完成超5000万天使轮融资

  本轮融资由东方精工领投,昆仲资本跟投,源合资本担任独家融资顾问。公司称,资金将主要用于产品研发,业务拓展以及团队搭建等方面。

  公开资料显示,若愚科技是一支源自哈工大的团队,创立于2023年,旨在通过多模态大模型技术打造机器人大脑。在基座模型方面,目前若愚打造了自研的多模态大模型——若愚·九天,据介绍,九天大模型可以支持文本、图片、 音频、视频多模态输入和输出 。目前,若愚·九天多模态大模型已经在垂直领域进行了细分应用,也针对机器人应用场景进行了专门的训练。