*英伟达GTC大会炸裂了,研发最新进展曝光
*消息称苹果正与谷歌商讨在iPhone中嵌入Gemini
*「Open-Sora 1.0」全球首个类Sora视频生成模型开源
*摩根士丹利任命首位AI主管
*李开复:海外已有AI超级应用出现,绝不投资传统APP+AI
*拖拽P图技术再升级:南大、腾讯联合推出StableDrag
1、英伟达GTC大会,公布多项技术进展
在英伟达GTC(GPU Technology Conference)大会上,黄仁勋发表主题演讲《见证AI的变革时刻》。在两个小时的演讲中,黄仁勋围绕五大板块,介绍了英伟达的最新研发进展:新的产业发展、Blackwell平台、创新软件NIMs、AI平台NEMO和AI工坊(AI foundry)服务,以及仿真平台Omniverse和适用于通用机器人的 Project GROOT技术。英伟达还透露了对其 Nvidia Isaac 机器人平台的升级,旨在使机器人手臂比以往更智能、更灵活、更高效。
在本届英伟达GTC大会上,英伟达展示了多款由GROOT驱动的机器人,它们可以通过观察人类的行为来理解自然语言和模仿运动。据英伟达透露,公司正在为领先的人形机器人公司开发一个综合的AI平台,如1X Technologies、Agility Robotics、Apptronik、波士顿动力公司、Figure AI、傅利叶智能、Sanctuary AI、宇树科技和小鹏鹏行等。
黄仁勋透露,英伟达拥有 1000 多名机器人开发人员。他说:“机器人领域出现ChatGPT时刻的可能性近在咫尺,我们已经花了一段时间来构建端到端的机器人系统。”
2、消息称苹果正与谷歌商讨在iPhone中嵌入Gemini
据彭博社报道,援引知情人士透露,苹果正在同谷歌进行谈判,商讨在iPhone中嵌入谷歌的Gemini人工智能引擎。知情人士还称,苹果近期还与OpenAI进行了讨论,并考虑使用其模型。
苹果和谷歌以及OpenAI均暂未置评。
3、全球首个类Sora视频生成模型全面开源
Github技术社区显示,「Open-Sora 1.0」全球首个类Sora视频生成模型全面开源,包括训练细节和模型权重,复现成本仅1万美元;模型采用Diffusion Transformer架构,优化空间-时间注意力机制,大幅降低训练和推理开销,提升视频生成质量;多阶段训练策略有效降低成本,提升视频内容生成的时长、分辨率和保真度,支持高效训练加持,进一步优化视频生成效果。
4、摩根士丹利任命首位AI主管
CNBC称,摩根士丹利任命了其首位全公司层面的AI主管Jeff McMillan,以推动AI技术在公司中的实施。这一举措反映了金融服务行业开始调整组织架构,以AI驱动公司发展。去年,摩根士丹利基于OpenAI的 GPT-4为员工创建解决方案,今年可谓是动作加快。
据称,Jeff McMillan将与业务部门和基础设施领域合作,确定人工智能机会并确定优先顺序;帮助公司在整个行业的人工智能开发流程中定位。
5、李开复:海外已有AI超级应用出现,不是“AI First”应用绝不投资
创新工场董事长、零一万物 CEO 李开复出席2024 澜舟科技大模型技术和产品发布会,并发表《AI 2.0 平台变革进行式》主题演讲。
李开复抛出了以下观点:
今天世界最好的大模型,已经接近人类平均智商的三倍。
杀手级应用已经有了,而且以后会越来越多。微信、TikTok、Instagram等,做到1亿级用户,需要8-30个月。而美国已经有两个AI应用,仅用6个月就达到了1亿用户。
纯移动时代的应用,将成为过去式。AI 2.0通过了图灵测试,将赋能所有的应用,并带来一个平台级的变革。
每一个最伟大的、能创造最大价值、用户量最多、能最快达到1亿用户的应用,一定都是原生的 AI First 应用。创新工场未来3年,不是“AI First”应用绝不投资!
如果只是在移动互联网或PC应用基础上加上一个 AI 助手,就不是真的真正的AI First、AI Native。真正的AI First是把大模型拿掉后,整个应用就不工作、不存在了。
AI将从虚拟世界走向真实世界。未来10 年, AI将无所不在,而且会让人类所有的工作任务,发生翻天覆地的改变。(腾讯科技、i黑马)
6、拖拽P图技术再升级:南大、腾讯联合推出StableDrag
南京大学和腾讯开发了StableDrag,通过判别式点跟踪和基于置信的潜在增强策略,提升了拖拽P图技术的稳定性和准确性;StableDrag优化了长程操纵稳定性和高质量操纵点定位,能精确移动和编辑图像中的特定部分;在广泛的定性和定量评估中,StableDrag展现出比先前方法更稳定和高质量的拖拽效果,提供了新的图像编辑模型StableDrag-GAN和StableDrag-Diff。(机器之心)