GPT-4o最大的特点是可以多模态实时交互,跟真人响应速度一样。

教育+AI更进一步!GPT-4o多模态实时交互,可解答数学题、实时翻译、模拟面试

2024-05-14 11:53:02发布     来源:多知    作者:Penny  

  来源|多知

  作者|Penny

  北京时间5月14日凌晨1点,OpenAI 召开了春季发布会,CTO Mira Murati在台上宣布最新旗舰模型GPT-4o,以及基于GPT-4o模型的ChatGPT,能力综合,像个“真人”,能听、会看、可说。

  GPT-4o多模态实时交互能力让教育行业更进一步:

  比如,OpenAI官方公布的视频中,邀请了可汗学院创始人萨尔·汗(Sal Khan)和他儿子体验了GPT-4o解答数学题的能力。

  GPT-4o多模态交互可以重塑家庭场景,比如放摇篮曲、讲故事、玩游戏,让AI在家庭教育&亲子关系中的价值更加凸显;

  也让职场/职业教育有更大的想象空间,比如OpenAI官方公布了GPT-4o模拟面试的场景。

  OpenAI宣布GPT-4o宣布可免费使用,这意味着更多的用户可以体验AI带来的便利。不过,免费有容量限制,付费用户将继续 "拥有五倍于免费用户的容量限制"。

  OpenAI 首席执行官山姆·奥特曼 (Sam Altman) 在发布会开始时X平台发布了一个单词:“her”。这也是同名科幻电影的名字,剧中虚拟语音助手萨曼莎聪慧、风趣、敏感……

  

  Murati 表示,GPT-4o 的速度比 GPT-4 Turbo 快 2 倍,便宜 50%,速率限制高 5 倍。

  GPT-4o是一个全新的大语言模型。GPT-4o的“o”代表“omni”。该词意为“全能”。奥特曼在X上提到:“GPT-4o是原生多模态,这意味着它可以在语音、文本和视频分析之间更快地切换。”

  根据介绍,GPT-4o改善了ChatGPT的体验,让用户可以更像使用人类助手一样与 ChatGPT 互动,例如,用户可以向由 GPT-4o支持的ChatGPT进行语音提问,并在ChatGPT回答时打断它。OpenAI 表示,该模型能提供 "实时"响应,甚至能捕捉用户声音中的情感,并生成 "一系列不同情感风格 "的语音。

  GPT-4o还改进了ChatGPT的视觉功能,是实时视觉助手,它可以是盲人或视力不佳人群的“眼睛”,为他们描述所看到的的世界。

  

  (“Be My Eyes”用户演示GPT-4o实时视觉能力)

  美国免费移动应用程序“Be My Eyes”,它将盲人或视力不佳的人与视力正常的人联系起来,创建一个全球24/7视觉支持网络。“Be My Eyes”CEO透露,已经与 GPT-4o建立合作,很快可以在“Be My Eyes”App中使用。

  而视觉与语音多模态实时交互,更打开了教育的想象空间。

  演示者打开ChatGPT,启动摄像头,对准一道写在纸上的数学题,演示者要求 GPT-4o 帮助他们解决这个问题,但不要泄露答案。然后,GPT-4o语音引导演示者完成了求解简单方程的过程,就像一名真人数学老师。

  

  (OpenAI团队演示GPT-4o解答数学题)

  这对于教育行业来说简直是“福音”。

  可汗学院创始人萨尔·汗(Sal Khan)和他儿子体验了GPT-4o解答数学题的能力,GPT-4o采用步步引导的方式指导孩子解答问题。

  萨尔·汗说:“你要帮他解答这道题目,不给他答案,保证他能理解。”

  GPT-4o说:“好的”。然后开始一步步引导孩子解答,孩子答对的话,还赞扬说“很棒”!最终在GPT-4o的引导下,孩子理解了这道题目。

  此前,可汗学院已经基于GPT-4推出了“Khanmigo”。可以预见,未来可汗学院或与GPT-4o有更深度的合作。

  演示者还使用桌面版 GPT-4o 来检查他们写的一些代码, GPT-4o 不仅可以解释代码的作用,还可以告诉用户如果调整代码的特定部分会发生什么。

  

  (GPT-4o代码解析能力)

  在另一个演示中,演示者展示了GPT-4o模型的实时语言翻译能力,比如用户说意大利语,GPT-4o能立即用英语解释出来。新模型让ChatGPT能够处理50种不同的语言,且有更强的记忆力。

  在OpenAI官方放出的视频中,GPT-4o还可以充当“石头剪刀布”的游戏的裁判,为人类增添了更多的乐趣。

  

  (猜拳游戏)

  此外,打开两个GPT-4o,它们还可以对话,唱歌。

  

  (两个GPT-4o对谈)

  GPT-4o最大的特点是实时交互,全新的语音、视觉交互能力得以重塑更多的场景,让体验更加丝滑。

  根据介绍,MacOS 用户很快就可以下载 ChatGPT 桌面应用程序。OpenAI 表示,ChatGPT Plus 用户今天就可以访问该桌面应用程序,而其他免费和付费用户则有望“在未来几周内”访问该应用程序。

  对于新产品,奥特曼在博客文章中提到:“这感觉就像电影中的人工智能一样,我仍然有点惊讶它是真的。事实证明,达到人类水平的响应时间和表达能力是一个巨大的变化。”

  虽然GPT-5没有发布,但是GPT-4o已经足够惊艳。

  未来有很多事情可以做,比如说实时语音交互可以落地到各种智能硬件,翻译机、情感陪伴机器人等。

  END

  本文作者:Penny