原生多模态AI大模型或更适合教育，谷歌称Gemini数学、物理等方面超越人类专家

2023-12-08 13:21:54发布来源：Gemini 作者：王上

　　来源|多知网

　　作者|王上

　　图片来源|Gemini

　　12月6日，谷歌宣布将推出其认为规模最大、功能最强大的人工智能模型Gemini(双子座)，试图超越OpenAI。尤其是Gemini的演示视频在全网刷屏，引发热议。不过，评论两极分化。

　　即便如此，谷歌母公司Alphabet股价周四大涨超过5%，报收每股136.93美元。

　　谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在一份新闻稿中表示：“这是令人难以置信的势头，然而，我们才刚刚开始触及可能性的表面。这个新时代的模型代表了我们作为一家公司所做出的科学努力之一。”

　　谷歌 DeepMind 产品副总裁 Eli Collins 在新闻发布会上表示，这是第一个在解决数学、物理、历史、法律、医学和伦理等某些基准方面超越人类专家的人工智能模型。

　　谷歌称Gemini是多模态的，即可以同时识别视频、图像、文本和语音。不过， Gemini 暂时只会以文本、语音或代码形式回复。

　　根据视频演示，Gemini与ChatGPT最大的不同是，可以在线上和线下进行多模态的交互。在此之前，各大模型的多模态并未完全实现。

　　DeepMind创始人、Google DeepMind首席执行官Demis Hassabis接受《连线》杂志采访时提到，Gemin是“原生多模态”，而其他大模型是“近似多模态”。意思是“Gemini从一开始就是多模态的训练，而其他模型是视频、图像、文本和语音等单独的模型，然后拼装到一起。”

　　在视频演示中，工作人员在纸上画了一只蓝色的鸭子，Gemini马上能识别出是一只鸭子，但它很快说这只鸭子的颜色不真实，然后，它还给出了“鸭子”在全球的不同发音，包含英语、法语、中文等语言的发音。Gemini还展示了在杯子转换游戏中追踪球，识别手影戏手势，重新排列行星素描等。

　　如果Gemini能实现多模态交互，那么对教育来说将极为便利。比如让Gemini识别数学作业，它能说出对错，相当于及时批改，也能对数学题目进行讲解。

　　在一个视频演示中，谷歌展示了如何使用 Gemini 来帮助完成物理作业，逐步解决工作表上的问题，并指出已填写答案中可能存在的错误。

　　不过，根据美国科技媒体TechCrunch今天的报道，称Gemini的演示有剪辑的成分，作者认为Gemini的反应速度太快了。对此，谷歌回应称，“这个视频展示了Gemini的真实输出，但我们对演示进行了一些剪辑。”

　　也就说，谷歌演示了Gemini的技术和未来趋势，但是，目前，Gemini的使用体验暂时还没有视频展示的那么流畅。

　　根据谷歌介绍，Gemini将包括三种不同的套件：

　　1)Gemini Ultra，功能最强大，适用于高度复杂的任务。

　　2)Gemini Pro，适用于多种任务。

　　3)Gemini Nano，适合想要构建 Gemini 支持的应用程序的 Android(安卓) 用户。例如，借助 Gemini Nano，人们现在可以总结使用 Pixel 8 Pro 手机上的录音机应用程序进行的录音(但仅限英语)。

　　Eli Collins 强调，在 30 项衡量图像理解或数学推理等能力的基准测试中，Gemini Ultra 性能“远远超过”其他最先进的模型。

　　当前，谷歌正在分阶段推出 Gemini，谷歌的人工智能聊天机器人Bard 已经开始使用 Gemini Pro 的微调版本，为聊天机器人有了更先进的推理和理解能力以及其他功能。Gemini Pro 支持的 Bard 仅提供英语版本，在 170 多个国家/地区可用。谷歌表示，巴德将于明年与 Gemini Ultra 整合。在接下来的几个月中，该公司将在其他应用程序中添加 Gemini，包括搜索、Google Ads 和 Chrome 浏览器。

　　谷歌 Bard 的副总裁 Sissie Hsiao 在新闻发布会上表示，Gemini Pro 在8 个行业基准测试中的 6 个中优于 GPT-3.5 。Google 最先进的模型 Gemini Ultra 在八项基准测试中的七项中击败了较新的 GPT-4。

　　不过值得警惕的是，大模型有一个问题是会产生幻觉，指的是一些人工智能模型在面对某些输入时，会生成不准确、不完整或误导性的输出。Gemini可以避免这个问题吗?谷歌 DeepMind 产品副总裁 Eli Collins 在新闻发布会上说：“大模型仍然会产生幻觉。”

　　一年前，OpenAI 发布ChatGPT后，科技巨头们纷纷推出自己的聊天机器人和大模型，以与这家人工智能初创公司竞争。谷歌最近对 Gemini 的评估表明 OpenAI 的竞争对手正在迎头赶上。

　　可以看到，全球大模型军备竞赛愈演愈烈。谷歌Gemini 的出现或将打破现有大模型格局。

　　END

　　本文作者：王上

商学院

Open Talk

原生多模态AI大模型或更适合教育，谷歌称Gemini数学、物理等方面超越人类专家

相关阅读