多项性能测试中性能略胜一筹。

Claude 3.5 Sonnet编程和数学等能力强大,网友见证“魔法时刻”

2024-06-22 10:29:15发布     来源:多知    作者:Penny  

  来源|多知

  作者|Penny

  6月20日晚,OpenAI的竞争对手Anthropic在周四宣布了其迄今为止最强大的人工智能模型Claude 3.5 Sonnet。据介绍,Claude 3.5 Sonnet比其之前的模型Claude 3 Opus快两倍,价格只有五分之一。

  Claude 3.5 Sonnet是Anthropic新推出的Claude 3.5系列中的第一个模型,可以说是下一代版本的中间版本。

  Anthropic还推出“Artifacts预览版”,用户能从中编辑和迭代AI模型生成的内容,无缝集成到自己的项目和工作流程中。

  根据Anthropic介绍,Claude 3.5 Sonnet在覆盖阅读、编程、数学和视觉等领域的多项性能测试中性能略胜一筹,超过GPT-4o等一众竞争对手的AI模型,且优于自家旗舰模型Claude 3 Opus。

  1.jpeg

图片

  Anthropic称,在得到指导和相关工具后,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,并具有复杂的推理和故障排除功能。它可以轻松处理代码转换,使其特别适合更新旧版应用程序和迁移代码库。

  全球网友开始试用Claude 3.5 Sonnet,可以看到,其最强大的能力是编程能力。

  比如网友Allie K.Miller利用Claude 3.5 Sonnet 编写曼卡拉数学游戏。

  她说:“这太疯狂了。在短短 25 秒内,Claude 3.5 Sonnet 就为我编写了一个功能齐全的曼卡拉游戏应用程序,我只提供了游戏说明的一张屏幕截图。

  它完成了其余的工作:- 编写了整个游戏 - 预览了游戏,以便我可以测试 - 提供了游戏规则。”

  2.jpeg

图片

  不过,Allie K.Miller很快发现有代码错误,然后告诉了Claude 3.5 Sonnet 修复它。Claude 3.5 Sonnet 在几秒钟内就修复了。

  曼卡拉是古老的数学棋盘游戏,可能起源于公元前6000年的约旦,至今仍在全球各地流行。这个游戏由石头组成,玩家在木制游戏板上移动石头,将所有石头放入棋盘末端的最后一个坑中是游戏的关键。

  来看看Claude 3.5 Sonnet的设计效果:

  0.gif

图片

  网友João Montenegro用Claude 3.5 Sonnet 制作了一个 threejs+cannonjs 3d 太阳系,其中包含物理和碰撞。

  太阳系.gif

图片

  来看看实际效果:

  太阳系.gif

图片

  网友Janet认为,Claud呃推出的 Artifact过于强大,可瞬间写完一个网站,速度非常快,简直是“神圣的魔法时刻”。

  6.jpeg

图片

  网友calix huang用Claude 3.5 Sonnet生成了一张芯片制作过程的图。

  7.jpeg

图片

  可以看到,Claude 3.5 Sonnet视觉能力比较强,不仅清晰制作出各种静态图片,利用工具还能制作动图、动画。

  网友Timothy B. Lee让Claude 3.5 Sonnet判断“100便士和三个25美分硬币,谁更有价值?”

8.jpeg  

图片

  Claude 3.5 Sonnet首先给出答案是“三个25美分硬币更有价值”。

  后来通过解析:100便士 = 1美元,三个25美分 = 0.75美元

  最终认为:“0.75美元小于1美元,所以100便士比三个25美分更有价值。”

  很明显,Claude 3.5 Sonnet给出了两个截然相反的答案。

  Timothy B. Lee说“你自相矛盾”。Claude 3.5 Sonnet马上道歉,说“自己错了”,然后经过推导,最后才得出结论“100便士更有价值”,并再次致歉。

  可以看到,Claude 3.5 在一些数学问题上可以解答出来,但是它可能并不知道自己给出答案的底层逻辑,以至于“思维混乱”。

  Timothy B. Lee总结说:“到目前为止,Claude 3.5总体上给我留下了深刻的印象,但它有时仍然会犯一些愚蠢的错误。”

  总体而言,Claude 3.5 Sonnet有很大的进步,但是幻觉问题依然存在。

  Claude的运营公司Anthropic被认为是OpenAI最大的竞争对手,由前OpenAI研究高管创立,曾得到了包括Google、Salesforce和Amazon在内的投资者支持。在过去一年中,Anthropic完成了五笔不同的融资交易,总计约73亿美元。