Claude 3超越GPT-4！擅长推理、数学、编码，教育变革比想象中来得更快

2024-03-05 10:22:46发布来源：多知网作者：Penny

　　美国人工智能初创公司Anthropic 周一宣布，推出下一代 AI 模型 Claude 3。包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。这三种模型在推理、数学、编码、多语言理解和视觉方面成绩亮眼，树立了新的行业标准。

　　Anthropic称：“每个模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的增强能力。”

　　Anthropic称，Opus在行业基准测试中表现优于OpenAI的GPT-4和谷歌的Gemini Ultra，比如在推理、数学和编码能力，接近人类的理解能力。

　　Claude 3是多模态大模型，提供复杂视觉功能，可以处理各种视觉格式，包括照片、图表、图形和技术图表。

　　有网友评论，与Claude 3相比，GPT-4在编码和数学方面就像是石器时代的旧技术。

　　Claude 3可以应用于需要高度智能和复杂任务处理的场景，如企业自动化、复杂金融预测、研究和开发等。

　　亚马逊云旗下的生成式AI服务Amazon Bedrock第一时间接入了Claude，服务于全球客户，他们很快将使用 Claude 3 模型，以进一步推动快速创新。

　　亚马逊云举例，韩国的电信公司和无线运营商KT开发了一项名为AI Call Report 的服务，该服务可以改善家校互通。

　　具体来看，AI Call Report 使用Amazon Bedrock 上的Claude来实时记录(在同意的情况下)、总结和翻译教师、学生和家长之间的通话，从而改善教师能够专注于与学生和家庭的互动，并最大限度地减少以前的手动和费力的过程。该服务将于今年三月韩国新学年开始时在学校推出。

　　Perplexity AI是一家对话式人工智能公司，它在 Bedrock 上使用 Anthropic 的 Claude 2 来快速测试和部署对其一般问答功能的改进，提供听起来更自然的答案，并构建新功能。

　　Claude 3强在哪里？

　　Claude的模型家族：

　　Anthropic称，Opus在人工智能系统的大多数常见评估基准上都优于同行，包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性。

　　Claude 3 模型可以支持实时客户聊天、自动完成和数据提取任务。

　　Claude 3 有200k的对话长度，相当于能够单次处理超过15万英文单词，而GPT-4 Turbo的上下文窗口为128k，约9.6万个英文单词。

　　Haiku相应速度快，它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k 代币)。未来正式发布有望进一步提高性能。

　　Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高，它擅长执行需要快速响应的任务，例如知识检索或销售自动化;Opus 的速度与 Claude 2 和 2.1 相似，但智能水平更高。

　　Opus和Sonnet周一已经向159个国家和地区开放，而Haiku将在未来几周内推出。

　　视觉能力突出

　　Claude 3 擅长复杂视觉功能，他们可以处理各种视觉格式，包括照片、图表、图形和技术图表。比如一些客户的知识库各种格式排版，例如 PDF、流程图或演示幻灯片。

　　值得注意的是，Claude 3不生成图像；但它允许用户上传图像和其他文档进行分析。Claude 3能够“认”出来图里的是什么东西，直接描述，回答用户的问题，这和GPT-4l类似。

　　更高的准确性

　　大模型的幻觉问题一直是行业难题之一。

　　Anthropic将答案分为正确答案、错误答案(或幻觉)和承认不确定性，如果不知道，模型表示它不知道答案，而不是提供不正确的信息。

　　Anthropic提到，与 Claude 2.1 相比，Opus 在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍，同时也减少了错误答案的水平。

　　除了产生更值得信赖的回复之外，未来，Anthropic还将在 Claude 3 模型中启用引用，以便他们可以指向参考材料中的精确句子来验证他们的答案。

　　从OpenAI离开，走了不同的道路

　　Anthropic创始人Daniela Amodei和Dario Amodei均是OpenAI前高层，后者曾是OpenAI的研究副总裁，他们当初离开OpenAI是不满依附于微软，他们于2021年创立该公司，目标是开发与OpenAI竞争的生成式人工智能模型。该公司也是OpenAI之外最受关注的人工智能公司。

　　在过去的一年时间里，Anthropic完成了五笔不同的融资交易，总额约为73亿美元，该公司在去年12月底估值达到了184亿美元，投资者包括谷歌、Salesforce和亚马逊等。

　　Claude与ChatGPT从一开始就走了不同的道路。

　　在模型训练上，Claude与ChatGPT虽然都是靠强化学习(RL)来训练偏好模型，并进行后续微调。

　　但是，在训练方法上，Claude又与ChatGPT略有不同，ChatGPT采用人类反馈强化学习(RLHF)，Claude采用的原发人工智能方法，是基于偏好模型而非人工反馈来进行训练的，因此，这种方法又被称为“AI反馈强化学习”，即RLAIF。

　　底层的不同，造成了 Claude与ChatGPT有不同的体验。

商学院

Open Talk

Claude 3超越GPT-4！擅长推理、数学、编码，教育变革比想象中来得更快

相关阅读