Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o

Anthropic 推出了中端机型Claude 3.5 Sonnet，其表现优于竞争对手，甚至在各项评估中超越了 Anthropic 目前的顶级机型 Claude 3 Opus。

Claude 3.5 Sonnet 现已在 Claude.ai 和 Claude iOS 应用上免费提供，Claude Pro 和 Team 计划订阅者可享受更高的费率限制。它也可通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 获得。该模型的定价为每百万输入令牌 3 美元，每百万输出令牌 15 美元，具有 200K 令牌上下文窗口。

Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o

Anthropic 声称 Claude 3.5 Sonnet“为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 设定了新的行业基准”。该模型表现出了增强的理解细微差别、幽默和复杂指令的能力，同时擅长以自然的语气制作高质量的内容。

Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍，非常适合处理复杂任务，例如上下文相关的客户支持和多步骤工作流程编排。在内部代理编码评估中，它解决了 64% 的问题，远远超过 Claude 3 Opus 的 38%。

该模型还展示了改进的视觉能力，在标准视觉基准上超越了 Claude 3 Opus。这一进步在需要视觉推理的任务中尤为明显，例如解释图表和图形。Claude 3.5 Sonnet 可以准确地从不完美的图像中转录文本，这对零售、物流和金融服务等行业来说是一项宝贵的功能。

在推出该模型的同时，Anthropic 还推出了 Claude.ai 上的 Artifacts，这是一项增强用户与人工智能互动的新功能。该功能允许用户实时查看、编辑和构建 Claude 生成的内容，从而创建更具协作性的工作环境。

尽管 Claude 3.5 Sonnet 的智能水平有了显著提高，但它仍保持了 Anthropic 对安全和隐私的承诺。该公司表示：“我们的模型经过了严格的测试，并经过了训练，可以减少误用。”

包括英国人工智能安全研究所(UK AISI) 和Thorn的儿童安全专家在内的外部专家都参与了该模型的安全机制的测试和改进。

Anthropic 强调其对用户隐私的重视，并表示：“除非用户明确允许，否则我们不会使用用户提交的数据来训练我们的生成模型。到目前为止，我们还没有使用任何客户或用户提交的数据来训练我们的生成模型。”

展望未来，Anthropic 计划于今年晚些时候推出 Claude 3.5 Haiku 和 Claude 3.5 Opus，以完善 Claude 3.5 型号系列。该公司还在开发新模式和功能以支持更多业务用例，包括与企业应用程序的集成以及用于更个性化用户体验的记忆功能。

Anthropic的Claude 3.5 Sonnet在大多数基准测试中击败了GPT-4o

相关推荐

热门文章

优质VPS推荐

国内外VPS测评，分享最新行业资讯

推荐栏目

相关标签