分类
新闻

 介绍 Claude 3.5 Sonnet:以提高的智能和速度创立人工智能新标准

Claude 3.5 Sonnet 是 Claude 3.5 系列最新版本,引入了人工智能能力方面的显著进步。它在智能基准方面表现出色,运行速度是之前模型的两倍,并提供具有成本效益的定价。新功能如 Artifacts 通过提供实时协作工具,增强用户互动体验。安全措施包括严格测试和与外部专家的合作,确保符合 ASL-2 标准并优先保护用户隐私。未来更新将包括发布 Claude 3.5 Haiku 和 Claude 3.5 Opus,同时持续改进以支持多样的业务应用和用户反馈整合。

今天,我们推出了 Claude 3.5 Sonnet ——我们即将发布的 Claude 3.5 系列中的第一个版本。Claude 3.5 Sonnet 在智能方面提升了行业标准,优于竞争对手模型和 Claude 3 Opus,在多项评估中表现出色,且拥有中档型号 Claude 3 Sonnet 的速度和成本。

Claude 3.5 Sonnet 现在可在 Claude.ai 和 Claude iOS 应用上免费获取,而 Claude Pro 和 Team 计划订阅用户可以以显著更高的速率限制访问。它还可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 访问。模型的成本为每百万输入代币 3 美元,每百万输出代币 15 美元,具有 200K 代币上下文窗口。

前沿智能,速度翻倍

Claude 3.5 Sonnet 为研究生水平推理(GPQA)、本科水平知识(MMLU)和编码熟练度(HumanEval)设立了新的行业基准。它在理解微妙之处、幽默和复杂指令方面有显著改进,并且在以自然、亲和的语调撰写高质量内容方面表现出色。

Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能提升,加上成本效益定价,使 Claude 3.5 Sonnet 非常适用于复杂任务,如上下文敏感的客户支持和协调多步工作流程。

内部机构编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,优于解决了 38% 的 Claude 3 Opus。我们的评估测试了模型修复开源代码库中的错误或添加功能的能力,鉴于所需改进的自然语言描述。在获得指导并提供相关工具的情况下,Claude 3.5 Sonnet 可独立编写、编辑和执行具有复杂推理和故障排除能力的代码。它轻松处理代码转换,特别适用于更新传统应用程序和迁移代码库。

最先进的视觉

Claude 3.5 Sonnet 是我们迄今为止最强大的视觉模型,超越了标准视觉基准上的 Claude 3 Opus。这些巨大改进在需要视觉推理的任务上最为明显,比如解释图表和图形。Claude 3.5 Sonnet 还可以准确地从不完美的图像转录文本 —— 这对零售、物流和金融服务等领域至关重要,因为人工智能可能会从图像、图形或插图中得到比仅从文本中更多的见解。

Artifacts —— 一种使用 Claude 的新方式

今天,我们还在 Claude.ai 上推出了 Artifacts,这是一项新功能,扩大了用户与 Claude 互动的方式。当用户要求 Claude 生成内容,如代码片段、文档或网站设计时,这些 Artifacts 将出现在与他们对话并排的专用窗口中。这创造了一个动态的工作空间,用户可以实时查看、编辑和构建 Claude 的创作,无缝地将由人工智能生成的内容整合到他们的项目和工作流程中。

这一预览功能标志着Claude从一个对话型人工智能发展到一个协作工作环境。这只是Claude.ai更广泛愿景的开始,很快将扩展支持团队协作。在不久的将来,团队——最终整个组织——将能够在一个共享空间中安全地集中他们的知识、文档和正在进行的工作,而Claude将作为一个随需团队成员。

致力于安全和隐私

我们的模型经过严格测试,并经过训练以减少滥用。尽管Claude 3.5 Sonnet在智能方面有了飞跃,但我们的红队评估得出结论,Claude 3.5 Sonnet仍然处于ASL-2。更多详情请参阅模型卡补充说明

作为我们致力于安全和透明度的一部分,我们与外部专家合作,测试和完善了这一最新模型中的安全机制。我们最近将Claude 3.5 Sonnet提供给英国人工智能安全研究所(UK AISI)进行部署前安全评估。英国AISI对3.5 Sonnet进行了测试,并与美国人工智能安全研究所(US AISI)分享了结果,作为今年早些时候宣布的美国和英国AISI之间合作的一部分。

我们已经整合了来自外部专业领域专家的政策反馈,以确保我们的评估是严格的,并考虑到滥用的新趋势。这种合作帮助我们的团队扩大了评估3.5 Sonnet的能力,针对各种滥用进行评估。例如,我们利用了来自Thorn的儿童安全专家的反馈,更新了我们的分类器并微调了我们的模型。

指导我们AI模型开发的核心宪法原则之一是隐私。除非用户明确同意,我们不会使用用户提交的数据来训练我们的生成模型。迄今为止,我们没有使用任何客户或用户提交的数据来训练我们的生成模型。

即将推出

我们的目标是每隔几个月显著改善智能、速度和成本之间的权衡曲线。为了完成Claude 3.5模型系列,我们将在今年晚些时候推出Claude 3.5 Haiku和Claude 3.5 Opus。

除了致力于我们的下一代模型系列,我们还在开发新的形式和功能,以支持更多企业的使用案例,包括与企业应用程序的集成。我们的团队还在探索Memory等功能,这将使Claude能够记住用户的偏好和互动历史,使他们的体验更加个性化和高效。

我们不断努力改进Claude,并乐于听取用户的意见。您可以直接在产品中提交对Claude 3.5 Sonnet的反馈,以指导我们的发展路线图,帮助我们的团队改进您的体验。一如既往,我们期待看到您用Claude构建、创造和发现的一切。

本文内容翻译自原始文章

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注