分类
新闻

克劳德 3 的特点是什么

克劳德 3 以其在推理、专家知识、数学和语言任务方面的先进能力而闻名,使其成为Anthropic开发的最智能的AI模型之一。

今天,我们宣布推出克劳德 3 模型系列,该系列在广泛的认知任务中设立了新的行业标杆。该系列包括三个功能逐渐增强的最先进模型:克劳德 3 Haiku、克劳德 3 Sonnet 和克劳德 3 Opus。每个后续模型都提供越来越强大的性能,使用户可以选择在其特定应用程序中实现智能、速度和成本的最佳平衡。

Opus 和 Sonnet 现在可在claude.ai和Claude API中使用,该API目前已在159个国家正式推出。Haiku将很快推出。

克劳德 3 模型系列

claude3

智能的新标准

Opus,我们最智能的模型,在大多数常见的AI系统评估标准上表现优异,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基本数学(GSM8K)等。在处理复杂任务时,它表现出接近人类水平的理解能力和流畅性,引领着通用智能的前沿。

所有克劳德 3 模型在分析和预测、微妙内容创作、代码生成以及使用西班牙语、日语和法语等非英语语言进行对话方面都显示出增强的能力。

以下是克劳德 3 模型与我们的同行在多个能力基准[1]上的比较:

近乎即时的结果

克劳德 3 模型可以为实时客户聊天、自动完成和数据提取任务提供动力,其中响应必须是即时的且实时的。

Haiku 是市场上智能类别中速度最快且性价比最高的模型。它可以在不到三秒的时间内阅读一篇arXiv上信息密集且数据丰富的研究论文(约10k个标记),包括图表和图形。在推出后,我们预计将进一步提高性能。

对于绝大多数工作负载,Sonnet比Claude 2和Claude 2.1快两倍,且具有更高水平的智能。它在需要快速响应的任务上表现出色,如知识检索或销售自动化。Opus的速度与Claude 2和2.1相似,但智能水平更高。

强大的视觉能力

克劳德 3 模型具有与其他领先模型相媲美的复杂视觉能力。它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别激动地将这种新模态性提供给我们的企业客户,其中一些企业客户有多达50%的知识库以PDF、流程图或演示文稿等各种格式编码。

拒绝次数减少

以前的克劳德模型经常做出不必要的拒绝,暗示缺乏上下文理解。我们在这方面取得了实质性进展:Opus、Sonnet 和 Haiku拒绝回答接近系统保护装置边界的提示的可能性明显降低,远低于以前一代模型。如下图所示,克劳德 3 模型对请求的理解更加微妙,认识到真正的伤害,并拒绝回答无害的提示的频率大大降低。

提高准确性

各种规模的企业依赖于我们的模型为其客户提供服务,这使得我们的模型输出在规模上保持高准确性至关重要。为了评估这一点,我们使用一组大量复杂的事实问题,针对当前模型的已知弱点。我们将响应分类为正确答案、错误答案(或幻觉)和不确定性的承认,其中模型表示不知道答案而不是提供错误信息。与Claude 2.1相比,Opus在这些具有挑战性的开放性问题上的准确性(或正确答案)提高了一倍,同时展现出更低水平的错误答案。

除了提供更可靠的响应外,我们很快将在克劳德 3 模型中启用引用,以便它们可以指向参考材料中的确切句子来验证其答案。

长上下文和几乎完美的回忆

克劳德 3 模型系列在推出时将提供一个20万个标记的上下文窗口。然而,所有三个模型都能够接受超过100万个标记的输入,我们可能会向需要增强处理能力的选择客户提供这一功能。

为了有效处理长上下文提示,模型需要强大的回忆能力。“草堆中的针”(NIAH)评估衡量模型从大量数据语料库中准确回忆信息的能力。我们通过在每个提示中随机使用30对针/问题之一,并在一个多样化的众包文档语料库上进行测试,增强了这一基准的稳健性。克劳德 3 Opus 不仅实现了几乎完美的回忆,超过99%的准确率,甚至在某些情况下,它还通过识别“针”句似乎是人工插入到原始文本中的方式,指出了评估本身的局限性。

负责任的设计

我们开发了克劳德 3 系列模型,使其既可靠又有能力。我们有几个专门团队跟踪和减轻各种风险,从信息错误和儿童性虐待物品到生物误用、选举干预和自主复制技能。我们不断开发诸如宪法人工智能等方法,提高我们模型的安全性和透明度,并调整我们的模型以减轻可能由新模式引发的隐私问题。

在不断增强的模型中解决偏见是一项持续的工作,我们在这一新版本中取得了进展。正如模型卡中所示,克劳德 3 比我们先前的模型在问答偏见基准 (BBQ)上展现出更少的偏见。我们致力于推进减少偏见并促进模型更加中立的技术,确保它们不偏向任何特定的党派立场。

尽管克劳德 3 系列模型在生物知识、网络相关知识和自主性方面相较以往的模型有所进步,但根据我们的负责任扩展政策,它仍处于人工智能安全等级 2 (ASL-2)。我们的红队评估(符合我们的白宫承诺2023 年美国行政命令)已经得出结论,认为这些模型目前几乎没有潜在的灾难风险。我们将继续仔细监测未来的模型,以评估它们接近 ASL-3 阈值的程度。有关更多安全细节,请参阅克劳德 3 模型卡

更易于使用

克劳德 3 模型更擅长遵循复杂的多步指令。它们特别擅长遵循品牌声音和响应指南,开发用户可以信赖的客户体验。此外,克劳德 3 模型更擅长生成格式如 JSON 的流行结构化输出,使得指导克劳德用于自然语言分类和情感分析等用例变得更加简单。

模型细节

克劳德 3 Opus 是我们最智能的模型,在高度复杂任务上表现出色。它可以以非常流畅且类似人类理解的方式处理开放式提示和未见过的场景。Opus 展示了生成式人工智能可能性的极限。

成本

[输入 $/百万标记 | 输出 $/百万标记]

$15 | $75
上下文窗口 200K*
潜在用途 任务自动化: 计划和执行跨 API 和数据库的复杂操作,交互式编码研发: 研究审查,头脑风暴和假设生成,药物发现策略: 对图表和图形、财务和市场趋势的高级分析、预测
特色 比其他任何可用模型更智能。

*特定用例可用 1 百万标记,请咨询。

克劳德 3 Sonnet 在智能和速度之间达到了理想的平衡,特别适用于企业工作负载。与同行相比,它以更低的成本提供强大性能,并为大规模人工智能部署设计了高耐久性。

成本

[输入 $/百万标记 | 输出 $/百万标记]

$3 | $15
上下文窗口 200K
潜在用途 数据处理: RAG 或搜索 & 检索大量知识销售: 产品推荐、预测、定向营销节省时间的任务: 代码生成、质量控制、从图像中解析文本
特色 比同类智能的其他模型更经济实惠;更适合规模化。

克劳德 3 Haiku 是我们速度最快、体积最小的模型,能够以接近即时的速度回复简单查询和请求。用户可以构建无缝的人工智能体验,模拟人类互动。

成本

[输入 $/百万标记 | 输出 $/百万标记]

$0.25 | $1.25
上下文窗口 200K
潜在用途 客户互动: 在实时互动中提供快速准确支持,翻译内容审查: 捕捉危险行为或客户要求节约成本的任务: 优化后勤、库存管理、从非结构化数据中提取知识
特色 比同类智能的其他模型更聪明、更快,更经济实惠。

模型可用性

Opus 和 Sonnet 现已可在我们的 API 中使用,该 API 现在已普遍可用,使开发人员可以立即注册并开始使用这些模型。Haiku 将很快推出。Sonnet 正在为 claude.ai 上的免费体验提供动力,Opus 可供克劳德专业版订阅用户使用。

Sonnet 今天还可通过亚马逊 Bedrock 使用,并在 Google Cloud 的 Vertex AI 模型库中进行私人预览,Opus 和 Haiku 将很快在这两个平台上推出。

更聪明、更快、更安全

我们认为模型智能还远未达到极限,并计划在接下来的几个月内频繁发布克劳德 3 系列模型的更新。我们也很高兴推出一系列功能,以增强我们模型的能力,特别是用于企业用例和大规模部署。这些新功能将包括工具使用(即函数调用)、交互式编码(即 REPL)以及更先进的代理能力。

在推动人工智能能力的边界的同时,我们同样致力于确保我们的安全防护跟上性能飞跃的步伐。我们的假设是,处于人工智能发展的前沿是引导其走向积极社会成果的最有效方式。

我们很期待看到您如何使用克劳德 3,并希望您能给我们反馈,使克劳德成为一个更加有用的助手和创意伙伴。要开始使用克劳德,请访问anthropic.com/claude

脚注

  1. 此表显示了当前在商业上可用的已发布评估模型的比较。我们的模型卡显示了与已宣布但尚未发布的模型(如 Gemini 1.5 Pro)的比较。此外,我们想指出,工程师们已经致力于优化提示和少量示例,以进行评估,并针对更新的 GPT-4T 模型报告了更高的分数。来源

这篇文章的内容是从原始文章翻译而来。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注