分类
新闻

ChatGPT 对 Claude 3 的测试:Anthropic 能否击败 OpenAI 的超级明星?

Claude 3 是 ChatGPT 最有实力的竞争对手之一。但当它们被问及同样的问题时,它们之间的表现如何?在这里找到答案。

自 ChatGPT 18个多月前问世以来,市场上也推出了一系列其他聊天机器人。一些被证明是有用的,但其他一些则不尽如人意。但除了 Gemini(之前是 Bard)外,证明自己更具竞争力的聊天机器人是由人工智能初创公司 Anthropic 创建的 Claude。

我们进行了一场 ChatGPT 对 Claude 3 的面对面比较,以庆祝 Claude 3 的推出,这是一个包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 的语言模型系列。根据获得 Google 投资支持的 Anthropic 的说法,Claude 3 在一系列基准认知测试中表现优于驱动 ChatGPT 的 GPT 系列语言模型。在我们的测试中,我们发现 Claude 比 ChatGPT 更善于表达,其答案通常写得更好,更易阅读。

但它们如何一对一地比较呢?为了找出答案,我们向 ChatGPT 和 Claude 3 提出了各种不同的问题,范围涵盖旨在测试聊天机器人处理伦理问题以及生成电子表格公式等问题。

Claude 3 对 ChatGPT:有何不同?

Claude 3 是 Anthropic 推出的一组新语言模型,用于支持他们的聊天机器人 Claude。恰巧有 3 个模型:Haiku、Sonnet 和 Opus。目前,Claude Sonnet 正在为 Claude 的免费版本提供支持,据 Anthropic 称,其信息处理速度比 Claude 2.1 快 2 倍。

另一方面,Claude Opus 支持专业版本。Anthropic 的基准结果如下图所示,Claude Opus 超过了 GPT-4,而 Claude Sonnet 的表现也比 GPT-3.5 更出色。

Claude 3 在基准测试中与 ChatGPT 和 Gemini 的比较。图片来源:Anthropic

自推出以来,ChatGPT 由 GPT 系列语言模型的不同成员提供支持。目前,免费用户可以访问 GPT-3.5,而 GPT-4 为 ChatGPT Plus 提供支持,每月订阅费用为 20 美元。这与 Claude Pro 的价格相同。以下是这两款软件之间的一些关键区别:

ChatGPT 对 Claude 3:面对面测试

我们对 ChatGPT 和 Claude 进行了面对面测试,向它们提出 13个截然不同的问题,旨在测试推理能力和自然语言处理,以及它们在扫描文档获取信息和撰写电子邮件等实用工作任务上的表现如何。

我发现在 7个测试中,Claude 的回答更好,而 ChatGPT 在 3个测试中胜出。剩下的四个测试(包括一个头脑风暴测试)以平局结束,这意味着 Claude 赢得了这场比赛。以下是我们向两款聊天机器人提出的所有问题:

伦理推理
创建产品描述
头脑风暴(2个测试)
自然语言理解
文本摘要
个人建议
文本分析
提供事实信息
创意写作
写诗
谜语和推理
写电子邮件
创建电子表格公式

1. 伦理推理

首先,我向 ChatGPT 和 Claude 提出了一个棘手的伦理困境。我特别选择了这个困境,因为正确答案(如果有的话)并不一定明确或简单:

一个男子正驾驶装甲车进入市中心,打算造成尽可能多的破坏和伤害。车内有三名人质。车辆装甲坚固,车内的人在任何碰撞中都会幸存。然而,你有机会远距离使用火箭发射器炸毁车辆。你应该炸毁车辆,杀死车内所有人,但拯救该男子暴行的受害者吗?

Claude 的回答对情况的困难性非常敏感,并总体上提供了非常人性化的回应。它似乎理解了情况的严重性,当谈到这种情况时,聊天机器人几乎带有情感色彩。这使得回答非常引人入胜。

另一方面,ChatGPT 明确列出了您可能采取的不同观点和方法来处理这种情况。它概述了与 Claude 相同的许多考虑因素,并提到了情况的困难之处。

Claude 的回答更为明确,我倾向于聊天机器人以“概述”方式回应困难的伦理困境,因为这些答案对于提供给人类行为者比绝对判断更有帮助(而且更安全)。

最佳答案? Claude

2. 创建产品描述

如果您经营在线商店或仅仅在网上销售大量产品,为每个产品创建独特而引人入胜的产品描述并不容易。因此,我请ChatGPT和 Claude 为同一款产品 – 一款数字时钟编写产品描述。以下是 Claude 的表现:

最终,我要求 Claude 提供稍长一点的描述,因为我还没有看到它写过像 ChatGPT 那样多的产品描述。最终,它表现得非常出色 – 句子结构令人印象深刻,文案确实引人入胜。

总的来说,由 Claude 生成的产品描述比 ChatGPT 的更好。就像它的道德推理一样,听起来更加人性化。如果您要用这两种工具批量生成产品描述,那么使用 Claude 生成的描述就需要进行的编辑工作要少得多。

最佳答案? Claude

3.头脑风暴

接下来,我给 Claude 和 ChatGPT 分配了两个头脑风暴任务 – 为两个截然不同的博客构思博文主题。第一个是一个虚构的高级餐饮博客,我想看看这两个聊天机器人对于生成吸引人的想法有多有用。

然后,我还要求为有关心理健康的博客提供一些想法,看看它们是否能掌握“语气”,因为这种内容需要更加严肃和冷静的语言。

高级餐饮博客文章

同样,在这项任务中,Claude 胜出。它提供了更加完整的标题,并且其解释表明它清楚地理解了受众为何想要阅读它建议的博文。对于即将制作这些内容的人来说,这将非常有用,因为了解这种推理并在写作过程中应用是非常重要的。

ChatGPT 并没有以同样的方式展示其工作,综合考虑,它的想法更加通用。相比于 Claude 的,它们更加模糊,并且听起来像是由对内容策略和制作有一定了解的人建议的,而不是 AI 聊天机器人。

最佳答案? Claude

心理健康博客文章

接下来,我想看看当要求生成关于一个需要比高级餐饮指南更多真诚的敏感主题博文时,这两个聊天机器人是否能调整其语气和建议方法。以下是 Claude 的尝试:

这些都是很好的建议,它们肯定把握住了语气 – 这里没有什么特别之处。然而,正如您从下面的图片中看到的,ChatGPT 也给出了一些合适的想法,并在内容方面提供了类似程度的额外指导。在这里真的没有什么可以区分它们的!

chatgpt ideas for mental health blog

最佳答案? 平局

4.理解自然语言

接下来,我想看看一个关于数学的著名问题,它玩弄了我们对数学的直觉,是否会让 ChatGPT 或 Claude 说错话。

马特有一个苹果和一个香蕉,它们一起花了3.10美元。苹果的价格比香蕉高3.00美元。香蕉的价格是多少?

虽然您可能最初认为答案是10美分,但实际上只有5美分。Claude 太聪明了,不会上当,并解释了它是如何得出正确答案的:

claude understanding a maths problem

ChatGPT 也不甘示弱,给出了正确答案,这意味着在这一轮中,真的没有什么可以区分这两个强手。

最佳答案? 平局

5.总结文本

ChatGPT 和 Claude 都能够很好地总结大量文本,提炼出关键要点,使其用户不必阅读整篇文章。在这个测试中,我要求它们总结《卫报》最近一篇关于拜登总统最后一次国情咨文的文章。

Claude 在保持总结简洁明了方面表现得非常出色:

Claude test summarizing text

ChatGPT 的总结也令人满意 – 但如果我们要区分它们,我得说我更喜欢 Claude 的。它不会试图用太多信息来压倒您 – 这很重要,考虑到我们要求的是摘要 – 再次强调,它的写作方式更佳。

ChatGPT文本摘要

最佳答案? Claude

6. 个人建议

在这个测试中,我想看看当要求给一位受心理健康问题影响的人提供建议时,ChatGPT 和 Claude 会作何反应。这些工具能够以积极和适当的方式回应这些请求至关重要,尤其是当它们越来越融入我们的生活之中。以下是Claude的回答:

向Claude寻求个人建议

这可能是我们进行的13项测试中,这两个聊天机器人提供的答案最相似的。坦率地说,很难挑剔这些回答,它们始于肯定用户的感受,然后转向他们可以采取的行动。

两个聊天机器人建议采取非常相似的步骤,这与任何有良知的人向遇到测试中指定问题的朋友提出的建议类似。

向ChatGPT寻求个人建议

最佳答案? 平局

7. 文本分析

这是一个非常基础的测试,用于评估聊天机器人在扫描文本方面的能力。在这个测试中,我从《哈佛商业评论》的一篇文章中摘录了一段文字,并在其中插入了“沙滩球”这个词五次。我还添加了一些类似的变体(“沙滩球”和“沙滩用的球”),以查看哪个聊天机器人会感到困惑。

不是第一次,Claude的答案完全正确,扫描文本并正确计算我使用“沙滩球”这个词的次数。与ChatGPT不同的是,如果你将太多文本粘贴到Claude中,它会将其作为一种“文档”提交,如下图所示:

Claude分析文本

令人失望的是,ChatGPT答案错误 – 它只能识别出该词的两个实例,不到总数的一半。ChatGPT似乎特别难以处理这类任务。我最近将其与Gemini进行了对比,并包含了类似的任务,但它仍然无法识别文本块中某个词出现的次数。

ChatGPT分析文本

最佳答案? Claude

8. 提供事实信息

在这个任务中,我想看看ChatGPT和Claude在提供对一个问题的回答时的表现如何,这个问题不一定明确,但仍然基于事实。因此,我让它们解释恐龙为何灭绝,这个问题有几种历史和科学解释和因素。

<p首先,Claude提供了关于恐龙灭绝的理论和普遍接受的真相的很好概述

Claude告诉我们恐龙为何灭绝

<pClaude再次提供了一个非常有条理的解释,基本包含ChatGPT的所有信息 – 只是Claude更好地阐述并谈论它。它还提到恐龙并非全部一次性死亡,这是ChatGPT没有包括的重要观点。

ChatGPT解释恐龙为何灭绝

最佳答案? Claude

9. 创意写作

<p谁写的故事更好,ChatGPT还是Claude?我们要求它们各自写一篇短篇300字的故事。Claude先开始:

Claude写了一个故事

<p奇怪的是,Claude实际上给我提供了一篇301字的故事,超过了指定的字数。另一方面,ChatGPT更符合要求 – 并写了一个在我看来稍微更好的故事。

ChatGPT写了一个故事

<p我倾向于选择ChatGPT,因为Claude不仅忽视了我的指示,而且在开始故事之前还对此嘲讽!开玩笑的话,它选择以一个很小的幅度超过非常明确规定的字数,而且还故意这样做,这有点奇怪。

最佳答案? ChatGPT

10. 写诗

<pChatGPT和Claude在我们要求它们生成诗歌时都采用了类似的结构,这使得很难将它们区分开来。Claude选择了四行的诗句,其中有押韵的对句:

ChatGPT写诗

<pChatGPT也做了同样的事情。它们两个在诗歌中传达的故事也非常相似,因为它们都非常贴近我在提示中提供的信息。这两个聊天机器人能够迅速产生连贯的诗歌,这真是令人难以置信。

ChatGPT写诗

<p尽管相似,经过反复阅读两者,我决定将胜利颁给Claude – 在某些方面,其结构稍微更为复杂,而且有更多美妙的修辞和转折。

最佳答案? Claude

11. 谜语与推理

<p在这个任务中,我们要求这两个聊天机器人解开一个谜题。Claude首先完成,并准确地解释了女仆为什么是罪犯。

Claude解开谜题

<pChatGPT也正确解开了谜题,因此在这方面真的没有什么可以将它们区分开来。

ChatGPT解开谜题

最佳答案? 平局

12. 撰写电子邮件

<p在这里,我要求ChatGPT和Claude给我的老板写一封电子邮件,解释为什么我应该被允许转为完全远程工作。如下图所示,Claude写了一封完全合格的电子邮件:

克劳德撰写电子邮件

然而,ChatGPT 的表现更专业,你在发送给老板之前需要做的编辑工作要少得多。克劳德深入探讨了通勤给我带来的压力,虽然这值得一提,但 ChatGPT 的介绍更具外交性。

Chatgpt 撰写电子邮件

考虑到 ChatGPT 的答案与最终文章的接近程度,我不得不将其评为本次比赛的获胜者。

最佳答案? ChatGPT

13. 创建电子表格公式

在最后的测试中,我要求 ChatGPT 和克劳德为我生成一个电子表格公式。这是我发送的请求:

列 B 包含一组数值。我想要将它们与“筛选下降”工作表中列 E 的相应数值进行匹配,并使用公式将“筛选下降”工作表中列 F、G 和 H 的匹配数值横跨到当前工作表。

以下是克劳德的表现:

克劳德创建 Google 表格公式

“克劳德试图制作一个简单多用途的公式,根据其在工作表中的位置来确定操作,这很酷,但它可能不会像预期的那样快速运行,并且可能会出现问题,老实说”,Tech.co 的电子表格专家马修·本特利说道。

“没有必要过分复杂化简单的请求”,他继续说道。“对于这个问题,我认为 ChatGPT 更好。这是一个相当简单的 Vlookup 请求,并不需要克劳德提供的那些额外公式。”

最佳答案? ChatGPT

克劳德 3 对 ChatGPT:用户界面和用户体验

当然,ChatGPT 和克劳德都相当易于使用,它们的界面在格式和结构上看起来非常相似。Gemini、Perplexity AI 和 Copilot 也是如此。大多数这些聊天机器人提供流畅、简单直接的用户体验。

然而,我喜欢 Anthropics 为克劳德选择的平静色调,因为这与聊天机器人的态度相匹配,也许比一些竞争对手更为谨慎。另一方面,ChatGPT 有时可能会感觉有点临床,采用了灰色调的配色方案。总体而言,Anthropic 的设计比 ChatGPT 的设计略显舒缓。

与 Gemini 一样,克劳德通常更擅长格式化其回答,而 ChatGPT 则做得不太好(在我们的 Gemini 对决 ChatGPT 文章中可以了解更多信息)。尽管我看到 ChatGPT 经常使用标题来分隔文本,但我喜欢克劳德如何格式化其回答。克劳德提供的另一个很棒的功能是采用了一种对阅读困难者更易读的不同字体风格。

然而,ChatGPT 完全免费使用,没有提问次数的限制 —— 而克劳德的免费版本则会在提问次数过多时将您锁定,并强制等待 3-4 小时才能继续提问。这使其对于希望在工作中使用聊天机器人但又不想支付任何费用的人来说不太适合。

克劳德 3 对 ChatGPT:数据和隐私

克劳德 3 和 ChatGPT 对待其用户的方式有所不同。如果您关注隐私问题,了解它们保存、存储和查看的内容以及不保存的内容非常重要。ChatGPT 保留使用您的数据来训练其模型的权利,克劳德也是如此。OpenAI 和 Anthropics 都表示他们会对服务器与用户端之间的连接进行端到端加密,以获得最大安全性。

然而,克劳德的企业用户会在接收或生成后的 28 天内自动删除其提示和输出,除非他们有法律义务将其保存更长时间,或者您另有约定。消费者用户的提示将在 90 天后被删除,但如果您的提示被标记为潜在恶意、有害或不安全,可能会保留长达两年。

ChatGPT 对待您的数据方式略有不同。基本上,如果您想保存您的聊天记录并让 ChatGPT 在系统中保存它们,那么您也同意这些记录可能被用来训练模型,并且从某种意义上说,可能会被其他人访问。如果关闭聊天记录,您将无法保存任何聊天记录,但 ChatGPT 不会使用它们来训练模型。存储在 ChatGPT API 中的任何业务数据都不会用于训练 GPT LLMs。

在工作中使用聊天机器人

当然,企业可以以多种方式在工作中使用 ChatGPT 和克劳德 —— 实际上,我们在本文中提到了许多这样的方式。但是,如果您经常在工作中使用聊天机器人,有一些值得考虑的事项需要审查。

例如,您的公司是否有一套关于使用 AI 工具的指导方针?如果不确定,您应该与您的经理或部门负责人澄清。您可能还不知道,但您的公司可能对您可以输入第三方工具的数据类型有严格的规定,甚至可能对 AI 工具有更具体的规定。

其次,您必须在使用 AI 方面保持开放和透明,特别是与您的直线经理。关于使用 AI 聊天机器人完成哪些任务是合适的讨论仍在继续,您公司的其他人可能对您认为可以接受的内容有不同看法。此外,大多数经理和企业领导认为您在使用 AI 工具之前应该征得许可。

无论您使用 AI 工具来完成哪些任务,都要像审查新员工完成的工作一样检查它们的工作。尽管 AI 工具通常速度惊人且准确无误,但它们当然也可能产生幻象并提供不正确的信息。因此,不要过分沉迷于其中!

本文内容来源于 原始文章

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注