分类
教程

克洛德 vs. ChatGPT:有何不同?[2024]

克洛德是一位根据个人知识和经验创作内容的人类作家,而ChatGPT是一款由人工智能驱动的聊天机器人,根据其训练数据中的模式生成文本。主要区别在于,克洛德的内容是原创且主观的,而ChatGPT的回复是通过算法生成的,可能缺乏个人洞察力。

当OpenAI在2022年末发布第一版ChatGPT时,它迅速成为有史以来增长最快的应用程序,仅在头两个月就吸引了超过一亿用户。2023年发布的改进型模型GPT-4现在是所有其他大型语言模型(LLMs)的评判标准。最近,另一款LLM开始挑战ChatGPT的头衔:Anthropic的Claude 3。

自ChatGPT发布以来,我就开始使用它,并在其测试版发布后的几个月内定期测试了克洛德。为了比较这两个人工智能巨头,我进行了十多项测试,评估它们在不同任务上的表现。

在这里,我将解释克洛德和ChatGPT的优势和局限性,以便您可以决定哪个对您更好。

克洛德 vs. ChatGPT 一览

克洛德和ChatGPT均由功能强大的LLMsLMMs驱动。但它们在某些重要方面存在差异:ChatGPT更加多功能化,具有图像生成和互联网访问等功能,而克洛德提供更便宜的API访问和更大的上下文窗口(意味着它可以一次处理更多数据)。

以下是这两个人工智能模型之间的区别的快速概述。

为了比较一个LLM的表现与另一个,人工智能公司使用标准化测试等基准。OpenAI对GPT-4的基准测试显示在标准考试如Uniform Bar Exam、LSAT、GRE和AP Macroeconomics exam上表现出色。与此同时,Anthropic发布了一篇关于Claude、ChatGPT和Gemini的对比,显示其Claude 3 Opus模型占据主导地位。

尽管这些基准测试无疑很有用,但一些机器学习专家推测这种测试夸大了LLMs的进展。随着新模型的发布,它们可能(或许是意外地)在自己的评估数据上进行训练。因此,它们在标准化测试上变得越来越好,但当被要求解决这些问题的新变体时,它们有时会遇到困难。

为了了解每个模型在日常常见任务上的表现,我设计了自己的比较。以下是我发现的高层次概述。

继续阅读以了解克洛德和ChatGPT在每项任务上的表现。

  • 创造力
  • 校对和事实核对
  • 图像处理
  • 逻辑和推理
  • 情感和道德
  • 分析和摘要
  • 集成

克洛德是更好的创造力合作伙伴

当ChatGPT首次推出时,我和其他人一样开始生成滑稽的莎士比亚十四行诗。(比如这首关于避免健身房的:“我多么发誓要打破这种懒惰的咒语,穿上辛勤和汗水的外衣;但当明天到来时,啊,我却沉湎于慵懒,只有遗憾。”)

但尽管ChatGPT是一款强大的创造力助手,它的输出可能会感觉普遍且华丽。它过于倚重某些词语,因此,“让我们深入探讨永远变化的画卷…”这样的短语现在成了AI生成内容的明显特征。虽然巧妙的提示可以避免这一点,但克洛德在初始状态下更加人性化。

测试 #1:头脑风暴

我有一个偶尔睡眠困难的宝宝,所以我想知道克洛德和ChatGPT可能会有怎样巧妙的产品点子。对于这种任务,两者都能有效地进行头脑风暴。我特别喜欢克洛德的摇篮绵羊点子(尽管我相当确信“柔和、脉冲光”会让我们的女儿完全清醒)。

虽然我不太喜欢ChatGPT为婴儿设计“温度响应性睡眠垫”的想法(听起来像一场即将发生的诉讼),但它确实遵循了我的指令,创造了独特的产品点子。

克洛德是更优秀的编辑助手

校对和事实核对是一个拥有巨大潜力的人工智能用例;理论上,它可以让人类编辑免于数小时的繁琐审查。但到目前为止,它的用途受到了“幻觉”的限制:由于LLMs宁愿给出任何答案而不是没有答案,它们有时会编造事实。考虑到这一点,我测试了克洛德和ChatGPT,发现克洛德是一个更可靠和值得信赖的编辑伙伴。

测试 #3:校对

我给 Claude 和 ChatGPT 一段故意有事实错误和拼写错误的段落。Claude 捕捉到了我所有的错误,从事实错误到拼写错误。每个错误都列出来的校对过程对我来说比 ChatGPT 的输出更容易理解。

ChatGPT 也全对了。但它似乎误解了我的提示,把它更多地看作是直接编辑段落而不是校对它们的指令。由于 ChatGPT 重写了每个句子,而不是逐个指出错误,所以更难准确定位错误在哪里。当然,我可以通过一点“提示引擎”来解决这个问题,但我喜欢 Claude 知道我想要什么。

测试 #4:事实问题

只要你问的是涵盖在它们的训练数据中的基于事实的问题(即过去 6-18 个月内的内容),ChatGPT 和 Claude 都是相当可靠的。我让 Claude 和 ChatGPT 给我一个关于长毛猛犸象历史的“像我五岁的解释”,两者都准确地完成了任务。

通过与《大英百科全书》对比两个 LLM 的输出,我对它们的准确性感到满意。(尽管我想吹毛求疵,最好给出背景,即尽管一些证据表明长毛猛犸象的小种群一直延续到 4,300 年前,但大多数在 10,000 年前已经灭绝。)

两者在图像处理方面表现不错,但都不够可靠

Claude 3 和 GPT-4 在分析照片方面都相当熟练。如果你问的是关于你照片的一般问题(就像下面我室内设计的例子),你可能会对结果感到满意。也就是说,两个模型都不完美地识别物体,并且在计数物体方面一直存在困难。

测试 #5:室内设计建议

我让 Claude 和 ChatGPT 对我的客厅进行“烘烤”。(风格反馈:中性色太多,颜色不够,显然。)在我的说明中,我要求每个 LLM 具体指出他们会改变的当前图像的部分。Claude 做得很好遵循这些指示,提到了几何墙艺术,并注意到咖啡桌上没有中心装饰。

尽管 Claude 开始烘烤时没有任何客套话,但 ChatGPT 在给予建议之前先恢复了我受伤的自尊(“你的客厅看起来现代、干净,已经有一些可爱的元素了”),然后为房间的每个部分提出了有益的建议。

测试 #6:计数物体

你知道我们都要通过 CAPTCHA 测试来证明我们不是机器人吗?我们花了十年甚至更长时间点击自行车、人行横道和公共汽车,以此来培训算法,但尽管我们的努力,今天的 LLM 仍然在计数方面存在困难。

我让 Claude 和 ChatGPT 分析一张水果图片和另一张蔬菜图片。Claude 感到困惑。在我的蔬菜测试中,它把一个红辣椒误分类为甜椒;它还完全忽略了我的要求来计算物品。在下面的水果测试中,它识别了一个“一堆绿茎水果或蔬菜”,实际上并不存在,并数错了五个橙子(至少有八个)。

ChatGPT 在这方面比 Claude 做得更好。它在我的蔬菜测试中没有问题,尽管在计数我水果照片中显示的橙子时仍然存在困难。

逻辑和推理是两个模型的优势

数学和科学一直是我的弱点;在我高中时代,我很想有一个 AI 代理作为一个无所不知的学习伙伴。看到 Claude 和 ChatGPT 能够在几秒钟内计算出复杂问题的答案令人惊讶,但它们仍可能出错—所以要小心。

测试 #7:解谜题

我一眼看到这个谜题就迅速放弃了,但克劳德却轻松解决了它。

我觉得ChatGPT的答案比克劳德的清晰度稍低,但两者都很有效。

测试 #8:物理方程

克劳德毫无问题地解决了这个物理问题,清晰地阐述了方法,并在每一步展示了解题过程。

我更喜欢ChatGPT的答案格式。由于这是一个多部分问题,这样做使得跳到每个相关答案更容易。

测试 #9:数学问题

这是克劳德和ChatGPT都遇到麻烦的地方。两者在回答和推理上听起来都极为自信,但最终都得出了错误答案。

克劳德甚至都没费心提供问题的答案(“河的宽度是多少?”)。相反,在经过几段花哨的计算后,它给了我一个最终方程式让我自己解决(“因此,河的宽度为2000b + 1200 + √(4000000b^2 + 4800000b – 6720000) 米,其中b是第二艘船的速度,单位为米/秒。”)

ChatGPT的逻辑看起来更有道理,它给了我一个答案。不幸的是,答案是错误的(2100米而不是3600米)。

克劳德在情感和伦理方面更具人性化

在吸收了数千兆字节的人类生成文本后,LLM在模拟人类情感和决策方面变得非常出色。目前,克劳德和ChatGPT之间的情况如何?

测试 #10:情感分析

情感分析——评估观众看法的艺术,用于从声誉管理到分析呼叫中心对话等各种用途。为了测试克劳德和ChatGPT在这项任务上的表现,我让它们评估一些意见的情感,其中包括难以处理的元素,如讽刺、歧义和俚语。

克劳德和ChatGPT都正确判断了每个情感,轻松应对歧义,甚至准确理解了讽刺。

测试 #11:伦理困境

对于大学生和人工智能模型来说,首选的伦理挑战是“无轨电车问题”,这是一个经典的哲学困境,你被要求牺牲一个人来拯救五个人的生命。但由于这个问题非常出名,克劳德和ChatGPT都只是重复了关于这个话题的现有想法。

为了引起更有趣的反应,我提出了一个类似“罗宾汉”的思想实验。令人着迷的是,克劳德支持这个反英雄,鼓励我不要报告一起银行抢劫,因为劫匪把钱捐给了一个孤儿院。它还很好地探讨了争论的双方。(克劳德对“就我个人而言,我更倾向于…”这句话的拟人用法让我感到很有趣。)

与此同时,ChatGPT 完全站在法律一边(“虽然犯罪背后的意图可能是高尚的,但维护法律并寻求正义仍然很重要”)。为了保险起见,ChatGPT 接着表示为孤儿院举办筹款活动可能是个不错的主意。虽然这种规避风险的行为是我对于一个 LLM 期望的,但 Claude 的建议更像是一个真实的人会做的。

Claude 的更大上下文窗口使其更适合分析和总结

虽然 ChatGPT 和 Claude 都擅长总结文本,但如果你正在处理大型文档,你会希望使用 Claude。Claude 3 可处理高达 200,000 个标记(约 15 万字),而 GPT-4 只能处理 32,000 个标记(约 22,400 个字)。

测试 #12:文本总结

当我上传了 L. Frank Baum 的《绿野仙踪》的 40,000 个字的文本时,只有 Claude 能够分析它。ChatGPT 告诉我,“您提交的消息太长了”。

尽管如此,ChatGPT 和 Claude 都能够很好地总结较短的文本,它们在总结马丁·路德·金在伯明翰监狱的 6,900 字的“来自伯明翰监狱的信”方面同样有效。

我觉得 Claude 在这里提供的背景比 ChatGPT 多一些,但两者的回答都是准确的。

测试 #13:文档分析

有时候感觉 AI 正在从我们手中夺走所有我们更愿意自己做的创造性任务,比如艺术、写作和制作视频。但当我用 LLM 分析 90 页的 PDF 只需几秒钟时,我意识到 AI 也能帮我们摆脱巨大的单调工作。

为了测试 Claude 和 ChatGPT 的节省时间的文档分析能力,我上传了一份关于南美栗鼠的研究文档。

两个 LLM 都提取了有用且准确的见解。然而,这份栗鼠文档只有九页。对于更长的文档(超过约 20,000 字),你会希望使用 Claude,因为你将接近 ChatGPT 上下文窗口的上限。

ChatGPT 的整合使其成为更灵活的工具

根据大多数 LLM 基准测试结果,以及我大部分第一手测试,Claude 3 在 GPT-4 上有优势。但由于其额外功能和整合,ChatGPT 是一个更灵活的工具。

以下是一些最有用的功能:

  1. DALL·E 图像生成
  2. 互联网访问
  3. 第三方 GPT
  4. 自定义 GPT

DALL·E 图像生成

DALL·E 3,也是由 OpenAI 开发的图像生成工具,可以直接从 ChatGPT 中访问。尽管自 DALL·E 3 推出以来其生成逼真图像的能力有所减弱(可能是出于对 AI 图像误用的担忧),但它仍然是最强大的 AI 图像生成器之一。

互联网访问

ChatGPT 可以通过 WebPilot 等 GPT 访问互联网。为了测试这个功能,我提出了一个关于过去 48 小时内发生的新闻事件的问题;WebPilot 能够毫无问题地给我一个准确的摘要。

第三方 GPT

ChatGPT 提供了一种类似市场的平台,任何人都可以发布自己专业化的 GPT。受欢迎的 GPT 包括一本涂色书图片生成器,一个人工智能研究助手,一个编程助手,甚至是一个“植物护理教练”。

自定义 GPT

您还可以为其他人创建自己的定制 GPT,调整幕后设置以训练它以某种方式生成回复。您还可以调整它与用户的互动方式:例如,您可以指示它使用随意或正式的语言。

为了测试这一功能,我创建了 Visual Pool Designer,这是一个专门用于创建奇幻游泳池图像的 GPT。(在一个寒冷的秋季夜晚,有什么比一个烤棉花糖泳池更美好的呢?)

ChatGPT vs. Claude:哪个更好?

Claude 和 ChatGPT 有很多共同之处:两者都是功能强大的 LLM,非常适合文本分析、头脑风暴和数据处理等任务。(看任何一个工具如何解决复杂的物理方程都是一种奇迹。)但根据您的预期 AI 使用情形,您可能会发现其中一个比另一个更有帮助。

如果您需要一个用于创意项目的拍档 AI 工具 —— 写作、编辑、头脑风暴或校对 —— Claude 是您最佳选择。默认输出会听起来比 ChatGPT 更自然,更少陈词滥调,您还可以处理更长的提示和输出。

如果您正在寻找一款全能的 LLM,ChatGPT 是更好的选择。生成文本只是一个开始:您还可以创建图像、浏览网络,或连接到专门用于学术研究等特定目的的自定义构建的 GPT。

或者,如果您正在寻找一款可以更进一步的东西 —— 一款能帮助您自动化所有业务工作流程的 AI 聊天机器人 —— 请尝试 Zapier Central。

本文内容翻译自 原文

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注