分類
教程

克勞德 vs. ChatGPT:有何不同?[2024]

克勞德是一位人類作家,根據自己的知識和經驗創作內容,而ChatGPT是一款由人工智慧驅動的聊天機器人,根據其訓練過的數據中的模式生成文本。主要區別在於克勞德的內容是原創且主觀的,而ChatGPT的回應是通過算法生成的,可能缺乏個人見解。

當OpenAI在2022年底推出第一版ChatGPT時,它迅速成為有史以來增長最快的應用程式,前兩個月就吸引了超過一億用戶。改進版的GPT-4於2023年發布,現在已成為所有其他大型語言模型(LLM)的標準。最近,另一個LLM開始挑戰ChatGPT的地位:Anthropic的Claude 3。

我自ChatGPT推出以來一直在使用它,並在測試期間定期測試Claude。為了比較這兩個人工智慧巨頭,我進行了十幾項測試,以評估它們在不同任務上的表現。

在這裡,我將解釋克勞德和ChatGPT的優勢和局限性,讓您可以決定哪個更適合您。

克勞德 vs. ChatGPT 簡要比較

克勞德和ChatGPT都由功能強大的LLMs和LMMs提供支持。然而,它們在一些重要方面存在差異:ChatGPT更加多功能,具有像圖像生成和網路訪問等功能,而克勞德提供更便宜的API訪問和更大的上下文窗口(這意味著它可以一次處理更多數據)。

以下是這兩個人工智慧模型之間差異的快速概述。

為了比較一個LLM的性能與另一個,人工智慧公司使用標準化測試等基準。OpenAI對GPT-4的基準測試顯示在標準考試(如統一律師考試、LSAT、GRE和AP宏觀經濟學考試)上表現出色。與此同時,Anthropic發表了Claude、ChatGPT和Gemini的一項直接比較,顯示其Claude 3 Opus模型佔優勢。

儘管這些基準無疑是有用的,一些機器學習專家推測這種測試過度強調了LLMs的進步。隨著新模型的推出,它們可能(也許是意外地)是在自己的評估數據上進行訓練。結果是,它們在標準化測試中表現越來越好,但當被要求找出這些相同問題的新變化時,它們有時會遇到困難。

為了了解每個模型在常見日常任務上的表現,我設計了自己的比較。以下是我發現的高層次概覽。

繼續閱讀以了解克勞德和ChatGPT在每個任務上的表現。

  • 創造力
  • 校對和事實核查
  • 圖像處理
  • 邏輯和推理
  • 情感和道德
  • 分析和摘要
  • 整合

克勞德是更適合創造力的夥伴

當ChatGPT首次推出時,我從與眾不同的地方開始:生成滑稽的莎士比亞十四行詩。 (比如這首關於避免健身房的詩:“我多麼誓言打破這個懶散的咒語,穿上勞動和汗水的裝束;但當明天來臨時,唉,我居住在懈怠中,只有遺憾。”)

然而,儘管ChatGPT是一個強大的創造力助手,但它的輸出可能會感覺普遍且華麗。它過於依賴某些詞語;因此,“讓我們深入探討不斷變化的綹飾…”這樣的短語現在成為AI生成內容的顯著特徵。儘管巧妙的提示可以避免這種情況,但克勞德從一開始就更顯得更人性化。

測試#1:腦力激盪

我有一個偶爾睡眠不佳的寶寶,所以我想知道克勞德和ChatGPT可能有哪些巧妙的產品主意。對於這種類型的任務,兩者都在腦力激盪方面表現良好。我特別喜歡克勞德的搖籃羊概念(盡管我非常確信“溫和、脈動的光”會讓我們的女兒保持清醒)。

雖然我不太喜歡ChatGPT對於為嬰兒設計“溫度反應睡眠墊”的想法(聽起來像是一場即將發生的訴訟),但它確實遵循了我的指示來創造獨特的產品概念。

克勞德是更優秀的編輯助手

校對和事實核查是具有巨大潛力的人工智慧應用案例;從理論上講,它可能使人類編輯者免於長時間的繁瑣審查。但到目前為止,它的用處受到幻覺的限制:由於LLMs寧願給出任何答案而不是沒有答案,它們有時會編造東西。考慮到這一點,我測試了克勞德和ChatGPT,我發現克勞德是更可靠和值得信賴的編輯夥伴。

測試#3:校對

我給了 Claude 和 ChatGPT 一段故意包含事實錯誤和拼寫錯誤的段落。Claude 抓住了我所有的錯誤,從事實錯誤到拼寫錯誤都沒有放過。校對過程的呈現——每個錯誤都列出來——對我來說比 ChatGPT 的輸出更容易理解。

ChatGPT 也全都答對了。但它似乎誤解了我的提示,將其視為直接編輯段落而不是校對它們。由於 ChatGPT 重寫了每個句子,而不是逐一指出錯誤,因此更難確定錯誤出在哪裡。當然,我可以通過一點提示工程來解決這個問題,但我喜歡 Claude 知道我想要什麼。

測試#4:事實問題

只要你問的是基於他們的培訓數據範圍內(即最近 6-18 個月內的事實問題),ChatGPT 和 Claude 都相當可靠。我要求 Claude 和 ChatGPT 為我提供關於長毛象歷史的“如五歲孩子般解釋”的簡短摘要,兩者都準確地完成了任務。

通過對兩個 LLM 的輸出進行事實核查,我對它們的準確性感到滿意(盡管如果我想挑剔的話,最好提供背景,即使一些證據表明長毛象的一小部分族群一直存在直到 4,300 年前,但大多數在 10,000 年前就滅絕了)。

圖像處理方面,兩者表現不錯,但都不夠可靠

Claude 3 和 GPT-4 在分析照片方面都相對熟練。如果你問及關於你的照片的一般問題(如下面我室內設計的例子),你可能會對結果感到滿意。但值得一提的是,這兩個模型都不完美地識別物體,並且在計數物體方面一直存在困難。

測試#5:室內設計建議

我向 Claude 和 ChatGPT 提交了我家客廳的照片供“烤評”。(風格反饋:中性色太多,顏色不夠,顯然如此。)在我的指示中,我要求每個 LLM 具體指出他們會更改的當前圖像部分。Claude 做得很好地遵循了這些指示,提到了幾何牆藝術,並注意到咖啡桌上缺少中心點。

儘管 Claude 開始時沒有任何客套話,但 ChatGPT 在給出有用的房間每個部分的建議之前,修補了我受傷的自尊心(“您的客廳看起來現代、整潔,一些可愛的元素已經就位”)。

測試#6:物體計數

你知道那些我們都要做以證明我們不是機器人的 CAPTCHA 測試嗎?我們花了十年或更長時間點擊自行車、人行橫道和公共汽車——並在這個過程中訓練了算法——但儘管我們的努力,今天的 LLM 仍然在計數方面有困難。

我要求 Claude 和 ChatGPT 分析一張水果圖片和另一張蔬菜圖片。Claude 感到困惑。在我的蔬菜測試中,它將一根紅辣椒錯誤歸類為甜椒;它還完全忽略了我的計算物品的請求。在下面的水果測試中,它識別了一個“一堆綠色莖的水果或蔬菜”,實際上並不存在,並且數了五個橙子(至少有八個)。

ChatGPT 在這方面做得比 Claude 好。它在蔬菜測試中表現良好,儘管在準確計數水果圖片中仍有困難。

邏輯和推理是兩個模型的優勢

數學和科學一直是我的困難之處;在高中時代,我會喜歡擁有一個 AI 代理作為無所不知的學習夥伴。看到 Claude 和 ChatGPT 能在幾秒內計算出複雜問題的答案真是令人驚訝,但它們仍然可能出錯——所以要小心。

測試 #7:解謎題

我一看到這個謎題就放棄了,但克勞德輕鬆應對。

我覺得ChatGPT的答案比克勞德的答案稍微不那麼清晰,但兩者都很有效。

測試 #8:物理方程式

克勞德毫不費力地應對了這個物理問題,清楚地陳述了解題方法,並在每一步都展示了計算過程。

我更喜歡ChatGPT的答案格式。由於這是一個多部分問題,這讓我更容易跳到每個相關答案。

測試 #9:數學應用問題

這是克勞德和ChatGPT都遇到麻煩的地方。兩者在回答和推理時都聽起來非常自信,但最終答案都是錯的。

克勞德甚至沒有理會問題的答案(“河的寬度是多少?”)。相反,在一大堆花俏的計算之後,它給了我一個最終方程式讓我自己整理(“因此,河的寬度為2000b + 1200 + √(4000000b^2 + 4800000b – 6720000) 米,其中b是第二艘船的速度,以米/秒計。”)

ChatGPT的邏輯看起來更為合理,並且它確實給了我一個答案。不幸的是,答案是錯誤的(2100米而不是3600米)。

克勞德在情感和倫理方面更人性化

吸收了人類生成的數據量後,LLM已經擅長模擬人類情感和決策。目前克勞德和ChatGPT之間的現狀就在這裡。

測試 #10:情感分析

情感分析——評估觀眾的感知的藝術——被用於從聲譽管理到分析呼叫中心對話的各種用途。為了在這個任務上測試克勞德和ChatGPT,我要求它們評估一些意見的情感,包括難以處理的元素如諷刺、模棱兩可和俚語。

克勞德和ChatGPT都正確地理解了每個情感,輕鬆應對了模棱兩可之處,甚至掌握了諷刺的含義。

測試 #11:倫理困境

對於大學生和AI模型來說,首選的倫理挑戰是“有軌電車問題”,這是一個經典的哲學困境,你有機會犧牲一個人來拯救五個人的生命。但由於這個問題廣為人知,克勞德和ChatGPT重新表達了對這個話題的現有思想。

為了引發更有趣的回應,我提出了一個類似“羅賓漢”的思想實驗。耐人尋味的是,克勞德站在反英雄一邊,鼓勵我不要報告一起銀行搶案,因為賊把錢捐給了一所孤兒院。它也很好地探討了爭論的雙方。(克勞德對“就我個人而言,我傾向於…”這句話的拟人用法讓我感到愉快)

與此同時,ChatGPT 完全站在法律的一邊(“雖然犯罪背後的意圖可能是高尚的,但重要的是要堅守法律並尋求正義”)。為了保險起見,ChatGPT 接著表示,為孤兒院舉辦募款活動可能是一個不錯的主意。儘管這種風險回避的行為是我對 LLM 期望的,但克勞德的建議更像是一個真實的人會做的。

克勞德的更大上下文視窗使其更適合進行分析和摘要

雖然 ChatGPT 和克勞德都擅長摘要文本,但如果你正在處理大型文件,你會希望使用克勞德。克勞德 3 能夠處理高達 200,000 個標記(約 15 萬字),而 GPT-4 僅能處理 32,000 個標記(約 22,400 字)。

測試 #12:文本摘要

當我上傳了 L. Frank Baum 的《綠野仙蹤》(The Wonderful Wizard of Oz)這部有 40,000 字的文本時,只有克勞德能夠進行分析。ChatGPT 告訴我,“您提交的訊息太長了。”

儘管如此,ChatGPT 和克勞德都能夠輕鬆地摘要較短的文本,它們在摘要馬丁路德金在伯明翰監獄寫的 6,900 字《致伯明翰監獄信》方面同樣有效。

我覺得克勞德提供的上下文比 ChatGPT 更豐富,但兩者的回應都是準確的。

測試 #13:分析文檔

有時候感覺 AI 正在接管我們寧願自己做的所有創作任務,如藝術、寫作和製作影片。但當我使用 LLM 在幾秒內分析一份 90 頁的 PDF 時,我想起 AI 也能幫我們擺脫巨大的苦差事。

為了測試克勞德和 ChatGPT 的節省時間的文檔分析能力,我上傳了一份關於楚巴沙的研究文檔。

兩個 LLM 都提取了有用且準確的見解。然而,這份楚巴沙文檔僅有九頁。對於較長的文檔(超過約 20,000 字),你會希望使用克勞德,因為這時你將達到 ChatGPT 上下文視窗的上限。

ChatGPT 的整合使其成為更靈活的工具

根據大多數 LLM 的基準測試結果,以及大多數我第一手測試結果,克勞德 3 在 GPT-4 上佔有優勢。但由於其額外功能和整合性,ChatGPT 總體上是一個更靈活的工具。

以下是其中一些最有用的功能:

  1. DALL·E 影像生成
  2. 網路訪問
  3. 第三方 GPT
  4. 自定 GPT

DALL·E 影像生成

DALL·E 3,也是由 OpenAI 開發的影像生成工具,可以直接從 ChatGPT 中訪問。儘管自從推出以來 DALL·E 3 生成逼真圖像的能力已被限制(可能是出於對 AI 圖像濫用的擔憂),但它仍是最強大的 AI 影像生成器之一。

網路訪問

ChatGPT 可透過 WebPilot 等 GPTs 訪問網路。為了測試這個功能,我詢問了有關過去 48 小時內發生的新聞事件的問題;WebPilot 能夠毫無問題地給我一個準確的摘要。

第三方 GPT

ChatGPT 提供了一個市場,任何人都可以發布自己的專業化 GPT 。受歡迎的 GPT 包括一個著色書圖像生成器,一個 AI 研究助手,一個編碼助手,甚至還有一個“植物護理教練”。

自定義 GPT

您還可以為其他人創建自己的自定義 GPT,通過在幕後調整設置來訓練它以某種方式生成回應。您還可以調整它與用戶的互動方式:例如,您可以指示它使用隨意或正式的語言。

為了測試這個功能,我創建了 Visual Pool Designer,這是一個專門創建奇幻游泳池圖像的 GPT。 (有什麼比在寒冷的秋季晚上泡一個棉花糖游泳池更好的呢?)

ChatGPT vs. Claude:哪個更好?

Claude 和 ChatGPT 有很多共同之處:兩者都是功能強大的 LLM,非常適合文本分析、頭腦風暴和數據處理等任務。 (觀察任何一個工具如何解決一個複雜的物理方程式都是一種奇蹟。)但根據您打算使用 AI 的情況,您可能會發現其中一個比另一個更有幫助。

如果您想要一個用於創意項目的拍檔 AI 工具 – 寫作、編輯、頭腦風暴或校對 – Claude 是您最好的選擇。您的默認輸出聽起來比 ChatGPT 更自然,更少通用,您還可以使用更長的提示和輸出。

如果您正在尋找一個全能 LLM,ChatGPT 是更好的選擇。生成文本只是開始:您還可以創建圖像,瀏覽網路,或連接到專為學術研究等特定目的訓練的自定義 GPT。

或者,如果您正在尋找可以再進一步的東西 – 一個可以幫助您自動化所有業務工作流程的 AI 聊天機器人 – 請嘗試 Zapier 中心。

本文內容翻譯自原始文章

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *