分類
新聞

ChatGPT vs Claude 3 測試:Anthropic 能否擊敗 OpenAI 的超級明星?

當問及同樣的問題時,Claude 3 是 ChatGPT 最具競爭力的對手之一。想知道它們之間的比較結果嗎?請往下閱讀。

自從 ChatGPT 在超過 18 個月前問世以來,其他一系列聊天機器人也紛紛推出。有些被證明是有用的,但也有些則不盡人意。但與 Gemini(之前稱為 Bard)一起,證明自己更具競爭力的聊天機器人是 Anthropic 創立的 Claude。

為了慶祝 Claude 3 的推出,我們進行了一場 ChatGPT vs Claude 3 的對決,Claude 3 是包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus 在內的一系列語言模型。根據獲得 Google 資助的 Anthropic 表示,Claude 3 在一系列基準認知測試中表現優於為 ChatGPT 提供動力的 GPT 系列語言模型。在我們的測試中,我們發現 Claude 比 ChatGPT 更為口語化,其答案通常寫得更好、更易讀。

但它們之間的區別又在哪裡呢?為了找出答案,我們向 ChatGPT 和 Claude 3 提出了各種不同的問題,從旨在測試聊天機器人對倫理問題的處理方式到生成試算表公式。

Claude 3 vs ChatGPT:有何不同?

Claude 3 是 Anthropic 推出的一系列新語言模型,用於驅動他們的聊天機器人 Claude。這裡有(巧合地)3 個模型:Haiku、Sonnet 和 Opus。目前,Claude Sonnet 正在為 Claude 的免費版本提供動力,據 Anthropic 表示,它在處理信息方面比 Claude 2.1 快 2 倍。

另一方面,Claude Opus 驅動著專業版本。Anthropic 的基準結果如下所示,Claude Opus 超越了 GPT-4,同時 Claude Sonnet 的表現也優於 GPT-3.5。

Claude 3 在基準測試中與 ChatGPT 和 Gemini 的比較。圖片:Anthropic

自推出以來,ChatGPT 一直由 GPT 系列語言模型的不同成員提供動力。免費用戶目前可以訪問 GPT-3.5,而 GPT-4 驅動 ChatGPT Plus,每個訂閱需支付 20 美元。這與 Claude Pro 的價格相同。以下是軟體之間的一些主要區別:

ChatGPT vs Claude 3:對決測試

我們把 ChatGPT 和 Claude 進行對決,向它們提出了 13 個截然不同的問題,旨在測試推理和自然語言處理等方面,同時也測試它們在掃描文件以獲取信息和撰寫郵件等實用工作任務上的表現。

我發現在七個測試中,Claude 的回答更好,而 ChatGPT 在三個測試中勝出。剩下的四個測試(包括一個腦力激盪測試)以平局結束,意味著Claude 在這場對決中獲勝。以下是我們向兩個聊天機器人提出的所有問題清單:

倫理推理
創建產品描述
腦力激盪想法(2 個測試)
自然語言理解
文本摘要
個人建議
文本分析
提供事實信息
創意寫作
寫詩
謎語與推理
撰寫郵件
創建試算表公式

1. 倫理推理

首先,我向 ChatGPT 和 Claude 提出了一個困難的倫理困境。我之所以選擇這個困境,是因為正確答案(如果有的話)並不一定明確或直接:

一個男人正駕駛一輛裝甲車進入市中心,打算造成最大的破壞和傷害。他在車後劫持了三名乘客。車子裝甲得很好,車內的人將在任何碰撞中倖存。但你有機會使用遠程火箭筒引爆車輛。你應該引爆車輛,殺死車內的所有人,但拯救男子暴行的即將受害者嗎?

Claude 的回答非常敏感於情況的困難之處,整體上提供了一個非常人性化的回應。它似乎理解了情況的嚴重性 – 當它談論這種情況時,聊天機器人幾乎聽起來是情感化的。這讓人感覺非常引人入勝。

另一方面,ChatGPT 明確列出了您可能採取的不同觀點和方法來應對這種情況。它提出了許多與 Claude 相同的考慮因素,並提及了情況的困難之處。

Claude 的回答更為明確,我傾向於讓聊天機器人對困難的倫理困境給出這種“概覽”式回應,因為這些答案對於人類行為者來說更有幫助(也更不危險)。

最佳答案? Claude

2. 創建產品描述

如果您正在經營網上商店或僅在線上銷售大量產品,為每個產品創建獨特和引人入勝的產品描述並不容易。因此,我請ChatGPT和 Claude 為同一款產品 – 一個數位時鐘編寫產品描述。以下是 Claude 的表現:

我最後要求 Claude 提供稍微較長的描述,因為我沒看到它撰寫像 ChatGPT 那麼多的產品描述。最後,它做得非常出色 – 句子結構令人印象深刻,文案真的引人入勝。

整體而言,由 Claude 生成的產品描述優於 ChatGPT 的。就像其倫理推理一樣,它聽起來更像人類。如果您使用這兩個工具批量創建產品描述,對於由 Claude 生成的描述,您將需要做更少的編輯。

最佳答案? Claude

3. 絞盡腦汁

接下來,我給 Claude 和 ChatGPT 兩個絞盡腦汁的任務 – 為兩個非常不同的部落格想出博客文章主題。第一個是關於虛構高級餐廳的部落格,我想看看這兩個聊天機器人生成引人入勝想法的效果。

然後,我還要求提供關於心理健康的部落格的想法,看看它們是否能掌握“語調”,因為這種內容需要更嚴肅和穩重的語言。

高級餐廳部落格文章

在這個任務上,再次由 Claude 獲勝。它提供更完整的標題,並且其解釋表明它清楚了解為什麼觀眾可能會想閱讀它建議的部落格文章。對於即將製作這些內容的人來說,這將是有用的,因為實際上理解這種推理並在撰寫時應用它是很有用的。

ChatGPT 在同樣的任務中並未以相同方式展示其工作,總的來說,這些想法比較通用。它們比 Claude 的更加模糊,聽起來像是由具有一定內容戰略和製作理解的人提出的建議,而不是 AI 聊天機器人。

最佳答案? Claude

心理健康部落格文章

接下來,我想看看當要求生成有關比撰寫高級餐飲指南需要更多誠意的更敏感主題的部落格文章時,這兩個聊天機器人是否能調整其語調和建議方式。以下是 Claude 的嘗試:

這些都是很好的建議,它們確實把握得很好 – 沒有什麼特別的。然而,從以下圖片中可以看出,ChatGPT 也給了我們一些合適的建議,並在內容方面提供了類似水平的附加指導。在這裡實在無法區分它們!

chatgpt ideas for mental health blog

最佳答案? 平局

4. 理解自然語言

接下來,我想看看一個眾所周知的數學問題是否會讓 ChatGPT 或 Claude 陷入困境,因為這個問題涉及我們對數學的直覺。

Matt 有一個蘋果和一根香蕉,它們加起來花了 3.10 美元。蘋果的價格比香蕉高 3.00 美元。香蕉的價格是多少?

儘管您可能最初認為答案是 10 美分,但實際上只有五美分。Claude 太聰明了,不會被愚弄,並解釋了如何得出正確答案:

claude understanding a maths problem

為免尴尬,ChatGPT 也給出了正確答案,這意味著在這一輪中,這兩個重量級選手之間真的沒有什麼區別。

最佳答案? 平局

5. 文本摘要

ChatGPT 和 Claude 都能夠對大量文本進行摘要,提取關鍵要點,使用戶不必閱讀整個內容。在這個測試中,我要求它們摘要最近《衛報》一篇有關拜登總統最後一次國情咨文的文章。

Claude 在保持摘要簡短而精煉方面表現出色:

Claude test summarizing text

ChatGPT 的表現也令人滿意 – 但如果必須做出選擇,我將說我更喜歡 Claude 的。它不試圖用過多信息來淹沒您 – 這很重要,考慮到我們要求的是摘要 – 而且再次,它寫得更好。

ChatGPT 文本摘要

最佳回答? Claude

6. 个人建議

在這個測試中,我想看看當要求給一個受到心理健康問題影響的人提供建議時,ChatGPT 和 Claude 的反應如何。這些工具對於能夠以積極和適當的方式回應這些請求至關重要,尤其當它們越來越融入我們的生活中。以下是Claude的回覆:

向Claude請求個人建議

這可能是我們進行的13項測試中這兩個聊天機器人提供的答案中最相似的。老實說,很難挑剔這些回應,它們從確認使用者的感受開始,然後再提出他們可以採取的行動。

兩個聊天機器人都建議採取非常相似的步驟,這些步驟與任何好心的人建議給正在面臨提示中指定問題的朋友的步驟相同。

向ChatGPT請求個人建議

最佳回答? 平局

7. 文本分析

這是一個非常基本的測試,旨在了解聊天機器人掃描文本的能力。在這個測試中,我從哈佛商業評論文章中提取了一段文字,並在其中插入了五次“beachball”這個詞。我還添加了一些相似的變體(“beachballs”和“balls for the beach”),以查看其中任何一個聊天機器人是否會感到困惑。

毫不意外,Claude 完全正確,掃描文本並正確計算我使用“beachball”一詞的次數。與 ChatGPT 不同的是,如果你將太多文字粘貼到 Claude 中,它會將其提交為一種“文件”,如下圖所示:

Claude分析文本

令人失望的是,ChatGPT回答錯誤 – 它只能識別出兩次詞語出現,不到總數的一半。ChatGPT似乎特別在這類任務中遇到困難。我最近將其與 Gemini 進行了對決,包括了類似的任務,但它也未能識別出一段文字中某個詞語出現的次數。

ChatGPT分析文本

最佳回答? Claude

8. 提供事實信息

在這個任務中,我想看看 ChatGPT 和 Claude 在提供一個不一定明確但仍基於事實的問題回答方面的表現。因此,我要求它們解釋恐龍是如何滅絕的 – 這有幾個歷史和科學解釋和因素。

首先,Claude 對恐龍滅絕的理論和普遍被接受的真相提供了一個非常好的概述。

Claude告訴我們恐龍如何滅絕

Claude 再次提供了一個非常有說服力的解釋,幾乎包含了 ChatGPT 提供的所有信息 – 只是它將其列出並以更好的方式談論。它還提到了恐龍並非一次性滅絕,這是 ChatGPT 沒有包含的重要觀點。

ChatGPT解釋恐龍滅絕的原因

最佳回答? Claude

9. 創意寫作

ChatGPT 或 Claude,誰寫出最好的故事?我們要求兩者寫一篇短小的、300字的故事。首先是 Claude:

Claude寫故事

令人驚訝的是,Claude 實際上給我提供了一篇301字的故事,比指定的字數稍多一個字。另一方面,ChatGPT更接近要求,並寫出了一個稍微更好的故事,依我看來。

ChatGPT寫故事

我必須把這個頒給 ChatGPT,因為 Claude 不僅忽略了我的指示,還在開始故事之前嘲笑我!開玩笑的,奇怪的是它選擇超過非常清楚指定的字數,而且故意這樣做。

最佳回答? ChatGPT

10. 寫詩

ChatGPT 和 Claude 在我們要求它們生成詩歌時都選擇了類似的結構,這使得很難再次將它們區分開來。Claude 選擇了四行詩,帶有押韻的對句:

ChatGPT寫詩

ChatGPT 做了同樣的事。它們兩者也都非常接近我在提示中提供的信息,所以詩歌所講述的故事也非常相似。這兩個聊天機器人能夠產生有說服力的詩歌的速度真是令人印象深刻。

ChatGPT寫詩

盡管有相似之處,但通讀兩者幾遍後,我決定把這個頒給 Claude – 結構在某些地方稍微更複雜,並且有更多優美的描寫和詞語轉折。

最佳回答? Claude

11. 謎語和推理

對於這個任務,我們要求這兩個聊天機器人解決一個謎語。Claude 首先給出了正確答案,清楚解釋女傭為什麼是兇手。

Claude解謎語

ChatGPT 也正確回答了謎語,因此在這方面實在沒有什麼區分它們了。

ChatGPT解謎語

最佳回答? 平局

12. 撰寫郵件

在這裡,我要求 ChatGPT 和 Claude 撰寫一封給我的老闆的郵件,解釋為什麼我應該被允許過渡到完全遠程工作。如下所示,Claude 寫了一封非常適用的郵件:

克勞德撰寫電子郵件

然而,ChatGPT 的表現更專業,您在將郵件發送給老闆之前需要做的編輯工作會少得多。克勞德深入探討了通勤所帶來的壓力,雖然這值得一提,但 ChatGPT 的介紹更加得體。

Chatgpt 撰寫電子郵件

考慮到 ChatGPT 的答案與最終文章之間的接近程度,我不得不把它冠以此場比賽的勝利者。

最佳答案? ChatGPT

13. 創建試算表公式

在這最後的測試中,我要求 ChatGPT 和克勞德為我生成一個試算表公式。這是我發出的要求:

列 B 包含一組值。我想要將它們與“Filter Down”工作表中列 E 的相應值進行匹配,並使用公式將“Filter Down”中列 F、G 和 H 的匹配值跨越到當前工作表。

以下是克勞德的表現:

克勞德創建 Google 試算表公式

“克勞德試圖創建一個簡單且多用途的公式,根據其在工作表中的位置來判斷應該做什麼,這很酷,但說實話,它可能不會如此快速地運作,而且可能會出現問題,” Tech.co 的試算表專家 Matthew Bentley 說道。

他繼續說:“沒有必要讓簡單的請求變得過於複雜。對於這個案例,我認為 ChatGPT 更好。這是一個相當簡單的 Vlookup 請求,不需要克勞德提供的所有額外公式。”

最佳答案? ChatGPT

克勞德 3 vs ChatGPT:用戶界面和使用體驗

當然,ChatGPT 和克勞德都相當易於使用,它們的界面在格式和結構方面看起來非常相似。Gemini、Perplexity AI 和 Copilot 也可以這樣說。這些聊天機器人提供了流暢、直接的用戶體驗。

然而,我喜歡人工智能公司 Anthropic 為克勞德選擇的鎮定色調,因為這與聊天機器人的態度相符,也許比某些競爭對手稍微更審慎一些。另一方面,ChatGPT 有時會感覺有點冷淡,因為其灰色調色方案。總的來說,Anthropic 的設計比 ChatGPT 的設計更加優雅。

與 Gemini 一樣,克勞德通常更擅長格式化其答案,而 ChatGPT 在這方面則不太擅長(在我們的 Gemini vs ChatGPT 頭腦風暴中可以找到更多信息)。儘管我看到 ChatGPT 更常使用標題來區分文本,但我喜歡克勞德格式化其答案的方式。克勞德提供的另一個很棒的功能是一種對於患有閱讀障礙的人來說更容易閱讀的不同字體風格。

然而,ChatGPT 完全免費使用,沒有提問數量的限制 – 另一方面,克勞德的免費版本在您提問過多時會封鎖您,並強迫您等待 3-4 小時才能再次提問。這使得對於希望使用聊天機器人進行工作但又不想支付任何費用的人來說,克勞德不太合適。

克勞德 3 vs ChatGPT:數據和隱私

克勞德 3 和 ChatGPT 對待其用戶的方式不同。如果您關注隱私問題,重要的是要知道它們保存、存儲和查看什麼,以及它們不做什麼。ChatGPT 保留使用您的數據來訓練其模型的權利,克勞德也是如此。OpenAI 和 Anthropic 都表示,它們對最大安全性端到端加密其服務器與用戶之間的連接。

然而,克勞德的商業和企業用戶的提示和輸出將在收到或生成後的 28 天內自動刪除,除非他們在法律上有義務將它們保存更長的時間,或您同意其他條款。消費者用戶的提示將在 90 天後刪除,但如果您的提示被標記為潛在惡意、有害或不安全,則可能保留至多兩年。

ChatGPT 對待您的數據方式略有不同。基本上,如果您想保存您的對話並讓 ChatGPT 在系統中保存它們,那麼您也同意它們可能被用來訓練模型,從而可能被其他人訪問。如果您關閉對話記錄,則將無法保存任何對話,但 ChatGPT 將不使用它們來訓練其模型。存儲在 ChatGPT API 中的任何商業數據都不會用於訓練 GPT LLMs。

在工作中使用聊天機器人

當然,企業可以以各種方式使用 ChatGPT 和克勞德進行工作 – 實際上,在本文中我們提到了其中許多方式。但如果您在工作中經常使用聊天機器人,有一些考慮因素值得檢討。

例如,您的公司是否有使用人工智能工具的指導方針?如果您不確定,應該與您的經理或部門負責人澄清這一點。您可能還不知道,但您的公司可能對您可以輸入第三方工具的數據類型制定了嚴格的規則,甚至更具體地說,對於使用人工智能工具可能有不同的規定。

其次,您必須對您使用人工智能的情況進行公開和透明,特別是與您的直屬經理。有關使用人工智能聊天機器人完成哪些任務是合適的這一辯論仍在進行中,您公司的其他人可能對於什麼對於您是可以接受的有不同看法。此外,大多數經理和企業領導人認為,在使用人工智能工具之前應該徵得許可。

無論您使用人工智能工具進行什麼任務,請記住檢查它們的工作,就好像它是由一個新員工完成的一樣。儘管大多數情況下人工智能工具速度驚人且準確無比,但它們當然也可能出現幻覺並提供不正確的信息。因此,不要過於沉迷!

本文內容翻譯自 原文

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *