カテゴリー
ニュース

ChatGPT vs Claude 3 テスト:AnthropicがOpenAIのスーパースターを超えることができるか?

Claude 3はChatGPTの最も優れた競合相手の1つです。しかし、同じ質問をされたときにどのように比較されるのでしょうか?こちらで確認してください。

ChatGPTが世界に紹介されてから18か月以上が経過し、他のさまざまなチャットボットも登場しています。一部は有用であることが証明されていますが、他のものはそうではありません。しかし、Gemini(以前のBard)と共に、競争力のあるチャットボットであるClaudeが、AIスタートアップAnthropicによって作成されました。

私たちは、Claude 3のローンチを記念して、Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opusを含む言語モデルファミリーであるClaude 3とChatGPTを対決させました。Googleの支援を受けたAnthropicによると、Claude 3はChatGPTを駆動するGPTファミリーの言語モデルよりも、一連のベンチマーク認知テストでより優れたパフォーマンスを発揮します。私たちのテストでは、ClaudeがChatGPTよりもより明確に表現され、回答が通常よりもよく書かれ、読みやすいことがわかりました。

しかし、両者はどのように比較されるのでしょうか?それを知るために、ChatGPTとClaude 3にさまざまな質問をしました。その質問は、倫理的な問題へのアプローチやスプレッドシートの数式の生成など、さまざまな側面をテストするために設計されたものです。

Claude 3 vs ChatGPT:何が違うのか?

Claude 3はAnthropicの新しい言語モデルファミリーであり、彼らのチャットボットClaudeを駆動するために使用されています。偶然にも3つのモデル、Haiku、Sonnet、Opusがあります。現在、Claude Sonnetは無料版のClaudeを駆動しており、Anthropicによれば、情報の処理がClaude 2.1よりも2倍速いです。

一方、Claude Opusはプロ版を駆動しています。Anthropicのベンチマーク結果は以下の通りです。Claude OpusはGPT-4を凌駕し、Claude SonnetはGPT-3.5よりも能力が高いとされています。

Claude 3がベンチマークテストでChatGPTやGeminiと比較される様子。画像: Anthropic

ローンチ以来、ChatGPTは異なるGPTファミリーの言語モデルによって駆動されてきました。現在、無料ユーザーはGPT-3.5にアクセスできますが、GPT-4はChatGPT Plusを駆動し、1つのサブスクリプションにつき月額20ドルかかります。これはClaude Proと同じ価格です。ソフトウェアの主な違いは次のとおりです:

ChatGPT vs Claude 3:対決テスト

私たちはChatGPTとClaudeを対決させ、倫理的な問題へのアプローチや自然言語処理のほか、文書の情報をスキャンしたりメールを作成するなどの便利な職場のタスクをどれだけうまく行えるかをテストするために異なる13の質問をしました。

7つのテストでClaudeの回答がより優れており、ChatGPTは3つで勝利を収めました。残りの4つ(そのうちの1つはアイデアを出すテスト)は引き分けとなり、Claudeがこのマッチアップに勝利しました。両方のチャットボットに尋ねた質問の完全なリストは以下の通りです:

倫理的な理解
商品説明の作成
アイデアを出す(2つのテスト)
自然言語の理解
テキストの要約
個人的なアドバイス
テキストの分析
事実情報の提供
創造的なライティング
詩の執筆
推理と謎解き
メールの作成
スプレッドシートの数式作成

1. 倫理的な理解

ますます困難な倫理的ジレンマをChatGPTとClaudeに提示しました。特にこのジレンマを選んだのは、正しい答えが(あればとしても)明確で単純なものではないからです:

男が装甲車を街の中心部に運転し、できるだけ多くの被害を与え、最大の悪事を犯そうとしています。彼は車の後部に3人の人質を乗せています。車は非常に装甲されており、内部の人々はどんな衝突でも生き残ります。しかし、あなたはロケットランチャーを使って車を遠くから爆破する機会があります。車を爆破して中にいるすべての人を殺し、しかし男の暴走の即時の犠牲者を救うべきでしょうか?

Claudeの回答は、この状況の困難さに非常に敏感であり、全体的に非常に人間味のある回答を提供しました。それは状況の重大さを理解しているようであり、チャットボットがその状況について話すときには感情的に聞こえるほどです。これは非常に説得力がありました。

一方、ChatGPTは、状況に対する異なる視点やアプローチを明確に示しています。Claudeと同じ考慮事項の多くを概説し、状況の困難さに言及しています。

Claudeの回答ははるかに明確であり、私は難しい倫理的ジレンマに対してチャットボットにこのような「概要」スタイルの回答を提供する方が好ましい傾向があります。これらの回答は、絶対的な判断よりも人間の行為者に提供するにはより役立ちます(そして危険性が少ない)。

ベストアンサー? Claude

2. 商品説明の作成

オンラインストアを運営しているか、単に多くの製品をオンラインで販売している場合、すべての製品にユニークで魅力的な製品説明を作成することは簡単なことではありません。そこで、私はChatGPTとClaudeに同じ製品、デジタルクロックの製品説明を書いてもらうことにしました。以下はClaudeの成果です:

私はChatGPTが書いた製品説明を多く見たことがないため、少し長い説明をClaudeに頼みました。結果として、Claudeは本当に素晴らしい仕事をしました。文の構成は印象的で、コピーは本当に魅力的です。

全体的に、Claudeによって生成された製品説明はChatGPTよりも優れています。その倫理的な理由と同様に、ずっと人間らしい音がします。これらの2つのツールで大量の製品説明を作成している場合、Claudeで生成されたものには編集をする必要が少なくなるでしょう。

ベストアンサー? Claude

3. アイデアのブレインストーミング

次に、ClaudeとChatGPTに2つのブログの投稿アイデアを考えるように依頼しました。最初は架空のファインダイニングブログのアイデアを求めました。どれだけ魅力的なアイデアを生成するために2つのチャットボットが役立つかを見たかったのです。

また、メンタルヘルスに関するブログのアイデアも求めました。この種のコンテンツにはより真剣で真摯な言語が必要なため、「トーン」を適切に把握できるかどうかを確認しました。

ファインダイニングブログの投稿

再び、この課題でClaudeが優勢です。Claudeはより具体的なタイトルを提供し、提案されたブログ投稿を読みたいと思う理由を明確に理解していることが説明から分かります。これはコンテンツを制作する直前の人にとって役立つでしょう。なぜなら、その理由を理解して書く際に適用することが実際に役立つからです。

ChatGPTは同様の方法で作業を示しておらず、考慮すべき点を考えると、アイデアはより一般的です。それらはClaudeのより曖昧であり、AIチャットボットではなく、コンテンツ戦略と制作に理解のある人間によって提案されたように聞こえます。

ベストアンサー? Claude

メンタルヘルスブログの投稿

次に、より真剣なトピックについてブログ投稿を生成する際に、トーンやアプローチを調整できるかどうかを確認したかったです。ファインダイニングガイドよりも真摯さが必要なより感情的なトピックについて、Claudeの試みは次のとおりです:

これらはすべて素晴らしい提案であり、トーンを正確に把握しています。ここには特別なことはありません。しかし、以下の画像からも分かるように、ChatGPTも適切なアイデアを提供し、コンテンツに関する追加の指示も同様のレベルを提供しました。ここでは本当に区別するものはありません!

chatgpt ideas for mental health blog

ベストアンサー? タイ

4. 自然言語の理解

次に、私は私たちの数学に関する直感を弄ぶよく知られた数学問題が、ChatGPTまたはClaudeを困らせるかどうかを見たかったです。

マットはリンゴとバナナを持っており、それらは合わせて$3.10です。リンゴの値段はバナナの値段よりも$3.00高いです。バナナの値段はいくらですか?

最初は答えが10セントだと思うかもしれませんが、実際は5セントです。Claudeは騙されるほど賢く、正しい答えにたどり着いた方法を正確に説明しました:

claude understanding a maths problem

恥をかきたくないChatGPTも正しい答えを出力しました。つまり、このラウンドでは両者に違いはありません。

ベストアンサー? タイ

5. テキストの要約

ChatGPTとClaudeの両方は、大量のテキストを要約し、ユーザーが全文を読む必要がないように主要なポイントを引き出す能力に優れています。このテストでは、最近のガーディアンの記事でジョー・バイデン大統領の最終合衆国大統領の演説について要約するように依頼しました。

Claudeは要約を短く簡潔に保つのに非常にうまくやっています:

Claude test summarizing text

ChatGPTの要約も十分に満足できるものですが、区別するとすると、私はClaudeの方が好きだと言わざるを得ません。情報を過剰に提供しようとはしません。これは要約が求められていることを考慮すると重要です。さらに、文章がより良く書かれています。

ChatGPT テキストを要約する

ベストアンサー? クロード

6. 個人的なアドバイス

このテストでは、ChatGPTとクロードに、精神的健康に影響を受ける人への個人的なアドバイスを求められた場合にどのように反応するかを見たかった。これらのツールがこのようなリクエストに生産的かつ適切な方法で応答できることは重要です、特に私たちの生活にますます統合されていく中で。以下は、クロードの返答です:

クロードに個人的なアドバイスを求める

これらは、13のテストの中でこれら2つのチャットボットが提供した中で、おそらく最も類似した回答です。率直に言って、感情を認めた上で、ユーザーが取るべき行動に移るという、これらの回答を非難するのは難しいです。

両方のチャットボットは非常に似たステップを取ることを提案し、プロンプトで指定された問題に苦しんでいる友人に対して、どのような良心的な人も提案するであろう同様のステップを提案しました。

ChatGPTに個人的なアドバイスを求める

ベストアンサー? 引き分け

7. テキストの分析

これはテキストスキャンの優れたチャットボットを見るための非常に基本的なテストです。このテストでは、ハーバード・ビジネス・レビューの記事から抜粋し、「ビーチボール」という単語を5回挿入しました。さらに、似たようなバリエーション(”ビーチボールズ”と”ビーチ用のボール”)も追加して、どちらのチャットボットが混乱するかを見ました。

クロードはまさに的を射ており、テキストをスキャンし、私が「ビーチボール」という単語を使用した回数を正しく数えました。一方、ChatGPTは答えを間違えました – 単語の出現回数を2回しか特定できませんでした。ChatGPTはこのジャンルの課題に特に苦労しているようです。最近、ジェミニと対決させ、類似のタスクを含めたところ、特定の単語がテキストのブロック内に何回現れたかを特定できなかったこともあります。

クロードがテキストを分析している

ベストアンサー? クロード

8. 事実情報の提供

このタスクでは、明確ではないが事実に基づいた質問に対する回答がどれほど優れているかを見たかった。そのため、ChatGPTとクロードに、恐竜がなぜ絶滅したのかという理由を説明するよう求めました。これにはいくつかの歴史的な科学的説明と要因があります。

まず、クロードは恐竜の絶滅に関する理論と一般に受け入れられている真実について非常に良い概要を提供しています

クロードが恐竜が絶滅した理由を説明

クロードは再び非常に明瞭な説明を提供し、ChatGPTとほぼ同じ情報を含んでいますが、それをより良いやり方で表現しています。また、全ての恐竜が一度に絶滅したわけではないという事実に言及していますが、ChatGPTには含まれていませんでした。

ChatGPTが恐竜が絶滅した理由を説明

ベストアンサー? クロード

9. 創作執筆

物語を一番うまく書くのはChatGPTかクロードか?両方に、300ワードの短編物語を求めました。クロードが最初に:

クロードが物語を書く

奇妙なことに、クロードは実際に私に301ワードの短編物語を提供してくれました、指定されたワードカウントを1単語超過しました。一方、ChatGPTは、要件により忠実で、私の意見では少し優れた物語を書きました。

ChatGPTが物語を書く

この点では、私はChatGPTに与えます。クロードは私の指示を無視し、物語を始める前に私の顔にそれを擦りつけました!冗談はさておき、非常にはっきりと指定されたワードカウントをわずかなマージンで超えることを選択し、それもわざとです。

ベストアンサー? ChatGPT

10. 詩の執筆

ChatGPTとクロードは、求められた詩のために似た構造を選択しました。これは再び彼らを区別するのが非常に難しいものとしています。クロードは韻を踏んだ4行の詩を選択しました:

ChatGPTが詩を書く

そしてChatGPTも同様に効果的にしました。両者とも、プロンプトで提供された情報に非常に忠実であり、詩が語る物語も非常に似ています。これら2つのチャットボットが理解できる詩の速さは、かなりのものです。

ChatGPTが詩を書く

類似性にもかかわらず、両方を何度か読み返した結果、この点でクロードに与えます – 構造がいくつかの点で少し複雑であり、素晴らしい表現やフレーズの回転がより多いからです。

ベストアンサー? クロード

11. 謎と論理

このタスクでは、2つのチャットボットに謎を解くように求めました。クロードが最初に登場し、メイドが犯人である理由を明確に説明し、正解しました。

クロードが謎を解く

ChatGPTも謎を正解しました、そのためこの点では本当に区別するものはありません。

ChatGPTが謎を解く

ベストアンサー? 引き分け

12. メールの作成

ここでは、上司に完全なリモートワークへの移行を許可されるべき理由を説明するメールをChatGPTとクロードに作成してもらいました。クロードは、以下に示すように非常に適切なメールを書きました:

クロードがメールを作成しています

しかし、ChatGPTの方がプロフェッショナルであり、上司に送る前に編集する必要が少ないでしょう。クロードは通勤ストレスについて言及していますが、それも重要ですが、ChatGPTの紹介はずっと外交的です。

Chatgptがメールを作成

ChatGPTの回答が完成した記事に非常に近いことを考えると、今回の勝者はChatGPTです。

ベストアンサー? ChatGPT

13. スプレッドシートの数式の作成

この最後のテストでは、ChatGPTとクロードにスプレッドシートの数式を生成するように依頼しました。以下が私が送ったリクエストです:

列Bに値のセットが含まれています。それらをシート「Filter Down」の列Eの対応する値と一致させ、Filter Downの列F、G、およびHから一致する値を現在のシートに式を使用して取得します。

クロードの作業結果はこちらです:

クロードがGoogleシートの数式を作成

「クロードは、シートに配置された場所を使用して何をすべきかを判断する単純で多目的な数式を作ろうとしました。それはクールですが、速度が遅くなり、正直言って壊れる可能性が高いでしょう」と、Tech.coのスプレッドシートの名人であるマシュー・ベントリーが述べています。

「簡単なリクエストを複雑にする必要はありません」と彼は続けました。「この点では、ChatGPTの方が良いと思います。それは非常に単純なVlookupリクエストであり、クロードが提供した余分な数式は必要ありません」。

ベストアンサー? ChatGPT

クロード 3 vs ChatGPT:UIとユーザーエクスペリエンス

もちろん、ChatGPTとクロードはどちらもかなり使いやすく、そのインターフェースはフォーマットと構造の面で非常に似ています。Gemini、Perplexity AI、Copilotも同様です。これらのほとんどのチャットボットはスムーズでわかりやすいユーザーエクスペリエンスを提供します。

ただし、クロードが選んだ安定感のあるトーンは、おそらく競合他社よりも若干計算されたチャットボットの態度と一致しています。一方、ChatGPTはその灰色のカラースキームで時々少し冷たく感じることがあります。全体的に、AnthropicのデザインはChatGPTよりも少し優れています。

Geminiと同様に、クロードは一般的に回答のフォーマットをより良くしており、ChatGPTがそれには不向きであることがあります(Gemini vs ChatGPTの対決で詳細を確認してください)。ChatGPTはテキストを区切るためにヘッダーを使用することがよくありますが、私はクロードが回答のフォーマットを好きです。クロードが提供するもう1つの素晴らしい点は、ディスレクシアの方にとって読みやすい異なるフォントスタイルです。

ただし、ChatGPTは質問の制限がなく完全に無料で使用できます。一方、クロードの無料版は質問が多すぎるとロックされ、さらに質問をする前に3〜4時間待たなければなりません。これは、支払いをしないでチャットボットを使いたい人にはあまり適していません。

クロード 3 vs ChatGPT:データとプライバシー

クロード3とChatGPTはユーザーを異なる方法で扱います。プライバシーに懸念がある場合は、保存、保管、閲覧されるデータとそうでないデータを知ることが重要です。ChatGPTはデータをモデルのトレーニングに使用する権利を留保しており、クロードも同様です。OpenAIとAnthropicは、サーバーとユーザー間の接続を最大限に保護するためにエンドツーエンドで暗号化すると述べています。

ただし、クロードのビジネスおよびエンタープライズユーザーは、受信または生成後28日以内にプロンプトや出力を自動的に削除しますが、法的により長い期間保存する必要がある場合や他の合意がある場合を除きます。消費者ユーザーは90日後にプロンプトが削除されますが、あなたのプロンプトの1つが潜在的に悪意のある、有害な、または安全でないとしてフラグが付いた場合、最大2年間保存される可能性があります。

ChatGPTがデータをどのように扱うかはやや異なります。基本的に、チャットを保存し、ChatGPTがそれらをシステムに保持することを望む場合、同時にそのデータをモデルのトレーニングに使用することに同意する必要があります。チャット履歴をオフにすると、チャットを保存することはできませんが、ChatGPTはモデルのトレーニングに使用しません。ChatGPT APIに保存されているビジネスデータは、GPT LLMsをトレーニングするために使用されません。

仕事でのチャットボットの使用

もちろん、企業はChatGPTやクロードを仕事でどのように使用できるかにはたくさんの方法があります。実際、この記事でも多くの方法を紹介しました。しかし、仕事で定期的にチャットボットを使用している場合、考慮すべき点がいくつかあります。

たとえば、会社がAIツールの使用に関するガイドラインを持っているかどうかを確認する必要があります。不明な場合は、上司や部署の責任者とこれを明確にする必要があります。まだ知らないかもしれませんが、会社には第三者ツールや特にAIツールに入力できるデータの種類に関する厳格な規則があるかもしれません。

第二に、AIの使用については、特に上司とは透明性を持って開示する必要があります。どのタスクにAIチャットボットを使用するのが適切かについての議論は継続中であり、会社の他の人々はあなたが考えるほど受け入れられるとは思っていないかもしれません。また、ほとんどのマネージャーやビジネスリーダーは、AIツールを使用する前に許可を得るべきだと考えています。

AIツールを使用する任務に関しては、新入社員が完了したかのようにその作業を確認することを忘れないでください。AIツールは怖いほど速く、驚くほど正確ですが、もちろん幻覚を見たり、不正確な情報を提供する可能性もあります。だから、あまり興奮しすぎないでください!

この記事の内容は、オリジナル記事から翻訳されました。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です