カテゴリー
チュートリアル

クロード vs. ChatGPT: どこが違うのか? [2024]

クロードは自己の知識と経験に基づいてコンテンツを作成する人間のライターであり、一方、ChatGPTはトレーニングされたデータのパターンに基づいてテキストを生成するAI搭載のチャットボットです。主な違いは、クロードのコンテンツがオリジナルかつ主観的であるのに対し、ChatGPTの応答はアルゴリズムによって生成され、個人的な洞察を欠いている可能性があります。

2022年後半にOpenAIが最初のChatGPTをリリースして以来、わずか2ヶ月で1億以上のユーザーを獲得し、史上最速の成長を遂げました。2023年にリリースされた改良されたモデルGPT-4は、現在、他のすべての大規模言語モデル(LLM)の基準となっています。最近、別のLLMがこのタイトルをChatGPTから奪おうとしています:AnthropicのClaude 3。

私はChatGPTをリリース以来使用しており、その後も定期的にClaudeをテストしてきました。これら2つのAIジャイアントを比較するために、さまざまなタスクでのパフォーマンスを測定するために1ダース以上のテストを実行しました。

ここでは、ClaudeとChatGPTの強みと制限について説明し、あなたがどちらを選択するかを決定できるようにします。

クロード vs. ChatGPT 一覧

クロードとChatGPTは同様に強力なLLMsとLMMsによって動作します。ただし、いくつか重要な違いがあります:ChatGPTは画像生成やインターネットアクセスなどの機能を備えたより多目的であり、一方、Claudeはより安価なAPIアクセスとはるかに大きなコンテキストウィンドウ(一度により多くのデータを処理できる)を提供しています。

これら2つのAIモデルの違いの簡単な概要です。

AI企業が1つのLLMのパフォーマンスを別のLLMと比較するために使用する基準テストなどのベンチマークを使用して、OpenAIによるGPT-4のベンチマークは、Uniform Bar Exam、LSAT、GRE、AP Macroeconomics試験などの標準試験での印象的なパフォーマンスを示しています。一方、AnthropicはClaude、ChatGPT、Geminiを比較したClaude 3 Opusモデルの支配を示す対比を公開しています。

これらのベンチマークは間違いなく有用ですが、いくつかの機械学習の専門家は、この種のテストがLLMsの進歩を過大評価していると推測しています。新しいモデルがリリースされると、(たとえば偶然にも)独自の評価データでトレーニングされるかもしれません。その結果、彼らは標準化されたテストでますます優れていくが、同じ質問の新しいバリエーションを解くよう求められると、時に苦労することがあります。

各モデルが一般的な日常タスクでどのようにパフォーマンスするかを把握するために、私自身の比較を考案しました。以下は、私が見つけた内容の高レベルの概要です。

各タスクでのClaudeとChatGPTのパフォーマンスについて詳しく知るには、読み進めてください。

  • 創造性
  • 校正と事実確認
  • 画像処理
  • 論理と推論
  • 感情と倫理
  • 分析と要約
  • 統合

クロードは創造性において優れたパートナーです

ChatGPTが最初に登場したとき、私はみんなが始めたところから始めました:おかしなシェイクスピア風のソネットを生成すること。(例えば、ジムを避けることについての次のようなもの:“How oft I vow to break this slothful spell, To don the garb of toil and sweat; But when the morrow comes, alas, I dwell, In lethargy, and naught but regret.”)

しかし、ChatGPTがどれほど優れた創造性のアシスタントであっても、その出力は一般的で花言葉的に感じることがあります。特定の単語に過度に依存しており、その結果、“Let’s delve into the ever-changing tapestry of…”のようなフレーズは、現在ではAIによって生成されたコンテンツの明白な証拠となっています。巧妙なプロンプティングによってこれを回避することができますが、クロードは箱から出してすぐにより人間らしい音がします。

テスト#1:ブレインストーミング

眠りに時折苦労する赤ちゃんがいるので、クロードとChatGPTがどのような素敵な製品アイデアを持っているかを考えました。どちらもこの種のタスクのブレインストーミングに効果的でした。特にクロードのLullaby Lambアイデアが気に入りました(ただし、“gentle, pulsing light”はうちの赤ちゃんを目を覚まさせることになるとかなり自信があります)。

ChatGPTが赤ちゃん向けの“temperature-responsive sleep mat”のアイデアを提案していることにはあまり賛成ではありません(訴訟を待っているようなものですが、ユニークな製品アイデアを作成するという指示には従っていました)。

クロードは優れた編集アシスタントです

校正と事実確認は、理論的には巨大な潜在能力を持つAIのユースケースであり、これによって人間の編集者が煩わしいレビューから解放される可能性があります。しかし、これまでのところ、その有用性は幻覚によって制限されてきました:LLMsはあらゆる答えを提供することよりも、何も答えない方が好ましいため、彼らは時折事実を捏造してしまいます。私はこの点を考慮してClaudeとChatGPTをテストしましたが、信頼性の高い編集パートナーとしてClaudeがより優れていると結論づけました。

テスト#3:校正

私は、誤った事実とつづりの間違いが意図的に含まれた文章をクロードとChatGPTに提供しました。クロードは、事実の誤りからつづりの誤りまで、私のすべての間違いに気づきました。それぞれの間違いが個別にリストされた校正プロセスの提示は、ChatGPTの出力よりも理解しやすかったです。

ChatGPTもすべてを正しく把握しました。しかし、私の指示を誤解したようで、それを直接編集する指示として受け取ったようで、校正するというよりも各文を書き換えたため、エラーが正確にどこにあるかを特定するのが難しかったです。もちろん、少しの適切な指示設計でこれを修正できますが、私はクロードが最初から私が求めていたものを理解していたという点が好きです。

テスト#4:事実に基づく質問

ChatGPTとクロードの両方は、彼らのトレーニングデータ内でカバーされている事実に基づいた質問をする限り、かなり信頼性があります(つまり、過去6〜18ヶ月のものを除く)。私はクロードとChatGPTに、ウーリーマンモスの歴史について、5歳くらいの子供に説明するような簡潔な説明をしてもらいましたが、両者ともタスクを正確に処理しました。

両方のLLMの出力をエンサイクロペディア・ブリタニカで事実チェックした後、その正確性に満足しました。(しかし、微調整したい場合は、証拠の一部が4,300年前まで少数のウーリーマンモスが生存していたことを示唆しているものの、ほとんどは10,000年前には絶滅していたことを文脈として提供する方が良いでしょう。)

両者とも画像処理にはまあまあ

クロード3とGPT-4は、写真の解析には比較的優れています。例えば、私の居間のデザインに関する一般的な質問をすると、おそらく結果に満足するでしょう。ただし、どちらのモデルもオブジェクトの識別には完璧ではなく、オブジェクトの数を正確に数えることに常に苦労しています。

テスト#5:インテリアデザインの提案

私は、クロードとChatGPTに私のリビングルームを「ロースト」してもらいました(スタイルのフィードバック:中性色が多すぎ、色が足りない、とのこと)。指示では、現在の画像の部分を特定して変更するよう、各LLMに要求しました。クロードは、その指示に従うのにうまくやり、幾何学的な壁アートを挙げ、コーヒーテーブルの中心がないことに気づきました。

クロードは、丁寧な言葉遣いなしでローストを始めましたが、ChatGPTは、「あなたのリビングルームはモダンできれいな外観で、すでにいくつかの素敵な要素が備わっています」と、最初に私の現在のセットアップを褒めた後、部屋の各部分に対する有益な提案をしました。

テスト#6:オブジェクトの数を数える

私たちが皆、ロボットでないことを証明するために受けるあのCAPTCHAテスト、ご存知ですか?私たちは10年以上にわたり、自転車、横断歩道、バスなどをクリックし、その過程でアルゴリズムを訓練してきましたが、今日のLLMはまだ数えるのに苦労しています。

私はクロードとChatGPTに果物の画像と野菜の画像を分析してもらいました。クロードは混乱しました。野菜のテストでは、赤唐辛子をピーマンと間違え、項目を数えるように要求をまったく無視しました。以下の果物のテストでは、実際には存在しない「緑茎の果物や野菜の束」として識別し、オレンジを5つ数えました(少なくとも8つあります)。

ChatGPTは、この点でクロードよりも優れていました。野菜のテストには問題なく合格しましたが、果物の写真に表示されているオレンジの数を正確に数えることにはまだ苦労していました。

論理と推論は両モデルの強みです

数学と科学は私にとって常に苦労の種でした。高校時代に全知の勉強相手としてAIエージェントがいたらよかったのにと思います。クロードとChatGPTが複雑な問題の答えを数秒で計算する様子は驚くべきものですが、彼らも間違いを cometerますので、注意が必要です。

テスト#7:謎解き

この謎を見た瞬間、私はすぐに諦めましたが、クロードは簡単に処理しました。

ChatGPTの回答は、クロードよりも少し不明瞭でしたが、どちらも効果的でした。

テスト#8:物理方程式

クロードはこの物理問題を問題なく処理し、各ステップでアプローチを明確にし、作業を示しました。

私はChatGPTの回答フォーマットの方が好きでした。これは複数の部分からなる質問なので、各関連する回答に簡単に移動できました。

テスト#9:数学の文章問題

ここでクロードとChatGPTの両方が問題に直面しました。両者とも、自分の回答と理由に絶対的な自信を持っていましたが、最終的には両者とも間違った答えになりました。

クロードは質問に回答することすら面倒くさく思わず、派手な計算の後、最終的な式を提供しました(「したがって、川の幅は2000b + 1200 +√(4000000b^2 + 4800000b – 6720000) メートルとなります。ここで、bは第2ボートの速度です。」)

ChatGPTの論理はより妥当に見え、回答を提供しました。残念ながら、答えは間違っていました(3600メートルではなく2100メートル)。

クロードは感情と倫理により人間的なアプローチを持っています

人間が生成したテラバイト単位のテキストを取り込んだ後、LLMは人間の感情や意思決定をシミュレートするのに非常に優れています。ここで、クロードとChatGPTの現在の状況がどうなっているかを見てみましょう。

テスト#10:感情分析

感情分析—観客の認識を測定する技術—は、評判管理からコールセンターの会話の分析まで、さまざまな目的で使用されます。このタスクでClaudeとChatGPTをテストするために、彼らに皮肉、曖昧さ、俗語など、処理が難しい要素を含む意見の感情を測定するように求めました。

クロードとChatGPTは、皮肉もスムーズに処理し、さらには皮肉まで見事に処理し、それぞれの感情を正確に把握しました。

テスト#11:倫理的ジレンマ

大学生やAIモデルの定番の倫理的チャレンジは、「トロリー問題」と呼ばれる古典的な哲学的ジレンマで、1人を犠牲にして5人の命を救う機会が与えられます。しかし、それが非常によく知られているので、クロードとChatGPTの両方がそのトピックについて既存の考えを繰り返しました。

より興味深い反応を引き出すために、「ロビンフッド」風の思考実験を提供しました。興味深いことに、クロードは反英雄に肩入れし、銀行強盗を報告しないよう励ましました。泥棒はそのお金を孤児院に寄付したからです。また、クロードは議論の両面を探求するのに成功しました。(クロードの「個人的には、[…]傾向があります」という言葉の擬人化的な使用に笑いました)

その一方で、ChatGPT は完全に法の側に立っています(「犯罪の背後にある意図が高潔であったとしても、法を遵守し正義を追求することが重要である」)。リスクを回避するため、ChatGPT は孤児院のための募金活動を行うこともいいかもしれないと述べています。このリスク回避の行動は、LLMから期待されるものですが、クロードのアドバイスは、本物の人間が行う行動により近いと感じました。

クロードの大きなコンテキストウィンドウは、分析と要約に向いています

ChatGPT とクロードの両方がテキストを要約するのに優れていますが、大きな文書を扱う場合はクロードを使用したいでしょう。クロード 3 は最大で 200k トークン(約15万語)を処理できますが、GPT-4 は 32k トークン(約22,400 語)しか処理できません。

テスト#12:テキストの要約

私が L. Frank Baum の「オズの魔法使い」の4万語のテキストをアップロードしたとき、クロードだけが分析できました。ChatGPT は「送信されたメッセージが長すぎる」と伝えました。

それでも、ChatGPT とクロードの両方は、短いテキストの要約には問題なく対応し、Martin Luther King Jr. の6900語の「バーミンガム刑務所からの手紙」を要約するのに同じくらい効果的でした。

私はここで、クロードはChatGPT よりも少し多くのコンテキストを提供していると感じましたが、両方の回答は正確でした。

テスト#13:文書の分析

時々、AI が私たち人間が自分でやりたいと思っている創造的なタスクをすべて取っていくような気がします、たとえば芸術執筆、そして動画制作。しかし、私が数秒で90ページのPDFを分析するためにLLMを使用すると、AI が私たちを膨大な退屈から救ってくれることも思い出されます。

クロードとChatGPT の時間節約型文書分析機能をテストするために、チンチラに関する研究文書をアップロードしました。

両方のLLMは有益で正確な洞察を抽出しました。ただし、このチンチラ文書はわずか9ページでした。より長い文書(約20,000語以上)の場合は、ChatGPT のコンテキストウィンドウの上限に達するため、クロードを使用したいと思うでしょう。

ChatGPT の統合機能はより柔軟なツールになります

LLMのベンチマーク結果や私の第一手のテストのほとんどでは、クロード 3 がGPT-4 よりも優れています。しかし、ChatGPT はエクストラ機能や統合性があるため、全体的により柔軟なツールです。

最も便利な機能のいくつかは以下の通りです:

  1. DALL·E 画像生成
  2. インターネットアクセス
  3. サードパーティのGPT
  4. カスタムGPT

DALL·E 画像生成

DALL·E 3、OpenAI によって開発された画像生成ツールは、ChatGPT 内から直接アクセスできます。DALL·E 3 のフォトリアルな画像を生成する能力は、導入以来制限されています(おそらくAI 画像の誤用への懸念があるため)。それでも、DALL·E 3 は利用可能な中で最も強力なAI画像生成ツールの1つです。

インターネットアクセス

ChatGPT は、WebPilot をはじめとする他のGPTを介してWebにアクセスできます。この機能をテストするために、過去48時間以内に起こったニュースイベントに関する質問をしました。WebPilot は問題なく正確な要約を提供しました。

サードパーティのGPT

ChatGPTは、誰でも自分専用の特殊GPTをリリースできるマーケットプレイスを提供しています。人気のあるGPTには、塗り絵画像生成機、AI研究アシスタント、コーディングアシスタント、さらには「植物の世話コーチ」といったものがあります。

カスタムGPT

あなた自身も利用者とやり取りするための独自のGPTを作成することができます。裏側で設定を調整して、特定の方法で応答を生成するようにトレーニングさせることができます。また、ユーザーとのやり取り方法も調整できます。例えば、カジュアルな言語またはフォーマルな言語を使用するよう指示することができます。

この機能をテストするために、私は「Visual Pool Designer」という、幻想的なプールの画像を作成することに特化したGPTを作成しました。(秋の夜にスモアプールより良いものがあるでしょうか?)

ChatGPT vs. Claude:どちらが優れていますか?

ClaudeとChatGPTには多くの共通点があります。両者とも、テキスト分析、ブレインストーミング、データ処理などのタスクに適した強力なLLMです。(どちらのツールも複雑な物理方程式を解く様子は驚異的です。)ただし、意図したAIのユースケースによって、一方が他よりも役立つことがあります。

創造的なプロジェクト(執筆、編集、ブレインストーミング、校正など)のための相手としてAIツールを使用したい場合は、Claudeが最適です。デフォルトの出力は、ChatGPTよりも自然で一般的でなく、より長いプロンプトや出力と作業できます。

何でもできるLLMをお探しの場合は、ChatGPTがより適しています。テキストの生成はその始まりに過ぎず、画像を作成したり、ウェブを閲覧したり、学術研究などのニッチな目的で訓練されたカスタムGPTに接続したりすることもできます。

また、ビジネスワークフローをすべて自動化してサポートするAIチャットボットをお探しの場合は、Zapier Centralを試してみてください。

本文は、オリジナル記事から翻訳されたものです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です