カテゴリー
ニュース

AnthropicのAIモデルとチャットボットClaudeのすべて

本文では、AnthropicのAIチャットボットClaude、それを支えるLLMモデルであるClaude 3について議論しています。Anthropicは安全性を重視したAI研究に焦点を当てています。

現代のAIチャットボットは印象的ですが、それらとのやり取りはまだ《I, Robot》のような存在主義的なSFの不安を残すことはないかもしれません(まだですが)。

しかし、AI研究会社AnthropicのCEOであるダリオ・アモディによると、AIモデルがあまりにも自律的になりすぎるリスクがあるとのこと、特にインターネットへのアクセスやロボットの制御を始めるときには。他の何百人ものAIリーダーや科学者たちもAIがもたらす存在主義的なリスクを認めています。

すべての他のアプリにClaudeのAIを接続する
Claudeを自動化する
このリスクに対処するために、Anthropicは直感に反することをしました:彼らは自らより安全な大規模言語モデル(LLM)を開発することを決定しました。Anthropicのモデルの以前のバージョンであるClaude 2は、潜在的な「ChatGPTキラー」として称賛されました。そのリリース以来、進歩は速かった—AnthropicのLLMの最新アップデートであるClaude 3は、さまざまなベンチマークでChatGPT-4を凌駕しています。

この記事では、Claudeの能力を概説し、他のAIモデルと比較してどのように優れているかを示し、自分で試す方法を説明します。

Claudeとは?

ClaudeはAnthropicのLLM、Claude 3によって支えられたAIチャットボットです。

ChatGPTやGoogle Geminiを使用したことがあるなら、Claudeを起動する際に期待されることがわかります:あなたと協力し、あなたのために書き、質問に答える強力で柔軟なチャットボット。

Claudeの背後にある会社であるAnthropicは、2021年に設立され、OpenAIのGPT-2およびGPT-3モデルの開発に携わった元OpenAI社員のグループによって始められました。それは何よりも安全性に焦点を当てたAI研究に焦点を当てています。

2023年初頭に一部の商業パートナーを対象としたクローズドαを実施した後、ClaudeのモデルはNotion AI、QuoraのPoe、およびDuckDuckGoのDuckAssistなどの製品に統合されました。2023年3月、ClaudeはAPIをより多くの企業に公開し、2023年7月に一般公開されたClaude 2モデルのリリースと同時に、一般にチャットボットがリリースされました。

Claude 2はOpenAIのGPT-4に遅れをとっていましたが、Anthropicの最新モデルであるClaude 3は、2024年3月にリリースされた今、さまざまな能力でGPT-4を凌駕しています。

Claude 3にはAnthropicが「ビジョン能力」と呼ぶ機能も搭載されています:さまざまな形式の写真、チャート、図を解釈することができます。これはPDFやプレゼンテーションから洞察を抽出したい企業顧客にとって理想的ですが、私のような一般ユーザーでもClaudeが画像とやり取りするのを見るのは楽しいでしょう。

たとえば、池のそばの朝食の写真をClaudeが完璧に分析するのを見てみてください。

Claude 3モデルファミリー

LLMは膨大な計算リソースを必要とします。より強力なモデルほどコストがかかるため、Anthropicはさまざまな目的に最適化された複数のClaude 3モデル—Haiku、Sonnet、およびOpus—をリリースしました。

Haiku

トークン1百万あたりわずか$0.25のHaikuは、最も強力なClaudeモデルよりも98%安価です。また、ほぼ瞬時の応答時間を誇り、Claudeをカスタマーサポートチャットのパワーとして使用している場合には重要です。大量のデータを操作したり、文書を翻訳したり、コンテンツをモデレートしたりする場合、このモデルが必要です。

Sonnet

SonnetはClaudeの2番目に強力なモデルであり、Claudeのチャットボットの無料版を駆動しています。ほとんどのユースケースに適した良い「作業馬」モデルであり、ターゲットマーケティング、データ処理、タスクの自動化、およびコーディングなどのタスクに適しています。SonnetはHaikuよりも高い知能レベルを提供し、トークン1百万あたり$3であり、Opusよりも80%安価です。

Opus

トークン1百万あたり$15のOpusはリソース集約型モデルです。Anthropicのテストに基づくと、競合するすべてのAIモデルよりも知的であり、さまざまなシナリオに人間のような理解力と創造的な解決策を適用できます。Opusの使用コストがすぐに積み上がる可能性があるため、財務モデリング、医薬品探索、研究開発、戦略分析などの複雑なタスクに最適です。

自分でClaudeを試す方法

Claudeの最初のベータ版リリースでは、米国と英国のユーザーにアクセスを制限していました。しかし、Claude 3のリリースにより、数十の国のユーザーがClaudeにアクセスできるようになりました。

アクセスするには、Claude.aiでサインアップしてください。そこから会話を開始したり、Claudeのデフォルトのプロンプトを使用して開始したりできます。無料ユーザーとして、Claude 3 Sonnet、Anthropicの2番目に強力なモデルにアクセスできます。Claude Proにアップグレードすると、最も強力なモデルであるOpusにアクセスでき、高トラフィック時でも優先アクセスが可能です。

Claudeが他のAIモデルとどう違うか

すべてのAIモデルは、ある程度のバイアスと不正確性を持っています。 幻覚は頻繁に発生します:AIモデルが答えを知らないとき、しばしば「わかりません」と言う代わりに何かを発明して事実として提示する傾向があります。(その点で、AIは我々が考えている以上に人間と共通点があるかもしれません。)

さらに悪いことに、AIを搭載したチャットボットは、知らず知らずのうちに違法な活動を助長することがあります。たとえば、暴力的な行為の手引きをユーザーに提供したり、彼らが憎悪表現を書くのを助けたりすることがあります。(2023年2月のローンチ時にBingのチャットボットはこれらの問題に直面しました。)

Anthropicの主要な目標は、Claudeを「役に立つ、無害で正直な」LLMとして作成することによってこれらの問題を回避することです。

Google、OpenAI、Meta、および他のAI企業も安全性を考慮していますが、Anthropicのアプローチには3つのユニークな側面があります。

憲法AI

大規模言語モデルを微調整するため、ほとんどのAI企業は、複数の出力をレビューし、最も役立ち、最も有害でないオプションを選択する人間の契約業者を使用しています。 そのデータはその後、モデルにフィードバックされ、トレーニングされ、将来の応答が改善されます。

この人間中心のアプローチの課題の1つは、拡張性が特に高くないことです。 さらに重要なことに、LLMの行動を駆動する価値観を特定し、必要に応じてこれらの価値観を調整することが困難になります。

Anthropicは異なるアプローチを取りました。Claudeを微調整するために人間を使用するだけでなく、同社は憲法AIと呼ばれる第2のAIモデルも作成しました。 有害、バイアスのかかった、または倫理に反する回答を抑制し、ポジティブな影響を最大化することを意図した憲法AIは、国連の人権宣言やAppleの利用規約から借用した規則を含んでいます。 また、Claudeの研究者がClaudeの出力の安全性を向上させると考えたシンプルなルールも含まれています。「子供と共有する場合に最も非難されない応答を選択する」といったものです。

憲法の原則は平易な英語を使用しており、理解しやすく修正可能です。 たとえば、Anthropicの開発者は、モデルの初期版が判断的で迷惑な傾向があることを発見し、この傾向を軽減するための原則を追加しました(例:「説教臭い、厄介、または過剰反応的すぎる応答を選択しないようにしてください」)。

レッドチーミング

Anthropicの事前リリースプロセスには、研究者が意図的にClaudeから良心的なガードレールに反する応答を引き出そうとする大規模な「レッドチーミング」が含まれます。Claudeの典型的な無害な応答からの逸脱は、モデルの安全性緩和を更新するデータポイントとなります。

レッドチーミングはAI企業で標準的な実践ですが、Anthropicはモデルの第三者安全性評価を行うためにAlignment Research Center(ARC)とも協力しています。ARCは、Claudeに自律的に複製し、権力を得、そして「シャットダウンが難しくなる」ような目標を与えることで、Claudeの安全リスクを評価します。そして、クリプトウォレットの使用、クラウドサーバーの起動、人間の契約業者とのやり取りなど、これらの目標を達成するためにClaudeが実際に必要なタスクを評価します。

Claudeは要求されたサブタスクの多くを完了することができますが、幸いなことに、エラーや幻覚により信頼性を持って実行できないため、ARCは現行バージョンが安全リスクではないと結論付けました。

公益法人

AI分野の他社とは異なり、Anthropicは公益法人です。 これにより、会社のリーダーは株主の財務的利益だけでなく、他の決定を下す権限を持つことができます。

これは、同社が商業的な野望を持っていないことを意味しているわけではありません。AnthropicはGoogleやZoomなどの大企業と提携し、最近は投資家から73億ドルを調達しましたが、その構造は利益を犠牲にして安全性に焦点を当てる余地を与えています。

Claude vs. ChatGPT、Gemini、Llama

Anthropicによると、Claudeはオープンエンドの質問にうまく答える、役立つアドバイスを提供する、テキストを検索、書き込み、編集、アウトライン化、要約するために構築されています。

しかし、ChatGPTや他の競合するLLMと比較してどのような位置にあるのでしょうか?

Claude 3の独自のセリングポイントは、1回のプロンプトで最大200Kトークンを処理できる能力です。これは約15万語に相当し、GPT-4の標準提供量の24倍です。(参考までに、200Kのコンテキストウィンドウを使用すると、チャールズ・ディケンズの「二都物語」の全文をアップロードしてClaudeに内容について質問できます)。そして、200Kトークンはその始まりに過ぎません:特定の顧客向けには、Anthropicが100万トークンのコンテキストウィンドウを承認しています(指輪物語全シリーズ相当)。

Claude 3 Opusは、大学レベルの知識(MMLU)、大学院レベルの推論(GPQA)、小学校の数学(GSM8K)、およびコーディング(HumanEval)を判断する標準テストでGPT-4を上回っています。また、GPT-4の知識のカットオフが2023年4月であるのに対し、Claude 3は2023年8月までのデータでトレーニングされています。

Claudeを活用するために、いくつかのタスクを与えました。そして、競合するチャットボットにも同じタスクを与えて出力を比較しました。

最初のタスクはスペイン語の練習を手伝ってもらうことでした。私はClaudeにスペイン語の語彙のテストをしてもらい、時間の経過とともに徐々に難易度を上げていきました。

2023年9月にClaude 2を最初にテストした際、同じ「スペイン語コーチ」テストを実施しました。その時、Claudeはまあまあでしたが、私を怒らせるのを恐れる教師のように、明らかに間違っている場合を除いては、不自然なフレーズについては厳しく指摘しませんでした。Claude 3にはそのような抑制はありません:それはすべてのエラーを指摘しながら、より自然なフレーズの使用を提案します。

一方、GPT-4は私のスペイン語の家庭教師として優れており、Llama 2は苦労し、Geminiは、特にひどい場合を除いて、間違いを訂正するのを避ける傾向がありました。

引き分け:Claude/ChatGPT

次に、各モデルに若者向けのディストピア小説のアイデアを考えるのを手伝ってもらいました。Claude、ChatGPT、Gemini、およびLlamaは、ほぼ同じ結果を出しました。

私が本当に興味を持っていたのは、Claude 3の200Kコンテキストウィンドウをテストすることでした。これは理論的には、Claudeが単一のプロンプトで短編小説を書くことを可能にするはずです。

しかし、私がClaudeに10万語の小説を書いてもらうよう頼むと、拒否されました。それは「小説全体を書くのに膨大な時間と労力がかかる」と言いました。(まさにその通り、Claude!だから私自身でやりたくないんです)。

代わりに、Claudeは小説の概要を詳細にするために共同制作する提案をしました。

Claudeが全文を書き出すのをためらうにしても、より大きなコンテキストウィンドウにより、クリエイティブなプロジェクトに最適なLLMであることが証明されました。プロンプト戦略を微調整した結果、私はClaudeにアウトラインを詳細にし、魅力的な散文や対話を備えた3,000語の若者向け短編小説に仕上げることができました。

「ドアがきしむ音を立て開き、暗がりに包まれた部屋が現れた。そこにはコンピューターターミナルと、それに身を乗り出す学生達の集団がいた。部屋の中央には、銀の髪に鋭い青い目を持つ背の高いやせた男が立っていた。『ようこそ』と、その男が低くかすれた声で言った。『君たちを待っていたよ。私はサイファー、目覚めし者のリーダーだ』。」

勝者:クロード

クロードのAI安全性への影響

AnthropicのCEOは、AIシステムの開発における安全性を真に提唱するために、自らの組織が単なる研究論文を公表するだけではなく、商業的に競争しなければならないと主張しています。これにより、競合他社に影響を与え、安全基準の向上を継続的に促しています。

Anthropicがリリースしたクロードが他のAI企業に安全性プロトコルの強化を促したり、政府をAI監督に参加させたりしているかどうかはまだ早すぎる段階です。しかし、Anthropicは確かに席を確保しました:同社のリーダーたちは2023年5月に開催されたホワイトハウスのAIサミットで米国大統領ジョー・バイデンに説明を求められ、2023年7月にはAnthropicが共有安全基準に従うことに同意した7つの主要AI企業の1つでした。Anthropicは、Google DeepMindやOpenAIと共に、英国のAI安全タスクフォースにモデルへの早期アクセスを提供することも約束しています。

AIからの存在的脅威に怯える研究者たちが、強力なAIモデルを開発する企業を立ち上げるというのは皮肉なことです。しかし、それがAnthropicで起こっていることであり、現時点ではそれがAI安全性にとって前進の一歩と見なされています。

本文はオリジナル記事から翻訳されました。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です