カテゴリー
ニュース

クロード 3 の特徴は何ですか。

クロード 3 は、推論、専門知識、数学、言語タスクなどの高度な機能で知られており、Anthropic が開発した最も知能の高いAIモデルの1つとして認識されています。

本日、私たちはクロード 3 モデルファミリーを発表しました。このファミリーは、幅広い認知タスクで新たな業界基準を確立しました。このファミリーには、能力の昇順に並んだ3つの最先端モデルが含まれています: クロード 3 ハイク、クロード 3 ソネット、クロード 3 オーパス。それぞれのモデルは、ますます強力なパフォーマンスを提供し、ユーザーが特定のアプリケーションに最適な知能、速度、およびコストのバランスを選択できます。

オーパスとソネットは、現在claude.aiおよび一般的に使用可能なクロードAPIで利用可能です。ハイクは近日中に利用可能になります。

クロード 3 モデルファミリー

claude3

知能の新基準

当社の最も知能の高いモデルであるオーパスは、AIシステムの一般的な評価基準のほとんどでライバルを凌駕しました。それには大学レベルの専門知識(MMLU)、大学院レベルの専門推論(GPQA)、基本数学(GSM8K)などが含まれます。複雑なタスクにおいてほぼ人間並みの理解力と流暢さを示し、一般知能の最前線をリードしています。

全てのクロード 3モデルは、分析と予測、微妙なコンテンツの作成、コード生成、スペイン語、日本語、フランス語などの非英語言語での会話において能力を向上させています。

以下は、複数の基準[1]におけるクロード 3 モデルと他社のモデルの比較です。

即時結果

クロード 3 モデルは、顧客のライブチャット、自動補完、およびデータ抽出タスクを可能にし、応答が即座かつリアルタイムである必要があるタスクを支援します。

ハイクは、市場で最も速く、かつ最もコスト効率の良いモデルです。arXivの情報とデータが豊富な研究論文(~10kトークン)を、チャートやグラフを含む形式で3秒未満で読むことができます。今後の展開では、さらなるパフォーマンス向上が期待されています。

ほとんどの作業負荷に対して、ソネットはClaude 2およびClaude 2.1よりも2倍速く、知能レベルが高いです。知識の検索やセールスオートメーションなど、迅速な応答を要求されるタスクに優れています。オーパスは、Claude 2および2.1と同等の速度を提供しますが、はるかに高い知能レベルを持っています。

優れたビジョン能力

クロード 3 モデルは、他の主要モデルと同等の高度な視覚能力を持っています。写真、チャート、グラフ、技術図など、幅広い視覚形式を処理できます。特に、PDF、フローチャート、プレゼンテーションスライドなど、さまざまな形式で50%以上の知識ベースをエンコードしているエンタープライズ顧客に、この新しいモダリティを提供できることに興奮しています。

拒否が少ない

以前のクロードモデルでは、文脈理解の欠如を示唆する不必要な拒否が頻繁に発生していました。この問題に関して有意義な進展を遂げました: オーパス、ソネット、ハイクは、以前の世代のモデルよりも、システムのガードレールに近いプロンプトに回答を拒否する可能性が著しく低くなっています。以下に示すように、クロード 3 モデルは、リクエストをより微妙に理解し、実際の害を認識し、無害なプロンプトに対してははるかに少なく回答を拒否しています。

高い精度

全ての規模のビジネスは、お客様にサービスを提供するために当社のモデルを利用しており、規模において高い精度を維持することが重要です。これを評価するために、現行のモデルの既知の弱点を狙った複雑な質問の大規模なセットを使用しています。これらの難解なオープンエンドの質問に対して、Claude 2.1と比較して、オーパスは正確性(または正しい回答)が2倍に向上し、不正確な回答のレベルも低くなっています。

より信頼性の高い回答を提供するために、近日中に、私たちはクロード 3 モデルで引用を可能にし、回答を検証するための参照資料内の正確な文に指し示すことができるようになります。

長いコンテキストとほぼ完璧なリコール

クロード 3 ファミリーのモデルは、初期段階では200Kのコンテキストウィンドウを提供します。しかし、全ての3つのモデルは100万以上のトークンを受け入れることができ、処理能力を向上させる必要がある選ばれた顧客にこれを提供することができます。

長いコンテキストのプロンプトを効果的に処理するためには、モデルには強力なリコール能力が必要です。『針の中のハイスタック』(NIAH)評価は、モデルが膨大なデータコーパスから情報を正確にリコールする能力を測定します。30個のランダムな針/質問ペアのうちの1つをプロンプトごとに使用し、多様なクラウドソーシングされたドキュメントコーパスでテストすることで、このベンチマークの信頼性を向上させました。クロード 3 オーパスは、ほぼ完璧なリコールを達成し、99%を超える正確性を示しました。さらに、時には、人間によって元のテキストに人工的に挿入された「針」の文があることを認識することで、評価自体の限界を特定することさえありました。

信頼性のある設計

私たちはClaude 3 モデルファミリーを、信頼性が高く、かつ能力のあるものとして開発しました。私たちは、誤情報やCSAMから生物学的悪用、選挙介入、自律複製スキルなど、幅広いリスクを追跡し軽減する専門チームを複数持っています。私たちは、憲法AIなどの手法を開発し、モデルの安全性と透明性を向上させると同時に、新しいモダリティによって引き起こされるプライバシー問題に対処するためにモデルを調整しています。

ますます洗練されたモデルの中のバイアスに対処する取り組みは継続的なものであり、この新しいリリースにおいても進展しています。モデルカードに示されているように、Claude 3 は質問応答に関するバイアスベンチマーク(BBQ)によると、以前のモデルよりもバイアスが少ないことが示されています。私たちは、バイアスを減らす技術を進化させ、モデルが特定の党派的立場に偏らないよう促進することに取り組んでいます。

Claude 3 モデルファミリーは、以前のモデルと比較して生物学的知識、サイバー関連知識、自律性の重要な指標で進化していますが、私たちの責任あるスケーリングポリシーにより、現在もAIセーフティレベル2(ASL-2)に留まっています。私たちのレッドチーム評価ホワイトハウスのコミットメントおよび2023年米国大統領令に準拠)によると、これらのモデルは現時点で致命的なリスクの可能性がほとんどないと結論付けられました。 ASL-3の閾値に近いかどうかを評価するために、将来のモデルを慎重に監視し続けます。さらなる安全性の詳細は、Claude 3 モデルカードで入手できます。

使いやすさ向上

Claude 3 モデルは、複雑な多段階の指示に従う能力が向上しています。特に、ブランドの声や応答ガイドラインに適合し、ユーザーが信頼できる顧客向け体験を開発するのに優れています。さらに、Claude 3 モデルは、JSONなどの人気のある構造化された出力を生成するのにも優れており、自然言語分類や感情分析などの用途でClaudeを簡単に指示できるようになっています。

モデルの詳細

Claude 3 オーパスは、最も知的なモデルであり、非常に複雑なタスクにおいて市場でも最高のパフォーマンスを発揮しています。オーパスは、オープンエンドのプロンプトや未知のシナリオを驚異的な流暢さと人間らしい理解力でナビゲートできます。オーパスは生成AIに可能な限りの限界を示しています。

コスト

[入力 $/百万トークン | 出力 $/百万トークン]

$15 | $75
コンテキストウィンドウ 200K*
使用可能用途 タスクの自動化: APIやデータベース間での複雑なアクションの計画と実行、インタラクティブなコーディング研究開発: リサーチレビュー、ブレインストーミング、仮説生成、薬物発見戦略: チャートやグラフ、財務データ、市場動向の高度な分析、予測
差別化要因 他のどのモデルよりも高い知能。

*特定のユースケースに使用可能な100万トークン、お問い合わせください。

Claude 3 ソネットは、知能と速度の理想的なバランスを保つモデルであり、特にエンタープライズのワークロードに適しています。他のモデルと比較して、ソネットは低コストで高いパフォーマンスを提供し、大規模なAI展開において高い耐久性を持つよう設計されています。

コスト

[入力 $/百万トークン | 出力 $/百万トークン]

$3 | $15
コンテキストウィンドウ 200K
使用可能用途 データ処理: RAGや膨大な知識の検索と取得販売: 製品推薦、予測、ターゲットマーケティング時間節約タスク: コード生成、品質管理、画像からのテキスト解析
差別化要因 同等の知能を持つ他のモデルよりも手ごろな価格で、スケールに適しています。

Claude 3 俳句は、最速かつ最もコンパクトなモデルであり、ほぼ即座に応答します。卓越した速度でシンプルなクエリやリクエストに答えます。ユーザーは、人間の対話を模倣するシームレスなAI体験を構築できます。

コスト

[入力 $/百万トークン | 出力 $/百万トークン]

$0.25 | $1.25
コンテキストウィンドウ 200K
使用可能用途 顧客とのインタラクション: ライブインタラクションでの迅速かつ正確なサポート、翻訳コンテンツモデレーション: リスク行動や顧客のリクエストの検出コスト削減タスク: 最適化された物流、在庫管理、非構造化データからの知識抽出
差別化要因 他のモデルよりも知能カテゴリーでよりスマートで速く、手ごろな価格です。

モデルの提供

オーパスとソネットは今日から利用可能であり、開発者がサインアップしてこれらのモデルをすぐに利用できるようになりました。俳句は近日中に利用可能となります。ソネットはclaude.aiの無料体験を支え、オーパスはClaude Proのサブスクライバー向けに利用可能です。

ソネットはAmazon Bedrockを通じて今日から利用でき、Google CloudのVertex AI Model Gardenではプライベートプレビューで提供されており、オーパスと俳句も近日中に提供されます。

よりスマートで速く、安全

私たちはモデルの知能がどこまで限界に達していないと信じており、次数ヶ月にわたってClaude 3 モデルファミリーに頻繁な更新をリリースする予定です。また、エンタープライズ用途や大規模展開に特に適したモデルの能力を向上させる一連の機能をリリースすることに興奮しています。これらの新機能には、ツールの使用(関数呼び出し)、インタラクティブコーディング(REPL)、より高度なエージェンティック機能などが含まれます。

AIの可能性の限界に挑戦する一方で、パフォーマンスの向上と同様に、安全保護の手すりがこれらの性能向上に遅れないようにすることにも同様に取り組んでいます。私たちの仮説は、AI開発の最前線にいることが、その軌道を社会的にポジティブな結果へと導く最も効果的な方法であるというものです。

Claude 3 で何ができるかを楽しみにしており、Claudeをより有用なアシスタントや創造的な仲間にするためのフィードバックをいただけることを願っています。Claudeでの構築を開始するには、anthropic.com/claudeをご覧ください。

脚注

  1. この表は、現在商業的に利用可能で評価されたモデルとの比較を示しています。モデルカードでは、Gemini 1.5 Proなど、発表されているがまだリリースされていないモデルとの比較が示されています。また、エンジニアが評価と報告された新しいGPT-4Tモデルのためのプロンプトとフューショットサンプルを最適化する作業を行い、より高いスコアが報告されています。出典

この記事の内容は、オリジナル記事から翻訳されました。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です