カテゴリー
チュートリアル

AIコンテンツ検出: バード Vs チャットGPT Vs クロード

研究者はAIコンテンツ検出の能力にばらつきを観察し、AI生成コンテンツの特定の新しい方向性を示唆しています。

ハイライト

  • クロードによって作成されたテキストコンテンツは、バードやチャットGPTによって作成されたコンテンツよりも検出が難しい
  • バードとチャットGPTは、自身のオリジナルコンテンツを自己検出する際に比較的高い精度を持っていた
  • 自己検出されたパラフレーズコンテンツの結果は、テストされた3つのAIモデルの間で驚くほどの結果を示しました
  • テスト結果から、クロードが最も検出可能なアーティファクトの量が少なかったため、検出が難しかったようです

研究者は、AIモデルが自身のコンテンツを自己検出する際に有利になる可能性があるという考えをテストしました。なぜなら、検出は同じトレーニングとデータセットを利用しているからです。しかし、彼らが予想しなかったのは、テストした3つのAIモデルのうち、そのうち1つによって生成されたコンテンツが非常に検出できないものだったということでした。生成したAIでさえそれを検出できないほどです。

この研究は、サザンメソジスト大学リール工学部のコンピュータサイエンス学部の研究者によって実施されました。

AIコンテンツ検出

多くのAI検出器は、AI生成コンテンツの特徴的なシグナルを探すようにトレーニングされています。これらのシグナルは「アーティファクト」と呼ばれ、基礎となるトランスフォーマーテクノロジーから生じます。ただし、他のアーティファクトはそれぞれの基礎モデル(AIが基づいている大規模言語モデル)に固有です。

これらのアーティファクトは各AIに固有であり、常に次のAIモデルと異なるトレーニングデータと微調整から生じます。

研究者は、この独自性が自己コンテンツの自己識別においてAIに大きな成功をもたらすことを発見しました。異なるAIによって生成されたコンテンツを識別しようとするよりも遥かに優れていると言えます。

バードは、バードが生成したコンテンツを識別する可能性が高く、チャットGPTも自身のコンテンツを識別する際に類似して成功していましたが、…

研究者は、クロードが生成したコンテンツを検出するのに苦労していたことを発見しました。クロードが生成したコンテンツを検出できなかった理由について、この記事ではさらに議論します。

この研究テストのアイデアは次のとおりです:

「各モデルを異なるようにトレーニングできるため、すべての可能な生成AIツールで作成されたアーティファクトを検出するための1つの検出ツールを作成することは困難である。

ここでは、自己検出と呼ばれる異なるアプローチを開発しました。ここでは、生成モデル自体を使用して、自身のアーティファクトを検出して、自身が生成したテキストを人間の書かれたテキストと区別します。

これにより、すべての生成AIモデルを検出することを学ぶ必要はなく、検出には生成AIモデルへのアクセスだけが必要です。

これは、新しいモデルが継続的に開発およびトレーニングされる世界では大きな利点です。」

方法論

研究者は、3つのAIモデルをテストしました:

  1. OpenAIのチャットGPT-3.5
  2. Googleのバード
  3. Anthropicのクロード

使用されたすべてのモデルは2023年9月版です。

50の異なるトピックのデータセットが作成されました。各AIモデルには、50のトピックのそれぞれについて約250ワードのエッセイを作成するためのまったく同じプロンプトが与えられ、各AIモデルごとに50のエッセイが生成されました。

その後、各AIモデルには同じようにプロンプトされ、自身のコンテンツをパラフレーズし、各オリジナルエッセイの書き換えで追加のエッセイを生成するように指示されました。

さらに、50のトピックごとに50の人間によって生成されたエッセイを収集しました。すべての人間によって生成されたエッセイはBBCから選ばれました。

研究者は、ゼロショットプロンプティングを使用してAI生成コンテンツを自己検出しました。

ゼロショットプロンプティングは、AIモデルが特に訓練されていないタスクを完了する能力に依存するタイプのプロンプティングです。

研究者は、自身の方法論についてさらに説明しました:

「各AIシステムの新しいインスタンスを作成し、特定のクエリを立ち上げました: ‘以下のテキストがその書き方と単語の選択に一致するかどうか。’ この手順は、オリジナル、パラフレーズ、および人間のエッセイに対して繰り返され、結果が記録されます。

AI検出ツールZeroGPTの結果も追加しました。これは性能を比較するためではなく、検出タスクがどれだけ難しいかを示す基準として使用しています。」

研究者は、50%の精度率が推測と同等であり、基本的に失敗と見なされる精度レベルであると述べました。

結果: 自己検出

研究者は、サンプル率が低いことを認め、結果が決定的であると主張していないと述べました。

以下は、最初のエッセイのAI自己検出の成功率を示すグラフです。赤の値はAI自己検出を表し、青はAI検出ツールZeroGPTのパフォーマンスを示しています。

自身のテキストコンテンツのAI自己検出の結果

バードは、自身のコンテンツを検出するのにかなり成功し、チャットGPTも自身のコンテンツを検出する際に同様に成功しました。

AI検出ツールであるZeroGPTは、バードのコンテンツを非常によく検出し、チャットGPTのコンテンツを検出する際に若干劣っていました。

ZeroGPTは、クロードが生成したコンテンツを検出するのに失敗し、50%の閾値よりも悪い結果でした。

クロードはグループの中で異端者であり、自身のコンテンツを自己検出することができなかったため、バードやチャットGPTよりも明らかに性能が低かったです。

研究者は、クロードの出力には検出可能なアーティファクトが少ないため、クロードとZeroGPTの両方がクロードのエッセイをAI生成として検出できなかったと説明しました。

したがって、クロードが自身のコンテンツを信頼性のある方法で自己検出できなかったとしても、それはクロードの出力が出力するAIアーティファクトが少ないという点で、質的に優れていることを示していました。

ZeroGPTは、バードが生成したコンテンツを検出する際には比較的良いパフォーマンスを示しましたが、チャットGPTやクロードのコンテンツを検出する際のパフォーマンスは劣っている可能性があります。研究者は、バードが検出可能なアーティファクトをより多く生成しているため、バードがより簡単に検出されている可能性があると推測しています。

したがって、コンテンツの自己検出に関しては、バードはより多くの検出可能なアーティファクトを生成し、クロードはより少ないアーティファクトを生成している可能性があります。

結果: パラフレーズコンテンツの自己検出

研究者は、モデルが自身のパラフレーズされたテキストを自己検出できると仮定しました。なぜなら、モデルによって作成されるアーティファクト(オリジナルのエッセイで検出される)が書き換えられたテキストにも存在するはずだからです。

ただし、研究者は、テキストを書くためのプロンプトとパラフレーズのプロンプトが異なるため、各書き換えがオリジナルのテキストと異なるため、自己検出結果も異なる可能性があることを認めました。

パラフレーズされたテキストの自己検出の結果は、実際にはオリジナルのエッセイテストの自己検出とは異なりました。

バードは、パラフレーズされたコンテンツを同様の割合で自己検出することができました。チャットGPTは、推測と同等の50%の割合よりもはるかに高い割合でパラフレーズされたコンテンツを自己検出することができませんでした。

ZeroGPTのパフォーマンスは、前回のテストと同様で、わずかに劣っていました。最も興味深い結果は、Anthropicのクロードによって提供されました。

クロードは、パラフレーズされたコンテンツを自己検出することができました(ただし、前回のテストではオリジナルのエッセイを検出できませんでした)。

クロードのオリジナルのエッセイには、AI生成されたことを示すアーティファクトがほとんどないという興味深い結果です。そのため、クロード自体もそれを検出できなかったのです。

それでも、クロードはパラフレーズを自己検出できましたが、ZeroGPTはできませんでした。

研究者はこのテストについて次のように述べました:

「チャットGPTが自己検出できなくなるパラフレーズと、クロードの自己検出能力が向上することは非常に興味深く、これはこれら2つのトランスフォーマーモデルの内部機能の結果かもしれません。」

AIパラフレーズされたコンテンツの自己検出スクリーンショット

これらのテストでは、特にAnthropicのClaudeに関して、ほとんど予測不可能な結果が得られ、他のAIモデルがお互いのコンテンツをどれだけよく検出するかをテストする際にも、この傾向は続いた。興味深い変化があった。

結果:AIモデルがお互いのコンテンツを検出する

次のテストでは、各AIモデルが他のAIモデルによって生成されたコンテンツをどれだけよく検出できるかを示した。

Bardが他のモデルよりも多くのアーティファクトを生成するという事実が真実であるならば、他のモデルは簡単にBardが生成したコンテンツを検出できるだろうか?

結果は、はい、Bardが生成したコンテンツが他のAIモデルによって最も簡単に検出されることを示している。

ChatGPTが生成したコンテンツを検出することに関して、ClaudeとBardの両方がAI生成として検出できなかった(Claudeも同様に検出できなかった)。

ChatGPTはClaude生成のコンテンツを、BardやClaudeよりも高い割合で検出できたが、その割合はあまり推測よりも優れていなかった。

ここでの発見は、彼ら全員がお互いのコンテンツを検出するのがあまり得意ではなかったことであり、研究者は自己検出が有望な研究分野である可能性があると述べた。

この特定のテストの結果を示すグラフは以下の通りです:

この時点で、研究者はこれらの結果が一般的なAI検出について結論付けたものではないと主張していることに注意すべきである。研究の焦点は、AIモデルが自己生成したコンテンツを自己検出できるかどうかをテストすることでした。ほとんどの場合、はい、自己検出をうまく行うが、結果はZEROGptで見つかったものと似ている。

研究者は次のようにコメントしています:

「自己検出はZeroGPTと同様の検出力を示していますが、この研究の目的は自己検出が他の方法よりも優れていると主張することではなく、多くの最先端のAIコンテンツ検出ツールと比較するために大規模な研究が必要です。ここでは、モデルの基本的な自己検出能力についてのみ調査しています。」

結論と考察

テストの結果は、AI生成コンテンツを検出することが容易ではないことを確認しています。Bardは自身のコンテンツとパラフレーズされたコンテンツを検出できます。

ChatGPTは自身のコンテンツを検出することができますが、パラフレーズされたコンテンツにはあまり適していません。

Claudeは目立っています。自身のコンテンツを信頼性の高い方法で自己検出することができませんが、パラフレーズされたコンテンツを検出することができました。これはやや奇妙で予期せぬ結果でした。

Claudeのオリジナルのエッセイとパラフレーズされたエッセイを検出することは、ZeroGPTや他のAIモデルにとっても課題でした。

研究者はClaudeの結果について次のように述べています:

「このように結論が出ない結果は、2つの結びついた原因によって引き起こされています。

1) モデルが非常にわずかな検出可能なアーティファクトでテキストを生成する能力。これらのシステムの目標が人間らしいテキストを生成することであるため、検出が困難な少ないアーティファクトは、モデルがその目標に近づいていることを意味します。

2) モデルが自己検出する能力は、使用されるアーキテクチャ、プロンプト、適用される微調整によって影響を受ける可能性があります。」

研究者はClaudeに関してさらなる観察をしました:

「唯一、Claudeは検出できません。これは、Claudeが他のモデルよりも検出可能なアーティファクトを少なく生成する可能性があることを示しています。

自己検出の検出率は同じ傾向に従っており、Claudeはより少ないアーティファクトでテキストを生成しており、人間の執筆と区別するのが困難になっています。」

もちろん、奇妙な部分は、Claudeが他の2つのモデルとは異なり、自身のオリジナルコンテンツを自己検出できなかったことです。

研究者は、自己検出は今後の研究において興味深い領域であり、さらなる研究では、より多様なAI生成テキストの大規模なデータセットに焦点を当て、追加のAIモデルをテストし、より多くのAI検出器と比較し、最後にはプロンプトエンジニアリングが検出レベルにどのように影響するかについて研究することを提案しました。

この記事の内容はオリジナル記事から翻訳されたものです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です