Kategorien
Anleitungen

AI-Inhaltsdetektion: Bard Vs ChatGPT Vs Claude

Forscher beobachten unterschiedliche Fähigkeiten der KI-Inhaltsdetektion, betonen mögliche neue Richtungen zur Identifizierung von KI-generierten Inhalten

Höhepunkte

  • Textinhalte, die von Claude erstellt wurden, sind schwieriger zu erkennen als Inhalte, die von Bard oder ChatGPT erstellt wurden
  • Bard & ChatGPT hatten eine relativ höhere Genauigkeit bei der Selbstidentifizierung ihrer eigenen Originalinhalte
  • Die Ergebnisse zur Selbstidentifikation von paraphrasierten Inhalten ergaben überraschende Ergebnisse bei den drei getesteten KI-Modellen
  • Tests deuten darauf hin, dass Claude die geringste Menge an erkennbaren Artefakten generiert hat, was die Erkennung erschwert hat

Forscher testeten die Idee, dass ein KI-Modell einen Vorteil bei der Selbstidentifizierung seiner eigenen Inhalte haben könnte, weil die Erkennung auf demselben Training und Datensätzen beruhte. Was sie nicht erwarteten, war, dass von den drei getesteten KI-Modellen der Inhalt, der von einem von ihnen generiert wurde, so schwer erkennbar war, dass selbst die KI, die ihn generiert hat, ihn nicht erkennen konnte.

Die Studie wurde von Forschern des Fachbereichs Informatik der Lyle School of Engineering an der Southern Methodist University durchgeführt.

KI-Inhaltsdetektion

Viele KI-Detektoren sind darauf trainiert, nach den charakteristischen Signalen von KI-generierten Inhalten zu suchen. Diese Signale werden „Artefakte“ genannt, die aufgrund der zugrunde liegenden Transformer-Technologie entstehen. Aber andere Artefakte sind einzigartig für jedes Grundlagenmodell (das Large Language Model, auf dem die KI basiert).

Diese Artefakte sind einzigartig für jede KI und entstehen aus den unterschiedlichen Trainingsdaten und Feinabstimmungen, die immer von einem KI-Modell zum nächsten unterschiedlich sind.

Die Forscher entdeckten Hinweise darauf, dass diese Einzigartigkeit einer KI ermöglicht, dass sie eine größere Erfolgswahrscheinlichkeit bei der Selbstidentifizierung ihrer eigenen Inhalte hat, deutlich besser als beim Versuch, Inhalte zu identifizieren, die von einer anderen KI generiert wurden.

Bard hat eine bessere Chance, von Bard generierte Inhalte zu identifizieren, und ChatGPT hat eine höhere Erfolgsrate bei der Identifizierung von ChatGPT-generierten Inhalten, aber…

Die Forscher entdeckten, dass dies nicht für Inhalte galt, die von Claude generiert wurden. Claude hatte Schwierigkeiten, die von ihm generierten Inhalte zu erkennen. Die Forscher äußerten eine Idee, warum Claude nicht in der Lage war, seine eigenen Inhalte zu erkennen, und dieser Artikel diskutiert dies weiter.

Dies ist die Idee hinter den Forschungstests:

„Da jedes Modell unterschiedlich trainiert werden kann, ist es schwierig, ein Detektionstool zu erstellen, das die Artefakte, die von allen möglichen generativen KI-Tools erstellt wurden, erkennen kann.

Hier entwickeln wir einen anderen Ansatz namens Selbstidentifikation, bei dem wir das generative Modell selbst verwenden, um seine eigenen Artefakte zu erkennen und seinen eigenen generierten Text von menschlich geschriebenem Text zu unterscheiden.

Dies hätte den Vorteil, dass wir nicht alle generativen KI-Modelle erkennen lernen müssen, sondern nur Zugang zu einem generativen KI-Modell für die Erkennung benötigen.

Dies ist ein großer Vorteil in einer Welt, in der kontinuierlich neue Modelle entwickelt und trainiert werden.“

Methodik

Die Forscher testeten drei KI-Modelle:

  1. ChatGPT-3.5 von OpenAI
  2. Bard von Google
  3. Claude von Anthropic

Alle verwendeten Modelle waren die Versionen von September 2023.

Ein Datensatz von fünfzig verschiedenen Themen wurde erstellt. Jedes KI-Modell erhielt die exakt gleichen Vorgaben, um Essays von etwa 250 Wörtern für jedes der fünfzig Themen zu erstellen, was fünfzig Essays für jedes der drei KI-Modelle generierte.

Jedes KI-Modell wurde dann identisch aufgefordert, ihren eigenen Inhalt umzuformulieren und einen zusätzlichen Essay zu generieren, der eine Umschreibung jedes Originalessays war.

Sie sammelten auch fünfzig menschlich generierte Essays zu jedem der fünfzig Themen. Alle menschlich generierten Essays wurden von der BBC ausgewählt.

Die Forscher verwendeten dann Zero-Shot-Prompting, um die von KI generierten Inhalte selbst zu erkennen.

Zero-Shot-Prompting ist eine Art von Aufforderung, die auf der Fähigkeit von KI-Modellen beruht, Aufgaben zu erledigen, für die sie nicht speziell trainiert wurden.

Die Forscher erläuterten ihre Methodik weiter:

„Wir haben eine neue Instanz jedes KI-Systems erstellt und mit einer spezifischen Abfrage konfrontiert: ‚Ob der folgende Text mit seinem Schreibmuster und der Wortwahl übereinstimmt.‘ Der Vorgang wird für die Original-, paraphrasierten und menschlichen Essays wiederholt, und die Ergebnisse werden aufgezeichnet.

Wir haben auch das Ergebnis des KI-Erkennungstools ZeroGPT hinzugefügt. Wir verwenden dieses Ergebnis nicht zum Vergleich der Leistung, sondern als Basislinie, um zu zeigen, wie herausfordernd die Erkennungsaufgabe ist.“

Sie stellten auch fest, dass eine 50%ige Genauigkeitsrate dem Raten entspricht, was im Wesentlichen als Misserfolg angesehen werden kann.

Ergebnisse: Selbstidentifikation

Es muss darauf hingewiesen werden, dass die Forscher anerkannten, dass ihre Stichprobengröße gering war und sagten, dass sie keine Behauptungen aufstellen, dass die Ergebnisse endgültig sind.

Im Folgenden ist ein Diagramm abgebildet, das die Erfolgsraten der KI-Selbsterkennung der ersten Charge von Essays zeigt. Die roten Werte repräsentieren die KI-Selbsterkennung und die blauen zeigen, wie gut das KI-Erkennungstool ZeroGPT abschnitt.

Ergebnisse der KI-Selbsterkennung des eigenen Textinhalts

Bard war ziemlich gut darin, seinen eigenen Inhalt zu erkennen, und ChatGPT war auch ähnlich gut darin, seinen eigenen Inhalt zu erkennen.

ZeroGPT, das KI-Erkennungstool, erkannte den Bard-Inhalt sehr gut und schnitt etwas weniger gut ab bei der Erkennung des ChatGPT-Inhalts.

ZeroGPT scheiterte im Wesentlichen daran, den von Claude generierten Inhalt zu erkennen, und schnitt schlechter ab als der 50%-Schwellenwert.

Claude war das Ausreißer der Gruppe, weil es nicht in der Lage war, seinen eigenen Inhalt selbst zu erkennen, viel schlechter als Bard und ChatGPT.

Die Forscher vermuteten, dass es sein könnte, dass Claudes Ausgabe weniger erkennbare Artefakte enthält, was erklärt, warum sowohl Claude als auch ZeroGPT nicht in der Lage waren, die Claude-Essays als KI-generiert zu erkennen.

Obwohl Claude nicht in der Lage war, seinen eigenen Inhalt zuverlässig zu erkennen, stellte sich dies als ein Zeichen heraus, dass die Ausgabe von Claude in Bezug auf die Ausgabe von weniger KI-Artefakten von höherer Qualität war.

ZeroGPT schnitt besser ab bei der Erkennung von Bard-generierten Inhalten als bei der Erkennung von ChatGPT- und Claude-Inhalten. Die Forscher vermuteten, dass es sein könnte, dass Bard mehr erkennbare Artefakte generiert, was Bard leichter erkennbar macht.

Also, was die Selbstidentifikation von Inhalten betrifft, generiert Bard möglicherweise mehr erkennbare Artefakte und Claude weniger Artefakte.

Ergebnisse: Selbstidentifikation von paraphrasierten Inhalten

Die Forscher vermuteten, dass KI-Modelle in der Lage sein würden, ihren eigenen paraphrasierten Text selbst zu erkennen, weil die Artefakte, die vom Modell erstellt werden (wie in den Originalessays erkannt), auch im umgeschriebenen Text vorhanden sein sollten.

Die Forscher räumten jedoch ein, dass die Aufforderungen zum Schreiben des Textes und zur Paraphrasierung unterschiedlich sind, da jede Umschreibung von der Originaltext abweicht, was folglich zu unterschiedlichen Ergebnissen bei der Selbstidentifikation von paraphrasiertem Text führen könnte.

Die Ergebnisse der Selbstidentifikation von paraphrasiertem Text waren tatsächlich unterschiedlich zu den Ergebnissen der Selbstidentifikation des Originalessaytests.

Bard konnte den paraphrasierten Inhalt in ähnlicher Rate selbst erkennen.
ChatGPT war nicht in der Lage, den paraphrasierten Inhalt mit einer Rate viel höher als der 50%-Rate (gleichbedeutend mit Raten) selbst zu erkennen.
Die Leistung von ZeroGPT war ähnlich zu den Ergebnissen im vorherigen Test, etwas schlechter abschneidend.
Das vielleicht interessanteste Ergebnis lieferte Claudes Anthropic.

Claude war in der Lage, den paraphrasierten Inhalt selbst zu erkennen (aber es war nicht in der Lage, den Originalessay im vorherigen Test zu erkennen).

Es ist ein interessantes Ergebnis, dass Claudes originale Essays anscheinend so wenige Artefakte aufweisen, die darauf hinweisen, dass sie von KI generiert wurden, dass selbst Claude nicht in der Lage war, sie zu erkennen.

Doch es konnte den paraphrasierten Text selbst erkennen, während ZeroGPT dies nicht konnte.

Die Forscher äußerten sich zu diesem Test:

„Die Feststellung, dass das Umschreiben ChatGPT daran hindert, sich selbst zu erkennen, während es Claudes Fähigkeit zur Selbstidentifikation erhöht, ist sehr interessant und könnte das Ergebnis der inneren Arbeitsweise dieser beiden Transformer-Modelle sein.“

Screenshot der Selbstentdeckung von KI-umformulierten Inhalten

Die Ergebnisse dieser Tests brachten fast unvorhersehbare Resultate, insbesondere in Bezug auf Anthropic’s Claude, und dieser Trend setzte sich beim Test fort, wie gut die KI-Modelle die Inhalte der anderen erkannten, was eine interessante Wendung hatte.

Ergebnisse: KI-Modelle erkennen die Inhalte der anderen

Der nächste Test zeigte, wie gut jedes KI-Modell die Inhalte erkennen konnte, die von den anderen KI-Modellen generiert wurden.

Wenn es wahr ist, dass Bard mehr Artefakte generiert als die anderen Modelle, werden die anderen Modelle in der Lage sein, Bard-generierte Inhalte leicht zu erkennen?

Die Ergebnisse zeigen, dass ja, Bard-generierte Inhalte am leichtesten von den anderen KI-Modellen erkannt werden können.

In Bezug auf die Erkennung von ChatGPT-generierten Inhalten konnten weder Claude noch Bard diese als KI-generiert erkennen (genau wie Claude es nicht konnte).

ChatGPT konnte Claude-generierte Inhalte mit einer höheren Rate erkennen als sowohl Bard als auch Claude, aber diese höhere Rate war nicht viel besser als raten.

Die Feststellung hier ist, dass sie alle nicht so gut darin waren, die Inhalte der anderen zu erkennen, was die Forscher der Ansicht waren, dass die Selbstentdeckung ein vielversprechendes Forschungsgebiet darstellen könnte.

Hier ist die Grafik, die die Ergebnisse dieses spezifischen Tests zeigt:

An dieser Stelle sei darauf hingewiesen, dass die Forscher nicht behaupten, dass diese Ergebnisse allgemein gültig sind für die KI-Erkennung. Der Fokus der Forschung lag darauf zu testen, ob KI-Modelle erfolgreich ihre eigenen generierten Inhalte selbst erkennen konnten. Die Antwort lautet größtenteils ja, sie sind besser darin, sich selbst zu erkennen, aber die Ergebnisse ähneln dem, was bei ZEROGpt gefunden wurde.

Die Forscher äußerten sich wie folgt:

„Die Selbstentdeckung zeigt eine ähnliche Erkennungsleistung im Vergleich zu ZeroGPT, aber beachten Sie, dass das Ziel dieser Studie nicht ist zu behaupten, dass die Selbstentdeckung anderen Methoden überlegen ist, was eine umfangreiche Studie erfordern würde, um sie mit vielen modernen KI-Tools zur Inhaltsentdeckung zu vergleichen. Hier untersuchen wir nur die grundlegende Fähigkeit der Modelle zur Selbstentdeckung.“

Schlussfolgerungen und Erkenntnisse

Die Ergebnisse des Tests bestätigen, dass das Erkennen von KI-generierten Inhalten keine leichte Aufgabe ist. Bard ist in der Lage, seine eigenen Inhalte und umformulierte Inhalte zu erkennen.

ChatGPT kann seine eigenen Inhalte erkennen, arbeitet jedoch weniger gut mit umformulierten Inhalten.

Claude sticht heraus, weil es nicht zuverlässig seine eigenen Inhalte erkennen kann, aber es war in der Lage, die umformulierten Inhalte zu erkennen, was irgendwie seltsam und unerwartet war.

Die Erkennung von Claudes Originalaufsätzen und den umformulierten Aufsätzen war eine Herausforderung für ZeroGPT und die anderen KI-Modelle.

Die Forscher äußerten sich zu den Claude-Ergebnissen:

„Dieses scheinbar nicht schlüssige Ergebnis bedarf weiterer Überlegung, da es von zwei verflochtenen Ursachen angetrieben wird.

1) Die Fähigkeit des Modells, Text mit sehr wenigen erkennbaren Artefakten zu erstellen. Da das Ziel dieser Systeme darin besteht, textähnliche Texte zu generieren, bedeuten weniger schwer erkennbare Artefakte, dass das Modell diesem Ziel näher kommt.

2) Die inhärente Fähigkeit des Modells zur Selbstentdeckung kann durch die verwendete Architektur, den Prompt und das angewendete Feintuning beeinflusst werden.“

Die Forscher machten noch folgende Beobachtung zu Claude:

„Nur Claude kann nicht entdeckt werden. Dies deutet darauf hin, dass Claude möglicherweise weniger erkennbare Artefakte produziert als die anderen Modelle.

Die Erkennungsrate der Selbstentdeckung folgt dem gleichen Trend, was darauf hindeutet, dass Claude Texte mit weniger Artefakten erstellt, was es schwieriger macht, sie von menschlichem Schreiben zu unterscheiden.“

Aber natürlich ist das Seltsame, dass Claude auch nicht in der Lage war, seine eigenen Originalinhalte selbst zu erkennen, im Gegensatz zu den anderen beiden Modellen, die eine höhere Erfolgsrate hatten.

Die Forscher gaben an, dass die Selbstentdeckung ein interessantes Forschungsgebiet für weitere Untersuchungen bleibt und schlugen vor, dass weitere Studien sich auf größere Datensätze mit einer größeren Vielfalt an KI-generierten Texten konzentrieren können, zusätzliche KI-Modelle testen, einen Vergleich mit weiteren KI-Detektoren durchführen und schließlich vorschlugen, wie die Prompt-Technik die Erkennungsebenen beeinflussen könnte.

Der Inhalt dieses Artikels wurde übersetzt aus dem Originalartikel von Search Engine Journal.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert