Catégories
Tutoriels

Détection de contenu AI: Bard Vs ChatGPT Vs Claude

Les chercheurs observent des capacités variables de détection de contenu AI, mettant en lumière de nouvelles pistes possibles pour identifier le contenu généré par l’IA

Points saillants

  • Le contenu texte créé par Claude est plus difficile à détecter que celui créé par Bard ou ChatGPT
  • Bard & ChatGPT avaient une auto-détection relativement plus précise de leur propre contenu original
  • Les résultats de la détection automatique de contenu paraphrasé ont donné des résultats surprenants parmi les trois modèles AI testés
  • Les tests semblent indiquer que Claude a généré le moins d’artefacts détectables, ce qui rendait sa détection plus difficile

Les chercheurs ont testé l’idée selon laquelle un modèle AI pourrait avoir un avantage dans l’auto-détection de son propre contenu car la détection tirait parti de la même formation et des mêmes ensembles de données. Ce qu’ils ne s’attendaient pas à trouver, c’est que parmi les trois modèles AI testés, le contenu généré par l’un d’eux était si indétectable que même l’IA qui l’avait généré ne pouvait pas le détecter.

L’étude a été menée par des chercheurs du Département d’informatique de la Lyle School of Engineering de la Southern Methodist University.

Détection de contenu AI

De nombreux détecteurs AI sont formés pour rechercher les signaux caractéristiques du contenu généré par l’IA. Ces signaux sont appelés « artefacts » qui sont générés en raison de la technologie de transformation sous-jacente. Mais d’autres artefacts sont propres à chaque modèle de base (le modèle de langage volumineux sur lequel l’IA est basée).

Ces artefacts sont propres à chaque IA et proviennent des données d’entraînement et du réglage fin distinctifs qui sont toujours différents d’un modèle AI à l’autre.

Les chercheurs ont découvert des preuves que c’est cette singularité qui permet à une IA d’avoir plus de succès dans l’auto-identification de son propre contenu, nettement mieux que d’essayer d’identifier le contenu généré par une IA différente.

Bard a de meilleures chances d’identifier le contenu généré par Bard et ChatGPT a un taux de succès plus élevé pour identifier le contenu généré par ChatGPT, mais…

Les chercheurs ont découvert que ce n’était pas le cas pour le contenu généré par Claude. Claude avait du mal à détecter le contenu qu’il avait généré. Les chercheurs ont partagé une idée sur pourquoi Claude était incapable de détecter son propre contenu et cet article en discute plus en détail.

C’est l’idée derrière les tests de recherche:

“Puisque chaque modèle peut être formé différemment, créer un outil de détection pour identifier les artefacts créés par tous les outils AI génératifs possibles est difficile à réaliser.

Ici, nous développons une approche différente appelée auto-détection, où nous utilisons le modèle génératif lui-même pour détecter ses propres artefacts afin de distinguer son propre texte généré du texte écrit par l’homme.

Cela aurait l’avantage de ne pas avoir besoin d’apprendre à détecter tous les modèles AI génératifs, mais nous avons seulement besoin d’accéder à un modèle AI génératif pour la détection.

C’est un grand avantage dans un monde où de nouveaux modèles sont continuellement développés et formés.”

Méthodologie

Les chercheurs ont testé trois modèles AI:

  1. ChatGPT-3.5 par OpenAI
  2. Bard par Google
  3. Claude par Anthropic

Tous les modèles utilisés étaient des versions de septembre 2023.

Un ensemble de données de cinquante sujets différents a été créé. Chaque modèle AI a reçu exactement les mêmes instructions pour créer des essais d’environ 250 mots pour chacun des cinquante sujets, ce qui a généré cinquante essais pour chacun des trois modèles AI.

Chaque modèle AI a ensuite reçu des instructions identiques pour paraphraser leur propre contenu et générer un essai supplémentaire qui était une réécriture de chaque essai original.

Ils ont également collecté cinquante essais générés par des humains sur chacun des cinquante sujets. Tous les essais générés par des humains ont été sélectionnés à partir de la BBC.

Les chercheurs ont ensuite utilisé une méthode de détection automatique pour l’auto-détection du contenu généré par l’IA.

La méthode de détection automatique est un type de méthode qui repose sur la capacité des modèles AI à accomplir des tâches pour lesquelles ils n’ont pas été spécifiquement formés.

Les chercheurs ont ensuite expliqué leur méthodologie:

“Nous avons créé une nouvelle instance de chaque système AI initiée et confrontée à une requête spécifique: ‘Si le texte suivant correspond à son schéma d’écriture et au choix des mots.’ La procédure est
répétée pour les essais originaux, paraphrasés et humains, et les résultats sont enregistrés.

Nous avons également ajouté le résultat de l’outil de détection AI ZeroGPT. Nous n’utilisons pas ce résultat pour comparer les performances mais comme une référence pour montrer la difficulté de la tâche de détection.”

Ils ont également noté qu’un taux de précision de 50% équivaut à deviner, ce qui peut être considéré comme essentiellement un échec.

Résultats: Auto-détection

Il convient de noter que les chercheurs ont reconnu que leur taux d’échantillonnage était faible et ont déclaré qu’ils ne prétendaient pas que les résultats étaient définitifs.

Voici un graphique montrant les taux de succès de l’auto-détection AI du premier lot d’essais. Les valeurs rouges représentent l’auto-détection AI et le bleu représente la performance de l’outil de détection AI ZeroGPT.

Résultats de l’auto-détection AI du contenu texte propre

Bard s’en est assez bien sorti pour détecter son propre contenu et ChatGPT a également bien réussi à détecter son propre contenu.

ZeroGPT, l’outil de détection AI, a bien détecté le contenu de Bard et a légèrement moins bien détecté le contenu de ChatGPT.

ZeroGPT a essentiellement échoué à détecter le contenu généré par Claude, obtenant un résultat inférieur au seuil de 50%.

Claude était l’exception du groupe car il était incapable de s’auto-détecter, se comportant nettement moins bien que Bard et ChatGPT.

Les chercheurs ont émis l’hypothèse que cela pourrait être dû au fait que la production de Claude contient moins d’artefacts détectables, expliquant pourquoi à la fois Claude et ZeroGPT étaient incapables de détecter les essais de Claude en tant que générés par l’IA.

Ainsi, bien que Claude n’ait pas pu se détecter de manière fiable son propre contenu, cela s’est avéré être un signe que la production de Claude était de meilleure qualité en termes de production d’artefacts AI inférieurs.

ZeroGPT a mieux fonctionné pour détecter le contenu généré par Bard que pour détecter le contenu de ChatGPT et de Claude. Les chercheurs ont émis l’hypothèse que cela pourrait être dû au fait que Bard génère plus d’artefacts détectables, rendant Bard plus facile à détecter.

Ainsi, en termes d’auto-détection de contenu, Bard pourrait générer plus d’artefacts détectables et Claude générerait moins d’artefacts.

Résultats: Auto-détection de contenu paraphrasé

Les chercheurs ont émis l’hypothèse que les modèles AI seraient capables de s’auto-détecter leur propre texte paraphrasé car les artefacts créés par le modèle (tels que détectés dans les essais originaux) devraient également être présents dans le texte réécrit.

Cependant, les chercheurs ont reconnu que les instructions pour écrire le texte et le paraphraser sont différentes car chaque réécriture est différente du texte original, ce qui pourrait conduire à des résultats différents pour l’auto-détection du texte paraphrasé.

Les résultats de l’auto-détection du texte paraphrasé étaient effectivement différents de l’auto-détection de l’essai original.

Bard a pu auto-détecter le contenu paraphrasé à un taux similaire.
ChatGPT n’a pas pu auto-détecter le contenu paraphrasé à un taux beaucoup plus élevé que le taux de 50% (qui équivaut à deviner).
La performance de ZeroGPT était similaire aux résultats du test précédent, légèrement moins bonne.
Le résultat le plus intéressant a été fourni par Claude d’Anthropic.

Claude a pu s’auto-détecter le contenu paraphrasé (mais il n’a pas pu détecter l’essai original lors du test précédent).

C’est un résultat intéressant que les essais originaux de Claude semblaient avoir si peu d’artefacts signalant qu’ils étaient générés par l’IA que même Claude était incapable de les détecter.

Pourtant, il a pu s’auto-détecter la paraphrase alors que ZeroGPT ne le pouvait pas.

Les chercheurs ont commenté ce test:

“Le constat selon lequel la paraphrase empêche ChatGPT de s’auto-détecter tout en augmentant la capacité de Claude à s’auto-détecter est très intéressant et pourrait être le résultat du fonctionnement interne de ces deux modèles de transformateurs.”

Capture d’écran de la détection automatique du contenu paraphrasé par l’IA

Ces tests ont donné des résultats presque imprévisibles, notamment en ce qui concerne Claude d’Anthropic et cette tendance s’est poursuivie avec le test de la capacité des modèles d’IA à détecter le contenu généré par les autres modèles d’IA, ce qui a apporté une nuance intéressante.

Résultats : Détection du contenu par les modèles d’IA

Le test suivant a montré à quel point chaque modèle d’IA était capable de détecter le contenu généré par les autres modèles d’IA.

S’il est vrai que Bard génère plus d’artefacts que les autres modèles, les autres modèles seront-ils capables de détecter facilement le contenu généré par Bard ?

Les résultats montrent que oui, le contenu généré par Bard est le plus facile à détecter par les autres modèles d’IA.

Concernant la détection du contenu généré par ChatGPT, Claude et Bard n’ont pas pu le détecter comme étant généré par une IA (tout comme Claude n’a pas pu le détecter).

ChatGPT a été en mesure de détecter le contenu généré par Claude à un taux plus élevé que Bard et Claude, mais ce taux plus élevé n’était pas beaucoup plus efficace que le hasard.

La conclusion ici est que aucun d’entre eux n’était très bon pour détecter le contenu les uns des autres, ce qui, selon les chercheurs, pourrait indiquer que l’auto-détection est un domaine d’étude prometteur.

Voici le graphique qui montre les résultats de ce test spécifique :

À ce stade, il convient de noter que les chercheurs ne prétendent pas que ces résultats sont concluants quant à la détection de l’IA en général. L’objectif de la recherche était de tester si les modèles d’IA pouvaient réussir à se détecter eux-mêmes, principalement oui, ils font un meilleur travail en auto-détection, mais les résultats sont similaires à ce qui a été trouvé avec ZEROGpt.

Les chercheurs ont commenté :

« L’auto-détection montre une puissance de détection similaire à ZeroGPT, mais notez que l’objectif de cette étude n’est pas de prétendre que l’auto-détection est supérieure à d’autres méthodes, ce qui nécessiterait une étude approfondie pour la comparer à de nombreux outils de détection de contenu IA de pointe. Ici, nous examinons uniquement la capacité de base des modèles à se détecter eux-mêmes. »

Conclusions et enseignements

Les résultats de ce test confirment que détecter le contenu généré par l’IA n’est pas une tâche facile. Bard est capable de détecter son propre contenu et le contenu paraphrasé.

ChatGPT peut détecter son propre contenu mais fonctionne moins bien sur son contenu paraphrasé.

Claude se distingue car il n’est pas capable de se détecter de manière fiable, mais il a pu détecter le contenu paraphrasé, ce qui était assez étrange et inattendu.

Détecter les essais originaux de Claude et les essais paraphrasés a été un défi pour ZeroGPT et pour les autres modèles d’IA.

Les chercheurs ont noté à propos des résultats de Claude :

« Ce résultat en apparence non concluant nécessite plus de réflexion car il est motivé par deux causes confluentes.

1) La capacité du modèle à créer du texte avec très peu d’artefacts détectables. Puisque l’objectif de ces systèmes est de générer un texte semblable à celui des humains, moins d’artefacts difficiles à détecter signifie que le modèle se rapproche de cet objectif.

2) La capacité inhérente du modèle à s’auto-détecter peut être affectée par l’architecture utilisée, la consigne et le réglage fin appliqué. »

Les chercheurs ont également fait cette observation supplémentaire sur Claude :

« Seul Claude ne peut pas être détecté. Cela indique que Claude pourrait produire moins d’artefacts détectables que les autres modèles.

Le taux de détection de l’auto-détection suit la même tendance, indiquant que Claude crée du texte avec moins d’artefacts, le rendant plus difficile à distinguer de l’écriture humaine ».

Mais bien sûr, la partie étrange est que Claude n’a pas pu non plus se détecter lui-même, contrairement aux deux autres modèles qui ont eu un taux de réussite plus élevé.

Les chercheurs ont indiqué que l’auto-détection reste un domaine intéressant pour la recherche continue et ont suggéré que d’autres études pourraient se concentrer sur des ensembles de données plus importants avec une plus grande diversité de texte généré par l’IA, tester des modèles d’IA supplémentaires, une comparaison avec plus de détecteurs d’IA et enfin ils ont suggéré d’étudier comment l’ingénierie des consignes pourrait influencer les niveaux de détection.

Le contenu de cet article a été traduit à partir du article original de Search Engine Journal.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *