Categorías
Tutoriales

Detección de Contenido de IA: Bard Vs ChatGPT Vs Claude

Investigadores observan capacidades variables de detección de contenido de IA, destacando posibles nuevas direcciones para identificar contenido generado por IA

Aspectos Destacados

  • El contenido de texto creado por Claude es más difícil de detectar que el contenido creado por Bard o ChatGPT
  • Bard & ChatGPT tenían una precisión relativamente mayor al autodetectar su propio contenido original
  • Los resultados al autodetectar contenido parafraseado arrojaron resultados sorprendentes entre los tres modelos de IA probados
  • Las pruebas parecen indicar que Claude generó la menor cantidad de artefactos detectables, lo que lo hizo más difícil de detectar

Los investigadores probaron la idea de que un modelo de IA puede tener ventaja al autodetectar su propio contenido porque la detección se basaba en el mismo entrenamiento y conjuntos de datos. Lo que no esperaban encontrar fue que de los tres modelos de IA probados, el contenido generado por uno de ellos era tan indetectable que ni siquiera la IA que lo generó pudo detectarlo.

El estudio fue realizado por investigadores del Departamento de Ciencias de la Computación, Escuela de Ingeniería Lyle en la Universidad Metodista del Sur.

Detección de Contenido de IA

Muchos detectores de IA están entrenados para buscar las señales características del contenido generado por IA. Estas señales se llaman «artefactos», que se generan debido a la tecnología transformadora subyacente. Pero otros artefactos son únicos para cada modelo base (el Modelo de Lenguaje Grande en el que se basa la IA).

Estos artefactos son únicos para cada IA y surgen de los datos de entrenamiento distintivos y del ajuste fino que siempre es diferente de un modelo de IA a otro.

Los investigadores descubrieron evidencia de que es esta singularidad la que permite que una IA tenga mayor éxito al autoidentificar su propio contenido, significativamente mejor que al intentar identificar contenido generado por una IA diferente.

Bard tiene una mejor oportunidad de identificar contenido generado por Bard y ChatGPT tiene una tasa de éxito más alta al identificar contenido generado por ChatGPT, pero…

Los investigadores descubrieron que esto no era cierto para el contenido generado por Claude. Claude tuvo dificultades para detectar el contenido que generó. Los investigadores compartieron una idea de por qué Claude no pudo detectar su propio contenido y este artículo discute eso más adelante.

Esta es la idea detrás de las pruebas de investigación:

“Dado que cada modelo puede ser entrenado de manera diferente, crear una herramienta detectora para detectar los artefactos creados por todas las posibles herramientas de IA generativa es difícil de lograr.

Aquí, desarrollamos un enfoque diferente llamado autodetección, donde utilizamos el modelo generativo en sí mismo para detectar sus propios artefactos y distinguir su propio texto generado del texto escrito por humanos.

Esto tendría la ventaja de que no necesitamos aprender a detectar todos los modelos de IA generativa, sino que solo necesitamos acceso a un modelo de IA generativa para la detección.

Esto es una gran ventaja en un mundo donde continuamente se desarrollan y entrenan nuevos modelos.”

Metodología

Los investigadores probaron tres modelos de IA:

  1. ChatGPT-3.5 de OpenAI
  2. Bard de Google
  3. Claude de Anthropic

Todos los modelos utilizados fueron las versiones de septiembre de 2023.

Se creó un conjunto de datos de cincuenta temas diferentes. A cada modelo de IA se le dieron exactamente las mismas indicaciones para crear ensayos de aproximadamente 250 palabras para cada uno de los cincuenta temas, lo que generó cincuenta ensayos para cada uno de los tres modelos de IA.

Luego, a cada modelo de IA se le indicó de manera idéntica para parafrasear su propio contenido y generar un ensayo adicional que fuera una reescritura de cada ensayo original.

También recopilaron cincuenta ensayos generados por humanos sobre cada uno de los cincuenta temas. Todos los ensayos generados por humanos fueron seleccionados de la BBC.

Los investigadores luego utilizaron la inducción sin ejemplos para autodetectar el contenido generado por la IA.

La inducción sin ejemplos es un tipo de inducción que se basa en la capacidad de los modelos de IA para completar tareas para las cuales no han sido entrenados específicamente.

Los investigadores explicaron más a fondo su metodología:

“Creamos una nueva instancia de cada sistema de IA iniciada y planteada con una consulta específica: ‘Si el siguiente texto coincide con su patrón de escritura y elección de palabras.’ El procedimiento se repite para los ensayos originales, parafraseados y humanos, y los resultados se registran.

También agregamos el resultado de la herramienta de detección de IA ZeroGPT. No usamos este resultado para comparar el rendimiento, sino como base para mostrar lo desafiante que es la tarea de detección.”

También señalaron que una tasa de precisión del 50% equivale a adivinar, lo que puede considerarse básicamente como un nivel de precisión que es un fracaso.

Resultados: Autodetección

Debe tenerse en cuenta que los investigadores reconocieron que su tasa de muestra era baja y dijeron que no estaban haciendo afirmaciones de que los resultados son definitivos.

A continuación se muestra un gráfico que muestra las tasas de éxito de la autodetección de IA del primer lote de ensayos. Los valores en rojo representan la autodetección de la IA y el azul representa qué tan bien funcionó la herramienta de detección de IA ZeroGPT.

Resultados de la Autodetección de Texto Propio de IA

Bard se desempeñó bastante bien al detectar su propio contenido y ChatGPT también tuvo un buen desempeño al detectar su propio contenido.

ZeroGPT, la herramienta de detección de IA, detectó muy bien el contenido de Bard y tuvo un rendimiento ligeramente menor al detectar el contenido de ChatGPT.

ZeroGPT básicamente falló al detectar el contenido generado por Claude, con un rendimiento peor que el umbral del 50%.

Claude fue la excepción del grupo porque no pudo autodetectar su propio contenido, teniendo un rendimiento significativamente peor que Bard y ChatGPT.

Los investigadores hipotetizaron que puede ser que la salida de Claude contenga menos artefactos detectables, explicando por qué tanto Claude como ZeroGPT no pudieron detectar los ensayos de Claude como generados por IA.

Entonces, aunque Claude no pudo autodetectar de manera confiable su propio contenido, resultó ser una señal de que la salida de Claude era de mayor calidad en términos de producir menos artefactos de IA.

ZeroGPT tuvo un mejor desempeño al detectar el contenido generado por Bard que al detectar el contenido de ChatGPT y Claude. Los investigadores hipotetizaron que podría ser que Bard genera más artefactos detectables, lo que hace que Bard sea más fácil de detectar.

Entonces, en términos de autodetección de contenido, Bard puede estar generando más artefactos detectables y Claude está generando menos artefactos.

Resultados: Autodetección de Contenido Parafraseado

Los investigadores hipotetizaron que los modelos de IA serían capaces de autodetectar su propio texto parafraseado porque los artefactos creados por el modelo (como se detectó en los ensayos originales) también deberían estar presentes en el texto reescrito.

Sin embargo, los investigadores reconocieron que las indicaciones para escribir el texto y parafrasear son diferentes porque cada reescritura es diferente al texto original, lo que podría conducir a resultados diferentes de autodetección para el autodetectar de texto parafraseado.

Los resultados de la autodetección de texto parafraseado fueron de hecho diferentes a la autodetección de los ensayos originales.

Bard pudo autodetectar el contenido parafraseado a una tasa similar.
ChatGPT no pudo autodetectar el contenido parafraseado a una tasa mucho mayor que la tasa del 50% (que equivale a adivinar).
El rendimiento de ZeroGPT fue similar a los resultados en la prueba anterior, con un rendimiento ligeramente peor.
Quizás el resultado más interesante fue el obtenido por Claude de Anthropic.

Claude pudo autodetectar el contenido parafraseado (pero no pudo detectar el ensayo original en la prueba anterior).

Es un resultado interesante que los ensayos originales de Claude aparentemente tenían tan pocos artefactos que indicaran que eran generados por IA que ni siquiera Claude pudo detectarlo.

Aun así, Claude pudo autodetectar la paráfrasis mientras que ZeroGPT no pudo.

Los investigadores comentaron sobre esta prueba:

“El hallazgo de que la parafrasear evita que ChatGPT se autodetecte mientras aumenta la capacidad de Claude para autodetectarse es muy interesante y puede ser el resultado de los mecanismos internos de estos dos modelos transformadores.”

Captura de autodetección de contenido parafraseado de IA

Estas pruebas arrojaron resultados casi impredecibles, especialmente en lo que respecta a Claude de Anthropic, y esta tendencia continuó con la prueba de qué tan bien los modelos de IA detectaban el contenido de los demás, lo cual tuvo un giro interesante.

Resultados: Modelos de IA detectando el contenido de los demás

La siguiente prueba mostró qué tan bien cada modelo de IA detectaba el contenido generado por los otros modelos de IA.

Si es cierto que Bard genera más artefactos que los otros modelos, ¿podrán los otros modelos detectar fácilmente el contenido generado por Bard?

Los resultados muestran que sí, el contenido generado por Bard es el más fácil de detectar por los otros modelos de IA.

En cuanto a la detección del contenido generado por ChatGPT, tanto Claude como Bard no pudieron detectarlo como generado por IA (al igual que Claude no pudo detectarlo).

ChatGPT pudo detectar el contenido generado por Claude a una tasa más alta que tanto Bard como Claude, pero esa tasa más alta no fue mucho mejor que adivinar.

La conclusión aquí es que ninguno de ellos fue tan bueno detectando el contenido de los demás, lo que los investigadores opinaron que podría mostrar que la autodetección era un área de estudio prometedora.

Aquí está el gráfico que muestra los resultados de esta prueba específica:

En este punto, cabe destacar que los investigadores no afirman que estos resultados sean concluyentes sobre la detección de IA en general. El enfoque de la investigación fue probar si los modelos de IA podían tener éxito en autodetectar su propio contenido generado. La respuesta es en su mayoría sí, hacen un mejor trabajo en autodetectarse pero los resultados son similares a los encontrados con ZEROGpt.

Los investigadores comentaron:

“La autodetección muestra un poder de detección similar en comparación con ZeroGPT, pero hay que tener en cuenta que el objetivo de este estudio no es afirmar que la autodetección es superior a otros métodos, lo cual requeriría un estudio amplio para comparar con muchas herramientas de detección de contenido de IA de última generación. Aquí, solo investigamos la capacidad básica de autodetección de los modelos.”

Conclusiones y puntos clave

Los resultados de la prueba confirman que detectar contenido generado por IA no es una tarea fácil. Bard puede detectar su propio contenido y el contenido parafraseado.

ChatGPT puede detectar su propio contenido pero funciona menos bien en su contenido parafraseado.

Claude es excepcional porque no puede autodetectar de manera confiable su propio contenido, pero pudo detectar el contenido parafraseado, lo cual fue un tanto extraño e inesperado.

Detectar los ensayos originales de Claude y los ensayos parafraseados fue un desafío para ZeroGPT y para los otros modelos de IA.

Los investigadores señalaron sobre los resultados de Claude:

“Este resultado aparentemente inconcluso necesita más consideración, ya que es impulsado por dos causas entrelazadas.

1) La capacidad del modelo para crear texto con muy pocos artefactos detectables. Dado que el objetivo de estos sistemas es generar texto similar al humano, menos artefactos que son más difíciles de detectar significan que el modelo se acerca más a ese objetivo.

2) La capacidad inherente del modelo para autodetectarse puede verse afectada por la arquitectura utilizada, la consigna y el ajuste fino aplicado.”

Los investigadores hicieron esta observación adicional sobre Claude:

“Solo Claude no puede ser detectado. Esto indica que Claude podría producir menos artefactos detectables que los otros modelos.

La tasa de detección de autodetección sigue la misma tendencia, lo que indica que Claude crea texto con menos artefactos, lo que hace más difícil distinguirlo de la escritura humana”.

Pero por supuesto, lo extraño es que Claude tampoco pudo autodetectar su propio contenido original, a diferencia de los otros dos modelos que tuvieron una tasa de éxito más alta.

Los investigadores indicaron que la autodetección sigue siendo un área interesante para la investigación continua y propusieron que estudios adicionales puedan centrarse en conjuntos de datos más grandes con una mayor diversidad de texto generado por IA, probar modelos de IA adicionales, una comparación con más detectores de IA y por último sugirieron estudiar cómo la ingeniería de consignas puede influir en los niveles de detección.

El contenido de este artículo fue traducido de artículo originale

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *