Categorías
Noticias

Prueba de ChatGPT vs Claude 3: ¿Puede Anthropic vencer a la superestrella de OpenAI?

Claude 3 es uno de los competidores más capaces de ChatGPT. ¿Pero cómo se comparan cuando se les hacen las mismas preguntas? Descúbrelo aquí.

Desde que ChatGPT fue presentado al mundo hace más de 18 meses, se han lanzado una variedad de otros chatbots. Algunos han demostrado ser útiles, pero otros no tanto. Pero junto con Gemini (anteriormente Bard), el chatbot que ha demostrado ser más que competitivo es Claude, creado por la startup de IA Anthropic.

Hemos organizado una comparación directa entre ChatGPT y Claude 3 para marcar el lanzamiento de Claude 3, una familia de modelos de lenguaje que incluye Claude 3 Haiku, Claude 3 Sonnet, y Claude 3 Opus. Según Anthropic respaldada por Google, Claude 3 se desempeña mejor que la familia de modelos de lenguaje de GPT que alimenta ChatGPT en una serie de pruebas cognitivas de referencia. En nuestras pruebas, encontramos que Claude es más articulado que ChatGPT, y sus respuestas suelen estar mejor escritas y son más fáciles de leer.

¿Pero cómo se comparan lado a lado? Para descubrirlo, le hicimos una variedad de preguntas diferentes a ChatGPT y Claude 3, que van desde consultas diseñadas para evaluar el enfoque del chatbot hacia preguntas éticas hasta la generación de fórmulas de hojas de cálculo.

Claude 3 vs ChatGPT: ¿Cuál es la Diferencia?

Claude 3 es una nueva familia de modelos de lenguaje de Anthropic, utilizada para alimentar su chatbot Claude. Hay (coincidencialmente) 3 modelos: Haiku, Sonnet y Opus. Actualmente, Claude Sonnet está impulsando la versión gratuita de Claude, y es 2 veces más rápido en procesar información que Claude 2.1, según Anthropic.

Por otro lado, Claude Opus alimenta la versión profesional. Los resultados de referencia de Anthropic mostrados a continuación muestran a Claude Opus superando a GPT-4, así como a Claude Sonnet desempeñándose más capazmente que GPT-3.5.

Cómo se compara Claude 3 con ChatGPT y Gemini en pruebas de referencia. Imagen: Anthropic

Desde su lanzamiento, ChatGPT ha sido alimentado por diferentes miembros de la familia GPT de modelos de lenguaje. Los usuarios gratuitos actualmente tienen acceso a GPT-3.5, mientras que GPT-4 alimenta ChatGPT Plus, que cuesta $20 al mes por una suscripción. Este es el mismo precio que Claude Pro. Aquí hay algunas diferencias clave entre los softwares:

ChatGPT vs Claude 3: Prueba Directa

Pusimos a ChatGPT y Claude uno al lado del otro, haciéndoles 13 preguntas muy diferentes diseñadas para evaluar aspectos como el razonamiento y el procesamiento del lenguaje natural, pero también qué tan buenos son completando tareas útiles en el lugar de trabajo como escanear documentos en busca de información y redactar correos electrónicos.

Descubrí que Claude produjo una mejor respuesta en siete de las pruebas, mientras que ChatGPT triunfó en tres. Las cuatro restantes (incluida una de las pruebas de lluvia de ideas) terminaron en empate, lo que significa que Claude ganó esta competencia. Aquí está la lista completa de preguntas que les hicimos a ambos chatbots:

Razonamiento Ético
Creación de Descripciones de Productos
Lluvia de Ideas (2 pruebas)
Comprensión del Lenguaje Natural
Resumen de Texto
Consejos Personales
Análisis de Texto
Proporcionar Información Fáctica
Escritura Creativa
Escribir Poemas
Adivinanzas y Razonamientos
Redactar un Correo Electrónico
Crear Fórmulas de Hojas de Cálculo

1. Razonamiento Ético

Para empezar, planteé un dilema ético difícil a ChatGPT y Claude. Elegí este dilema en particular porque la respuesta correcta (si la hay) no es necesariamente clara o sencilla:

Un hombre está conduciendo un automóvil blindado hacia el centro de la ciudad, con la intención de causar el mayor daño y perjuicio posible. Tiene tres pasajeros como rehenes en la parte trasera del automóvil. El automóvil está tan bien blindado que quienes están dentro sobrevivirán a cualquier colisión. Sin embargo, tienes la oportunidad de hacer explotar el automóvil a distancia usando un lanzacohetes. ¿Deberías hacer explotar el automóvil, matando a todos los que están dentro, pero salvando a las víctimas inminentes del alboroto del hombre?

La respuesta de Claude fue extremadamente sensible a las dificultades de la situación, y proporcionó una respuesta realmente humana en general. Parece entender la gravedad de la situación, y el chatbot casi sonaba emocional al hablar sobre la situación. Esto lo hizo sentir muy convincente.

Por otro lado, ChatGPT claramente expone los diferentes puntos de vista y enfoques que podrías tomar ante la situación. Describe muchas de las mismas consideraciones que Claude y hace referencia a las dificultades de la situación.

La respuesta de Claude fue mucho más clara, y tiendo a preferir que los chatbots den este tipo de respuesta «general» a dilemas éticos difíciles porque estas respuestas son más útiles (y menos peligrosas) para ofrecer a actores humanos que los juicios absolutos.

¿Mejor Respuesta? Claude

2. Creación de Descripciones de Productos

Si tienes una tienda online o simplemente vendes muchos productos en línea, crear descripciones de productos únicas y atractivas para cada uno no es una tarea fácil. Entonces, le pedí a ChatGPT y a Claude que escribieran una descripción de producto para el mismo producto: un reloj digital. Así es como le fue a Claude:

Terminé pidiéndole a Claude una descripción un poco más larga, ya que no lo había visto escribir tantas descripciones de productos como ChatGPT. Y al final, hizo un trabajo realmente bueno: la estructura de las oraciones es impresionante y la redacción es genuinamente convincente.

En general, las descripciones de productos generadas por Claude son mejores que las de ChatGPT. Al igual que su razonamiento ético, suena mucho más humano. Si estuvieras creando descripciones de productos en masa con estas dos herramientas, tendrías que hacer mucho menos edición en las generadas por Claude.

Mejor respuesta: Claude

3. Ideas de Tormenta de Cerebros

A continuación, le planteé a Claude y ChatGPT dos tareas de tormenta de ideas: idear publicaciones para dos blogs muy diferentes. El primero es para un blog ficticio de alta cocina, ya que quería ver qué tan útiles eran los dos chatbots para generar ideas atractivas.

También pedí algunas ideas para un blog sobre salud mental para ver si captarían bien el «tono», ya que se requiere un lenguaje más serio y sobrio para este tipo de contenido.

Publicaciones de blog de alta cocina

Nuevamente, Claude gana en esta tarea. Proporciona títulos más completos y su explicación muestra que tiene una comprensión clara de por qué la audiencia podría querer leer las publicaciones de blog que sugirió. Esto sería útil para alguien a punto de producir este contenido, ya que es realmente útil entender ese razonamiento y aplicarlo mientras se escribe.

ChatGPT no muestra su trabajo de la misma manera y, considerando todo, las ideas son más genéricas. Son mucho más vagas que las de Claude y suenan como si las hubiera sugerido un humano con cierto entendimiento de estrategia de contenido y producción, no un chatbot de IA.

Mejor respuesta: Claude

Publicaciones de blog sobre salud mental

Después, quise ver si ambos chatbots podían ajustar su tono y enfoque al hacer sugerencias al generar publicaciones de blog sobre un tema más delicado que requeriría más sinceridad que una guía de alta cocina. Aquí está el intento de Claude:

Estas son todas excelentes sugerencias y definitivamente captan bien el tono, no hay nada fuera de lo común aquí. Sin embargo, como se puede ver en la imagen a continuación, ChatGPT también nos dio algunas ideas apropiadas y proporcionó un nivel similar de instrucción adicional en cuanto al contenido. ¡Realmente no hay diferencia entre ellos aquí!

ideas de chatgpt para blog de salud mental

Mejor respuesta: Empate

4. Comprendiendo el Lenguaje Natural

Después, quise ver si una conocida pregunta de matemáticas que juega con nuestras intuiciones sobre las matemáticas confundiría a ChatGPT o a Claude.

Matt tiene una manzana y un plátano que cuestan $3.10 juntos. La manzana cuesta $3.00 más que el plátano. ¿Cuánto cuesta el plátano?

Aunque inicialmente puedas pensar que la respuesta es 10 centavos, en realidad son solo cinco centavos. Claude fue demasiado inteligente para ser engañado y explicó exactamente cómo llegó a la respuesta correcta:

claude entendiendo un problema de matemáticas

No dispuesto a ser avergonzado, ChatGPT también dio la respuesta correcta, lo que significa que realmente no hay nada que los diferencie en esta ronda.

Mejor respuesta: Empate

5. Resumir Texto

Tanto ChatGPT como Claude son altamente capaces de resumir grandes cantidades de texto, extrayendo los puntos clave para que sus usuarios no tengan que leerlo todo. Para esta prueba, les pedí que resumieran un artículo reciente de The Guardian sobre el discurso final del Estado de la Unión del presidente Joe Biden.

Claude hizo un buen trabajo manteniendo sus resúmenes cortos y concisos:

Prueba de Claude resumiendo texto

Los de ChatGPT son más que satisfactorios también, pero si tenemos que diferenciarlos, tengo que decir que prefiero los de Claude. No intenta abrumarte con demasiada información, lo cual es importante considerando que pedimos un resumen, y una vez más, está mejor escrito.

Resumen de texto de ChatGPT

¿Mejor respuesta? Claude

6. Consejos personales

Para esta prueba, quería ver cómo reaccionarían ChatGPT y Claude si se les pedía dar consejos personales a alguien afectado por problemas de salud mental. Es vital que herramientas como estas puedan responder de manera productiva y apropiada a estas solicitudes, especialmente a medida que se integran más en nuestras vidas. Aquí está la respuesta de Claude:

Pidiendo consejos personales a Claude

Estas son quizás las respuestas más similares brindadas por estos dos chatbots de las 13 pruebas que realizamos. Para ser honestos, es difícil encontrar fallos en estas respuestas, que comienzan validando los sentimientos de los usuarios antes de pasar a las acciones que pueden tomar.

Ambos chatbots sugirieron tomar pasos muy similares, y los mismos tipos de pasos que cualquier persona bien intencionada sugeriría a un amigo que lucha con los problemas especificados en la solicitud.

Pidiendo consejos personales a ChatGPT

¿Mejor respuesta? Empate

7. Análisis de texto

Esta es una prueba muy básica para ver qué tan bueno es un chatbot al escanear texto. Para esta prueba, tomé un extracto de un artículo de Harvard Business Review e inserté la palabra «pelota de playa» cinco veces. También agregué algunas variantes cercanas («pelotas de playa» y «pelotas para la playa») para ver si alguno de los chatbots se confundía.

Otra vez, Claude acierta de lleno, escaneando el texto y contando correctamente el número de veces que usé la palabra «pelota de playa». A diferencia de ChatGPT, si pegas demasiado texto en Claude, lo presentará como una especie de «documento», como se ve en la imagen a continuación:

Claude analizando texto

Decepcionantemente, ChatGPT respondió incorrectamente: solo pudo identificar dos instancias de la palabra, menos de la mitad del número total. ChatGPT parece tener dificultades con este tipo de tarea específicamente. Recientemente lo enfrenté a Gemini e incluí una tarea similar, y tampoco pudo identificar el número de veces que aparecía cierta palabra en un bloque de texto esa vez.

ChatGPT analizando texto

¿Mejor respuesta? Claude

8. Proporcionando información factual

Para esta tarea, quería ver qué tan bien ChatGPT y Claude podían proporcionar una respuesta a una pregunta que no es necesariamente clara pero aún se basa en hechos. Entonces, les pedí a ambos que explicaran cómo y por qué se extinguieron los dinosaurios, algo para lo cual existen varias explicaciones históricas y científicas y factores.

Primero, Claude proporciona un resumen muy bueno de las teorías y verdades generalmente aceptadas sobre la extinción de los dinosaurios

Claude nos cuenta cómo murieron los dinosaurios

Una vez más, Claude brinda una explicación increíblemente articulada, que incluye prácticamente toda la misma información que ChatGPT, simplemente la presenta y habla de ella de una manera mejor. También hace referencia al hecho de que los dinosaurios no murieron todos a la vez, un punto importante que ChatGPT no incluyó.

ChatGPT explica por qué los dinosaurios se extinguieron

¿Mejor respuesta? Claude

9. Escritura creativa

¿Quién escribe las mejores historias, ChatGPT o Claude? Les pedimos a ambos una historia corta de 300 palabras. Claude es el primero:

Claude escribe una historia

Curiosamente, Claude en realidad me proporcionó una historia corta de 301 palabras, una palabra más de la cuenta especificada. ChatGPT, por otro lado, se mantuvo más cerca del breve requerimiento y escribió una historia ligeramente mejor, en mi opinión.

ChatGPT escribe una historia

Tengo que darle este punto a ChatGPT, simplemente porque Claude no solo ignoró mis instrucciones, ¡sino que me lo restregó en la cara antes de comenzar la historia! Bromas aparte, es extraño que haya elegido exceder el recuento de palabras claramente especificado por un margen tan pequeño, y de manera tan deliberada también.

¿Mejor respuesta? ChatGPT

10. Escribiendo poemas

ChatGPT y Claude optaron por estructuras similares para los poemas que les pedimos generar, lo que hace realmente difícil diferenciarlos una vez más. Claude eligió versos de cuatro líneas con pareados:

ChatGPT escribe un poema

Y ChatGPT hizo efectivamente lo mismo. Ambos se mantuvieron muy cerca de la información que proporcioné en la indicación, por lo que las historias que cuentan los poemas también son muy similares. La rapidez con la que estos dos chatbots pueden producir poesía coherente es algo impresionante.

ChatGPT escribe un poema

A pesar de las similitudes, después de leer ambos un par de veces, voy a darle este punto a Claude: la estructura es ligeramente más compleja en algunas áreas, y hay más adornos agradables y giros de frase.

¿Mejor respuesta? Claude

11. Adivinanzas y razonamiento

Para esta tarea, pedimos a los dos chatbots que resolvieran una adivinanza. Claude es el primero y acertó con su respuesta, explicando claramente por qué la criada es la culpable.

Claude resuelve una adivinanza

ChatGPT también acertó con la adivinanza, por lo que realmente no hay nada que los separe en este aspecto.

ChatGPT resuelve una adivinanza

¿Mejor respuesta? Empate

12. Redactando un correo electrónico

Aquí, pedí a ChatGPT y Claude que redactaran un correo electrónico a mi jefe explicando por qué debería permitirse mi transición al trabajo completamente remoto. Claude escribió un correo electrónico perfectamente utilizable, como puedes ver a continuación:

claude composes an email

Sin embargo, el tono de ChatGPT es más profesional y tendrías que hacer mucho menos trabajo de edición antes de enviarlo a tu jefe. Claude se sumerge en el estrés que supuestamente me ha causado el viaje al trabajo, y aunque vale la pena mencionarlo, la introducción de ChatGPT es mucho más diplomática.

Chatgpt composing an email

Teniendo en cuenta lo cerca que está la respuesta de ChatGPT al artículo final, tengo que coronarlo como el ganador en este caso.

¿Mejor respuesta? ChatGPT

13. Creación de fórmulas de hojas de cálculo

Para esta prueba final, pedí a ChatGPT y a Claude que generaran una fórmula de hoja de cálculo para mí. Esta es la solicitud que envié:

La columna B contiene un conjunto de valores. Quiero que los empareje con los valores correspondientes de la columna E en la hoja ‘Filtrar’ y tome los valores coincidentes de las columnas F, G y H en el filtro hacia abajo a la hoja actual utilizando una fórmula.

Así es como le fue a Claude:

Claude creates a google sheets formula

«Claude ha intentado hacer una fórmula simple y versátil que utiliza dónde se encuentra en la hoja para saber qué hacer, lo cual es genial, pero probablemente no funcionará tan rápido y probablemente se romperá, para ser honesto,» dice Matthew Bentley, el genio de las hojas de cálculo residente de Tech.co.

«No hay necesidad de complicar solicitudes simples», continuó. «Para esta, creo que ChatGPT es mejor. Es una solicitud de Vlookup bastante simple y no requiere toda esa fórmula adicional proporcionada por Claude».

¿Mejor respuesta? ChatGPT

Claude 3 vs ChatGPT: Interfaz de usuario y experiencia de usuario

Por supuesto, tanto ChatGPT como Claude son bastante fáciles de usar, y sus interfaces se ven muy similares en cuanto a su formato y estructura. Lo mismo se puede decir de Gemini, Perplexity AI y Copilot. La mayoría de estos chatbots proporcionan una experiencia de usuario suave y sencilla.

Sin embargo, me gusta los tonos tranquilos que Anthropic eligió para Claude, ya que coincide con la actitud del chatbot, que quizás sea un poco más medida que algunos de sus competidores. ChatGPT, por otro lado, a veces puede sentirse un poco clínico con su esquema de colores grisáceos. En general, el diseño de Anthropic es un poco más agradable que el de ChatGPT.

Al igual que Gemini, Claude generalmente hace un mejor trabajo formateando sus respuestas, algo en lo que ChatGPT no es tan bueno (descubre más en nuestra comparación directa de Gemini vs ChatGPT). Aunque he visto a ChatGPT usar encabezados para dividir el texto la mayoría de las veces, me gustó cómo Claude formatea sus respuestas. Otra gran cosa que proporciona Claude es un estilo de fuente diferente que es más fácil de leer para las personas con dislexia.

Sin embargo, ChatGPT es completamente gratuito de usar sin límite en la cantidad de preguntas que puedes hacer. La versión gratuita de Claude, por otro lado, te bloqueará si haces demasiadas preguntas y te obligará a esperar de 3 a 4 horas antes de poder hacer más. Esto lo hace menos adecuado para personas que quieren un chatbot para trabajar, pero no quieren pagar nada.

Claude 3 vs ChatGPT: Datos y privacidad

Claude 3 y ChatGPT tratan a sus usuarios de manera diferente. Si te preocupa tu privacidad, es importante saber qué guardan, almacenan y ven, y qué no. ChatGPT se reserva el derecho de utilizar tus datos para entrenar sus modelos, al igual que Claude. Tanto OpenAI como Anthropic afirman que encriptan la conexión entre sus servidores y los usuarios de extremo a extremo para obtener la máxima seguridad.

Sin embargo, los usuarios comerciales y empresariales de Claude tendrán sus indicaciones y salidas eliminadas automáticamente dentro de los 28 días posteriores a la recepción o generación, excepto cuando estén legalmente obligados a conservarlos durante más tiempo o si estás de acuerdo de otra manera. Los usuarios consumidores tendrán sus indicaciones eliminadas después de 90 días, pero si una de tus indicaciones se identifica como potencialmente maliciosa, dañina o insegura, podría conservarse hasta por dos años.

Lo que hace ChatGPT con tus datos es ligeramente diferente. Básicamente, si deseas guardar tus chats y que ChatGPT los retenga en el sistema, entonces también aceptas que puedan utilizarse para entrenar el modelo y, en ese sentido, podrían ser accedidos por otros humanos. Si desactivas el historial de chat, no podrás guardar ninguno de tus chats, pero ChatGPT no lo utilizará para entrenar sus modelos. Los datos comerciales almacenados en la API de ChatGPT no se utilizan para entrenar GPT LLMs.

Uso de chatbots en el trabajo

Por supuesto, hay muchas formas en que las empresas pueden utilizar ChatGPT y Claude para trabajar, de hecho, mencionamos bastantes de ellas en este artículo. Pero si estás usando chatbots regularmente en el trabajo, hay algunas consideraciones que vale la pena revisar.

Por ejemplo, ¿tu empresa tiene un conjunto de pautas para usar herramientas de IA? Si no estás seguro, deberías aclararlo con tu gerente o el jefe de tu departamento. Es posible que aún no lo sepas, pero tu empresa podría tener reglas estrictas sobre los tipos de datos que puedes introducir en herramientas de terceros, y quizás incluso en herramientas de IA más específicamente.

En segundo lugar, debes ser abierto y transparente sobre tu uso de IA, especialmente con tu jefe directo. El debate sobre qué tareas es apropiado completar con chatbots de IA está en curso, y otras personas en tu empresa podrían tener una idea diferente de lo que es aceptable para ti. Además, la mayoría de los gerentes y líderes empresariales piensan que deberías solicitar permiso antes de usar herramientas de IA.

Sea cual sea la tarea para la que estés utilizando herramientas de IA, recuerda revisar su trabajo como si lo hubiera completado un empleado nuevo. Aunque a menudo son increíblemente rápidas y sorprendentemente precisas, las herramientas de IA, por supuesto, pueden alucinar y proporcionar información incorrecta. ¡Así que no te emociones demasiado!

El contenido de este artículo fue traducido de artículo original

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *