Categorías
Tutoriales

Claude vs. ChatGPT: ¿Cuál es la diferencia? [2024]

Claude es un escritor humano que crea contenido basado en su propio conocimiento y experiencias, mientras que ChatGPT es un chatbot impulsado por inteligencia artificial que genera texto basado en patrones en los datos en los que ha sido entrenado. La principal diferencia es que el contenido de Claude es original y subjetivo, mientras que las respuestas de ChatGPT son generadas de forma algorítmica y pueden carecer de perspicacia personal.

Cuando OpenAI lanzó la primera iteración de ChatGPT a finales de 2022, rápidamente se convirtió en la aplicación de crecimiento más rápido de la historia, acumulando más de cien millones de usuarios en sus dos primeros meses. GPT-4, un modelo mejorado lanzado en 2023, es ahora el estándar por el cual se juzgan todos los demás modelos de lenguaje grandes (LLM, por sus siglas en inglés). Recientemente, otro LLM ha comenzado a desafiar a ChatGPT por ese título: el Claude 3 de Anthropic.

He utilizado ChatGPT desde su lanzamiento y he probado regularmente a Claude en los meses desde su versión beta. Para comparar estos dos gigantes de la inteligencia artificial, realicé más de una docena de pruebas para evaluar su rendimiento en diferentes tareas.

Aquí, explicaré las fortalezas y limitaciones de Claude y ChatGPT, para que puedas decidir cuál es el mejor para ti.

Claude vs. ChatGPT en resumen

Claude y ChatGPT están impulsados por LLMs y LMMs igualmente potentes. Sin embargo, difieren en algunos aspectos importantes: ChatGPT es más versátil, con funciones como generación de imágenes y acceso a internet, mientras que Claude ofrece un acceso más económico a la API y una ventana de contexto mucho más grande (lo que significa que puede procesar más datos a la vez).

Aquí tienes un resumen rápido de las diferencias entre estos dos modelos de IA.

Para comparar el rendimiento de un LLM con otro, las empresas de IA utilizan puntos de referencia como pruebas estandarizadas. La evaluación de GPT-4 de OpenAI muestra rendimientos impresionantes en exámenes estándar como el Examen Bar de Uniformidad, LSAT, GRE y el examen de Macroeconomía AP. Mientras tanto, Anthropic ha publicado una comparación directa entre Claude, ChatGPT y Gemini que muestra a su modelo Claude 3 Opus dominando.

Aunque estos puntos de referencia son sin duda útiles, algunos expertos en aprendizaje automático especulan que este tipo de pruebas exagera el progreso de los LLMs. A medida que se lanzan nuevos modelos, pueden (quizás accidentalmente) ser entrenados en sus propios datos de evaluación. Como resultado, mejoran cada vez más en las pruebas estandarizadas, pero cuando se les pide que descubran nuevas variaciones de esas mismas preguntas, a veces tienen dificultades.

Para tener una idea de cómo se desempeña cada modelo en tareas comunes de uso diario, diseñé mis propias comparaciones. Aquí tienes un resumen general de lo que encontré.

Sigue leyendo para conocer más sobre cómo se desempeñaron Claude y ChatGPT en cada tarea.

  • Creatividad
  • Revisión de textos y verificación de hechos
  • Procesamiento de imágenes
  • Lógica y razonamiento
  • Emoción y ética
  • Análisis y resúmenes
  • Integraciones

Claude es un mejor compañero para la creatividad

Cuando ChatGPT salió por primera vez, comencé donde todos los demás: generando sonetos divertidos de Shakespeare. (Como este sobre evitar el gimnasio: «Con qué frecuencia juro romper este hechizo perezoso, Para ponerme la vestimenta de trabajo y sudor; Pero cuando llega el mañana, ay, habito, En letargo, y nada más que remordimiento.»)

Pero aunque ChatGPT sea un asistente de creatividad fuerte, su producción puede sentirse genérica y florido. Se apoya demasiado en ciertas palabras; como resultado, frases como «Sumergámonos en el cambiante tapiz de…» ahora son claras señales de contenido producido por IA. Aunque un estímulo inteligente puede evitar esto, Claude tiende a sonar más humano desde el principio.

Prueba #1: Tormenta de ideas

Tengo un bebé que ocasionalmente tiene problemas para dormir, así que me preguntaba qué ideas ingeniosas de productos podrían tener Claude y ChatGPT. Ambos fueron efectivos para la tormenta de ideas en este tipo de tarea. Me gustó especialmente la idea del Cordero de Canciones de Cuna de Claude (aunque estoy bastante seguro de que una «luz suave y pulsante» mantendría a nuestra niña despierta).

Aunque no soy un gran fan de la idea de ChatGPT de un «colchón para dormir sensible a la temperatura» para bebés (suena como una demanda esperando suceder), ciertamente siguió mi directiva de crear ideas de productos únicas.

Claude es un asistente de edición superior

La corrección de pruebas y verificación de datos es un caso de uso de IA con un enorme potencial; teóricamente, podría liberar a los editores humanos de horas de revisión tediosa. Pero hasta ahora, su utilidad ha sido limitada por alucinaciones: dado que a los LLMs les gusta darte cualquier respuesta en lugar de ninguna, a veces terminan inventando cosas. Probé a Claude y ChatGPT con esto en mente, y encontré que Claude es un compañero de edición más confiable y seguro.

Prueba #3: Corrección de pruebas

Le di a Claude y ChatGPT un pasaje con errores fácticos y errores ortográficos intencionales. Claude detectó todos mis errores, desde errores fácticos hasta errores de ortografía. La presentación del proceso de corrección de pruebas, con cada error listado individualmente, fue más fácil de entender para mí que la salida de ChatGPT.

ChatGPT también acertó en todo. Pero parecía malinterpretar mi indicación, tomándola más como una directiva para editar los pasajes directamente en lugar de corregirlos. Dado que ChatGPT reescribía cada oración en lugar de señalar los errores uno por uno, era más difícil entender exactamente dónde estaban los errores. Por supuesto, podría solucionar esto con un poco de ingeniería de indicaciones, pero me gustó que Claude supiera lo que quería desde el principio.

Prueba #4: Preguntas fácticas

Tanto ChatGPT como Claude son bastante confiables siempre que les hagas preguntas basadas en hechos que estén cubiertos en sus datos de entrenamiento (es decir, nada de los últimos 6-18 meses). Le pedí a Claude y ChatGPT que me dieran un resumen corto de «explícame como si tuviera cinco años» sobre la historia del mamut lanudo, y ambos manejaron la tarea con precisión.

Después de verificar la salida de ambos LLMs con la Enciclopedia Britannica, quedé satisfecho con su precisión. (Aunque si quisiera ser quisquilloso, sería mejor proporcionar el contexto de que aunque algunas evidencias sugieren que una pequeña población de mamuts lanudos permaneció hasta hace 4,300 años, la mayoría se extinguieron hace 10,000 años).

Ambos son decentes en el procesamiento de imágenes, pero ninguno es confiable

Claude 3 y GPT-4 son relativamente competentes en analizar fotos. Si haces preguntas generales sobre tu foto (como en mi ejemplo de diseño de interiores a continuación), probablemente quedarás satisfecho con el resultado. Dicho esto, ninguno de los modelos es perfecto para identificar objetos y ambos tienen dificultades consistentes para contar objetos.

Prueba #5: Sugerencias de diseño de interiores

Sometí mi sala de estar a una «crítica constructiva» por parte de Claude y ChatGPT. (Feedback de estilo: demasiados tonos neutros, no suficiente color, al parecer). En mis instrucciones, pedí a cada LLM que señalara específicamente las partes de la imagen actual que cambiarían. Claude hizo un buen trabajo siguiendo esas instrucciones, mencionando el arte geométrico de la pared y notando la falta de un centro en la mesa de café.

Aunque Claude comenzó su crítica sin cortesías, ChatGPT reparó mi ego herido al elogiar primero mi configuración actual («Tu sala de estar tiene un aspecto moderno y limpio con algunos elementos encantadores ya en su lugar») antes de hacer sugerencias útiles para cada parte de la habitación.

Prueba #6: Contar objetos

¿Conoces esas pruebas CAPTCHA que todos tomamos para demostrar que no somos robots? Hemos pasado una década o más haciendo clic en bicicletas, pasos de cebra y autobuses, y entrenando algoritmos en el proceso, pero a pesar de nuestro arduo trabajo, los LLMs de hoy en día siguen teniendo problemas para contar.

Le pedí a Claude y ChatGPT que analizaran una imagen de frutas y otra de verduras. Claude estaba confundido. En mi prueba de verduras, clasificó incorrectamente un chile rojo como un pimiento; también ignoró por completo mi solicitud de contar los ítems. En la prueba de frutas a continuación, identificó un «montón de frutas o verduras de tallos verdes» que en realidad no estaba allí, y contó cinco naranjas (hay al menos ocho).

ChatGPT lo hizo mejor que Claude en este caso. Superó mi prueba de verduras sin problemas, aunque aún tuvo dificultades para contar con precisión las naranjas mostradas en mi foto de frutas.

La lógica y el razonamiento son fortalezas para ambos modelos

Las matemáticas y la ciencia siempre han sido un desafío para mí; me habría encantado tener un agente de IA como compañero de estudio omnisciente en mis días de secundaria. Es asombroso ver a Claude y ChatGPT calcular respuestas a problemas complejos en segundos, pero aún pueden cometer errores, así que ten cuidado.

Prueba #7: Resolviendo acertijos

Le eché un vistazo a este acertijo y rápidamente me di por vencido, pero Claude lo manejó fácilmente.

Aunque encontré la respuesta de ChatGPT un poco menos clara que la de Claude, ambas fueron efectivas.

Prueba #8: Ecuaciones de física

Claude manejó este problema de física sin problemas, explicando claramente su enfoque y mostrando su trabajo en cada paso.

Me gustó más el formato de respuesta de ChatGPT. Dado que esta es una pregunta de varias partes, hizo que fuera más fácil saltar a cada respuesta relevante.

Prueba #9: Problemas matemáticos de palabras

Aquí es donde tanto Claude como ChatGPT tuvieron problemas. Ambos sonaban supremamente seguros en sus respuestas y razonamientos, pero ambos terminaron con la respuesta incorrecta.

Claude ni siquiera se molestó en proporcionar una respuesta a la pregunta («¿Cuál es el ancho del río?»). En lugar de eso, después de párrafos de cálculos sofisticados, me dio una ecuación final para que la resolviera yo mismo («Por lo tanto, el ancho del río es de 2000b + 1200 + √(4000000b^2 + 4800000b – 6720000) metros, donde b es la velocidad del segundo bote en m/s»).

La lógica de ChatGPT parecía más sólida, y me ofreció una respuesta. Desafortunadamente, la respuesta era incorrecta (2,100 metros en lugar de 3,600 metros).

Claude tiene un enfoque más humano hacia la emoción y la ética

Después de absorber terabytes de texto generado por humanos, los LLMs se han vuelto bastante buenos simulando emociones humanas y toma de decisiones. Aquí es donde se encuentran actualmente Claude y ChatGPT.

Prueba #10: Análisis de sentimientos

Análisis de sentimientos—el arte de medir las percepciones del público—se utiliza para todo, desde la gestión de la reputación hasta analizar conversaciones de centros de llamadas. Para probar a Claude y ChatGPT en esta tarea, les pedí que evaluaran el sentimiento de un puñado de opiniones que incluyen elementos difíciles de procesar como el sarcasmo, la ambigüedad y el argot.

Ambos Claude y ChatGPT acertaron con cada uno de los sentimientos, navegando la ambigüedad con facilidad e incluso clavando el sarcasmo.

Prueba #11: Dilemas éticos

El desafío ético por excelencia tanto para estudiantes universitarios como para modelos de IA es el «problema del tranvía», un clásico dilema filosófico en el que se te ofrece la posibilidad de sacrificar a una persona para salvar las vidas de cinco. Pero dado que es tan conocido, tanto Claude como ChatGPT regurgitaron pensamientos existentes sobre el tema.

Para provocar una respuesta más interesante, propuse un experimento mental al estilo de «Robin Hood». Fascinantemente, Claude se puso del lado del antihéroe, animándome a no informar de un robo a un banco, ya que el ladrón había donado el dinero a un orfanato. También hizo un buen trabajo explorando ambos lados del argumento. (Me divirtió el uso antropomórfico que Claude hizo de la frase «Personalmente, […] me inclinaría hacia…»)

Mientras tanto, ChatGPT estaba completamente del lado de la ley («Si bien la intención detrás del crimen podría haber sido noble, sigue siendo importante cumplir con la ley y buscar justicia»). Cubriéndose las espaldas, ChatGPT sugiere que quizás sería bueno organizar una recaudación de fondos para el orfanato. Aunque este comportamiento de evitar riesgos es lo que esperaría de un LLM, el consejo de Claude se siente más como lo que haría una persona real.

La ventana de contexto más amplia de Claude lo hace mejor para análisis y resúmenes

Aunque tanto ChatGPT como Claude son hábiles para resumir texto, debes usar a Claude si estás trabajando con documentos extensos. Mientras que Claude 3 puede procesar hasta 200k tokens (~150,000 palabras), GPT-4 solo puede manejar 32k tokens (~22,400 palabras).

Prueba #12: Resumir texto

Cuando subí el texto de 40,000 palabras de El Maravilloso Mago de Oz de L. Frank Baum, solo Claude pudo analizarlo. ChatGPT me dijo: «El mensaje que enviaste era demasiado largo».

Aun así, tanto ChatGPT como Claude lograron resumir textos más cortos sin problema, siendo igualmente efectivos al resumir la carta de 6,900 palabras de Martin Luther King Jr. «Carta desde la cárcel de Birmingham».

Sentí que Claude proporcionó un poco más de contexto que ChatGPT en este caso, pero ambas respuestas fueron precisas.

Prueba #13: Analizar documentos

A veces parece que la IA está asumiendo todas las tareas creativas que nosotros, los humanos, preferiríamos hacer nosotros mismos, como arte, escritura y crear videos. Pero cuando uso un LLM para analizar un PDF de 90 páginas en segundos, me doy cuenta de que la IA también puede liberarnos de una inmensa monotonía.

Para probar las capacidades de análisis de documentos que ahorran tiempo de Claude y ChatGPT, subí un documento de investigación sobre chinchillas.

Ambos LLM extrajeron información útil y precisa. Sin embargo, este documento sobre chinchillas solo tenía nueve páginas. Para documentos más largos (más de alrededor de 20,000 palabras), sería mejor usar a Claude ya que estarías alcanzando los límites superiores de la ventana de contexto de ChatGPT.

Las integraciones de ChatGPT lo convierten en una herramienta más flexible

Según la mayoría de los resultados de evaluación de LLM, así como en la mayoría de mis pruebas de primera mano, Claude 3 tiene una ventaja sobre GPT-4. Pero ChatGPT es una herramienta más flexible en general debido a sus características adicionales e integraciones.

Aquí tienes algunos de los más útiles:

  1. Generación de imágenes DALL·E
  2. Acceso a Internet
  3. GPTs de terceros
  4. GPTs personalizados

Generación de imágenes DALL·E

DALL·E 3, una herramienta de generación de imágenes también desarrollada por OpenAI, es accesible directamente desde ChatGPT. Aunque la capacidad de DALL·E 3 para generar imágenes fotorrealistas ha sido limitada desde su lanzamiento (probablemente debido a preocupaciones sobre el mal uso de las imágenes de IA), sigue siendo uno de los generadores de imágenes de IA más potentes disponibles.

Acceso a Internet

ChatGPT puede acceder a la web a través de WebPilot, entre otros GPTs. Para probar esta función, hice una pregunta sobre un evento de actualidad que había ocurrido en las últimas 48 horas; WebPilot pudo darme un resumen preciso sin problemas.

GPTs de terceros

ChatGPT ofrece una especie de mercado donde cualquiera puede lanzar su propio GPT especializado. Los GPTs populares incluyen un generador de imágenes para colorear, un asistente de investigación de IA, un asistente de codificación e incluso un «entrenador de cuidado de plantas».

GPTs personalizados

También puedes crear tu propio GPT personalizado para que otros interactúen con él, ajustando la configuración detrás de escena para entrenarlo y generar respuestas de cierta manera. También puedes ajustar cómo interactúa con los usuarios: por ejemplo, puedes instruirlo para que use un lenguaje informal o formal.

Para probar esta función, creé Visual Pool Designer, un GPT especializado en crear imágenes fantásticas de piscinas. (¿Hay algo mejor que una piscina de malvaviscos en una fría noche de otoño?)

ChatGPT vs. Claude: ¿Cuál es mejor?

Claude y ChatGPT tienen mucho en común: ambos son potentes LLMs muy adecuados para tareas como análisis de texto, lluvia de ideas y procesamiento de datos. (Ver a cualquiera de estas herramientas resolver una compleja ecuación de física es una maravilla). Pero dependiendo de tu caso de uso de IA previsto, es posible que encuentres uno más útil que el otro.

Si buscas una herramienta de IA para usar como compañero en proyectos creativos, como escritura, edición, lluvia de ideas o corrección de textos, Claude es tu mejor opción. Tu salida predeterminada sonará más natural y menos genérica que la de ChatGPT, y podrás trabajar con textos mucho más extensos y salidas más largas.

Si buscas un LLM todoterreno, ChatGPT es una mejor elección. Generar texto es solo el comienzo: también puedes crear imágenes, navegar por la web o conectarte a GPTs personalizados diseñados para propósitos específicos como la investigación académica.

O, si buscas algo que pueda llevarlo un paso más allá, un chatbot de IA que te ayude a automatizar todos los flujos de trabajo de tu negocio, prueba Zapier Central.

El contenido de este artículo fue traducido desde artículo original

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *