Categorias
Tutoriais

Claude vs. ChatGPT: Qual a diferença? [2024]

Claude é um escritor humano que cria conteúdo com base em seu próprio conhecimento e experiências, enquanto ChatGPT é um chatbot alimentado por IA que gera texto com base em padrões nos dados nos quais foi treinado. A principal diferença é que o conteúdo de Claude é original e subjetivo, enquanto as respostas do ChatGPT são geradas algoritmicamente e podem carecer de perspicácia pessoal.

Quando a OpenAI lançou a primeira iteração do ChatGPT no final de 2022, rapidamente se tornou o aplicativo de crescimento mais rápido de todos os tempos, reunindo mais de cem milhões de usuários em seus dois primeiros meses. O GPT-4, um modelo melhorado lançado em 2023, é agora o padrão pelo qual todos os outros grandes modelos de linguagem (LLMs) são julgados. Recentemente, outro LLM começou a desafiar o ChatGPT por esse título: o Claude 3 da Anthropic.

Eu tenho utilizado o ChatGPT desde o seu lançamento e testado o Claude regularmente nos meses desde seu beta. Para comparar esses dois gigantes da IA, realizei mais de uma dezena de testes para avaliar seu desempenho em diferentes tarefas.

Aqui, vou explicar os pontos fortes e limitações de Claude e ChatGPT, para que você possa decidir qual é o melhor para você.

Claude vs. ChatGPT em uma rápida análise

Claude e ChatGPT são alimentados por LLMs e LMMs igualmente poderosos. No entanto, eles diferem de algumas maneiras importantes: o ChatGPT é mais versátil, com recursos como geração de imagens e acesso à internet, enquanto o Claude oferece acesso mais barato à API e uma janela de contexto muito maior (o que significa que pode processar mais dados de uma vez).

Aqui está um resumo rápido das diferenças entre esses dois modelos de IA.

Para comparar o desempenho de um LLM com outro, as empresas de IA usam benchmarks como testes padronizados. O benchmark da OpenAI do GPT-4 mostra desempenhos impressionantes em exames padronizados como o Exame Uniforme da Ordem dos Advogados, LSAT, GRE e exame de Macroeconomia AP. Enquanto isso, a Anthropic publicou uma comparação direta entre Claude, ChatGPT e Gemini que mostra seu modelo Claude 3 Opus dominando.

Embora esses benchmarks sejam indiscutivelmente úteis, alguns especialistas em aprendizado de máquina especulam que esse tipo de teste superestima o progresso dos LLMs. À medida que novos modelos são lançados, eles podem (talvez acidentalmente) ser treinados em seus próprios dados de avaliação. Como resultado, eles ficam cada vez melhores em testes padronizados – mas quando são solicitados a descobrir novas variações dessas mesmas perguntas, às vezes têm dificuldade.

Para ter uma ideia de como cada modelo se sai em tarefas diárias comuns, elaborei minhas próprias comparações. Aqui está uma visão geral do que descobri.

Continue lendo para saber mais sobre como Claude e ChatGPT se saíram em cada tarefa.

  • Criatividade
  • Revisão e verificação de fatos
  • Processamento de imagens
  • Lógica e raciocínio
  • Emoção e ética
  • Análises e resumos
  • Integrações

Claude é um melhor parceiro para criatividade

Quando o ChatGPT foi lançado, comecei onde todos os outros começaram: gerando sonetos bobos de Shakespeare. (Como este sobre evitar a academia: “Quantas vezes eu prometo quebrar este feitiço preguiçoso, Vestir o traje do trabalho e suor; Mas quando o amanhã chega, infelizmente, eu habito, Na letargia, e nada além de arrependimento.”)

Mas por mais que o ChatGPT seja um assistente de criatividade forte, sua saída pode parecer genérica e florido. Ele depende demais de certas palavras; como resultado, frases como “Vamos mergulhar na tapeçaria sempre mutável de…” são agora pistas claras de conteúdo produzido por IA. Embora uma solicitação inteligente possa evitar isso, o Claude tende a soar mais humano desde o início.

Teste #1: Brainstorming

Tenho um bebê que ocasionalmente tem dificuldade para dormir, então me perguntei que ideias geniais de produtos o Claude e o ChatGPT poderiam ter. Ambos foram eficazes em fazer brainstorming para esse tipo de tarefa. Eu particularmente gostei da ideia do Claude para o Cordeiro de Ninar (embora eu tenha bastante confiança de que uma “luz suave e pulsante” manteria nossa menina bem acordada).

Embora eu não seja fã da ideia do ChatGPT de um “tapete de sono responsivo à temperatura” para bebês (parece uma ação judicial esperando para acontecer), certamente seguiu minha diretriz de criar ideias de produtos únicas.

Claude é um assistente de edição superior

Revisão e verificação de fatos é um caso de uso de IA com um enorme potencial; teoricamente, poderia liberar os editores humanos de horas de revisão tediosa. Mas até agora, sua utilidade tem sido limitada por alucinações: como os LLMs preferem lhe dar qualquer resposta a não responder, às vezes acabam inventando coisas. Testei o Claude e o ChatGPT com isso em mente, e descobri que o Claude é um parceiro de edição mais confiável e confiável.

Teste #3: Revisão

Eu dei a Claude e ao ChatGPT um trecho com erros factuais e erros de ortografia intencionais. Claude pegou todos os meus erros, desde erros factuais até erros de ortografia. A apresentação do processo de revisão – com cada erro listado individualmente – foi mais fácil de entender para mim do que a saída do ChatGPT.

O ChatGPT também acertou tudo. Mas pareceu entender mal minha instrução, interpretando-a mais como uma diretriz para editar os trechos diretamente em vez de revisá-los. Como o ChatGPT reescreveu cada frase, em vez de apontar os erros um por um, foi mais difícil identificar exatamente onde estavam os erros. Claro, eu poderia corrigir isso com um pouco de engenharia de instrução, mas gosto que o Claude tenha entendido o que eu queria desde o início.

Teste #4: Questões factuais

Tanto o ChatGPT quanto o Claude são bastante confiáveis, desde que você lhes faça perguntas baseadas em fatos que estejam cobertos em seus dados de treinamento (ou seja, nada dos últimos 6-18 meses). Pedi ao Claude e ao ChatGPT para me darem um resumo curto “explicado como se eu tivesse cinco anos” da história do mamute-lanoso, e ambos lidaram com a tarefa com precisão.

Após verificar a saída de ambos os LMNs com a Encyclopedia Britannica, fiquei satisfeito com sua precisão. (Embora se eu quisesse ser minucioso, seria melhor fornecer o contexto de que, embora algumas evidências sugiram que uma pequena população de mamutes-lanosos tenha permanecido até 4.300 anos atrás, a maioria estava extinta até 10.000 anos atrás.)

Ambos são decentes no processamento de imagens, mas nenhum é confiável

O Claude 3 e o GPT-4 são relativamente proficientes em analisar fotos. Se você está fazendo perguntas gerais sobre sua foto (como no meu exemplo de design de interiores abaixo), provavelmente ficará satisfeito com o resultado. Dito isso, nenhum dos modelos é perfeito em identificar objetos e ambos têm dificuldades consistentes em contar objetos.

Teste #5: Sugestões de design de interiores

Submeti minha sala de estar a uma “crítica construtiva” pelo Claude e pelo ChatGPT. (Feedback de estilo: muitos neutros, não o suficiente de cor, aparentemente.) Em minhas instruções, pedi a cada LMN para destacar especificamente as partes da imagem atual que eles mudariam. Claude fez um bom trabalho ao seguir essas instruções, mencionando a arte da parede geométrica e notando a falta de um centro de mesa na mesa de café.

Enquanto Claude começou sua crítica sem rodeios, o ChatGPT reparou meu ego ferido elogiando primeiro minha configuração atual (“Sua sala de estar tem um visual moderno e limpo com alguns elementos encantadores já no lugar”) antes de fazer sugestões úteis para cada parte da sala.

Teste #6: Contagem de objetos

Você conhece aqueles testes CAPTCHA que todos fazemos para provar que não somos robôs? Passamos uma década ou mais clicando em bicicletas, faixas de pedestres e ônibus – e treinando algoritmos no processo – mas apesar de nosso trabalho árduo, os LLMs de hoje ainda têm dificuldades com a contagem.

Pedi ao Claude e ao ChatGPT para analisar uma imagem de frutas e outra imagem de legumes. Claude ficou confuso. No meu teste de legumes, classificou erroneamente um pimentão vermelho como um pimentão; também ignorou completamente meu pedido de contar os itens. No teste de frutas abaixo, identificou um “punhado de frutas ou vegetais de caules verdes” que na verdade não estava lá, e contou cinco laranjas (há pelo menos oito).

O ChatGPT se saiu melhor que o Claude neste caso. Passou no meu teste de legumes sem problemas, embora ainda tivesse dificuldades em contar com precisão as laranjas mostradas na minha foto das frutas.

Lógica e raciocínio são pontos fortes de ambos os modelos

Matemática e ciência sempre foram um desafio para mim; eu adoraria ter tido um agente de IA como parceiro de estudo onisciente nos meus tempos de ensino médio. É surpreendente assistir Claude e ChatGPT calcularem respostas para problemas complexos em segundos, mas ainda podem cometer erros – então, tenha cuidado.

Teste #7: Resolvendo charadas

Dei uma olhada nesta charada e desisti rapidamente, mas Claude lidou com ela facilmente.

Enquanto achei a resposta do ChatGPT um pouco menos clara que a de Claude, ambas foram eficazes.

Teste #8: Equações de física

Claude resolveu esse problema de física sem problemas, apresentando sua abordagem de forma clara e mostrando seu trabalho em cada etapa.

Gostei mais da formatação da resposta do ChatGPT. Como esta é uma pergunta com várias partes, tornou mais fácil pular para cada resposta relevante.

Teste #9: Problemas de matemática

Aqui é onde tanto Claude quanto ChatGPT encontraram problemas. Ambos pareciam extremamente confiantes em suas respostas e raciocínio, mas ambos acabaram com a resposta errada.

Claude nem se deu ao trabalho de fornecer uma resposta para a pergunta (“Qual é a largura do rio?”). Em vez disso, após parágrafos de cálculos sofisticados, me deu uma equação final para eu resolver por conta própria (“Portanto, a largura do rio é de 2000b + 1200 + √(4000000b^2 + 4800000b – 6720000) metros, onde b é a velocidade do segundo barco em m/s”).

A lógica do ChatGPT pareceu mais sólida, e ele me ofereceu uma resposta. Infelizmente, a resposta estava errada (2.100 metros em vez de 3.600 metros).

Claude tem uma abordagem mais humana para emoção e ética

Depois de absorver terabytes de texto gerado por humanos, os LLMs têm se saído muito bem na simulação de emoções humanas e tomada de decisões. Aqui está a situação atual entre Claude e ChatGPT.

Teste #10: Análise de sentimento

Análise de sentimento—a arte de medir as percepções da audiência—é usada para tudo, desde gerenciamento de reputação até análise de conversas em centros de chamadas. Para testar Claude e ChatGPT nesta tarefa, pedi a eles que avaliassem o sentimento de uma série de opiniões, incluindo elementos difíceis de processar como sarcasmo, ambiguidade e gírias.

Tanto Claude quanto ChatGPT acertaram cada um dos sentimentos, navegando pela ambiguidade com facilidade e até captando o sarcasmo.

Teste #11: Dilemas éticos

O desafio ético padrão tanto para estudantes universitários quanto para modelos de IA é o “problema do bonde”, um dilema clássico de filosofia no qual você tem a chance de sacrificar uma pessoa para salvar a vida de cinco. Mas como é tão conhecido, tanto Claude quanto ChatGPT regurgitaram pensamentos existentes sobre o tópico.

Para provocar uma resposta mais interessante, propus um experimento de pensamento “à la Robin Hood”. Fascinantemente, Claude se posicionou com o anti-herói, me encorajando a não denunciar um assalto a banco, já que o ladrão doou o dinheiro para um orfanato. Também fez um bom trabalho ao explorar ambos os lados do argumento. (Achei engraçado o uso antropomórfico da frase “Pessoalmente, […] eu tenderia a…”)

Enquanto isso, ChatGPT estava totalmente do lado da lei (“Embora a intenção por trás do crime possa ter sido nobre, ainda é importante manter a lei e buscar a justiça”). Protegendo suas apostas, o ChatGPT sugere que poderia ser bom fazer uma campanha de arrecadação de fundos para o orfanato. Enquanto esse comportamento avesso ao risco é o que eu esperaria de um LLM, o conselho de Claude parece mais com o que uma pessoa real faria.

A janela de contexto maior de Claude torna melhor para análises e resumos

Embora tanto o ChatGPT quanto o Claude sejam hábeis em resumir texto, você vai querer usar o Claude se estiver trabalhando com documentos extensos. Enquanto o Claude 3 pode processar até 200 mil tokens (~150.000 palavras), o GPT-4 só pode lidar com 32 mil tokens (~22.400 palavras).

Teste #12: Resumindo texto

Quando eu enviei o texto de 40.000 palavras de “O Maravilhoso Mágico de Oz” por L. Frank Baum, apenas o Claude foi capaz de analisá-lo. O ChatGPT me disse: “A mensagem que você enviou era muito longa”.

Ainda assim, tanto o ChatGPT quanto o Claude conseguiram resumir textos mais curtos sem problemas – eles foram igualmente eficazes ao resumir as 6.900 palavras da “Carta da Prisão de Birmingham” de Martin Luther King Jr.

Senti que o Claude forneceu um pouco mais de contexto do que o ChatGPT faz aqui, mas ambas as respostas foram precisas.

Teste #13: Analisando documentos

Às vezes parece que a IA está assumindo todas as tarefas criativas que nós humanos preferiríamos fazer nós mesmos, como arte, escrita e criar vídeos. Mas quando uso um LLM para analisar um PDF de 90 páginas em segundos, lembro que a IA também pode nos poupar de um trabalho imenso.

Para testar as capacidades de análise de documentos de Claude e ChatGPT, eu enviei um documento de pesquisa sobre chinchilas.

Ambos LLMs extrairam insights úteis e precisos. No entanto, este documento sobre chinchilas tinha apenas nove páginas. Para documentos mais longos (com mais de cerca de 20.000 palavras), você vai querer usar o Claude, já que estaria alcançando os limites superiores da janela de contexto do ChatGPT.

As integrações do ChatGPT o tornam uma ferramenta mais flexível

De acordo com a maioria dos resultados de referência de LLMs, bem como na maioria dos meus testes em primeira mão, o Claude 3 tem uma vantagem sobre o GPT-4. Mas o ChatGPT é uma ferramenta mais flexível no geral devido aos seus recursos e integrações extras.

Aqui estão alguns dos mais úteis:

  1. Geração de imagens DALL·E
  2. Acesso à internet
  3. GPTs de terceiros
  4. GPTs personalizados

Geração de imagens DALL·E

DALL·E 3, uma ferramenta de geração de imagens também desenvolvida pela OpenAI, é acessível diretamente dentro do ChatGPT. Embora a capacidade do DALL·E 3 de gerar imagens fotorrealistas tenha sido limitada desde o seu lançamento (provavelmente devido a preocupações sobre o uso indevido de imagens de IA), ainda é um dos geradores de imagens de IA mais poderosos disponíveis.

Acesso à internet

O ChatGPT pode acessar a web através do WebPilot, entre outros GPTs. Para testar esse recurso, fiz uma pergunta sobre um evento de notícias que havia acontecido nas últimas 48 horas; o WebPilot foi capaz de me dar um resumo preciso sem problemas.

GPTs de terceiros

ChatGPT oferece uma espécie de mercado onde qualquer um pode lançar seu próprio GPT especializado. GPTs populares incluem um gerador de imagens de livro de colorir, um assistente de pesquisa de IA, um assistente de codificação e até mesmo um “treinador de cuidados com plantas”.

GPTs Personalizados

Você também pode criar seu próprio GPT personalizado para que outros interajam, ajustando configurações nos bastidores para treiná-lo a gerar respostas de uma certa maneira. Você também pode ajustar como ele interage com os usuários: por exemplo, pode instruí-lo a usar linguagem casual ou formal.

Para testar esse recurso, criei o Visual Pool Designer, um GPT especializado em criar imagens fantásticas de piscinas. (Existe algo melhor do que uma piscina de marshmallow em uma noite fria de outono?)

ChatGPT vs. Claude: Qual é melhor?

Claude e ChatGPT têm muito em comum: ambos são LLMs poderosos adequados para tarefas como análise de texto, brainstorming e análise de dados. (Ver qualquer uma dessas ferramentas trabalhando em uma equação de física complexa é uma maravilha.) Mas, dependendo do caso de uso de IA pretendido, você pode achar um mais útil que o outro.

Se você deseja uma ferramenta de IA para usar como parceiro de sparring em projetos criativos – escrita, edição, brainstorming ou revisão – Claude é a melhor opção. Sua saída padrão soará mais natural e menos genérica do que a do ChatGPT, e você poderá trabalhar com prompts e saídas muito mais longas.

Se você está procurando um LLM para várias funções, o ChatGPT é uma escolha melhor. Gerar texto é apenas o começo: você também pode criar imagens, navegar na web ou se conectar a GPTs personalizados treinados para fins específicos como pesquisa acadêmica.

Ou, se você está procurando algo que possa ir um passo adiante – um chatbot de IA que pode ajudá-lo a automatizar todos os fluxos de trabalho de negócios – experimente o Zapier Central.

O conteúdo deste artigo foi traduzido do artigo original

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *