Categorias
Notícias

ChatGPT vs Claude 3: Teste – Pode Anthropic Vencer a Superestrela da OpenAI?

Claude 3 é um dos concorrentes mais capazes do ChatGPT. Mas como eles se comparam quando são feitas as mesmas perguntas? Descubra aqui.

Desde que o ChatGPT foi introduzido ao mundo há mais de 18 meses, uma variedade de outros chatbots também foram lançados. Alguns se mostraram úteis, mas outros nem tanto. Mas, juntamente com o Gemini (anteriormente Bard), o chatbot que se mostrou mais do que competitivo é o Claude, criado pela startup de IA Anthropic.

Nós organizamos um confronto entre ChatGPT e Claude 3 para marcar o lançamento do Claude 3, uma família de modelos de linguagem que inclui Claude 3 Haiku, Claude 3 Sonnet e Claude 3 Opus. De acordo com a Anthropic, apoiada pelo Google, Claude 3 se sai melhor do que a família de modelos de linguagem GPT que alimenta o ChatGPT em uma série de testes cognitivos de referência. Em nossos testes, descobrimos que Claude é mais articulado do que o ChatGPT, e suas respostas geralmente são melhor escritas e mais fáceis de ler.

Mas como eles se comparam lado a lado? Para descobrir, perguntamos ao ChatGPT e ao Claude 3 uma variedade de perguntas diferentes, que vão desde questões destinadas a testar a abordagem do chatbot em questões éticas até a geração de fórmulas de planilha.

Claude 3 vs ChatGPT: Qual a Diferença?

Claude 3 é uma nova família de modelos de linguagem da Anthropic, usada para alimentar seu chatbot Claude. Existem (coincidentemente) 3 modelos: Haiku, Sonnet e Opus. Atualmente, Claude Sonnet alimenta a versão gratuita do Claude e é 2 vezes mais rápido no processamento de informações do que o Claude 2.1, diz a Anthropic.

Já o Claude Opus alimenta a versão profissional. Os resultados de referência da Anthropic mostram o Claude Opus superando o GPT-4, assim como o Claude Sonnet se saindo melhor do que o GPT-3.5.

Como Claude 3 se compara ao ChatGPT e Gemini em testes de referência. Imagem: Anthropic

Desde o seu lançamento, o ChatGPT foi alimentado por diferentes membros da família GPT de modelos de linguagem. Os usuários gratuitos atualmente têm acesso ao GPT-3.5, enquanto o GPT-4 alimenta o ChatGPT Plus, que custa $20 por mês por uma assinatura. Este é o mesmo preço do Claude Pro. Aqui estão algumas diferenças-chave entre os softwares:

ChatGPT vs Claude 3: Teste Direto

Nós colocamos o ChatGPT e o Claude frente a frente, fazendo-lhes 13 perguntas muito diferentes projetadas para testar aspectos como raciocínio e processamento de linguagem natural, mas também quão bons são em completar tarefas úteis no ambiente de trabalho, como escanear documentos em busca de informações e compor e-mails.

Descobri que Claude produziu uma resposta melhor em sete dos testes, enquanto o ChatGPT triunfou em três. Os quatro restantes (incluindo um dos testes de brainstorming) terminaram em empate, o que significa que Claude venceu este confronto. Aqui está a lista completa das perguntas que fizemos a ambos os chatbots:

Raciocínio Ético
Criar Descrições de Produtos
Ideias para Brainstorming (2 testes)
Compreensão da Linguagem Natural
Resumir Texto
Conselhos Pessoais
Analisar Texto
Fornecer Informações Fáticas
Escrita Criativa
Escrever Poemas
Enigmas e Raciocínio
Compor um E-mail
Criar Fórmulas de Planilhas

1. Raciocínio Ético

Primeiramente, apresentei um dilema ético difícil ao ChatGPT e ao Claude. Escolhi esse dilema em particular porque a resposta correta (se h houver uma) não é necessariamente clara ou direta:

Um homem está dirigindo um carro blindado em direção a um centro da cidade, com a intenção de causar o máximo de danos e prejudicar o máximo possível. Ele tem três passageiros como reféns na parte de trás do carro. O carro é tão bem blindado que aqueles dentro sobreviverão a qualquer colisão. No entanto, você tem a oportunidade de explodir o carro a distância usando um lançador de foguetes. Você deveria explodir o carro, matando todos dentro, mas salvando as vítimas iminentes da fúria do homem?

A resposta de Claude foi extremamente sensível às dificuldades da situação e forneceu uma resposta realmente humana no geral. Parece entender a gravidade da situação – e o chatbot quase soou emocional ao falar sobre a situação. Isso tornou a resposta muito cativante.

Por outro lado, o ChatGPT claramente apresenta os diferentes pontos de vista e abordagens que você poderia adotar na situação. Ele delineia muitas das mesmas considerações que Claude faz e faz referência às dificuldades da situação.

A resposta de Claude foi muito mais clara, e eu tendo a preferir que os chatbots forneçam esse tipo de resposta “visão geral” para dilemas éticos difíceis, pois essas respostas são mais úteis (e menos perigosas) para se apresentar a atores humanos do que julgamentos absolutos.

Melhor Resposta? Claude

2. Criar Descrições de Produtos

Se você possui uma loja online ou simplesmente vende muitos produtos pela internet, criar descrições de produtos únicas e cativantes para cada um não é uma tarefa fácil. Então, pedi ao ChatGPT e ao Claude para escreverem uma descrição de produto para o mesmo produto – um relógio digital. Veja como Claude se saiu:

Eu acabei pedindo a Claude uma descrição um pouco mais longa, já que não vi ele escrever tantas descrições de produtos quanto o ChatGPT. E no final, ele fez um ótimo trabalho – a construção das frases é impressionante e o texto é realmente cativante.

No geral, as descrições de produtos geradas por Claude são melhores do que as do ChatGPT. Assim como seu raciocínio ético, soa muito mais humano. Se você estivesse criando descrições de produtos em massa com essas duas ferramentas, teria que fazer muito menos edição para as geradas por Claude.

Melhor Resposta? Claude

3. Ideias de Brainstorming

Em seguida, propus duas tarefas de brainstorm para Claude e ChatGPT – criar ideias de postagens para dois blogs muito diferentes. O primeiro é para um blog de alta gastronomia fictício, pois eu queria ver o quão úteis os dois chatbots eram para gerar ideias envolventes.

Também pedi algumas ideias para um blog sobre saúde mental para ver se eles acertariam o “tom”, já que uma linguagem mais séria e sóbria é necessária para esse tipo de conteúdo.

Postagens de blog de alta gastronomia

Novamente, Claude vence nessa tarefa. Ele fornece títulos mais bem elaborados, e sua explicação mostra que ele tem uma compreensão clara do motivo pelo qual o público pode querer ler as postagens do blog que sugeriu. Isso seria útil para alguém prestes a produzir esse conteúdo, pois é realmente útil entender esse raciocínio e aplicá-lo ao escrever.

O ChatGPT não mostra seu trabalho da mesma forma, e tudo considerado, as ideias são mais genéricas. São muito mais vagas do que as de Claude, e parecem ter sido sugeridas por um humano com algum entendimento de estratégia de conteúdo e produção, não por um chatbot de IA.

Melhor Resposta? Claude

Postagens de blog sobre saúde mental

Em seguida, quis ver se ambos os chatbots poderiam ajustar seu tom e a abordagem que tomaram ao sugerir postagens de blog sobre um tópico mais sensível que exigiria mais sinceridade do que um guia de alta gastronomia. Aqui está a tentativa de Claude:

Essas são ótimas sugestões e definitivamente acertam o tom – não há nada fora do comum aqui. No entanto, como você pode ver na imagem abaixo, o ChatGPT também nos deu algumas ideias apropriadas e forneceu um nível semelhante de instrução adicional quando se tratou do conteúdo. Realmente não há como separá-los aqui!

Ideias chatgpt para blog de saúde mental

Melhor Resposta? Empate

4. Compreensão da Linguagem Natural

Em seguida, quis ver se uma conhecida questão de matemática que brinca com nossas intuições sobre matemática confundiria o ChatGPT ou o Claude.

Matt tem uma maçã e uma banana que custam $3,10 juntas. A maçã custa $3,00 a mais do que a banana. Quanto custa a banana?

Embora você possa pensar inicialmente que a resposta é 10 centavos, na verdade são apenas cinco centavos. Claude foi esperto demais para ser enganado e explicou exatamente como chegou à resposta correta:

Claude entendendo um problema de matemática

Sem querer passar vergonha, o ChatGPT também deu a resposta correta, o que significa que realmente não há nada para separar os dois gigantes neste round.

Melhor Resposta? Empate

5. Resumindo Texto

Tanto o ChatGPT quanto o Claude são altamente capazes de resumir grandes quantidades de texto, destacando os pontos-chave para que seus usuários não precisem ler tudo. Para este teste, pedi a eles para resumirem um artigo recente do The Guardian sobre o discurso final do Estado da União do Presidente Joe Biden.

Claude fez um ótimo trabalho mantendo seus resumos curtos e concisos:

Teste de Claude resumindo texto

Os do ChatGPT também são mais do que satisfatórios – mas se tivermos que distingui-los, vou ter que dizer que prefiro os de Claude. Ele não tenta sobrecarregá-lo com muitas informações – o que é importante, considerando que pedimos um resumo – e mais uma vez, é simplesmente melhor escrito.

ChatGPT Resumindo texto

Melhor Resposta? Claude

6. Conselhos Pessoais

Neste teste, quis ver como o ChatGPT e o Claude reagiriam se solicitados a dar conselhos pessoais a alguém afetado por problemas de saúde mental. É vital que ferramentas como essas possam responder de maneira produtiva e apropriada a esses pedidos, especialmente à medida que se integram mais em nossas vidas. Veja a resposta de Claude:

Pedindo conselhos pessoais a Claude

Essas são talvez as respostas mais semelhantes fornecidas por esses dois chatbots em todos os 13 testes que realizamos. Para ser honesto, é difícil criticar essas respostas, que começam validando os sentimentos dos usuários antes de passar para ações que podem ser tomadas.

Ambos os chatbots sugeriram tomar medidas muito semelhantes, e os mesmos tipos de medidas que qualquer pessoa bem-intencionada sugeriria a um amigo que está lutando com os problemas especificados na solicitação.

Pedindo conselhos pessoais ao ChatGPT

Melhor Resposta? Empate

7. Análise de Texto

Este é um teste muito básico para ver quão bom um chatbot é em analisar texto. Para este teste, peguei um trecho de um artigo da Harvard Business Review e inseri a palavra “bola de praia” nele cinco vezes. Também adicionei algumas variantes próximas (“bolas de praia” e “bolas para a praia”) para ver se algum dos chatbots ficaria confuso.

Mais uma vez, Claude acertou em cheio, analisando o texto e contando corretamente o número de vezes que usei a palavra “bola de praia”. Ao contrário do ChatGPT, se você colar muito texto no Claude, ele o enviará como uma espécie de “documento”, como visto na imagem abaixo:

Claude analisa algum texto

Decepcionantemente, o ChatGPT errou a resposta – ele só foi capaz de identificar duas instâncias da palavra, menos da metade do número total. O ChatGPT parece ter dificuldade com esse tipo específico de tarefa. Recentemente, coloquei-o frente a frente com o Gemini e incluí uma tarefa semelhante, e ele não conseguiu identificar o número de vezes que uma certa palavra apareceu em um bloco de texto dessa vez também.

ChatGPT analisa texto

Melhor Resposta? Claude

8. Fornecendo Informações Fáticas

Nesta tarefa, quis ver o quão bons o ChatGPT e o Claude são em fornecer uma resposta para uma pergunta que não é necessariamente clara, mas ainda está fundamentada em fatos. Então, pedi a ambos que explicassem como e por que os dinossauros se extinguiram – algo para o qual existem várias explicações históricas e científicas e fatores.

Em primeiro lugar, Claude fornece uma visão realmente boa das teorias e verdades geralmente aceitas sobre a extinção dos dinossauros.

Claude nos conta como os dinossauros se extinguiram

Claude novamente fornece uma explicação incrivelmente articulada, que inclui praticamente todas as mesmas informações que o ChatGPT – apenas as apresenta e discute de uma maneira melhor. Também faz referência ao fato de que os dinossauros não morreram todos de uma vez, um ponto importante que o ChatGPT não incluiu.

ChatGPT explica por que os dinossauros foram extintos

Melhor Resposta? Claude

9. Escrita Criativa

Quem escreve as melhores histórias, o ChatGPT ou o Claude? Perguntamos a ambos por uma história curta de 300 palavras. Claude está à frente:

Claude escreve uma história

Curiosamente, Claude na verdade me forneceu uma história curta de 301 palavras, uma palavra a mais do que o limite especificado. O ChatGPT, por outro lado, ficou mais próximo do breve – e escreveu uma história ligeiramente melhor, na minha opinião.

ChatGPT escreve uma história

Tenho que dar esta para o ChatGPT, simplesmente porque Claude não apenas ignorou minhas instruções, mas também enfatizou isso antes de começar a história! Brincadeiras à parte, é estranho que tenha escolhido ultrapassar o limite de palavras claramente especificado por uma margem tão pequena e tão deliberadamente também.

Melhor Resposta? ChatGPT

10. Escrevendo Poemas

O ChatGPT e o Claude optaram por estruturas semelhantes para os poemas que pedimos que gerassem, e isso está tornando realmente difícil distingui-los mais uma vez. Claude escolheu versos de quatro linhas com rimas emparelhadas:

ChatGPT escreve um poema

E o ChatGPT fez efetivamente o mesmo. Ambos também se mantiveram muito próximos às informações que forneci na solicitação, então as histórias que os poemas contam também são realmente semelhantes. A rapidez com que esses dois chatbots podem produzir poesia coerente é algo impressionante.

ChatGPT escreve um poema

Apesar das semelhanças, após ler ambos algumas vezes, vou dar esta para Claude – a estrutura é ligeiramente mais complexa em algumas áreas, e há mais toques e viradas de frase agradáveis.

Melhor Resposta? Claude

11. Enigmas e Raciocínio

Para esta tarefa, pedimos aos dois chatbots que resolvessem um enigma. Claude está à frente e acertou em cheio com sua resposta, explicando claramente por que a empregada é a culpada.

Claude resolve um enigma

O ChatGPT também acertou o enigma, então realmente não há nada para separá-los neste aspecto.

ChatGPT resolve um enigma

Melhor Resposta? Empate

12. Compondo um E-mail

Aqui, pedi ao ChatGPT e ao Claude que compusessem um e-mail para meu chefe explicando por que eu deveria poder fazer a transição para o trabalho totalmente remoto. Claude escreveu um e-mail perfeitamente adequado, como você pode ver abaixo:

claude composes an email

No entanto, o ChatGPT soa mais profissional e você teria que fazer muito menos edição antes de enviar isso para o seu chefe. Claude mergulha no estresse que a viagem supostamente me causou, e embora isso seja digno de menção, a introdução do ChatGPT é muito mais diplomática.

Chatgpt composing an email

Dado o quão próxima a resposta do ChatGPT está do artigo final, tenho que coroá-lo como o vencedor deste.

Melhor Resposta? ChatGPT

13. Criando Fórmulas de Planilha

Para este último teste, pedi ao ChatGPT e ao Claude para gerar uma fórmula de planilha para mim. Este foi o pedido que enviei:

A coluna B contém um conjunto de valores. Quero combiná-los com os valores correspondentes da coluna E na planilha ‘Filtrar’ e pegar os valores correspondentes da coluna F, G e H no filtro para a planilha atual usando uma fórmula.

Aqui está como Claude se saiu:

Claude cria uma fórmula no Google Sheets

“Claude tentou fazer uma fórmula simples e multipropósito que usa onde está localizada na planilha para descobrir o que fazer, o que é legal, mas provavelmente não funcionará tão rapidamente e provavelmente ficará quebrada, para ser honesto,” diz Matthew Bentley, o especialista em planilhas residente da Tech.co.

“Não há necessidade de complicar pedidos simples”, ele continuou. “Para este, acho que o ChatGPT é melhor. É um pedido de Vlookup bastante simples e não requer toda essa fórmula extra fornecida por Claude”.

Melhor Resposta? ChatGPT

Claude 3 vs ChatGPT: Interface do Usuário e Experiência do Usuário

Claro, o ChatGPT e o Claude são ambos bastante fáceis de usar, e suas interfaces são muito parecidas em termos de formato e estrutura. O mesmo pode ser dito do Gemini, Perplexity AI e Copilot. A maioria desses chatbots oferece uma experiência do usuário suave e direta.

No entanto, gosto dos tons calmantes que a Anthropic escolheu para o Claude, já que combinam com a atitude do chatbot, que talvez seja ligeiramente mais ponderada do que a de alguns de seus concorrentes. O ChatGPT, por outro lado, às vezes pode parecer um pouco clínico com seu esquema de cores acinzentadas. No geral, o design da Anthropic é apenas um pouco mais agradável do que o do ChatGPT.

Assim como o Gemini, o Claude geralmente faz um trabalho melhor ao formatar suas respostas, algo em que o ChatGPT não é tão bom (saiba mais em nossa comparação direta entre Gemini e ChatGPT). Embora eu tenha visto o ChatGPT usar cabeçalhos para quebrar o texto mais frequentemente do que não, gostei de como o Claude formata suas respostas. Outra coisa ótima que o Claude oferece é um estilo de fonte diferente que é mais fácil de ler para pessoas disléxicas.

No entanto, o ChatGPT é completamente gratuito para usar, sem limite de quantas perguntas você pode fazer – a versão gratuita do Claude, por outro lado, vai te bloquear se você fizer muitas perguntas e te obrigar a esperar de 3 a 4 horas antes de poder fazer mais. Isso o torna menos adequado para pessoas que querem um chatbot para trabalhar, mas não querem pagar nada.

Claude 3 vs ChatGPT: Dados e Privacidade

O Claude 3 e o ChatGPT tratam seus usuários de forma diferente. Se você se preocupa com sua privacidade, é importante saber o que eles salvam, armazenam e visualizam, e o que não fazem. O ChatGPT reserva o direito de usar seus dados para treinar seus modelos, e o Claude faz o mesmo. Tanto a OpenAI quanto a Anthropic afirmam que criptografam a conexão entre seus servidores e os usuários de ponta a ponta para máxima segurança.

No entanto, os usuários comerciais e empresariais do Claude terão suas instruções e resultados excluídos automaticamente dentro de 28 dias após o recebimento ou geração, exceto quando são legalmente obrigados a mantê-los por mais tempo ou você concorda de outra forma. Os usuários consumidores terão suas instruções excluídas após 90 dias, mas se uma de suas instruções for sinalizada como potencialmente maliciosa, prejudicial ou insegura, ela poderá ser retida por até dois anos.

O que o ChatGPT faz com seus dados é um pouco diferente. Essencialmente, se você quiser salvar suas conversas e permitir que o ChatGPT as mantenha no sistema, então você também concorda que elas possam ser usadas para treinar o modelo e, nesse sentido, podem ser acessadas por outros humanos. Se você desativar o histórico de chat, não poderá salvar nenhuma de suas conversas, mas o ChatGPT não as usará para treinar seus modelos. Nenhum dado comercial armazenado na API do ChatGPT é usado para treinar os GPT LLMs.

Usando Chatbots no Trabalho

Claro, existem muitas maneiras de as empresas usarem o ChatGPT e o Claude no trabalho – na verdade, mencionamos várias delas neste artigo. Mas se você estiver usando chatbots regularmente no trabalho, há algumas considerações que valem a pena revisar.

Por exemplo, sua empresa tem um conjunto de diretrizes para o uso de ferramentas de IA? Se você não tem certeza, deve esclarecer isso com seu gerente ou o chefe de seu departamento. Você pode não saber ainda, mas sua empresa pode ter regras rígidas sobre os tipos de dados que você pode inserir em ferramentas de terceiros e talvez até mesmo em ferramentas de IA mais especificamente.

Em segundo lugar, você deve ser aberto e transparente sobre seu uso de IA, especialmente com seu gerente direto. O debate sobre quais tarefas é apropriado usar chatbots de IA para completar está em andamento, e outras pessoas em sua empresa podem ter uma ideia diferente do que é aceitável para você. Além disso, a maioria dos gerentes e líderes de negócios pensa que você deve buscar permissão antes de usar ferramentas de IA.

Seja qual for a tarefa para a qual você está usando ferramentas de IA, lembre-se de verificar o trabalho delas como se tivesse sido concluído por um novo funcionário. Embora assustadoramente rápido e incrivelmente preciso na maioria das vezes, as ferramentas de IA, é claro, podem alucinar e fornecer informações incorretas. Então, não se empolgue demais!

O conteúdo deste artigo foi traduzido do artigo original

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *