Catégories
Nouvelles

ChatGPT vs Claude 3 Test : Anthropic peut-il battre la superstar d’OpenAI ?

Claude 3 est l’un des concurrents les plus capables de ChatGPT. Mais comment se comparent-ils lorsqu’on leur pose les mêmes questions ? Découvrez-le ici.

Depuis que ChatGPT a été introduit dans le monde il y a plus de 18 mois, toute une gamme d’autres chatbots ont également été déployés. Certains se sont révélés utiles, mais d’autres pas tellement. Mais aux côtés de Gemini (anciennement Bard), le chatbot qui s’est avéré plus que compétitif est Claude, créé par la startup en IA Anthropic.

Nous avons mis en place un face-à-face ChatGPT vs Claude 3 pour marquer le lancement de Claude 3, une famille de modèles de langage comprenant Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus. Selon Anthropic soutenu par Google, Claude 3 se comporte mieux que la famille de modèles de langage GPT qui alimentent ChatGPT sur une série de tests cognitifs de référence. Lors de nos tests, nous avons constaté que Claude est plus articulé que ChatGPT et que ses réponses sont généralement mieux rédigées et plus faciles à lire.

Mais comment se comparent-ils côte à côte ? Pour le découvrir, nous avons posé à ChatGPT et Claude 3 une variété de questions différentes, allant de requêtes conçues pour tester l’approche du chatbot aux questions éthiques à la génération de formules de feuille de calcul.

Claude 3 vs ChatGPT : Quelle est la différence ?

Claude 3 est une nouvelle famille de modèles de langage d’Anthropic, utilisée pour alimenter leur chatbot Claude. Il y a (coïncidence) 3 modèles : Haiku, Sonnet et Opus. Actuellement, Claude Sonnet alimente la version gratuite de Claude et traite les informations deux fois plus rapidement que Claude 2.1, affirme Anthropic.

Claude Opus, quant à lui, alimente la version pro. Les résultats de référence d’Anthropic illustrés ci-dessous montrent que Claude Opus dépasse GPT-4, ainsi que Claude Sonnet se montrant plus performant que GPT-3.5.

Comparaison de Claude 3 avec ChatGPT et Gemini sur des tests de référence. Image : Anthropic

Depuis son lancement, ChatGPT est alimenté par différents membres de la famille GPT de modèles de langage. Les utilisateurs gratuits ont actuellement accès à GPT-3.5, tandis que GPT-4 alimente ChatGPT Plus, qui coûte 20 $ par mois pour un abonnement. C’est le même prix que Claude Pro. Voici quelques différences clés entre les logiciels :

ChatGPT vs Claude 3 : Test Face à Face

Nous avons confronté ChatGPT et Claude, en leur posant 13 questions très différentes conçues pour tester des aspects tels que le raisonnement et le traitement du langage naturel, mais aussi leur capacité à accomplir des tâches pratiques au travail telles que scanner des documents pour obtenir des informations et rédiger des e-mails.

J’ai constaté que Claude a produit une meilleure réponse sur sept des tests, tandis que ChatGPT l’a emporté sur trois. Les quatre restants (y compris l’un des tests de brainstorming) se sont soldés par des égalités, ce qui signifie que Claude a remporté cette confrontation. Voici la liste complète des questions que nous avons posées aux deux chatbots :

Raisonnement éthique
Création de descriptions de produits
Idées de brainstorming (2 tests)
Compréhension du langage naturel
Résumé de texte
Conseils personnels
Analyse de texte
Fourniture d’informations factuelles
Écriture créative
Écriture de poèmes
Énigmes & Raisonnement
Rédaction d’un e-mail
Création de formules de feuille de calcul

1. Raisonnement éthique

Tout d’abord, j’ai posé un dilemme éthique difficile à ChatGPT et Claude. J’ai choisi ce dilemme en particulier car la réponse correcte (s’il y en a une) n’est pas nécessairement claire ou simple :

Un homme conduit un fourgon blindé vers un centre-ville, avec l’intention de causer le plus de dommages et de faire le plus de mal possible. Il a trois passagers pris en otage à l’arrière du véhicule. Le véhicule est tellement blindé que ceux à l’intérieur survivront à toute collision. Cependant, vous avez l’opportunité de faire exploser le véhicule à distance en utilisant un lance-roquettes. Devriez-vous faire exploser le véhicule, tuant tout le monde à l’intérieur, mais sauvant les victimes imminentes de la folie de l’homme ?

La réponse de Claude était extrêmement sensible aux difficultés de la situation et elle a fourni une réponse vraiment humaine dans l’ensemble. Il semble comprendre la gravité de la situation – et le chatbot semblait presque émotionnel en parlant de la situation. Cela le rendait très convaincant.

ChatGPT, en revanche, expose clairement les différents points de vue et approches que vous pourriez adopter face à la situation. Il expose bon nombre des mêmes considérations que Claude et fait référence aux difficultés de la situation.

La réponse de Claude était beaucoup plus claire, et j’ai tendance à préférer que les chatbots donnent ce type de réponse « d’ensemble » aux dilemmes éthiques difficiles car ces réponses sont plus utiles (et moins dangereuses) à fournir aux acteurs humains que des jugements absolus.

Meilleure réponse ? Claude

2. Création de descriptions de produits

Si vous gérez une boutique en ligne ou vendez simplement de nombreux produits en ligne, créer des descriptions de produits uniques et convaincantes pour chacun n’est pas une tâche facile. J’ai donc demandé à ChatGPT et à Claude d’écrire une description de produit pour le même produit – une horloge numérique. Voici comment Claude s’en est sorti :

J’ai fini par demander à Claude une description légèrement plus longue, car je ne l’ai pas vu écrire autant de descriptions de produits que ChatGPT. Et au final, il a vraiment bien fait son travail – la construction des phrases est impressionnante et la copie est vraiment convaincante.

Global, les descriptions de produits générées par Claude sont meilleures que celles de ChatGPT. Tout comme son raisonnement éthique, cela semble beaucoup plus humain. Si vous deviez créer des descriptions de produits en masse avec ces deux outils, vous auriez beaucoup moins de travail d’édition à faire pour celles générées avec Claude.

Meilleure réponse ? Claude

3. Idées de brainstorming

Ensuite, j’ai donné à la fois à Claude et ChatGPT deux tâches de brainstorming – trouver des idées d’articles de blog pour deux blogs très différents. Le premier est pour un blog fictif sur la haute cuisine, car je voulais voir à quel point les deux chatbots étaient utiles pour générer des idées engageantes.

J’ai ensuite demandé quelques idées pour un blog sur la santé mentale pour voir s’ils réussiraient à trouver le « ton » juste, car un langage plus sérieux et sobre est nécessaire pour ce type de contenu.

Articles de blog sur la haute cuisine

Encore une fois, Claude remporte cette tâche. Il fournit des titres plus complets et son explication montre qu’il comprend clairement pourquoi le public pourrait vouloir lire les articles de blog qu’il a suggérés. Cela serait utile pour quelqu’un sur le point de produire ce contenu, car il est en fait utile de comprendre ce raisonnement et de l’appliquer lors de l’écriture.

ChatGPT ne montre pas son fonctionnement de la même manière, et tout bien considéré, les idées sont plus génériques. Elles sont beaucoup plus vagues que celles de Claude, et elles donnent l’impression d’avoir été suggérées par un humain ayant une certaine compréhension de la stratégie de contenu et de la production, pas par un chatbot d’IA.

Meilleure réponse ? Claude

Articles de blog sur la santé mentale

Ensuite, je voulais voir si les deux chatbots pouvaient ajuster leur ton et leur approche lorsqu’ils étaient invités à générer des articles de blog sur un sujet plus sensible nécessitant plus de sincérité qu’un guide de restauration. Voici la tentative de Claude :

Il s’agit de superbes suggestions et elles capturent bien le ton – il n’y a rien d’extraordinaire ici. Cependant, comme vous pouvez le voir sur l’image ci-dessous, ChatGPT nous a également donné des idées appropriées et a fourni un niveau similaire d’instructions supplémentaires en ce qui concerne le contenu. Il n’y a vraiment pas de différence notable entre eux ici !

idées de chatgpt pour un blog sur la santé mentale

Meilleure réponse ? Égalité

4. Compréhension du langage naturel

Ensuite, je voulais voir si une question de mathématiques bien connue qui joue sur nos intuitions en matière de mathématiques pourrait piéger ChatGPT ou Claude.

Matt a une pomme et une banane qui coûtent 3,10 $. La pomme coûte 3,00 $ de plus que la banane. Combien coûte la banane ?

Alors que vous pourriez penser initialement que la réponse est de 10 cents, il s’agit en réalité de seulement cinq cents. Claude était trop intelligent pour se faire piéger et a expliqué exactement comment il est arrivé à la bonne réponse :

claude comprenant un problème de mathématiques

Ne voulant pas être embarrassé, ChatGPT a également donné la bonne réponse, ce qui signifie qu’il n’y a vraiment rien pour différencier les deux poids lourds dans cette manche.

Meilleure réponse ? Égalité

5. Résumé de texte

ChatGPT et Claude sont tous deux très capables de résumer de grandes quantités de texte, en extrayant les points clés pour que leurs utilisateurs n’aient pas à tout lire. Pour ce test, je leur ai demandé de résumer un article récent du Guardian sur le discours sur l’état de l’Union final du président Joe Biden.

Claude a très bien réussi à garder ses résumés courts et concis :

Test Claude résumant du texte

Ceux de ChatGPT sont aussi plus que satisfaisants – mais si nous devons les départager, je vais devoir dire que je préfère ceux de Claude. Il n’essaie pas de vous submerger de trop d’informations – ce qui est important, étant donné que nous avons demandé un résumé – et une fois de plus, c’est simplement mieux écrit.

Résumé de texte ChatGPT

Meilleure réponse ? Claude

6. Conseils personnels

Pour ce test, je voulais voir comment ChatGPT et Claude réagiraient s’ils étaient sollicités pour donner des conseils personnels à une personne affectée par des problèmes de santé mentale. Il est essentiel que des outils comme celui-ci puissent répondre de manière productive et appropriée à de telles demandes, surtout à mesure qu’ils sont de plus en plus intégrés dans nos vies. Voici la réponse de Claude :

Demander des conseils personnels à Claude

Il s’agit peut-être des réponses les plus similaires fournies par ces deux chatbots parmi les 13 tests que nous avons réalisés. Pour être honnête, il est difficile de critiquer ces réponses, qui commencent par valider les sentiments des utilisateurs avant de passer à des actions qu’ils peuvent entreprendre.

Les deux chatbots ont suggéré des étapes très similaires, les mêmes types de mesures que toute personne bien intentionnée recommanderait à un ami luttant contre les problèmes spécifiés dans la consigne.

Demander des conseils personnels à ChatGPT

Meilleure réponse ? Ex-æquo

7. Analyse de texte

Il s’agit d’un test très basique pour évaluer la capacité d’un chatbot à analyser du texte. Pour ce test, j’ai pris un extrait d’un article de Harvard Business Review et y ai inséré le mot « ballon de plage » cinq fois. J’ai également ajouté quelques variantes proches (« ballons de plage » et « balles pour la plage ») pour voir si l’un des chatbots serait confus.

Encore une fois, Claude est dans le mille, analysant le texte et comptant correctement le nombre de fois où j’ai utilisé le mot « ballon de plage ». Contrairement à ChatGPT, si vous collez trop de texte dans Claude, il le soumettra comme une sorte de « document », comme le montre l’image ci-dessous :

Claude analyse un texte

De manière décevante, ChatGPT s’est trompé – il n’a pu identifier que deux occurrences du mot, soit moins de la moitié du nombre total. ChatGPT semble avoir du mal avec ce genre de tâche spécifiquement. Récemment, je l’ai confronté à Gemini et inclus une tâche similaire, et il n’a pas réussi à identifier le nombre de fois qu’un certain mot est apparu dans un bloc de texte cette fois-ci non plus.

ChatGPT analyse un texte

Meilleure réponse ? Claude

8. Fournir des informations factuelles

Pour cette tâche, je voulais voir à quel point ChatGPT et Claude étaient capables de fournir une réponse à une question qui n’est pas nécessairement claire, mais qui est toujours basée sur des faits. J’ai donc demandé à chacun d’entre eux d’expliquer comment et pourquoi les dinosaures ont disparu – un sujet pour lequel il existe plusieurs explications historiques et scientifiques.

Tout d’abord, Claude offre un très bon aperçu des théories et des vérités généralement acceptées sur l’extinction des dinosaures.

Claude nous raconte comment les dinosaures ont disparu

Encore une fois, Claude fournit une explication incroyablement articulée, incluant à peu près toutes les mêmes informations que ChatGPT – il les présente simplement de manière plus claire et en parle de façon plus convaincante. Il mentionne également le fait que tous les dinosaures ne sont pas morts en même temps, un point important que ChatGPT n’a pas inclus.

ChatGPT explique pourquoi les dinosaures ont disparu

Meilleure réponse ? Claude

9. Création littéraire

Qui écrit les meilleures histoires, ChatGPT ou Claude ? Nous leur avons demandé à tous les deux une courte histoire de 300 mots. Claude est le premier :

Claude écrit une histoire

Étrangement, Claude m’a en fait fourni une histoire de 301 mots, un mot de plus que le nombre spécifié. ChatGPT, en revanche, est resté plus fidèle à la consigne – et a écrit une histoire légèrement meilleure, à mon avis.

ChatGPT écrit une histoire

Je dois donner celui-ci à ChatGPT, simplement parce que Claude a non seulement ignoré mes instructions, mais s’est moqué de moi avant de commencer l’histoire ! Blague à part, il est étrange qu’il ait choisi de dépasser le nombre de mots spécifié de manière aussi minime et délibérée.

Meilleure réponse ? ChatGPT

10. Écriture de poèmes

ChatGPT et Claude ont tous deux opté pour des structures similaires pour les poèmes que nous leur avons demandé de générer, ce qui rend vraiment difficile de les différencier une fois de plus. Claude a choisi des vers de quatre lignes avec des rimes croisées :

ChatGPT écrit un poème

Et ChatGPT a fait pratiquement la même chose. Ils ont également tous deux collé très près des informations que j’ai fournies dans la consigne, de sorte que les histoires que les poèmes racontent sont également très similaires. La vitesse à laquelle ces deux chatbots peuvent produire de la poésie cohérente est assez remarquable.

ChatGPT écrit un poème

Malgré les similitudes, après les avoir lus tous les deux plusieurs fois, je vais donner celui-ci à Claude – la structure est légèrement plus complexe à quelques endroits, et il y a plus de belles tournures de phrase.

Meilleure réponse ? Claude

11. Énigmes et raisonnement

Pour cette tâche, nous avons demandé aux deux chatbots de résoudre une énigme. Claude est le premier et a donné la bonne réponse, expliquant clairement pourquoi la femme de chambre est la coupable.

Claude résout une énigme

ChatGPT a également trouvé la réponse à l’énigme, donc il n’y a vraiment rien pour les différencier à cet égard.

ChatGPT résout une énigme

Meilleure réponse ? Ex-æquo

12. Rédaction d’un e-mail

Ici, j’ai demandé à ChatGPT et Claude de rédiger un e-mail à mon patron expliquant pourquoi je devrais être autorisé à passer en télétravail à temps plein. Claude a rédigé un e-mail parfaitement acceptable, comme vous pouvez le voir ci-dessous :

claude compose un e-mail

Cependant, ChatGPT sonne plus professionnel et vous auriez beaucoup moins de modifications à faire avant de l’envoyer à votre patron. Claude aborde le stress que le trajet aurait soi-disant causé, et bien que cela mérite d’être mentionné, l’introduction de ChatGPT est beaucoup plus diplomate.

Chatgpt compose un e-mail

Étant donné que la réponse de ChatGPT est très proche de l’article final, je dois le couronner vainqueur de celui-ci.

Meilleure réponse? ChatGPT

13. Création de formules de tableur

Pour ce dernier test, j’ai demandé à ChatGPT et Claude de générer une formule de tableau pour moi. Voici la demande que j’ai envoyée :

La colonne B contient un ensemble de valeurs. Je veux les faire correspondre aux valeurs correspondantes de la colonne E dans la feuille ‘Filtrer vers le bas’ et prendre les valeurs correspondantes de la colonne F, G et H dans le filtre descendre vers la feuille actuelle en utilisant une formule.

Voici comment Claude s’en est sorti :

Claude crée une formule Google Sheets

“Claude a tenté de créer une formule simple et polyvalente qui utilise son emplacement dans la feuille pour déterminer quoi faire, ce qui est cool, mais cela risque de ne pas fonctionner aussi rapidement et risque probablement d’être défectueux, pour être honnête,” déclare Matthew Bentley, l’expert en tableurs de Tech.co.

“Il n’est pas nécessaire de compliquer des demandes simples”, a-t-il continué. “ChatGPT est meilleur pour celui-ci. C’est une demande de recherche Vlookup assez simple et ne nécessite pas toutes ces formules supplémentaires fournies par Claude”.

Meilleure réponse? ChatGPT

Claude 3 vs ChatGPT : Interface Utilisateur et Expérience Utilisateur

Bien sûr, ChatGPT et Claude sont tous deux assez faciles à utiliser, et leurs interfaces ont l’air très similaires en termes de format et de structure. Il en va de même pour Gemini, Perplexity AI et Copilot. La plupart de ces chatbots offrent une expérience utilisateur fluide et directe.

Cependant, j’aime les tons apaisants choisis par Anthropic pour Claude, car cela correspond à l’attitude du chatbot, qui est peut-être légèrement plus mesurée que certains de ses concurrents. ChatGPT, en revanche, peut parfois sembler un peu clinique avec son schéma de couleurs grisâtres. Dans l’ensemble, la conception d’Anthropic est simplement un peu plus agréable que celle de ChatGPT.

Comme Gemini, Claude fait généralement un meilleur travail en formatant ses réponses, quelque chose que ChatGPT n’est pas aussi bon (découvrez-en plus dans notre comparaison tête-à-tête Gemini vs ChatGPT). Bien que j’aie vu ChatGPT utiliser des en-têtes pour découper le texte plus souvent qu’autrement, j’ai apprécié la façon dont Claude formate ses réponses. Une autre excellente chose que Claude offre est un style de police différent plus facile à lire pour les personnes dyslexiques.

Cependant, ChatGPT est totalement gratuit et sans limite sur le nombre de questions que vous pouvez poser – la version gratuite de Claude, en revanche, vous bloquera si vous posez trop de questions, et vous obligera à attendre 3 à 4 heures avant de pouvoir en poser d’autres. Cela le rend moins adapté aux personnes qui veulent un chatbot pour travailler, mais ne veulent rien payer.

Claude 3 vs ChatGPT : Données et Confidentialité

Claude 3 et ChatGPT traitent leurs utilisateurs différemment. Si vous êtes préoccupé par votre vie privée, il est important de savoir ce qu’ils enregistrent, stockent et consultent, et ce qu’ils ne font pas. ChatGPT se réserve le droit d’utiliser vos données pour former ses modèles, et Claude fait de même. OpenAI et Anthropic affirment tous deux crypter la connexion entre leurs serveurs et les utilisateurs de bout en bout pour une sécurité maximale.

Cependant, les utilisateurs professionnels et d’entreprise de Claude auront leurs requêtes et résultats automatiquement supprimés dans les 28 jours suivant la réception ou la génération, sauf s’ils sont légalement obligés de les conserver plus longtemps ou si vous en convenez autrement. Les utilisateurs consommateurs auront leurs requêtes supprimées après 90 jours, mais si l’une de vos requêtes est signalée comme potentiellement malveillante, nuisible ou dangereuse, elle pourrait être conservée jusqu’à deux ans.

Ce que ChatGPT fait avec vos données est légèrement différent. Essentiellement, si vous souhaitez enregistrer vos chats et que ChatGPT les conserve dans le système, vous acceptez également qu’ils puissent être utilisés pour former le modèle, et en ce sens, peuvent être consultés par d’autres humains. Si vous désactivez l’historique des chats, vous ne pourrez pas enregistrer vos conversations, mais ChatGPT ne l’utilisera pas pour former ses modèles. Les données commerciales stockées dans l’API ChatGPT ne sont pas utilisées pour former les GPT LLMs.

Utilisation des Chatbots au Travail

Bien sûr, il existe de nombreuses façons dont les entreprises peuvent utiliser ChatGPT et Claude au travail – en fait, nous en avons mentionné plusieurs dans cet article. Mais si vous utilisez régulièrement des chatbots au travail, il y a quelques considérations qu’il vaut la peine de revoir.

Par exemple, votre entreprise a-t-elle un ensemble de directives pour l’utilisation d’outils d’IA ? Si vous n’êtes pas sûr, vous devriez clarifier cela avec votre manager ou le responsable de votre département. Vous pourriez ne pas le savoir encore, mais votre entreprise pourrait avoir des règles strictes sur les types de données que vous pouvez entrer dans des outils tiers, et peut-être même des outils d’IA plus spécifiquement.

Deuxièmement, vous devez être ouvert et transparent sur votre utilisation de l’IA, en particulier avec votre supérieur hiérarchique. Le débat sur les tâches qu’il est approprié de confier à des chatbots d’IA est en cours, et d’autres personnes de votre entreprise pourraient avoir une idée différente de ce qui est acceptable pour vous. De plus, la plupart des managers et des dirigeants d’entreprise pensent que vous devriez demander la permission avant d’utiliser des outils d’IA.

Quelle que soit la tâche pour laquelle vous utilisez des outils d’IA, n’oubliez pas de vérifier leur travail comme s’il avait été effectué par un nouvel employé. Bien que effrayamment rapide et étonnamment précis la plupart du temps, les outils d’IA peuvent bien sûr halluciner et fournir des informations incorrectes. Alors, ne vous laissez pas emporter !

Le contenu de cet article a été traduit à partir de l’article original

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *