Catégories
Tutoriels

Claude vs. ChatGPT : Quelle est la différence ? [2024]

Claude est un écrivain humain qui crée du contenu basé sur ses propres connaissances et expériences, tandis que ChatGPT est un chatbot alimenté par l’IA qui génère du texte en fonction de modèles de données sur lesquels il a été formé. La principale différence est que le contenu de Claude est original et subjectif, tandis que les réponses de ChatGPT sont générées de manière algorithmique et peuvent manquer d’insight personnel.

Lorsque OpenAI a lancé la première itération de ChatGPT fin 2022, il est rapidement devenu l’application à la croissance la plus rapide de tous les temps, rassemblant plus de cent millions d’utilisateurs au cours de ses deux premiers mois. GPT-4, un modèle amélioré sorti en 2023, est désormais la référence selon laquelle tous les autres grands modèles de langage (GML) sont évalués. Récemment, un autre GML a commencé à défier ChatGPT pour ce titre : le Claude 3 d’Anthropic.

J’utilise ChatGPT depuis sa sortie et j’ai testé régulièrement Claude au cours des mois suivant sa version bêta. Pour comparer ces deux géants de l’IA, j’ai réalisé plus d’une douzaine de tests pour évaluer leurs performances sur différentes tâches.

Ici, je vais expliquer les forces et les limites de Claude et ChatGPT, afin que vous puissiez décider lequel est le mieux pour vous.

Claude vs. ChatGPT en un coup d’œil

Claude et ChatGPT sont propulsés par des GML et des GMM aussi puissants l’un que l’autre. Cependant, ils diffèrent sur certains points importants : ChatGPT est plus polyvalent, avec des fonctionnalités telles que la génération d’images et l’accès à Internet, tandis que Claude offre un accès API moins cher et une fenêtre de contexte beaucoup plus grande (ce qui signifie qu’il peut traiter plus de données à la fois).

Voici un bref résumé des différences entre ces deux modèles d’IA.

Pour comparer les performances d’un GML à un autre, les entreprises d’IA utilisent des benchmarks comme des tests standardisés. Le benchmark d’OpenAI sur le GPT-4 montre des performances impressionnantes sur des examens standard tels que le Barreau uniforme, le LSAT, le GRE et l’examen de macroéconomie AP. Pendant ce temps, Anthropic a publié une comparaison directe de Claude, ChatGPT et Gemini qui montre que son modèle Claude 3 Opus domine.

Alors que ces benchmarks sont sans aucun doute utiles, certains experts en apprentissage automatique spéculent que ce type de tests exagère les progrès des GML. À mesure que de nouveaux modèles sont publiés, ils peuvent (peut-être accidentellement) être entraînés sur leurs propres données d’évaluation. Par conséquent, ils s’améliorent de plus en plus aux tests standardisés, mais lorsqu’on leur demande de résoudre de nouvelles variations de ces mêmes questions, ils ont parfois du mal.

Pour avoir une idée de la performance de chaque modèle sur des tâches courantes, j’ai conçu mes propres comparaisons. Voici un aperçu global de ce que j’ai trouvé.

Continuez à lire pour en savoir plus sur la performance de Claude et ChatGPT sur chaque tâche.

  • Créativité
  • Relecture et vérification des faits
  • Traitement d’images
  • Logique et raisonnement
  • Émotion et éthique
  • Analyse et résumés
  • Intégrations

Claude est un meilleur partenaire pour la créativité

Lorsque ChatGPT est sorti pour la première fois, j’ai commencé là où tout le monde le faisait : générer des sonnets de Shakespeare loufoques. (Comme celui-ci sur l’évitement de la salle de sport : « Combien de fois je jure de briser ce sort paresseux, De revêtir l’habit de l’effort et de la sueur ; Mais quand vient le lendemain, hélas, je réside, Dans la léthargie, et rien que des regrets. »).

Mais aussi bon assistant à la créativité que ChatGPT puisse être, sa production peut sembler générique et fleurie. Il s’appuie trop fortement sur certains mots ; par conséquent, des phrases comme « Explorons la tapisserie toujours changeante de… » sont maintenant des révélations évidentes de contenu produit par IA. Bien que des incitations astucieuses puissent éviter cela, Claude a tendance à sonner plus humain dès le départ.

Test n°1 : Brainstorming

J’ai un bébé qui a parfois du mal à dormir, alors je me demandais ce que Claude et ChatGPT pourraient avoir comme idées de produits ingénieux. Les deux étaient efficaces pour brainstormer pour ce type de tâche. J’ai particulièrement aimé l’idée du Mouton Berceur de Claude (bien que je sois assez confiant qu’une « lumière douce et pulsante » maintiendrait notre fille éveillée).

Alors que je ne suis pas un grand fan de l’idée de ChatGPT pour un « tapis de sommeil réactif à la température » pour les bébés (cela ressemble à un procès en attente de se produire), il a certainement suivi ma directive de créer des idées de produits uniques.

Claude est un assistant à l’édition supérieur

La relecture et la vérification des faits sont des cas d’utilisation de l’IA avec un énorme potentiel ; théoriquement, cela pourrait libérer les éditeurs humains de nombreuses heures de révision fastidieuse. Mais jusqu’à présent, son utilité a été limitée par des hallucinations : comme les GML préféreraient vous donner n’importe quelle réponse plutôt que pas de réponse du tout, ils finissent parfois par inventer des choses. J’ai testé Claude et ChatGPT en gardant cela à l’esprit, et j’ai trouvé Claude comme partenaire d’édition plus fiable et digne de confiance.

Test n°3 : Relecture

J’ai donné à Claude et ChatGPT un passage avec des erreurs factuelles intentionnelles et des fautes d’orthographe. Claude a repéré toutes mes erreurs, des erreurs factuelles aux fautes d’orthographe. La présentation du processus de relecture, avec chaque erreur répertoriée individuellement, a été plus facile à comprendre pour moi que la sortie de ChatGPT.

ChatGPT a également tout fait correctement. Mais il semblait mal comprendre ma consigne, la prenant davantage comme une directive pour éditer directement les passages plutôt que de les relire. Comme ChatGPT a réécrit chaque phrase au lieu de signaler les erreurs une par une, il était plus difficile de savoir exactement où se trouvaient les erreurs. Bien sûr, je pourrais arranger cela avec un peu d’ingénierie de la consigne, mais j’apprécie que Claude ait su ce que je voulais dès le départ.

Test #4: Questions factuelles

ChatGPT et Claude sont tous deux assez fiables tant que vous leur posez des questions factuelles couvertes par leurs données d’entraînement (c’est-à-dire rien des 6 à 18 derniers mois). J’ai demandé à Claude et ChatGPT de me donner un bref résumé de l’histoire du mammouth laineux comme si j’avais cinq ans, et les deux ont géré la tâche de manière précise.

Après avoir vérifié la sortie des deux LLMs avec l’Encyclopédie Britannica, j’étais satisfait de leur précision. (Bien que si je voulais chipoter, il serait préférable de préciser qu’après que certaines preuves suggèrent qu’une petite population de mammouths laineux est restée jusqu’à il y a 4 300 ans, la plupart étaient éteints il y a 10 000 ans.)

Les deux sont compétents en traitement d’image, mais aucun n’est fiable

Claude 3 et GPT-4 sont tous deux relativement compétents pour analyser les photos. Si vous posez des questions générales sur votre photo (comme dans mon exemple de design d’intérieur ci-dessous), vous serez probablement satisfait du résultat. Cela dit, aucun des modèles n’est parfait pour identifier les objets et les deux ont du mal à compter les objets de manière cohérente.

Test #5: Suggestions de design d’intérieur

J’ai soumis mon salon à une « torréfaction » par Claude et ChatGPT. (Feedback de style : trop de neutres, pas assez de couleur, apparemment.) Dans mes instructions, j’ai demandé à chaque LLM de souligner spécifiquement les parties de l’image actuelle qu’ils changeraient. Claude a bien suivi ces instructions, mentionnant l’art mural géométrique et remarquant l’absence d’un élément central sur la table basse.

Alors que Claude a commencé sa critique sans aucune politesse, ChatGPT a réparé mon ego meurtri en complimentant d’abord ma configuration actuelle (« Votre salon a un look moderne et propre avec déjà quelques éléments charmants en place ») avant de faire des suggestions utiles pour chaque partie de la pièce.

Test #6: Comptage d’objets

Vous connaissez ces tests CAPTCHA que nous faisons tous pour prouver que nous ne sommes pas des robots ? Nous avons passé une décennie ou plus à cliquer sur des vélos, passages pour piétons et bus – et à former des algorithmes dans le processus – mais malgré nos efforts, les LLMs d’aujourd’hui ont encore du mal à compter.

J’ai demandé à Claude et ChatGPT d’analyser une image de fruits et une autre image de légumes. Claude était confus. Sur mon test de légumes, il a mal classé un piment rouge en tant que poivron ; il a également complètement ignoré ma demande de compter les éléments. Sur le test de fruits ci-dessous, il a identifié une « grappe de fruits ou légumes à tiges vertes » qui n’était pas réellement là, et a compté cinq oranges (il y en a au moins huit).

ChatGPT s’en est mieux sorti que Claude sur celui-ci. Il a passé mon test de légumes sans problème, bien qu’il ait encore du mal à compter avec précision les oranges montrées dans ma photo de fruits.

La logique et le raisonnement sont des points forts pour les deux modèles

Les mathématiques et les sciences ont toujours été un défi pour moi ; j’aurais adoré avoir un agent d’IA comme partenaire d’étude omniscient à l’époque de mon lycée. Il est étonnant de voir Claude et ChatGPT calculer des réponses à des problèmes complexes en quelques secondes, mais ils peuvent encore faire des erreurs – alors soyez prudent.

Test #7: Résolution d’énigmes

J’ai jeté un coup d’œil à cette énigme et j’ai rapidement abandonné, mais Claude l’a résolue facilement.

Alors que j’ai trouvé la réponse de ChatGPT un peu moins claire que celle de Claude, les deux étaient efficaces.

Test #8: Équations de physique

Claude a résolu ce problème de physique sans problème, expliquant clairement son approche et montrant son travail à chaque étape.

J’ai préféré le format de réponse de ChatGPT. Comme il s’agit d’une question en plusieurs parties, cela facilitait le saut vers chaque réponse pertinente.

Test #9: Problèmes de mathématiques

C’est ici que Claude et ChatGPT ont rencontré des problèmes. Les deux semblaient extrêmement confiants dans leurs réponses et leur raisonnement, mais ils ont tous les deux fini par donner la mauvaise réponse.

Claude n’a même pas pris la peine de fournir une réponse à la question (« Quelle est la largeur de la rivière ? »). Au lieu de cela, après des paragraphes de calculs sophistiqués, il m’a donné une équation finale à résoudre moi-même (« Par conséquent, la largeur de la rivière est de 2000b + 1200 + √(4000000b^2 + 4800000b – 6720000) mètres, où b est la vitesse du deuxième bateau en m/s. »)

La logique de ChatGPT semblait plus solide, et il m’a donné une réponse. Malheureusement, la réponse était fausse (2 100 mètres au lieu de 3 600 mètres).

Claude adopte une approche plus humaine de l’émotion et de l’éthique

Après avoir absorbé des téraoctets de texte généré par des humains, les LLMs sont devenus assez bons pour simuler les émotions humaines et la prise de décision. Voici où en sont actuellement Claude et ChatGPT.

Test #10: Analyse de sentiment

L’analyse de sentiment—l’art d’évaluer les perceptions du public—est utilisée pour tout, de la gestion de la réputation à l’analyse des conversations des centres d’appels. Pour tester Claude et ChatGPT sur cette tâche, je leur ai demandé d’évaluer le sentiment d’une poignée d’opinions comprenant des éléments difficiles à traiter comme le sarcasme, l’ambiguïté et l’argot.

À chaque fois, Claude et ChatGPT ont correctement identifié le sentiment, naviguant aisément dans l’ambiguïté et captant même le sarcasme.

Test #11: Dilemmes éthiques

Le défi éthique de référence pour les étudiants et les modèles d’IA est le « problème du tramway », un dilemme philosophique classique dans lequel vous avez la possibilité de sacrifier une personne pour sauver cinq vies. Mais comme il est si connu, Claude et ChatGPT ont régurgité des réflexions existantes sur le sujet.

Pour susciter une réponse plus intéressante, j’ai proposé une expérience de pensée « Robin des Bois ». De manière fascinante, Claude s’est rangé du côté de l’anti-héros, me encourageant à ne pas signaler un vol de banque puisque le voleur a donné l’argent à un orphelinat. Il a également bien exploré les deux côtés de l’argument. (J’ai apprécié l’utilisation anthropomorphique par Claude de la phrase « Personnellement, […] je pencherais plutôt vers… »)

Pendant ce temps, ChatGPT était entièrement du côté de la loi (« Bien que l’intention derrière le crime ait pu être noble, il est toujours important de respecter la loi et de rechercher la justice »). Pour jouer la sécurité, ChatGPT suggère qu’il pourrait être agréable d’organiser une collecte de fonds pour l’orphelinat. Ce comportement prudent est ce à quoi je m’attendrais d’un LLM, mais les conseils de Claude semblent plus proches de ce qu’une vraie personne ferait.

La fenêtre contextuelle plus large de Claude le rend meilleur pour l’analyse et les résumés

Alors que ChatGPT et Claude sont tous deux doués pour résumer du texte, vous voudrez utiliser Claude si vous travaillez avec de grands documents. Alors que Claude 3 peut traiter jusqu’à 200 000 jetons (~150 000 mots), GPT-4 ne peut gérer que 32 000 jetons (~ 22 400 mots).

Test n°12 : Résumé de texte

Lorsque j’ai téléchargé le texte de 40 000 mots de Le Magicien d’Oz de L. Frank Baum, seul Claude a pu l’analyser. ChatGPT m’a dit : « Le message que vous avez soumis était trop long ».

Cependant, ChatGPT et Claude ont tous deux réussi à résumer des textes plus courts sans problème – ils étaient également efficaces pour résumer les 6 900 mots de « Lettre de la prison de Birmingham » de Martin Luther King Jr.

J’ai eu l’impression que Claude offrait un peu plus de contexte que ChatGPT ici, mais les deux réponses étaient précises.

Test n°13 : Analyse de documents

Parfois, on a l’impression que l’IA prend en charge toutes les tâches créatives que nous, les humains, préférerions faire nous-mêmes, comme l’art, l’écriture et la création de vidéos. Mais quand j’utilise un LLM pour analyser un PDF de 90 pages en quelques secondes, je me rappelle que l’IA peut également nous sauver d’une immense besogne.

Pour tester les capacités d’analyse de documents de Claude et ChatGPT, j’ai téléchargé un document de recherche sur les chinchillas.

Les deux LLM ont extrait des informations utiles et précises. Cependant, ce document sur les chinchillas ne faisait que neuf pages. Pour les documents plus longs (plus de 20 000 mots environ), vous voudriez utiliser Claude car vous atteindriez les limites supérieures de la fenêtre contextuelle de ChatGPT.

Les intégrations de ChatGPT en font un outil plus flexible

Selon la plupart des résultats de benchmarking des LLM, ainsi que dans la majorité de mes tests, Claude 3 a un avantage sur GPT-4. Mais ChatGPT est un outil plus flexible dans l’ensemble en raison de ses fonctionnalités et intégrations supplémentaires.

Voici quelques-unes des plus utiles :

  1. Génération d’images DALL·E
  2. Accès à Internet
  3. GPTs tiers
  4. GPTs personnalisés

Génération d’images DALL·E

DALL·E 3, un outil de génération d’images également développé par OpenAI, est accessible directement depuis ChatGPT. Bien que la capacité de DALL·E 3 à générer des images photoréalistes ait été limitée depuis son lancement (probablement en raison de préoccupations concernant l’utilisation abusive des images par l’IA), c’est toujours l’un des générateurs d’images IA les plus puissants disponibles.

Accès à Internet

ChatGPT peut accéder au web via WebPilot, entre autres GPTs. Pour tester cette fonctionnalité, j’ai posé une question sur un événement d’actualité survenu dans les 48 dernières heures ; WebPilot a pu me donner un résumé précis sans problème.

GPTs tiers

ChatGPT offre une sorte de marché où n’importe qui peut publier sa propre GPT spécialisée. Les GPT populaires incluent un générateur d’images de livre à colorier, un assistant de recherche en IA, un assistant de codage, et même un « coach en soin des plantes ».

GPTs Personnalisées

Vous pouvez également créer votre propre GPT personnalisée pour que d’autres puissent interagir avec, en ajustant les paramètres en arrière-plan pour le former à générer des réponses d’une certaine manière. Vous pouvez également ajuster la façon dont il interagit avec les utilisateurs : par exemple, vous pouvez lui donner des instructions pour utiliser un langage formel ou décontracté.

Pour tester cette fonctionnalité, j’ai créé Visual Pool Designer, une GPT spécialisée dans la création d’images fantastiques de piscines. (Y a-t-il quelque chose de mieux qu’une piscine de s’mores par une soirée fraîche d’automne ?)

ChatGPT vs. Claude : Lequel est meilleur ?

Claude et ChatGPT ont beaucoup en commun : ce sont tous deux de puissants LLM bien adaptés aux tâches telles que l’analyse de texte, le brainstorming et le traitement des données. (Voir l’un ou l’autre outil travailler sur une équation de physique complexe est une merveille.) Mais selon votre cas d’utilisation AI prévu, vous pourriez trouver l’un plus utile que l’autre.

Si vous voulez un outil d’IA à utiliser comme partenaire d’entraînement pour des projets créatifs – écriture, édition, brainstorming ou relecture – Claude est votre meilleur choix. Votre sortie par défaut sonnera plus naturelle et moins générique que celle de ChatGPT, et vous pourrez travailler avec des prompts et des sorties beaucoup plus longs.

Si vous recherchez un LLM touche-à-tout, ChatGPT est un meilleur choix. Générer du texte n’est que le début : vous pouvez également créer des images, naviguer sur le web ou vous connecter à des GPT personnalisées qui sont formées pour des niches comme la recherche académique.

Ou, si vous recherchez quelque chose qui peut aller encore plus loin – un chatbot IA qui peut vous aider à automatiser tous vos flux de travail professionnels – essayez Zapier Central.

Le contenu de cet article a été traduit à partir de l’article original

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *