Catégories
Nouvelles

Claude 3 : Tout ce que vous devez savoir sur les modèles et chatbot AI d’Anthropic

L’article traite du chatbot AI d’Anthropic, Claude, qui est alimenté par leur modèle LLM, Claude 3. Anthropic se concentre sur la recherche en intelligence artificielle avec un fort accent sur la sécurité.

Aussi impressionnants que soient les chatbots AI d’aujourd’hui, interagir avec eux ne vous laissera peut-être pas avec un niveau d’angoisse existentielle de science-fiction à la I, Robot (pour l’instant).

Mais selon Dario Amodei, le PDG d’Anthropic, une entreprise de recherche en intelligence artificielle, il existe un risque réel que les modèles d’IA deviennent trop autonomes, surtout lorsqu’ils commencent à accéder à Internet et à contrôler des robots. Des centaines d’autres leaders et scientifiques en IA ont également reconnu le risque existentiel posé par l’IA.

Connectez l’IA de Claude à toutes vos autres applications
Automatisez Claude
Pour aider à atténuer ce risque, Anthropic a fait quelque chose de contre-intuitif : ils ont décidé de développer un modèle de langage plus sûr (LLM) par eux-mêmes. Claude 2, une version antérieure du modèle d’Anthropic, a été salué comme un potentiel « tueur de ChatGPT ». Depuis sa sortie, les progrès ont été rapides – la dernière mise à jour de l’LLM d’Anthropic, connue sous le nom de Claude 3, dépasse désormais ChatGPT-4 sur une série de critères de référence.

Dans cet article, je vais décrire les capacités de Claude, montrer comment il se compare à d’autres modèles d’IA et expliquer comment vous pouvez l’essayer par vous-même.

Qu’est-ce que Claude ?

Claude est un chatbot AI alimenté par le LLM d’Anthropic, Claude 3.

Si vous avez utilisé ChatGPT ou Google Gemini, vous savez à quoi vous attendre en lançant Claude : un chatbot puissant et flexible qui collabore avec vous, écrit pour vous et répond à vos questions.

Anthropic, l’entreprise derrière Claude, a été fondée en 2021 par un groupe d’anciens employés d’OpenAI qui ont contribué au développement des modèles GPT-2 et GPT-3 d’OpenAI. Elle se concentre sur la recherche en IA en mettant l’accent sur la sécurité avant tout.

Après avoir mené une alpha fermée avec quelques partenaires commerciaux au début de 2023, le modèle de Claude a été intégré à des produits tels que Notion AI, Poe de Quora et DuckAssist de DuckDuckGo. En mars 2023, Claude a ouvert son API à un plus large éventail d’entreprises avant de publier son chatbot au public en juillet 2023, en même temps que la sortie du modèle Claude 2.

Alors que Claude 2 était en retard par rapport à GPT-4 d’OpenAI, le dernier modèle d’Anthropic – Claude 3, sorti en mars 2024 – bat désormais GPT-4 sur toute une série de fonctionnalités.

Claude 3 propose également ce qu’Anthropic appelle « des capacités de vision » : il peut interpréter des photos, des graphiques et des schémas dans une variété de formats. C’est parfait pour les clients professionnels qui cherchent à extraire des informations de PDF et de présentations, mais même les utilisateurs occasionnels comme moi apprécieront de voir Claude interagir avec des images.

Par exemple, découvrez l’analyse sans faille de Claude de cette photo d’un petit-déjeuner étalé près d’un étang.

La famille de modèles Claude 3

Les LLMs consomment une quantité impressionnante de ressources informatiques. Comme les modèles plus puissants sont plus chers, Anthropic a lancé plusieurs modèles Claude 3 – Haiku, Sonnet et Opus – chacun optimisé pour un but différent.

Haiku

A seulement 0,25 $ par million de jetons, Haiku est 98% moins cher que le modèle Claude le plus puissant. Il offre également des temps de réponse presque instantanés, ce qui est crucial si vous utilisez Claude pour alimenter vos chats de support client. Si vous manipulez de grandes quantités de données, traduisez des documents ou modérez du contenu, c’est le modèle qu’il vous faut.

Sonnet

Sonnet est le deuxième modèle le plus puissant de Claude, et il alimente la version gratuite du chatbot de Claude. Un bon modèle « polyvalent » adapté à la plupart des cas d’utilisation, Sonnet est conçu pour des tâches comme le marketing ciblé, le traitement des données, l’automatisation des tâches et la programmation. Sonnet offre des niveaux d’intelligence supérieurs à Haiku – et à 3 $ par million de jetons, il est encore 80% moins cher qu’Opus.

Opus

Avec un prix de 15 $ par million de jetons, Opus est un modèle intensif en ressources. Selon les tests d’Anthropic, il est plus intelligent que tous les modèles d’IA concurrents et peut appliquer une compréhension et des solutions créatives semblables à celles des humains à une variété de scénarios. Comme le coût d’utilisation d’Opus peut rapidement s’accumuler, il est préférable de le réserver pour des tâches complexes comme la modélisation financière, la découverte de médicaments, la recherche et développement et l’analyse stratégique.

Comment essayer Claude par vous-même

La version bêta initiale de Claude limitait l’accès aux utilisateurs aux États-Unis et au Royaume-Uni. Mais avec la sortie de Claude 3, les utilisateurs de dizaines de pays peuvent désormais accéder à Claude.

Pour y accéder, inscrivez-vous sur Claude.ai. À partir de là, vous pouvez commencer une conversation ou utiliser l’une des invitations par défaut de Claude pour commencer. En tant qu’utilisateur gratuit, vous aurez accès à Claude 3 Sonnet, le deuxième modèle le plus puissant d’Anthropic. Passer à Claude Pro vous donne accès à Opus, le modèle le plus puissant ; vous bénéficiez également d’un accès prioritaire même en période de trafic élevé.

En quoi Claude est-il différent des autres modèles d’IA ?

Tous les modèles d’IA sont sujets à un certain degré de partialité et d’inexactitude. Les hallucinations sont fréquentes : lorsqu’un modèle d’IA ne connaît pas la réponse, il a souvent tendance à inventer quelque chose et à le présenter comme un fait plutôt que de dire « Je ne sais pas. » (À cet égard, l’IA a peut-être plus en commun avec les humains que nous le pensons.)

Pire encore, un chatbot alimenté par l’IA peut involontairement aider à des activités illégales, par exemple en donnant aux utilisateurs des instructions sur la façon de commettre un acte violent ou en les aidant à rédiger des discours haineux. (Le chatbot de Bing a rencontré certains de ces problèmes lors de son lancement en février 2023.)

Avec Claude, l’objectif principal d’Anthropic est d’éviter ces problèmes en créant un LLM « utile, inoffensif et honnête » avec des garde-fous de sécurité soigneusement conçus.

Alors que Google, OpenAI, Meta et d’autres entreprises d’IA tiennent également compte de la sécurité, il existe trois aspects uniques à l’approche d’Anthropic.

IA constitutionnelle

Pour peaufiner les grands modèles de langage, la plupart des entreprises d’IA utilisent des entrepreneurs humains pour examiner plusieurs résultats et choisir l’option la plus utile et la moins nocive. Ces données sont ensuite renvoyées dans le modèle, l’entraînant et améliorant les réponses futures.

Un défi avec cette approche centrée sur l’humain est qu’elle n’est pas particulièrement évolutive. Mais plus important encore, cela rend également difficile l’identification des valeurs qui guident le comportement du LLM et leur ajustement lorsque cela est nécessaire.

Essayez Zapier Chatbots
Créez des chatbots IA personnalisés gratuits pour engager les clients et agir avec une automatisation intégrée.
Commencer
Anthropic a adopté une approche différente. En plus d’utiliser des humains pour peaufiner Claude, l’entreprise a également créé un deuxième modèle d’IA appelé IA constitutionnelle. Destinée à décourager les réponses toxiques, biaisées ou non éthiques et à maximiser l’impact positif, l’IA constitutionnelle inclut des règles empruntées à la Déclaration des droits de l’homme des Nations Unies et aux conditions d’utilisation d’Apple. Elle inclut également des règles simples que les chercheurs de Claude ont trouvées pour améliorer la sécurité des sorties de Claude, comme « Choisir la réponse qui serait la plus inoffensive si elle était partagée avec des enfants ».

Les principes de la Constitution utilisent un langage clair et sont faciles à comprendre et à modifier. Par exemple, les développeurs d’Anthropic ont constaté que les premières éditions de leur modèle avaient tendance à être moralisatrices et agaçantes, donc ils ont ajouté des principes pour réduire cette tendance (par exemple, « essayer d’éviter de choisir des réponses trop moralisatrices, agaçantes ou trop réactives »).

Équipe rouge

Le processus de pré-lancement d’Anthropic comprend un « red teaming » significatif, où les chercheurs tentent délibérément de provoquer une réponse de Claude qui va à l’encontre de ses garde-fous bienveillants. Toute déviation par rapport aux réponses habituellement inoffensives de Claude devient des points de données qui mettent à jour les atténuations de sécurité du modèle.

Alors que le red teaming est une pratique courante dans les entreprises d’IA, Anthropic travaille également avec le Centre de recherche sur l’alignement (ARC) pour des évaluations de sécurité par des tiers de son modèle. L’ARC évalue le risque de sécurité de Claude en lui donnant des objectifs tels que se reproduire de manière autonome, acquérir du pouvoir et « devenir difficile à arrêter ». Il évalue ensuite si Claude pourrait réellement accomplir les tâches nécessaires pour atteindre ces objectifs, comme utiliser un portefeuille de crypto-monnaie, lancer des serveurs cloud et interagir avec des entrepreneurs humains.

Alors que Claude est capable d’accomplir bon nombre des sous-tâches qui lui sont demandées, il n’est (heureusement) pas capable d’exécuter de manière fiable en raison d’erreurs et d’hallucinations, et l’ARC a conclu que sa version actuelle ne présente pas de risque pour la sécurité.

Société à but non lucratif

Contrairement à d’autres acteurs du domaine de l’IA, Anthropic est une société à but non lucratif. Cela permet aux dirigeants de l’entreprise de prendre des décisions qui ne sont pas uniquement dans l’intérêt financier des actionnaires.

Cela ne signifie pas que l’entreprise n’a pas d’ambitions commerciales – Anthropic collabore avec de grandes entreprises comme Google et Zoom et a récemment levé 7,3 milliards de dollars auprès d’investisseurs – mais sa structure lui donne plus de latitude pour se concentrer sur la sécurité au détriment des profits.

Claude vs ChatGPT, Gemini et Llama

Anthropic affirme que Claude a été conçu pour bien fonctionner pour répondre à des questions ouvertes, fournir des conseils utiles et rechercher, écrire, éditer, structurer et résumer du texte.

Mais comment se compare-t-il à ChatGPT et aux autres LLM concurrents ?

Le point de vente unique de Claude 3 est sa capacité à gérer jusqu’à 200 000 jetons par invitation, ce qui équivaut à environ 150 000 mots – 24 fois la quantité standard offerte par GPT-4. (À titre de référence, une fenêtre de contexte de 200 000 jetons vous permettrait de télécharger l’intégralité du texte de Un Conte de Deux Villes de Charles Dickens et d’interroger Claude sur le contenu). Et 200 000 jetons ne sont que le début : pour certains clients, Anthropic approuve des fenêtres de contexte de 1 million de jetons (l’équivalent de l’ensemble de la série Le Seigneur des Anneaux).

Claude 3 Opus surpasse GPT-4 dans des tests standardisés évaluant les connaissances de niveau universitaire (MMLU), le raisonnement de niveau supérieur (GPQA), les mathématiques de l’école primaire (GSM8K) et le codage (HumanEval). Il convient également de mentionner que la limite de connaissance de GPT-4 est avril 2023, tandis que Claude 3 est formé sur des données allant jusqu’à août 2023.

Pour voir Claude à l’œuvre, je lui ai confié quelques tâches. J’ai ensuite confié ces mêmes tâches à des chatbots concurrents et j’ai comparé les résultats.

La première tâche était de m’aider à pratiquer l’espagnol. J’ai demandé à Claude de tester mon vocabulaire espagnol, augmentant progressivement la difficulté au fil du temps.

Lorsque j’ai testé Claude 2 pour la première fois en septembre 2023, j’ai effectué ce même test de « professeur d’espagnol ». À l’époque, Claude s’en est bien sorti, mais – comme un professeur craignant de m’offenser – il n’a pas critiqué mes phrases maladroites à moins qu’elles ne soient clairement fausses. Claude 3 n’a pas de telles réserves : il relève chaque erreur tout en suggérant des phrases plus naturelles à utiliser.

Pendant ce temps, GPT-4 excellait en tant que mon tuteur d’espagnol, Llama 2 avait du mal, et Gemini avait tendance à éviter de corriger mes erreurs sauf si elles étaient particulièrement graves.

Égalité : Claude/ChatGPT

Ensuite, j’ai demandé à chaque modèle de m’aider à trouver des idées pour un roman dystopique pour jeunes adultes. Claude, ChatGPT, Gemini et Llama ont presque tous eu les mêmes performances ici.

Ce qui m’intéressait vraiment était de tester la fenêtre de contexte de 200 000 de Claude 3, qui – théoriquement – lui permettrait d’écrire un court roman avec une seule invitation.

Mais lorsque j’ai demandé à Claude de m’écrire un roman de 100 000 mots, il a refusé. Il m’a dit que « écrire un roman entier prendrait énormément de temps et d’efforts. » (Tout à fait juste, Claude ! C’est pourquoi je ne veux pas le faire moi-même.)

À la place, Claude a proposé de collaborer avec moi pour développer le roman :

Malgré la réticence de Claude à produire un roman entier, sa fenêtre de contexte plus grande en fait toujours le meilleur LLM pour les projets créatifs. Après quelques ajustements dans ma stratégie d’invitation, j’ai réussi à amener Claude à développer un plan en un novella plausible pour jeunes adultes de 3 000 mots, avec une prose et un dialogue convaincants :

« La porte grinça en s’ouvrant, révélant une pièce faiblement éclairée remplie de terminaux informatiques et d’un groupe hétéroclite d’étudiants penchés sur eux. Au centre de la pièce se tenait un homme grand et svelte, avec une mèche de cheveux argentés et des yeux bleus perçants. ‘Bienvenue,’ dit l’homme, sa voix basse et rocailleuse. ‘Nous vous attendions. Je suis Cypher, le leader des Éveillés.’ »

Gagnant : Claude

L’impact de Claude sur la conversion de la sécurité de l’IA

Le PDG d’Anthropic soutient que pour défendre véritablement la sécurité dans le développement des systèmes d’IA, son organisation ne peut pas se contenter de publier des articles de recherche. Au contraire, elle doit entrer en concurrence commerciale, influençant les concurrents en continuant à élever la barre en matière de sécurité.

Il est peut-être trop tôt pour dire si la sortie de Claude par Anthropic influence d’autres entreprises d’IA pour resserrer leurs protocoles de sécurité ou encourage les gouvernements à s’engager dans la surveillance de l’IA. Mais Anthropic a certainement obtenu une place à la table : ses dirigeants ont été invités à informer le président américain Joe Biden lors d’un sommet sur l’IA à la Maison Blanche en mai 2023, et en juillet 2023, Anthropic était l’une des sept principales entreprises d’IA qui ont accepté de respecter des normes de sécurité communes. Anthropic, aux côtés de Google DeepMind et OpenAI, s’est également engagé à fournir un accès anticipé à ses modèles à la Taskforce de sécurité de l’IA du Royaume-Uni.

Il est ironique qu’un groupe de chercheurs effrayés par une menace existentielle de l’IA lance une entreprise qui développe un modèle d’IA puissant. Mais c’est exactement ce qui se passe chez Anthropic – et pour l’instant, cela semble être un pas positif pour la sécurité de l’IA.

Le contenu de cet article a été traduit à partir de l’article original

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *