Catégories
Nouvelles

Quelles sont les caractéristiques de Claude 3

Aujourd’hui, nous annonçons la famille de modèles Claude 3, qui établit de nouveaux benchmarks industriels dans un large éventail de tâches cognitives. La famille comprend trois modèles de pointe dans l’ordre croissant de leurs capacités : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus. Chaque modèle successif offre des performances de plus en plus puissantes, permettant aux utilisateurs de sélectionner l’équilibre optimal entre intelligence, vitesse et coût pour leur application spécifique.

Opus et Sonnet sont désormais disponibles pour une utilisation dans claude.ai et l’API Claude, qui est désormais disponible dans 159 pays. Haiku sera bientôt disponible.

Famille de modèles Claude 3

claude3

Une nouvelle norme pour l’intelligence

Opus, notre modèle le plus intelligent, surpasse ses pairs sur la plupart des benchmarks d’évaluation courants des systèmes d’IA, y compris les connaissances expertes de niveau universitaire (MMLU), le raisonnement expert de niveau supérieur (GPQA), les mathématiques de base (GSM8K), et plus encore. Il présente des niveaux de compréhension et de fluidité proches de ceux des humains sur des tâches complexes, ouvrant la voie à l’intelligence générale.

Tous les modèles Claude 3 montrent des capacités accrues dans l’analyse et la prévision, la création de contenu nuancée, la génération de code et la conversation dans des langues autres que l’anglais comme l’espagnol, le japonais et le français.

Voici une comparaison des modèles Claude 3 avec ceux de nos concurrents sur plusieurs benchmarks [1] de capacité :

Résultats quasi-instantanés

Les modèles Claude 3 peuvent alimenter des chats en direct avec les clients, des auto-complétions et des tâches d’extraction de données où les réponses doivent être immédiates et en temps réel.

Haiku est le modèle le plus rapide et le plus rentable sur le marché pour sa catégorie d’intelligence. Il peut lire un document de recherche dense en informations et en données sur arXiv (~10k tokens) avec des graphiques en moins de trois secondes. Après le lancement, nous prévoyons d’améliorer encore les performances.

Pour la grande majorité des charges de travail, Sonnet est 2 fois plus rapide que Claude 2 et Claude 2.1 avec des niveaux d’intelligence plus élevés. Il excelle dans les tâches exigeant des réponses rapides, comme la récupération de connaissances ou l’automatisation des ventes. Opus offre des vitesses similaires à Claude 2 et Claude 2.1, mais avec des niveaux d’intelligence beaucoup plus élevés.

De solides capacités de vision

Les modèles Claude 3 ont des capacités de vision sophistiquées comparables à d’autres modèles de premier plan. Ils peuvent traiter un large éventail de formats visuels, y compris des photos, des graphiques, des diagrammes techniques, etc. Nous sommes particulièrement enthousiastes à l’idée de fournir cette nouvelle modalité à nos clients entreprises, dont certains ont jusqu’à 50% de leurs bases de connaissances encodées dans divers formats tels que des PDF, des organigrammes ou des diapositives de présentation.

Moins de refus

Les modèles Claude précédents ont souvent fait des refus inutiles qui suggéraient un manque de compréhension contextuelle. Nous avons réalisé des progrès significatifs dans ce domaine : Opus, Sonnet et Haiku sont beaucoup moins susceptibles de refuser de répondre aux sollicitations qui frôlent les limites du système que les générations précédentes de modèles. Comme le montre l’exemple ci-dessous, les modèles Claude 3 montrent une compréhension plus nuancée des demandes, reconnaissent les dommages réels et refusent de répondre à des sollicitations inoffensives beaucoup moins souvent.

Précision améliorée

Des entreprises de toutes tailles comptent sur nos modèles pour servir leurs clients, ce qui rend impératif que les résultats de nos modèles maintiennent une haute précision à grande échelle. Pour évaluer cela, nous utilisons un grand ensemble de questions complexes et factuelles ciblant les faiblesses connues des modèles actuels. Nous catégorisons les réponses en réponses correctes, réponses incorrectes (ou hallucinations) et admissions d’incertitude, où le modèle indique qu’il ne sait pas la réponse au lieu de fournir des informations incorrectes. Comparé à Claude 2.1, Opus démontre une amélioration de deux fois de la précision (ou des réponses correctes) sur ces questions ouvertes difficiles tout en présentant également des niveaux réduits de réponses incorrectes.

En plus de produire des réponses plus fiables, nous allons bientôt activer les citations dans nos modèles Claude 3 afin qu’ils puissent pointer vers des phrases précises dans des documents de référence pour vérifier leurs réponses.

Contexte long et rappel quasi parfait

La famille de modèles Claude 3 offrira initialement une fenêtre de contexte de 200K lors du lancement. Cependant, les trois modèles sont capables d’accepter des entrées dépassant 1 million de tokens, et nous pourrions rendre cela disponible à certains clients qui ont besoin d’une puissance de traitement accrue.

Pour traiter efficacement des sollicitations de long contexte, les modèles nécessitent des capacités de rappel robustes. L’évaluation ‘Aiguille dans une botte de foin’ (NIAH) mesure la capacité d’un modèle à rappeler avec précision des informations à partir d’un vaste corpus de données. Nous avons renforcé la robustesse de ce benchmark en utilisant l’une des 30 paires aléatoires d’aiguille/question par sollicitation et en testant sur un corpus diversifié de documents issus de la foule. Claude 3 Opus a non seulement atteint un rappel quasi parfait, dépassant 99% de précision, mais dans certains cas, il a même identifié les limites de l’évaluation elle-même en reconnaissant que la phrase ‘aiguille’ semblait être insérée artificiellement dans le texte original par un humain.

Conception responsable

Nous avons développé la famille de modèles Claude 3 pour qu’ils soient aussi fiables que performants. Nous disposons de plusieurs équipes dédiées qui suivent et atténuent un large éventail de risques, allant de la désinformation et du CSAM à l’abus biologique, en passant par l’ingérence électorale et les compétences de réplication autonomes. Nous continuons à développer des méthodes telles que l’IA constitutionnelle qui améliorent la sécurité et la transparence de nos modèles, et avons ajusté nos modèles pour atténuer les problèmes de confidentialité qui pourraient être soulevés par de nouvelles modalités.

La lutte contre les biais dans des modèles de plus en plus sophistiqués est un effort continu et nous avons fait des progrès avec cette nouvelle version. Comme le montre la fiche de modèle, Claude 3 présente moins de biais que nos modèles précédents selon le Benchmark de biais pour la réponse aux questions (BBQ). Nous restons engagés à faire progresser les techniques qui réduisent les biais et favorisent une plus grande neutralité dans nos modèles, garantissant qu’ils ne sont pas orientés vers une position partisane particulière.

Alors que la famille de modèles Claude 3 a progressé sur des mesures clés de connaissances biologiques, de connaissances liées à la cybernétique et d’autonomie par rapport aux modèles précédents, elle reste au Niveau de sécurité IA 2 (ASL-2) selon notre Politique de mise à l’échelle responsable. Nos évaluations de red teaming (réalisées conformément à nos engagements de la Maison Blanche et à l’ Ordonnance exécutive 2023 des États-Unis) ont conclu que les modèles présentent un potentiel négligeable de risque catastrophique à l’heure actuelle. Nous continuerons à surveiller attentivement les futurs modèles pour évaluer leur proximité avec le seuil ASL-3. De plus amples détails sur la sécurité sont disponibles dans la fiche de modèle Claude 3.

Plus facile à utiliser

Les modèles Claude 3 sont meilleurs pour suivre des instructions complexes et multi-étapes. Ils excellent particulièrement dans le respect de la voix de la marque et des directives de réponse, et dans le développement d’expériences orientées client en lesquelles nos utilisateurs peuvent avoir confiance. De plus, les modèles Claude 3 sont meilleurs pour produire des sorties structurées populaires dans des formats comme JSON, facilitant ainsi l’instruction de Claude pour des cas d’utilisation tels que la classification en langage naturel et l’analyse des sentiments.

Détails du modèle

Claude 3 Opus est notre modèle le plus intelligent, avec des performances de premier ordre sur des tâches hautement complexes. Il peut naviguer dans des requêtes ouvertes et des scénarios inconnus avec une fluidité remarquable et une compréhension quasi humaine. Opus nous montre les limites de ce qui est possible avec l’IA générative.

Coût

[Entrée $/million de jetons | Sortie $/million de jetons]

$15 | $75
Fenêtre contextuelle 200K*
Utilisations potentielles Automatisation des tâches : planifier et exécuter des actions complexes sur des API et des bases de données, codage interactifR&D : revue de recherche, brainstorming et génération d’hypothèses, découverte de médicamentsStratégie : analyse avancée de graphiques & graphiques, données financières et tendances du marché, prévisions
Différenciateur Plus intelligent que tout autre modèle disponible.

*1M de jetons disponibles pour des cas d’utilisation spécifiques, veuillez demander.

Claude 3 Sonnet trouve un équilibre idéal entre intelligence et vitesse, particulièrement pour les charges de travail en entreprise. Il offre de bonnes performances à un coût inférieur à celui de ses concurrents et est conçu pour une grande endurance dans des déploiements d’IA à grande échelle.

Coût

[Entrée $/million de jetons | Sortie $/million de jetons]

$3 | $15
Fenêtre contextuelle 200K
Utilisations potentielles Traitement des données : RAG ou recherche & récupération sur de vastes quantités de connaissancesVentes : recommandations de produits, prévisions, marketing cibléTâches d’économie de temps : génération de code, contrôle qualité, extraction de texte à partir d’images
Différenciateur Plus abordable que d’autres modèles avec une intelligence similaire ; meilleur pour l’échelle.

Claude 3 Haiku est notre modèle le plus rapide et le plus compact pour une réactivité quasi instantanée. Il répond à des requêtes et demandes simples avec une vitesse inégalée. Les utilisateurs pourront créer des expériences d’IA fluides qui imitent les interactions humaines.

Coût

[Entrée $/million de jetons | Sortie $/million de jetons]

$0.25 | $1.25
Fenêtre contextuelle 200K
Utilisations potentielles Interactions avec les clients : assistance rapide et précise dans les interactions en direct, traductionsModération de contenu : détection de comportements risqués ou de demandes de clientsTâches d’économie de coûts : logistique optimisée, gestion des stocks, extraction de connaissances à partir de données non structurées
Différenciateur Plus intelligent, plus rapide et plus abordable que d’autres modèles de sa catégorie d’intelligence.

Disponibilité du modèle

Opus et Sonnet sont disponibles dès aujourd’hui dans notre API, qui est maintenant généralement disponible, permettant aux développeurs de s’inscrire et de commencer à utiliser ces modèles immédiatement. Haiku sera bientôt disponible. Sonnet alimente l’expérience gratuite sur claude.ai, Opus étant disponible pour les abonnés Claude Pro.

Sonnet est également disponible dès aujourd’hui via Amazon Bedrock et en prévisualisation privée sur Google Cloud’s Vertex AI Model Garden—Opus et Haiku arrivant bientôt sur les deux plateformes.

Plus intelligent, plus rapide, plus sûr

Nous ne croyons pas que l’intelligence des modèles ait atteint ses limites, et nous prévoyons de publier des mises à jour fréquentes de la famille de modèles Claude 3 au cours des prochains mois. Nous sommes également ravis de publier une série de fonctionnalités pour améliorer les capacités de nos modèles, en particulier pour les cas d’utilisation en entreprise et les déploiements à grande échelle. Ces nouvelles fonctionnalités incluront l’Utilisation d’outils (alias appel de fonction), le codage interactif (alias REPL) et des capacités agentiques plus avancées.

Alors que nous repoussons les limites des capacités de l’IA, nous nous engageons également à garantir que nos garde-fous de sécurité évoluent en parallèle avec ces avancées en performance. Notre hypothèse est que se maintenir à la pointe du développement de l’IA est le moyen le plus efficace d’orienter sa trajectoire vers des résultats sociaux positifs.

Nous sommes impatients de voir ce que vous allez créer avec Claude 3 et espérons que vous nous ferez part de vos commentaires pour rendre Claude encore plus utile en tant qu’assistant et compagnon créatif. Pour commencer à travailler avec Claude, visitez anthropic.com/claude.

Notes de bas de page

  1. Ce tableau montre des comparaisons avec des modèles actuellement disponibles commercialement qui ont publié des évaluations. Notre fiche de modèle montre des comparaisons avec des modèles qui ont été annoncés mais pas encore publiés, comme Gemini 1.5 Pro. De plus, nous tenons à préciser que les ingénieurs ont travaillé pour optimiser les requêtes et les échantillons few-shot pour les évaluations et ont rapporté des scores plus élevés pour un modèle GPT-4T plus récent. Source.

Le contenu de cet article a été traduit à partir de l’article original

2 réponses sur « Quelles sont les caractéristiques de Claude 3 »

Hello my loved one! I want to say that this article is awesome, nice written and include approximately all vital infos. I¦d like to look more posts like this .

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *