Catégories
Nouvelles

Présentation de Claude 3.5 Sonnet: Établir de nouveaux standards en matière d’IA avec une intelligence et une vitesse améliorées

Claude 3.5 Sonnet, la dernière version de la famille de modèles Claude 3.5, introduit des avancées significatives dans les capacités de l’IA. Il se distingue dans les benchmarks d’intelligence, fonctionne deux fois plus vite que les modèles précédents et propose des tarifs économiques. De nouvelles fonctionnalités telles que les Artéfacts améliorent l’interaction utilisateur en fournissant des outils de collaboration en temps réel. Les mesures de sécurité incluent des tests rigoureux et une collaboration avec des experts externes, garantissant la conformité aux normes ASL-2 et priorisant la confidentialité des utilisateurs. Les mises à jour futures incluent les sorties de Claude 3.5 Haiku et Claude 3.5 Opus, ainsi que des améliorations continues pour prendre en charge diverses applications commerciales et l’intégration des retours utilisateurs.

Aujourd’hui, nous lançons Claude 3.5 Sonnet, notre première sortie dans la future famille de modèles Claude 3.5. Claude 3.5 Sonnet élève la barre de l’industrie en matière d’intelligence, surpassant les modèles concurrents et Claude 3 Opus sur une large gamme d’évaluations, avec la vitesse et le coût de notre modèle de milieu de gamme, Claude 3 Sonnet.

Claude 3.5 Sonnet est désormais disponible gratuitement sur Claude.ai et l’application Claude iOS, tandis que les abonnés aux plans Claude Pro et Team peuvent y accéder avec des limites de taux nettement plus élevées. Il est également disponible via l’API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. Le modèle coûte 3 $ par million de jetons d’entrée et 15 $ par million de jetons de sortie, avec une fenêtre contextuelle de 200 000 jetons.

Intelligence de pointe à 2x la vitesse

Claude 3.5 Sonnet établit de nouveaux benchmarks de l’industrie pour le raisonnement de niveau supérieur (GPQA), la connaissance de niveau universitaire (MMLU) et la compétence en codage (HumanEval). Il montre une amélioration marquée dans la saisie de subtilités, l’humour et les instructions complexes, et excelle dans la rédaction de contenu de haute qualité avec un ton naturel et accessible.

Claude 3.5 Sonnet fonctionne à deux fois la vitesse de Claude 3 Opus. Cette augmentation des performances, combinée à des tarifs économiques, rend Claude 3.5 Sonnet idéal pour des tâches complexes telles que le support client contextuel et l’orchestration de workflows multi-étapes.

Dans une évaluation interne du codage agentique, Claude 3.5 Sonnet a résolu 64 % des problèmes, surpassant Claude 3 Opus qui en a résolu 38 %. Notre évaluation teste la capacité du modèle à corriger un bogue ou à ajouter une fonctionnalité à une base de code open source, en fonction d’une description en langage naturel de l’amélioration souhaitée. Lorsqu’instruit et fourni avec les outils pertinents, Claude 3.5 Sonnet peut écrire, éditer et exécuter indépendamment du code avec des capacités de raisonnement sophistiquées et de dépannage. Il gère les traductions de code avec facilité, le rendant particulièrement efficace pour la mise à jour d’applications héritées et la migration de bases de code.

Vision de pointe

Claude 3.5 Sonnet est notre modèle de vision le plus performant à ce jour, surpassant Claude 3 Opus sur les benchmarks de vision standard. Ces améliorations radicales sont particulièrement remarquables pour les tâches nécessitant un raisonnement visuel, comme l’interprétation de graphiques et de diagrammes. Claude 3.5 Sonnet peut également transcrire avec précision du texte à partir d’images imparfaites, une capacité essentielle pour le commerce de détail, la logistique et les services financiers, où l’IA peut tirer plus d’informations d’une image, d’un graphique ou d’une illustration que d’un texte seul.

Artéfacts—une nouvelle façon d’utiliser Claude

Aujourd’hui, nous introduisons également les Artéfacts sur Claude.ai, une nouvelle fonctionnalité qui étend la manière dont les utilisateurs peuvent interagir avec Claude. Lorsqu’un utilisateur demande à Claude de générer du contenu tel que des extraits de code, des documents texte ou des conceptions de site web, ces Artéfacts apparaissent dans une fenêtre dédiée à côté de leur conversation. Cela crée un espace de travail dynamique où ils peuvent voir, éditer et développer les créations de Claude en temps réel, intégrant de manière transparente le contenu généré par l’IA dans leurs projets et workflows.

Cette fonctionnalité de prévisualisation marque l’évolution de Claude d’une IA conversationnelle à un environnement de travail collaboratif. C’est juste le début d’une vision plus large pour Claude.ai, qui s’étendra bientôt pour soutenir la collaboration d’équipe. Dans un avenir proche, les équipes – et éventuellement des organisations entières – pourront centraliser en toute sécurité leurs connaissances, documents et travaux en cours dans un espace partagé, Claude servant ainsi de coéquipier à la demande.

Engagement envers la sécurité et la confidentialité

Nos modèles sont soumis à des tests rigoureux et ont été formés pour réduire les abus. Malgré le bond en intelligence de Claude 3.5 Sonnet, nos évaluations d’équipe rouge ont conclu que Claude 3.5 Sonnet reste à ASL-2. Plus de détails sont disponibles dans l’addendum à la carte du modèle.

Dans le cadre de notre engagement envers la sécurité et la transparence, nous avons collaboré avec des experts externes pour tester et affiner les mécanismes de sécurité de ce dernier modèle. Nous avons récemment fourni Claude 3.5 Sonnet à l’Institut de sécurité de l’intelligence artificielle du Royaume-Uni (UK AISI) pour une évaluation de sécurité avant le déploiement. Le UK AISI a effectué des tests sur le 3.5 Sonnet et a partagé leurs résultats avec l’Institut de sécurité de l’intelligence artificielle des États-Unis (US AISI) dans le cadre d’un Mémorandum d’Entente, rendu possible par le partenariat entre les AISI américain et britannique annoncé plus tôt cette année.

Nous avons intégré les retours des experts externes en la matière pour garantir que nos évaluations sont robustes et tiennent compte des nouvelles tendances en matière d’abus. Cette collaboration a permis à nos équipes de renforcer notre capacité à évaluer le 3.5 Sonnet contre divers types d’abus. Par exemple, nous avons utilisé les retours des experts en sécurité des enfants chez Thorn pour mettre à jour nos classificateurs et affiner nos modèles.

Un des principes constitutionnels fondamentaux qui guide le développement de nos modèles d’IA est la confidentialité. Nous n’entraînons pas nos modèles génératifs sur des données soumises par les utilisateurs à moins qu’un utilisateur ne nous donne explicitement la permission de le faire. Jusqu’à présent, nous n’avons pas utilisé de données soumises par des clients ou des utilisateurs pour entraîner nos modèles génératifs.

Prochainement

Notre objectif est d’améliorer considérablement la courbe de compromis entre l’intelligence, la vitesse et le coût tous les quelques mois. Pour compléter la famille de modèles Claude 3.5, nous sortirons Claude 3.5 Haiku et Claude 3.5 Opus plus tard cette année.

En plus de travailler sur notre famille de modèles de nouvelle génération, nous développons de nouvelles modalités et fonctionnalités pour prendre en charge plus de cas d’utilisation pour les entreprises, y compris des intégrations avec des applications d’entreprise. Notre équipe explore également des fonctionnalités comme Memory, qui permettra à Claude de se souvenir des préférences et de l’historique d’interaction d’un utilisateur tel que spécifié, rendant leur expérience encore plus personnalisée et efficace.

Nous travaillons constamment à améliorer Claude et aimons entendre nos utilisateurs. Vous pouvez soumettre des commentaires sur Claude 3.5 Sonnet directement dans le produit pour informer notre feuille de route de développement et aider nos équipes à améliorer votre expérience. Comme toujours, nous sommes impatients de voir ce que vous construisez, créez et découvrez avec Claude.

Le contenu de cet article a été traduit à partir de l’article original

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *