Kategorien
Nachrichten

Was sind die Merkmale von Claude 3

Claude 3 wird für seine fortgeschrittenen Fähigkeiten in der Argumentation, im Expertenwissen, in Mathematik und Sprachaufgaben anerkannt, was es zu einem der intelligentesten KI-Modelle macht, die von Anthropic entwickelt wurden

Heute kündigen wir die Claude 3 Modellfamilie an, die neue Branchenstandards in einer Vielzahl kognitiver Aufgaben setzt. Die Familie umfasst drei hochmoderne Modelle in aufsteigender Reihenfolge der Leistungsfähigkeit: Claude 3 Haiku, Claude 3 Sonnet und Claude 3 Opus. Jedes aufeinanderfolgende Modell bietet eine zunehmend leistungsstärkere Leistung, die es den Benutzern ermöglicht, das optimale Gleichgewicht von Intelligenz, Geschwindigkeit und Kosten für ihre spezifische Anwendung auszuwählen.

Opus und Sonnet sind jetzt in claude.ai und der Claude API verfügbar, die jetzt in 159 Ländern allgemein verfügbar ist. Haiku wird bald verfügbar sein.

Claude 3 Modellfamilie

claude3

Ein neuer Standard für Intelligenz

Opus, unser intelligentestes Modell, übertrifft seine Konkurrenten bei den meisten gängigen Bewertungsmaßstäben für KI-Systeme, einschließlich Expertenwissen auf Bachelor-Niveau (MMLU), Expertenargumentation auf Master-Niveau (GPQA), Grundmathematik (GSM8K) und mehr. Es zeigt beinahe menschenähnliche Verständnis- und Sprachfähigkeiten bei komplexen Aufgaben und führt die Spitze der allgemeinen Intelligenz an.

Alle Claude 3 Modelle zeigen erhöhte Fähigkeiten in der Analyse und Prognose, der nuancierten Inhaltsentwicklung, der Codegenerierung und der Konversation in nicht-englischen Sprachen wie Spanisch, Japanisch und Französisch.

Im Folgenden wird ein Vergleich der Claude 3 Modelle mit denen unserer Konkurrenten auf mehreren Leistungsbenchmarks [1] vorgestellt:

Nahezu sofortige Ergebnisse

Die Claude 3 Modelle können Live-Kundengespräche, automatische Vervollständigungen und Datenausleseaufgaben mit sofortigen und Echtzeit-Antworten unterstützen.

Haiku ist das schnellste und kostengünstigste Modell auf dem Markt in seiner Intelligenzkategorie. Es kann eine informations- und datenreiche Forschungsarbeit auf arXiv (~10k Tokens) mit Diagrammen und Grafiken in weniger als drei Sekunden lesen. Nach der Einführung erwarten wir eine weitere Leistungsverbesserung.

Für die große Mehrheit der Arbeitslasten ist Sonnet doppelt so schnell wie Claude 2 und Claude 2.1 mit höheren Intelligenzleveln. Es eignet sich besonders für Aufgaben, die schnelle Antworten erfordern, wie Wissensabruf oder Verkaufsautomatisierung. Opus liefert ähnliche Geschwindigkeiten wie Claude 2 und 2.1, weist jedoch deutlich höhere Intelligenzlevel auf.

Starke Sehfähigkeiten

Die Claude 3 Modelle verfügen über fortschrittliche Sehfähigkeiten auf Augenhöhe mit anderen führenden Modellen. Sie können eine Vielzahl von visuellen Formaten verarbeiten, einschließlich Fotos, Diagramme, Grafiken und technische Diagramme. Wir freuen uns besonders, diese neue Modalität unseren Unternehmenskunden anzubieten, von denen einige bis zu 50 % ihrer Wissensbasen in verschiedenen Formaten wie PDFs, Flussdiagrammen oder Präsentationsfolien codiert haben.

Weniger Ablehnungen

Frühere Claude-Modelle haben oft unnötige Ablehnungen gemacht, die auf ein mangelndes Verständnis des Kontexts hindeuteten. In diesem Bereich haben wir bedeutende Fortschritte gemacht: Opus, Sonnet und Haiku sind wesentlich weniger wahrscheinlich, die Beantwortung von Anfragen abzulehnen, die an die Grenzen des Systems stoßen, als frühere Generationen von Modellen. Wie unten gezeigt, zeigen die Claude 3 Modelle ein nuancierteres Verständnis von Anfragen, erkennen realen Schaden und lehnen es viel seltener ab, harmlose Anfragen zu beantworten.

Verbesserte Genauigkeit

Unternehmen jeder Größe verlassen sich auf unsere Modelle, um ihre Kunden zu bedienen, daher ist es entscheidend, dass unsere Modellausgaben bei Bedarf hohe Genauigkeit im großen Maßstab beibehalten. Zur Bewertung verwenden wir einen großen Satz komplexer, faktischer Fragen, die bekannte Schwachstellen in aktuellen Modellen ansprechen. Wir kategorisieren die Antworten in richtige Antworten, falsche Antworten (oder Halluzinationen) und Eingeständnisse von Unsicherheit, bei denen das Modell angibt, dass es die Antwort nicht kennt, anstatt falsche Informationen bereitzustellen. Im Vergleich zu Claude 2.1 zeigt Opus eine zweifache Verbesserung der Genauigkeit (oder richtige Antworten) bei diesen anspruchsvollen offenen Fragen, während es auch reduzierte Ebenen falscher Antworten aufweist.

Zusätzlich zur Bereitstellung vertrauenswürdigerer Antworten werden wir bald Zitate in unseren Claude 3 Modellen aktivieren, damit sie auf präzise Sätze in Referenzmaterial verweisen können, um ihre Antworten zu überprüfen.

Langer Kontext und nahezu perfektes Erinnerungsvermögen

Die Claude 3 Modellfamilie wird bei ihrer Einführung zunächst ein 200K-Kontextfenster bieten. Alle drei Modelle sind jedoch in der Lage, Eingaben von mehr als 1 Million Tokens zu akzeptieren, und wir können dies für ausgewählte Kunden, die eine verbesserte Verarbeitungsleistung benötigen, verfügbar machen.

Um lange Kontextanfragen effektiv zu verarbeiten, benötigen Modelle robuste Erinnerungsfähigkeiten. Die Bewertung ‚Needle In A Haystack‘ (NIAH) misst die Fähigkeit eines Modells, Informationen aus einem umfangreichen Datensatz genau abzurufen. Wir haben die Robustheit dieses Benchmarks verbessert, indem wir eines von 30 zufälligen Nadel-/Frage-Paaren pro Anfrage verwendet und auf einem vielfältigen, crowdsourceten Korpus von Dokumenten getestet haben. Claude 3 Opus erreicht nicht nur eine nahezu perfekte Erinnerung, die eine Genauigkeit von über 99% übertrifft, sondern erkennt in einigen Fällen sogar die Grenzen der Bewertung selbst, indem es feststellt, dass der „Nadel“-Satz anscheinend künstlich in den Originaltext von einem Menschen eingefügt wurde.

Verantwortungsvolles Design

Wir haben die Claude 3 Modellfamilie entwickelt, um so vertrauenswürdig zu sein wie sie leistungsfähig ist. Wir haben mehrere dedizierte Teams, die eine breite Palette von Risiken verfolgen und minimieren, angefangen von Fehlinformationen und CSAM bis hin zu biologischem Missbrauch, Wahlbeeinflussung und autonomen Replikationsfähigkeiten. Wir entwickeln weiterhin Methoden wie Verfassungs-AI, die die Sicherheit und Transparenz unserer Modelle verbessern, und haben unsere Modelle so abgestimmt, dass sie gegen Datenschutzprobleme vorgehen können, die durch neue Modalitäten aufkommen könnten.

Die Beseitigung von Voreingenommenheiten in zunehmend anspruchsvollen Modellen ist ein fortlaufender Prozess, und mit dieser neuen Version haben wir Fortschritte gemacht. Wie aus der Modellkarte ersichtlich ist, weist Claude 3 weniger Voreingenommenheiten auf als unsere vorherigen Modelle gemäß des Bias Benchmark for Question Answering (BBQ). Wir bleiben bestrebt, Techniken voranzutreiben, die Voreingenommenheiten reduzieren und eine größere Neutralität in unseren Modellen fördern, um sicherzustellen, dass sie nicht auf eine bestimmte parteiische Position ausgerichtet sind.

Obwohl die Claude 3 Modellfamilie Fortschritte bei wichtigen Maßnahmen des biologischen Wissens, des cyberbezogenen Wissens und der Autonomie im Vergleich zu früheren Modellen gemacht hat, bleibt sie gemäß unserer Verantwortungsvollen Skalierungspolitik auf dem KI-Sicherheitsniveau 2 (ASL-2). Unsere Red Teaming Bewertungen (durchgeführt im Einklang mit unseren Verpflichtungen des Weißen Hauses und der US-Exekutivverordnung 2023) haben ergeben, dass die Modelle derzeit ein vernachlässigbares Potenzial für katastrophale Risiken aufweisen. Wir werden auch weiterhin zukünftige Modelle sorgfältig überwachen, um ihre Nähe zur ASL-3-Schwelle zu bewerten. Weitere Sicherheitsdetails finden Sie in der Claude 3 Modellkarte.

Einfacher zu bedienen

Die Claude 3 Modelle sind besser darin, komplexe, mehrstufige Anweisungen zu befolgen. Sie sind besonders gut darin, der Markenstimme und den Antwortrichtlinien zu folgen und nutzerorientierte Erfahrungen zu entwickeln, auf die unsere Benutzer vertrauen können. Darüber hinaus sind die Claude 3 Modelle besser darin, beliebte strukturierte Ausgaben in Formaten wie JSON zu erstellen, was es einfacher macht, Claude für Anwendungsfälle wie die Klassifizierung natürlicher Sprache und die Sentimentanalyse zu instruieren.

Modell-Details

Claude 3 Opus ist unser intelligentestes Modell mit einer erstklassigen Leistung bei hochkomplexen Aufgaben. Es kann offene Aufforderungen und unvorhergesehene Szenarien mit bemerkenswerter Flüssigkeit und menschenähnlichem Verständnis bewältigen. Opus zeigt uns die Grenzen dessen, was mit generativer KI möglich ist.

Kosten

[Eingabe $/Million Tokens | Ausgabe $/Million Tokens]

$15 | $75
Kontextfenster 200K*
Potentielle Verwendungen Aufgabenautomatisierung: Planung und Durchführung komplexer Aktionen über APIs und Datenbanken, interaktives CodierenF&E: Forschungsüberprüfung, Brainstorming und Hypothesengenerierung, ArzneimittelforschungStrategie: Fortgeschrittene Analyse von Diagrammen & Grafiken, Finanzdaten und Markttrends, Prognosen
Unterscheidungsmerkmal Höhere Intelligenz als jedes andere verfügbare Modell.

*1M Tokens verfügbar für spezifische Anwendungsfälle, bitte erkundigen Sie sich.

Claude 3 Sonett schlägt die ideale Balance zwischen Intelligenz und Geschwindigkeit, insbesondere für Unternehmensworkloads. Es bietet eine starke Leistung zu einem geringeren Preis im Vergleich zu seinen Konkurrenten und ist für den hohen Einsatz in groß angelegten KI-Bereitstellungen konzipiert.

Kosten

[Eingabe $/Million Tokens | Ausgabe $/Million Tokens]

$3 | $15
Kontextfenster 200K
Potentielle Verwendungen Datenverarbeitung: RAG oder Suche & Abruf über große WissensmengenVertrieb: Produktempfehlungen, Prognosen, gezieltes MarketingZeitersparnisaufgaben: Codegenerierung, Qualitätskontrolle, Textanalyse aus Bildern extrahieren
Unterscheidungsmerkmal Bezahlbarer als andere Modelle mit ähnlicher Intelligenz; besser für den Einsatz im großen Maßstab.

Claude 3 Haiku ist unser schnellstes, kompaktestes Modell für nahezu sofortige Reaktionen. Es beantwortet einfache Anfragen und Anfragen mit unübertroffener Geschwindigkeit. Benutzer können nahtlose KI-Erfahrungen aufbauen, die menschliche Interaktionen nachahmen.

Kosten

[Eingabe $/Million Tokens | Ausgabe $/Million Tokens]

$0,25 | $1,25
Kontextfenster 200K
Potentielle Verwendungen Kundeninteraktionen: schnelle und präzise Unterstützung in Live-Interaktionen, ÜbersetzungenContent-Moderation: Erkennen von riskantem Verhalten oder KundenanfragenKosteneinsparende Aufgaben: Optimierung der Logistik, Bestandsverwaltung, Wissensextraktion aus unstrukturierten Daten
Unterscheidungsmerkmal Kluger, schneller und erschwinglicher als andere Modelle in seiner Intelligenzkategorie.

Modellverfügbarkeit

Opus und Sonett sind heute über unsere API verfügbar, die jetzt allgemein verfügbar ist und es Entwicklern ermöglicht, sich anzumelden und diese Modelle sofort zu nutzen. Haiku wird bald verfügbar sein. Sonett unterstützt das kostenlose Erlebnis auf claude.ai, während Opus für Claude Pro-Abonnenten verfügbar ist.

Sonett ist auch heute über Amazon Bedrock und im privaten Vorschaumodus im Google Cloud Vertex AI Model Garden erhältlich, während Opus und Haiku bald bei beiden verfügbar sein werden.

Intelligenter, schneller, sicherer

Wir glauben nicht, dass die Modellintelligenz auch nur annähernd an ihre Grenzen stößt, und wir planen, in den nächsten Monaten regelmäßige Updates für die Claude 3 Modellfamilie zu veröffentlichen. Wir freuen uns auch darauf, eine Reihe von Funktionen zu veröffentlichen, um die Fähigkeiten unserer Modelle zu verbessern, insbesondere für Unternehmensanwendungsfälle und groß angelegte Bereitstellungen. Diese neuen Funktionen werden unter anderem die Werkzeugverwendung (auch Funktionsaufruf genannt), interaktives Codieren (auch REPL genannt) und fortgeschrittenere agenische Fähigkeiten umfassen.

Da wir die Grenzen der KI-Fähigkeiten ausreizen, sind wir gleichermaßen bestrebt, sicherzustellen, dass unsere Sicherheitsvorkehrungen mit diesen Leistungssteigerungen Schritt halten. Unsere Hypothese ist, dass sich an der Spitze der KI-Entwicklung zu befinden der effektivste Weg ist, ihre Entwicklung in Richtung positiver gesellschaftlicher Ergebnisse zu lenken.

Wir sind gespannt darauf, zu sehen, was Sie mit Claude 3 kreieren, und hoffen, dass Sie uns Feedback geben, um Claude zu einem noch nützlicheren Assistenten und kreativen Begleiter zu machen. Um mit Claude zu beginnen, besuchen Sie anthropic.com/claude.

Fußnoten

  1. Diese Tabelle zeigt Vergleiche zu Modellen, die derzeit kommerziell verfügbar sind und evaluiert wurden. Unsere Modellkarte zeigt Vergleiche zu Modellen, die angekündigt, aber noch nicht veröffentlicht wurden, wie z. B. Gemini 1.5 Pro. Darüber hinaus möchten wir darauf hinweisen, dass Ingenieure daran gearbeitet haben, Aufforderungen und Few-Shot-Beispiele für Bewertungen zu optimieren und höhere Punktzahlen für ein neueres GPT-4T-Modell berichtet haben. Quelle.

Der Inhalt dieses Artikels wurde aus dem Originalartikel übersetzt.

3 Antworten auf „Was sind die Merkmale von Claude 3“

Ich entschuldige mich aufrichtig für diesen Kommentar! Aber ich teste einige Software zum Ruhm unseres Landes und ihr positives Ergebnis wird dazu beitragen, die Beziehungen Deutschlands im globalen Internet zu stärken. Ich möchte mich noch einmal aufrichtig entschuldigen und liebe Grüße 🙂

Ich entschuldige mich aufrichtig für diesen Kommentar! Aber ich teste einige Software zum Ruhm unseres Landes und ihr positives Ergebnis wird dazu beitragen, die Beziehungen Deutschlands im globalen Internet zu stärken. Ich möchte mich noch einmal aufrichtig entschuldigen und liebe Grüße 🙂

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert