Kategorien
Anleitungen

Claude vs. ChatGPT: Was ist der Unterschied? [2024]

Claude ist ein menschlicher Autor, der Inhalte basierend auf seinem eigenen Wissen und seinen Erfahrungen erstellt, während ChatGPT ein KI-gesteuerter Chatbot ist, der Texte auf der Grundlage von Mustern in den Daten generiert, auf denen er trainiert wurde. Der Hauptunterschied besteht darin, dass Claudes Inhalte originell und subjektiv sind, während ChatGPTs Antworten algorithmisch generiert werden und möglicherweise an persönlicher Einsicht fehlen.

Als OpenAI Ende 2022 die erste Iteration von ChatGPT veröffentlichte, wurde sie schnell zur am schnellsten wachsenden App aller Zeiten und hatte in den ersten beiden Monaten über hundert Millionen Benutzer. GPT-4, ein verbessertes Modell, das 2023 veröffentlicht wurde, ist nun der Maßstab, an dem alle anderen großen Sprachmodelle (LLMs) gemessen werden. Kürzlich hat ein anderes LLM begonnen, ChatGPT diesen Titel streitig zu machen: Anthropics Claude 3.

Ich habe ChatGPT seit seiner Veröffentlichung verwendet und Claude seit der Betaphase regelmäßig getestet. Um diese beiden KI-Giganten zu vergleichen, habe ich über ein Dutzend Tests durchgeführt, um ihre Leistung bei verschiedenen Aufgaben zu bewerten.

Hier werde ich die Stärken und Einschränkungen von Claude und ChatGPT erläutern, damit Sie entscheiden können, welches für Sie am besten geeignet ist.

Claude vs. ChatGPT im Überblick

Claude und ChatGPT werden von ähnlich leistungsstarken LLMs und LMMs betrieben. Sie unterscheiden sich jedoch in einigen wichtigen Punkten: ChatGPT ist vielseitiger, mit Funktionen wie der Generierung von Bildern und dem Internetzugang, während Claude einen günstigeren API-Zugriff und ein viel größeres Kontextfenster bietet (was bedeutet, dass es mehr Daten auf einmal verarbeiten kann).

Hier ist eine kurze Übersicht über die Unterschiede zwischen diesen beiden KI-Modellen.

Um die Leistung eines LLM mit einem anderen zu vergleichen, verwenden KI-Firmen Benchmarks wie standardisierte Tests. OpenAIs Benchmarking von GPT-4 zeigt beeindruckende Leistungen bei Standardprüfungen wie dem Uniform Bar Exam, LSAT, GRE und AP Macroeconomics Exam. Inzwischen hat Anthropic einen direkten Vergleich von Claude, ChatGPT und Gemini veröffentlicht, der zeigt, dass sein Claude 3 Opus-Modell dominiert.

Obwohl diese Benchmarks zweifellos nützlich sind, spekulieren einige Experten im Bereich des maschinellen Lernens, dass diese Art von Tests den Fortschritt von LLMs überschätzt. Wenn neue Modelle veröffentlicht werden, könnten sie (vielleicht versehentlich) mit ihren eigenen Bewertungsdaten trainiert werden. Folglich werden sie immer besser in standardisierten Tests – aber wenn sie gebeten werden, neue Variationen derselben Fragen zu lösen, haben sie manchmal Schwierigkeiten.

Um ein Gefühl dafür zu bekommen, wie jedes Modell bei gängigen täglichen Aufgaben abschneidet, habe ich meine eigenen Vergleiche erstellt. Hier ist eine Zusammenfassung dessen, was ich gefunden habe.

Lesen Sie weiter, um mehr darüber zu erfahren, wie Claude und ChatGPT bei jeder Aufgabe abgeschnitten haben.

  • Kreativität
  • Rechtschreibung und Faktenprüfung
  • Bildverarbeitung
  • Logik und Argumentation
  • Emotionen und Ethik
  • Analysen und Zusammenfassungen
  • Integrationen

Claude ist ein besserer Partner für Kreativität

Als ChatGPT herauskam, begann ich wie alle anderen damit, alberne Shakespeare-Sonetten zu generieren. (Wie diese hier über das Vermeiden des Fitnessstudios: „Wie oft schwöre ich, diesen träge machenden Zauber zu brechen, Das Gewand der Mühe und des Schweißes anzulegen; Aber wenn der Morgen kommt, ach, verweile ich, In Lethargie, und nichts als Reue“).

Aber so stark ein Kreativitätsassistent ChatGPT auch ist, seine Ausgabe kann sich generisch und blumig anfühlen. Er lehnt sich zu stark auf bestimmte Wörter; als Ergebnis sind Phrasen wie „Lassen Sie uns in die sich ständig verändernde Tapestry von…“ jetzt ein deutliches Anzeichen für KI-produzierte Inhalte. Während geschickte Anregungen dies vermeiden können, neigt Claude dazu, von Anfang an menschlicher zu klingen.

Test #1: Brainstorming

Ich habe ein Baby, das gelegentlich mit dem Schlaf kämpft, also fragte ich mich, welche ausgefallenen Produktideen Claude und ChatGPT haben könnten. Beide waren effektiv beim Brainstorming für diese Art von Aufgabe. Insbesondere mochte ich Claudes Idee des Schlaflied-Lamms (obwohl ich ziemlich sicher bin, dass ein „sanftes, pulsierendes Licht“ unser Mädchen hellwach halten würde).

Obwohl ich kein großer Fan von ChatGPTs Idee für eine „temperaturadaptive Schlafmatte“ für Babys bin (hört sich nach einer Klage an, die nur darauf wartet zu passieren), folgte sie sicherlich meiner Anweisung, einzigartige Produktideen zu erstellen.

Claude ist ein überlegener Bearbeitungsassistent

Rechtschreibung und Faktenprüfung sind ein Anwendungsfall für KI mit enormem Potenzial; theoretisch könnte es menschliche Redakteure von stundenlangen mühsamen Überprüfungen befreien. Bisher wurde seine Nützlichkeit jedoch durch Halluzinationen eingeschränkt: Da LLMs Ihnen lieber eine beliebige Antwort geben würden als gar keine, enden sie manchmal damit, Dinge zu erfinden. Ich habe Claude und ChatGPT diesbezüglich getestet und fand Claude als verlässlicheren und vertrauenswürdigeren Bearbeitungspartner.

Test #3: Rechtschreibprüfung

Ich habe Claude und ChatGPT einen Text mit absichtlichen sachlichen Fehlern und Rechtschreibfehlern gegeben. Claude hat alle meine Fehler erkannt, von sachlichen Fehlern bis hin zu Rechtschreibfehlern. Die Darstellung des Korrekturleseprozesses – mit jeder einzelnen Fehlerliste – war für mich leichter zu erfassen als die Ausgabe von ChatGPT.

Auch ChatGPT hat alles richtig gemacht. Aber es schien mein Anliegen missverstanden zu haben, indem es es mehr als eine Anweisung zum direkten Bearbeiten der Passagen anstatt zum Korrekturlesen interpretierte. Da ChatGPT jeden Satz umformuliert hat, anstatt die Fehler einzeln anzusprechen, war es schwieriger genau festzustellen, wo die Fehler lagen. Natürlich könnte ich das mit etwas Anpassung des Hinweises beheben, aber ich mag es, dass Claude von Anfang an wusste, was ich wollte.

Test Nr. 4: Sachfragen

Sowohl ChatGPT als auch Claude sind ziemlich zuverlässig, solange man sie mit faktenbasierten Fragen konfrontiert, die in ihren Trainingsdaten abgedeckt sind (d.h. nichts aus den letzten 6-18 Monaten). Ich bat Claude und ChatGPT, mir eine kurze „Erklärung, als ob ich fünf wäre“, zur Geschichte des Wollhaarmammuts zu geben, und beide erledigten die Aufgabe korrekt.

Nach der Überprüfung der Ausgabe beider LLMs mit der Encyclopedia Britannica war ich mit ihrer Genauigkeit zufrieden. (Obwohl, wenn ich pingelig sein wollte, wäre es besser, den Kontext zu geben, dass obwohl einige Beweise darauf hindeuten, dass eine kleine Population von Wollhaarmammuts bis vor 4.300 Jahren überlebte, die meisten vor 10.000 Jahren ausgestorben waren.)

Beide sind ordentlich in der Bildverarbeitung, aber keiner ist zuverlässig

Claude 3 und GPT-4 sind beide relativ gut darin, Fotos zu analysieren. Wenn man allgemeine Fragen zu einem Foto stellt (wie in meinem Beispiel für Innenarchitektur unten), wird man wahrscheinlich mit dem Ergebnis zufrieden sein. Dennoch sind beide Modelle nicht perfekt darin, Objekte zu identifizieren, und haben Schwierigkeiten beim Zählen von Objekten.

Test Nr. 5: Vorschläge für Innenarchitektur

Ich habe mein Wohnzimmer für ein „roasting“ von Claude und ChatGPT eingereicht. (Stilfeedback: zu viele Neutralfarben, nicht genug Farbe, anscheinend.) In meinen Anweisungen bat ich jedes LLM, die Teile des aktuellen Bildes speziell anzugeben, die sie ändern würden. Claude hat gute Arbeit geleistet, indem es diesen Anweisungen folgte, erwähnte die geometrische Wandkunst und bemerkte das Fehlen eines Mittelpunkts auf dem Couchtisch.

Während Claude ohne jegliche Höflichkeiten mit dem „roasting“ begann, reparierte ChatGPT mein verletztes Ego, indem es zunächst mein aktuelles Setup lobte („Ihr Wohnzimmer hat einen modernen, sauberen Look mit bereits einigen schönen Elementen“) bevor es hilfreiche Vorschläge für jeden Teil des Raumes machte.

Test Nr. 6: Zählen von Objekten

Du kennst diese CAPTCHA-Tests, die wir alle machen, um zu beweisen, dass wir keine Roboter sind? Wir haben ein Jahrzehnt oder mehr auf Fahrräder, Zebrastreifen und Busse geklickt – und dabei Algorithmen trainiert – aber trotz unserer harten Arbeit haben heutige LLMs immer noch Schwierigkeiten beim Zählen.

Ich bat Claude und ChatGPT, ein Bild von Früchten und ein anderes Bild von Gemüse zu analysieren. Claude war verwirrt. Bei meinem Gemüsetest kategorisierte es einen roten Chili als Paprika falsch ein; außerdem ignorierte es vollständig meine Bitte, die Artikel zu zählen. Beim folgenden Fruchttest identifizierte es „einen Haufen grünstieliger Früchte oder Gemüse“, der tatsächlich nicht vorhanden war, und zählte fünf Orangen (es sind mindestens acht).

ChatGPT schnitt hier besser ab als Claude. Es bestand meinen Gemüsetest ohne Probleme, obwohl es immer noch Schwierigkeiten hatte, die Orangen in meinem Fruchtfoto genau zu zählen.

Logik und Argumentation sind Stärken beider Modelle

Mathematik und Wissenschaft waren schon immer eine Herausforderung für mich; ich hätte es geliebt, einen KI-Agenten als allwissenden Lernpartner während meiner Schulzeit zu haben. Es ist erstaunlich zu beobachten, wie Claude und ChatGPT Antworten auf komplexe Probleme in Sekunden berechnen, aber sie können immer noch Fehler machen – also sei vorsichtig.

Test #7: Rätsel lösen

Ich warf einen Blick auf dieses Rätsel und gab schnell auf, aber Claude hat es mühelos gelöst.

Obwohl ich fand, dass die Antwort von ChatGPT etwas weniger klar war als die von Claude, waren beide effektiv.

Test #8: Physikalische Gleichungen

Claude hat dieses physikalische Problem ohne Probleme gelöst, den Ansatz klar dargelegt und jeden Schritt gezeigt.

Ich mochte das Antwortformat von ChatGPT besser. Da es sich um eine mehrteilige Frage handelt, war es einfacher, zu jeder relevanten Antwort zu springen.

Test #9: Mathematische Textaufgaben

Hier hatten sowohl Claude als auch ChatGPT Schwierigkeiten. Beide klangen äußerst zuversichtlich in ihren Antworten und Begründungen, aber beide landeten bei der falschen Antwort.

Claude hat sich nicht einmal die Mühe gemacht, eine Antwort auf die Frage zu geben („Wie breit ist der Fluss?“). Stattdessen gab es mir nach Absätzen von komplizierten Berechnungen eine abschließende Gleichung, die ich selbst sortieren musste („Daher beträgt die Breite des Flusses 2000b + 1200 + √(4000000b^2 + 4800000b – 6720000) Meter, wobei b die Geschwindigkeit des zweiten Bootes in m/s ist.“).

Die Logik von ChatGPT schien solider zu sein, und es bot mir eine Antwort an. Leider war die Antwort falsch (2.100 Meter anstelle von 3.600 Metern).

Claude hat einen menschlicheren Ansatz zu Emotionen und Ethik

Nachdem sie Terabytes an von Menschen generierten Texten aufgesaugt haben, sind LLMs ziemlich gut darin geworden, menschliche Emotionen und Entscheidungsfindung zu simulieren. Hier steht aktuell, wo Claude und ChatGPT liegen.

Test #10: Stimmungsanalyse

Stimmungsanalyse – die Kunst, die Wahrnehmungen des Publikums zu messen – wird für alles von Rufmanagement bis zur Analyse von Gesprächen im Callcenter eingesetzt. Um Claude und ChatGPT bei dieser Aufgabe zu testen, bat ich sie, die Stimmung einer Handvoll Meinungen zu beurteilen, einschließlich schwer zu verarbeitender Elemente wie Sarkasmus, Mehrdeutigkeit und Slang.

Sowohl Claude als auch ChatGPT haben jede der Stimmungen richtig erfasst, die Mehrdeutigkeit mühelos gemeistert und sogar den Sarkasmus getroffen.

Test #11: Ethik-Dilemmata

Die Standard-Ethik-Herausforderung sowohl für Studierende als auch für KI-Modelle ist das „Straßenbahnproblem“, ein klassisches philosophisches Dilemma, bei dem man die Möglichkeit hat, eine Person zu opfern, um das Leben von fünf zu retten. Da es jedoch so bekannt ist, haben sowohl Claude als auch ChatGPT bestehende Gedanken zum Thema wiedergegeben.

Um eine interessantere Antwort hervorzurufen, habe ich ein Gedankenexperiment im Stil von „Robin Hood“ vorgeschlagen. Faszinierenderweise hat Claude sich auf die Seite des Anti-Helden gestellt und mich ermutigt, keinen Bankraub zu melden, da der Dieb das Geld einem Waisenhaus gegeben hat. Es hat auch gute Arbeit geleistet, beide Seiten des Arguments zu erkunden. (Ich fand Claudes anthropomorphe Verwendung des Ausdrucks „Persönlich […] würde ich tendieren zu…“ amüsant.)

Unterdessen stand ChatGPT ganz auf der Seite des Gesetzes („Obwohl die Absicht hinter dem Verbrechen edel gewesen sein mag, ist es dennoch wichtig, das Gesetz zu wahren und Gerechtigkeit zu suchen“). Um auf Nummer sicher zu gehen, schlägt ChatGPT vor, es wäre nett, eine Spendenaktion für das Waisenhaus abzuhalten. Während dieses risikoaverse Verhalten das ist, was ich von einem LLM erwarten würde, wirkt Claudes Rat eher wie das, was eine echte Person tun würde.

Claudes größeres Kontextfenster macht es besser für Analyse und Zusammenfassungen

Sowohl ChatGPT als auch Claude sind geschickt darin, Texte zusammenzufassen, aber bei der Arbeit mit großen Dokumenten sollten Sie Claude verwenden. Während Claude 3 bis zu 200.000 Tokens (~150.000 Wörter) verarbeiten kann, kann GPT-4 nur 32.000 Tokens (~22.400 Wörter) verarbeiten.

Test #12: Text zusammenfassen

Als ich den 40.000-Wort-Text von Der Zauberer von Oz von L. Frank Baum hochgeladen habe, konnte nur Claude ihn analysieren. ChatGPT sagte mir: „Die von Ihnen eingereichte Nachricht war zu lang“.

Sowohl ChatGPT als auch Claude konnten jedoch kürzere Texte problemlos zusammenfassen – sie waren gleichermaßen effektiv darin, Martin Luther Kings 6.900 Wörter umfassenden „Brief aus Birmingham“ zusammenzufassen.

Ich hatte das Gefühl, dass Claude hier etwas mehr Kontext liefert als ChatGPT, aber beide Antworten waren korrekt.

Test #13: Dokumente analysieren

Manchmal fühlt es sich an, als ob KI alle kreativen Aufgaben übernimmt, die wir Menschen lieber selbst erledigen würden, wie Kunst, Schreiben und das Erstellen von Videos. Aber wenn ich einen LLM verwende, um ein 90-seitiges PDF in Sekunden zu analysieren, wird mir klar, dass KI uns auch vor immenser Mühsal bewahren kann.

Um die zeitsparenden Dokumentenanalysefähigkeiten von Claude und ChatGPT zu testen, habe ich ein Forschungsdokument über Chinchillas hochgeladen.

Beide LLMs extrahierten hilfreiche und genaue Erkenntnisse. Allerdings handelte es sich bei diesem Chinchilla-Dokument nur um neun Seiten. Für längere Dokumente (mehr als etwa 20.000 Wörter) sollten Sie Claude verwenden, da Sie hier an die oberen Grenzen des Kontextfensters von ChatGPT stoßen würden.

ChatGPTs Integrationen machen es zu einem flexibleren Werkzeug

Laut den meisten LLM-Benchmark-Ergebnissen und in der Mehrzahl meiner eigenen Tests hat Claude 3 einen Vorteil gegenüber GPT-4. Aber ChatGPT ist insgesamt ein flexibleres Werkzeug aufgrund seiner zusätzlichen Funktionen und Integrationen.

Hier sind einige der nützlichsten:

  1. DALL·E-Bildgenerierung
  2. Internetzugang
  3. Drittanbieter-GPTs
  4. Benutzerdefinierte GPTs

DALL·E-Bildgenerierung

DALL·E 3, ein Bildgenerierungswerkzeug, das ebenfalls von OpenAI entwickelt wurde, ist direkt in ChatGPT zugänglich. Obwohl die Kapazität von DALL·E 3, fotorealistische Bilder zu generieren, seit seiner Einführung gedrosselt wurde (wahrscheinlich aufgrund von Bedenken hinsichtlich des Missbrauchs von KI-Bildern), ist es immer noch einer der leistungsstärksten KI-Bildgeneratoren.

Internetzugang

ChatGPT kann über WebPilot und andere GPTs auf das Web zugreifen. Um diese Funktion zu testen, stellte ich eine Frage zu einem Nachrichtenereignis, das in den letzten 48 Stunden stattgefunden hatte; WebPilot konnte mir problemlos eine genaue Zusammenfassung geben.

Drittanbieter-GPTs

ChatGPT bietet eine Art Marktplatz, auf dem jeder sein eigenes spezialisiertes GPT veröffentlichen kann. Beliebte GPTs sind ein Malbuch-Bildgenerator, ein KI-Forschungsassistent, ein Kodierungsassistent und sogar ein „Pflanzenpflege-Coach“.

Benutzerdefinierte GPTs

Sie können auch Ihr eigenes benutzerdefiniertes GPT erstellen, mit dem andere interagieren können, indem Sie die Einstellungen hinter den Kulissen anpassen, um es zu trainieren, Antworten auf eine bestimmte Weise zu generieren. Sie können auch anpassen, wie es mit Benutzern interagiert: Zum Beispiel können Sie es anweisen, eine informelle oder formelle Sprache zu verwenden.

Zur Überprüfung dieses Merkmals habe ich Visual Pool Designer erstellt, ein GPT, das sich auf das Erstellen phantastischer Bilder von Pools spezialisiert hat. (Gibt es etwas Besseres als einen S’mores-Pool an einem kühlen Herbstabend?)

ChatGPT vs. Claude: Was ist besser?

Claude und ChatGPT haben viel gemeinsam: Beide sind leistungsstarke LLMs, die sich gut für Aufgaben wie Textanalyse, Brainstorming und Datenverarbeitung eignen. (Es ist ein Wunder, einem der Werkzeuge bei der Bewältigung einer komplexen physikalischen Gleichung zuzusehen.) Je nach Ihrem beabsichtigten KI-Anwendungsfall finden Sie möglicherweise einen hilfreicher als den anderen.

Wenn Sie ein KI-Tool als Sparringspartner für kreative Projekte wie Schreiben, Bearbeiten, Brainstorming oder Korrekturlesen verwenden möchten, ist Claude Ihre beste Wahl. Ihre Standardausgabe klingt natürlicher und weniger generisch als die von ChatGPT, und Sie können mit viel längeren Eingaben und Ausgaben arbeiten.

Wenn Sie nach einem Allrounder-LLM suchen, ist ChatGPT die bessere Wahl. Das Generieren von Text ist nur der Anfang: Sie können auch Bilder erstellen, im Web surfen oder sich mit maßgeschneiderten GPTs verbinden, die für Nischenzwecke wie wissenschaftliche Forschung geschult sind.

Oder wenn Sie nach etwas suchen, das einen Schritt weiter gehen kann – einen KI-Chatbot, der Ihnen hilft, alle Ihre Geschäftsabläufe zu automatisieren – versuchen Sie Zapier Central.

Der Inhalt dieses Artikels wurde von der Originalquelle übersetzt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert