Ich habe Claude Sonnet 5 für euch getestet – Anthropics neues Modell kann einiges, doch es hat ein massives Problem

Sonnet 5 macht auf Anhieb einen guten Eindruck, doch unter der Haube gibt es Probleme.

Claude Sonnet 5 soll in manchen Bereichen sogar das Spitzenmodell Opus 4.8 übertreffen. (Bildquelle: Anthropic | Jan Stahnke - GameStar Tech) Claude Sonnet 5 soll in manchen Bereichen sogar das Spitzenmodell Opus 4.8 übertreffen. (Bildquelle: Anthropic | Jan Stahnke - GameStar Tech)

Anthropic hat am 30. Juni 2026 das neue Modell Sonnet 5 veröffentlicht. Dieses Modell soll euch vor allem eines bringen: bessere agentische Fähigkeiten.

Das schaue ich mir natürlich direkt mal an und zeige, was euch erwartet, wenn ihr Sonnet eine anspruchsvolle Aufgabe gebt.

Leider steht sich Anthropic hier selbst im Weg.

Ein Prompt, sie zu testen

Um die agentischen Fähigkeiten von Sonnet zu testen, habe ich einen Prompt erstellt, der Sonnet 5 eine detaillierte Reiseplanung nach Japan aufträgt. Ich verwende für den Test übrigens den Aufwand »Mittel«, der standardmäßig eingestellt ist.

Hier der Prompt:

Plane eine 5-tägige Geschäfts- und Kulturreise nach Tokio für eine Person im November 2026. Einschränkungen und Bedingungen:

  • Gesamtbudget: 2.500 € (inklusive Flüge ab Frankfurt, Hotel und Verpflegung).
  • Feste Termine: Am Tag 2 um 14:00 Uhr ein Meeting in Chiyoda, am Tag 4 um 10:00 Uhr ein Meeting in Shinjuku.
  • Ernährung: Die Person isst streng vegan.
  • Energie-Level: Nach jedem Meeting müssen mindestens 2 Stunden Pause im Hotel eingeplant werden.
  • Kultur: Mindestens zwei historische Tempel und ein digitales Kunstmuseum müssen besucht werden. Erstelle einen detaillierten Stundenplan für alle 5 Tage, kalkuliere die geschätzten Kosten pro Posten und prüfe am Ende selbstständig, ob alle Einschränkungen strikt eingehalten wurden.

Video starten 51:40 Wenn der Chatbot zur Gefahr wird: KI und unsere Psyche


Was mir bei Sonnet 5 positiv auffiel

Das neue Modell von Anthropic macht auf den ersten Blick einen guten Job, wenn es um die Planung der Japanreise geht.

Der aufgestellte Terminplan sieht absolut solide aus und die geplanten Ausflüge sind in der Nähe unserer imaginären Geschäftstermine und die KI bedenkt diverse Nebenkosten, wie Taxifahrten, Zugtickets, eSIM und so weiter. Meine Vorgaben wurden so weit eingehalten.

Bei genauer Recherche fiel mir allerdings auf, dass einige recherchierte Preise für zum Beispiel den Flug nicht ganz korrekt sind – zumindest nach einer recht kurzen Recherche meinerseits.

Beim Flug würden 750 Euro knapp werden. Da sollte man zu diesem Zeitpunkt eher mit 100 Euro mehr rechnen. 

Hier drücke ich mal ein Auge zu, da es sehr viele Angebote und Möglichkeiten gibt, die ihr mit einem präziseren Prompt genauer definieren solltet, wenn ihr tatsächlich eine solche Reise plant. So kulant will ich allerdings nicht in jedem Fall sein.

Perfektion sieht anders aus

Was mich schon eher stutzig macht, ist der fürs Hotel ermittelte Preis. Der liegt bei 480 Euro, doch ich habe diverse Hotels gefunden, die deutlich günstiger sind. Wenn man geringe Ansprüche an das Hotel hat, kommt man laut Hotels.com bereits ab rund 150 Euro für vier Nächte unter. 

Im Reasoning spricht die KI aber von nur 300 Euro. Wie Claude dann auf 480 kommt, ist mir ein Rätsel.

Außerdem zeigt ein Blick in das Reasoning, dass keine veganen Restaurants oder Ausflugziele recherchiert wurden. Die KI sagt mir grundsätzlich: »Um 12 gehst du dann halt irgendwo vegan essen«. So hatte ich mir das nicht vorgestellt. Auch die gewünschte Ausstellung wurde nicht genauer recherchiert.

Das begründet die KI damit, dass die Ausflugziele wie Tempel ohnehin zeitlos sind und sich die KI hier auf ihr internes Wissen verlassen kann. Gleichzeitig entschuldigt sie sich dafür, dass die ausgewählte Wissenschaftsausstellung nicht genauer geprüft wurde und mittlerweile schon gar nicht mehr am angegebenen Ort stattfindet. 

Ich denke, die KI hätte von Anfang an online suchen sollen. Immerhin können Tempel auch mal renoviert werden oder beispielsweise für besondere Events gesperrt werden. 

Alles in allem würde ich mich mit dieser Planung nicht sonderlich wohlfühlen, da einfach zu wenige Details recherchiert wurden. Dazu kommen Ungereimtheiten, wie die Hotelkosten. 

Als sehr grobe Einschätzung der Reisekosten ist das Ergebnis nicht schlecht, aber ich könnte hiernach nicht auf eine eigene ausführliche Recherche verzichten.

Das wäre an sich nicht allzu schlimm, denn oftmals bekommt man von einem KI-Chatbot nicht unbedingt auf Anhieb die beste Antwort. Doch immer wieder nachfragen ist nicht drin.

MacBook Neo 13
MacBook Neo 13
Trotz der Preiserhöhung von Apple noch ein verdammt guter Deal.
799 €

Die Tokenlimits sind ein Witz

Ich wollte es mir nicht nehmen lassen, die anfangs erwähnte Aufwand-Einstellung auf das Maximum zu stellen und zu schauen, wie sich die Ergebnisse (hoffentlich) verbessern.

Leider werde ich es auch am zweiten Tag meines Tests nicht erfahren, denn Claude Sonnet 5 mit maximalem Aufwand kann nicht mal einen Prompt fertig bearbeiten, ohne das tägliche Tokenlimit zu überschreiten.

Das ist einfach nur enttäuschend.

Anthropic warnt mit einem kleinen Ausrufezeichen zwar, dass Sonnet 5 mit maximalem Aufwand viele Tokens verbraucht und man sparsam damit umgehen soll. Doch ein einziger Prompt sollte drin sein, Anthropic!

Immerhin sehe ich im Reasoning, dass die KI deutlich bessere Arbeit leistet, als sie es mit mittleren Aufwand-Einstellungen getan hat. Sie sucht online nach deutlich mehr Informationen. Neben den bereits vorher genauer recherchierten Aspekten wie Flug und Hotel sucht die KI nun auch nach:

  • Öffnungszeiten und Eintrittsgebühren der jeweiligen Tempel
  • Vegane Restaurants in Shinjuku
  • Bahntickets
  • Wechselkurse
  • Geodaten per Google Maps

Hätte ich jetzt noch ein fertiges Ergebnis bekommen, das diese Informationen sauber aufbereitet, wäre ich wahrscheinlich deutlich glücklicher mit dem Modell. Tja, wenn das Wörtchen »wenn« und so weiter..

Für Nutzer ohne Abo enttäuscht das Modell im ersten Hands-on.

Ich muss fairerweise dazu sagen, dass zwischen dem mittleren Aufwand und dem maximalen Aufwand noch die Stufen »Hoch« und »Extra« stehen, die vielleicht ein guter Mittelweg sind. Das werde ich dann wohl testen, wenn mein Limit wieder erneuert wird, doch vorerst bleibt ein bitterer Nachgeschmack.

Mein Fazit

Jan Stahnke: Sonnet 5 bekommt mit mittlerem Aufwand einiges richtig auf die Kette, doch macht auch genug Fehler, um mir den Willen zu nehmen, mich wirklich auch auf die KI zu verlassen (so weit man das überhaupt sollte).

Der Modus mit maximalem Aufwand scheint hingegen um ein Vielfaches mehr zu liefern, doch scheitert am Tokenlimit. Und zwar so sehr, dass nicht mal ein Prompt am Tag möglich ist.


Mehr zum Thema KI: KI-Mythos: Personas können euren Prompts schaden, doch stattdessen nur diese drei Dinge für ein super Ergebnis


Ich frage mich wirklich, was sich Anthropic dabei denkt. KI-Unternehmen haben ohnehin Probleme, tatsächlich Geld zu verdienen. Genau deswegen gibt es mittlerweile fast überall diese frechen Tokenlimits. Aber wie um alles in der Welt will mich Anthropic davon überzeugen, für ihre Modelle zu zahlen, wenn ich nicht mal einen Prompt testen kann, der zwar anspruchsvoll, aber lange nicht zu komplex ist?

Bis meine Tokenlimits zurückgesetzt werden und ich die anderen Aufwandsstufen testen kann, bleibe ich vorsichtig mit Sonnet 5.

Welche Erfahrungen habt ihr bisher mit Sonnet 5 gesammelt? Schreibt es gerne in die Kommentare!


Kommentare(0)
Kommentar-Regeln von GameStar
Bitte lies unsere Kommentar-Regeln, bevor Du einen Kommentar verfasst.

Nur angemeldete Benutzer können kommentieren und bewerten.