Der chinesische Konzern Alibaba hat sich mit den Qwen-Modellen bereits einen Namen gemacht: Das neueste Modell Qwen3-Max-Thinking muss sich vor Google nicht verstecken. (Bildquelle: Ascannio, Adobe Stock)

Gemini vs. ChatGPT: Spätestens seit der Verkündung der Kooperation zwischen Apple und Google für die neue Siri sehen die meisten den Graben zwischen den Silicon-Valley-Firmen Google und OpenAI verlaufen. Und klar scheint: An ChatGPT gibt es mittlerweile viel zu kritisieren.

Eher selten liest man derzeit jedoch von der Konkurrenz aus Fernost, genauer: China. Seit DeepSeek 2025 die Medien kurzzeitig dominierte, ist es still geworden. Doch zuletzt war der Konzern Alibaba mit seinen Qwen-Modellen in der Entwicklerszene ausgesprochen populär.

Dieser Tage wurde mit Qwen3-Max-Thinking deren Flaggschiff veröffentlicht – und das scheut sich nicht, es mit Googles letztem Paukenschlag in Form von Gemini 3 Pro aufzunehmen.

56:01 GameStar Tech Talk: Geht KI zu weit?

Autoplay

Der Benchmark-Test: Gemini dominiert in den meisten Kategorien

Die Qwen-Modelle sind verschiedene Open-Weight-Sprachmodelle des chinesischen Konzerns Alibaba, der uns vor allem als Mutterkonzern des chinesischen Amazon AliExpress bekannt ist.

Am 26. Januar 2026 veröffentlichte das Team rund um Qwen deren neues Flaggschiff-Modell Qwen3-Max-Thinking.

In der begleitenden Ankündigung positioniert das chinesische Unternehmen das als direkten Herausforderer zu Googles KI Gemini und gibt an: Qwen3-Max-Thinking schlage Gemini 3 Pro bei den wichtigsten Reasoning-Benchmarks.

Die präsentierten Benchmarks wurden vom Entwicklerteam rund um Qwen selbst erhoben. Wie in der Branche üblich, ist eine gewisse Vorauswahl zugunsten des eigenen Modells nicht gänzlich auszuschließen.

Dennoch zeichnet der technische Bericht ein differenziertes Bild des aktuellen KI-Wettbewerbs mit standardisierten Test-Metriken:

Google bleibt Spitzenreiter: In der Gesamtschau führt Gemini 3 Pro in 11 der 19 aufgeführten Kategorien.
Qwen, der spezialisierter Herausforderer: Qwen3-Max-Thinking gewinnt im Benchmark-Test in den verbleibenden 8 der 19 Kategorien. Weiterhin ist der Abstand zu Google in vielen Bereichen minimal.
Die Stärken von Gemini 3 Pro: Google dominiert vor allem in den Bereichen Allgemeinwissen, in STEM-Fächern und beim Coding. Auch bei der Analyse von langen Kontexten und der Tool-Nutzung (wie etwa API-Schnittstellen) behält Gemini die Oberhand.
Die Stärken von Qwen3-Max-Thinking: Qwen spielt seine Überlegenheit primär im Bereich Reasoning aus – eine wichtige Kategorie, die den Sprachmodellen in den letzten Jahren zu einem signifikanten Entwicklungssprung verholfen hat.
Mit einem Score von 90.2 gegenüber dem direkten Verfolger Gemini 3 Pro mit 81.7 hat das chinesische Modell in dem Benchmark Arena-Hard v2 die Nase im Bereich Instruction Following deutlich vorne.

Das heißt kurz gesagt: Nutzer haben bei Qwen eine signifikant höhere Wahrscheinlichkeit, dass ihre Anweisungen bereits beim ersten Versuch präzise und ohne unnötige Rückfragen umgesetzt werden.

Nicht nur die Performance: In einer Sache besticht Qwen deutlich

Abgesehen von Werten in Benchmark-Tabellen hat Qwen gegenüber Google jedoch einen entscheidenden Vorteil: Es ist schlicht günstiger.

Vergleicht man die Preisgestaltung von Google gegenüber Alibaba für die Nutzung der jeweiligen API, so fällt Folgendes auf:

Ausgabe zum halben Preis: Während Google für die Textausgabe 12 US-Dollar pro Million Tokens verlangt, ist Qwen mit 6 US-Dollar exakt doppelt so günstig.
Günstigerer Input: Auch beim Einlesen von Daten (Prompts) spart man mit Qwen deutlich – der Preis ist hier etwa 1,7-mal niedriger als bei Gemini 3 Pro.
Kontext wird teuer: Google verdoppelt seine Preise, sobald eine Anfrage länger als 200.000 Tokens ist. Qwen verzichtet auf einen solchen Aufschlag, wodurch es bei großen Datenmengen (etwa langen Analysen) noch deutlich preiswerter wird.

Das könnte auch ein Grund dafür sein, dass die Qwen-Modelle – wie die Deutsche Welle berichtet –derzeit die weltweit am häufigsten heruntergeladenen Open-Weight-Lösungen sind, mittlerweile vor Mark Zuckerbergs Llama-Modellen.

Es ist nicht alles Gold: Qwen für den Privatnutzer

Die Preise und auch bestimmte Benchmarks sind indes vor allem interessant für professionelle Nutzer und Entwickler. Bevor der Alltagsnutzer Qwen3-Max-Thinking über Qwen.Chat als persönlichen Chatbot verwendet, sollte er allerdings ein paar Punkte beachten:

Mangelnder Datenschutz: In seinen AGB gibt Qwen an, dass die Nutzereingaben nicht vertraulich und nicht rechtlich geschützt (non-confidential and non-proprietary) sind. Das bedeutet: Eure Daten können, etwa zum Training weiterverarbeitet werden. Business-Kunden hingegen erhalten in der Alibaba Cloud hingegen die Möglichkeit auf Widerspruch der Datenverarbeitung.
Das chinesische Gesetz: Datenschützer bemängeln im Bezug auf China, wie etwa die Tagesschau berichtete, das chinesische Geheimdienstgesetz, das die Bevölkerung und Organisationen zur Kooperation mit den Sicherheitsbehörden verpflichtet. Das gilt auch für Firmen wie Qwen.

Ob Modelle aus der Qwen-Familie in Zukunft dasselbe Vertrauen bei Privatkunden genießen werden wie die von OpenAI oder Google bleibt fraglich. Die werden, wie man immer wieder in Foren liest, von Menschen auch gerne als Therapeuten-Ersatz genutzt – ein durchaus problematischer Trend.

Allerdings: Wer sich für den Kampf zwischen den KI-Giganten interessiert, der muss über den kalifornischen Tellerrand hinausblicken und wird von da aus seine Aufmerksamkeit als erstes nach China richten.

Hier hat sich, für viele fast unbemerkt, ein stiller, aber mächtiger Markt für große Sprachmodelle entwickelt – und mit Qwen3-Max-Thinking ein starkes Flaggschiff bekommen.


	1	Wir wussten, dass diese Bäume sehr alt sind. Doch wir konnten uns kaum vorstellen, dass sie ein Alter von 4.000 Jahren erreichen können [Best of GameStar]
	2	Mein Bruder ist Sicherheitstechniker und erklärt, warum man den Schlüssel nachts nicht im Schloss stecken lassen sollte
	3	Laut psychologischen Erkenntnissen suchen Erwachsene, die zu ihren Kinderspielen zurückkehren, nicht nach Vergnügen: Sie suchen verzweifelt nach der Person, die sie einmal waren
	4	Vor vier Monaten habe ich ChatGPT gekündigt und bin zu einer privaten KI aus Europa gewechselt – Mein Fazit nach 120 Tagen mit Lumo von Proton
	5	Waghalsige Fotografin verharrt bei minus 28 Grad und in 4.000 Metern Höhe in den Alpen, um ein Foto zu schießen, das nahezu unmöglich ist
	mehr anzeigen

Ein neuer KI-Bot macht gerade Googles Gemini 3 Pro mehr Konkurrenz denn je und der Erfolg liegt nicht nur in der Leistung

Der Benchmark-Test: Gemini dominiert in den meisten Kategorien

Nicht nur die Performance: In einer Sache besticht Qwen deutlich

Es ist nicht alles Gold: Qwen für den Privatnutzer

Willkommen bei GameStar!

Weiter mit Werbung

Werbefrei mit GameStar Plus