Angriff auf US-Riesen Deepseek will auch die beste Bild-KI sein – momentan ist sie es noch nicht

Martin Abgottspon

29.1.2025

So stellt sich die chinesische Bild-KI Donald Trump und Elon Musk vor, die sich vor Deepseek fürchten.
So stellt sich die chinesische Bild-KI Donald Trump und Elon Musk vor, die sich vor Deepseek fürchten.
Janus-Pro @blue News

Das chinesische KI-Modell Deepseek bläst zum Grossangriff auf die US-Giganten. Auch im Bild-Bereich will man in der gleichen Liga spielen. Erste Tests sind trotz viel Euphorie aber eher ernüchternd.

Martin Abgottspon

Keine Zeit? blue News fasst für dich zusammen

  • Deepseek arbeitet bereits an einer Bild-KI mit dem Namen Janus-Pro-7B, die effizienter als Dall-E arbeiten soll.
  • Mit diesem Schritt soll der Druck auf die grossen US-Konkurrenten weiter erhöht werden.
  • Bei ersten Tests überzeugen die  Bilder nicht restlos. Ausserdem gibt es Bedenken hinsichtlich politischer Zensur.

Dall-E, Midjourney oder Stable Diffusion entwickelten sich in den letzten Monaten und Jahren zu klingenden Namen, wenn es um KI-Bildgeneratoren ging. Mit Deepseek steigt nun ein weiteres Schwergewicht in den Ring. Das chinesische Unternehmen hat diese Woche mit seinem Sprachmodell bereits für einen Paukenschlag gesorgt und nicht zuletzt dank hervorragender Benchmarks die Börsen weltweit beben lassen.

Als Janus-Pro wird die Bild-KI von Deepseek derzeit noch etwas kryptisch bezeichnet. Gemäss eigenen Angaben des Unternehmens in einem Blog-Post soll diese die Konkurrenz aber schon in mehreren Punkten übertreffen. Und das obwohl das Modell mit rund halb so vielen Parametern arbeitet.

Dabei setzt Deepseek auf Effizienz statt reine Rechenpower. Verschiedene Tech-Portale loben die Performance in den höchsten Tönen, vor allem wegen der geringeren Hardware-Anforderungen. Sie sehen in den geringeren Ressourcen langfristig einen klaren Wettbewerbsvorteil.

Externer Inhalt

Dieser Inhalt stammt von externen Anbietern wie Youtube, Tiktok oder Facebook. Aktiviere bitte "Swisscom Werbung bei Dritten", um diesen Inhalt anzuzeigen.

Cookie-Einstellungen

Die alt bekannten Fratzen

Allerdings gibt es aufgrund dieser auch starke Einschränkungen: Die Bildanalysefunktion des Modells arbeitet nur mit Material von maximal 384 x 384 Pixeln. Verbesserungen bei Trainingsprozessen, Datenqualität und Modellarchitektur sollen für stabilere und detailreichere Ergebnisse sorgen.

Eine Demoversion ist bereits auf Hugging Face verfügbar. In der Praxis überzeugen die Bilder aber nicht auf ganzer Linie. Ein paar Beispiele.

Zunächst wollte ich von Janus-Pro wissen, wie es sich Donald Trump und Elon Musk nach der überraschenden Bekanntgabe von Deepseek vorstellt. Das Bild (am Anfang des Artikels) erinnert dabei eher an die Anfänge von Bildgeneratoren, als praktisch alle Gesichter sehr «fratzig» daher kamen. Immerhin erkennt man, um wen es sich handeln sollte.

Besser ist das Resultat mit einem vorgeschlagenen Prompt auf der Webseite. Ein süsser Babyfuchs soll gezeichnet werden. Dazu werden auch Angaben zur Umgebung gemacht und der Stil des Bildes wird definiert. Der ganze Prompt befindet sich in der Bildbeschreibung.

A cute and adorable baby fox with big brown eyes, autumn leaves in the background enchanting,immortal,fluffy, shiny mane,Petals,fairyism,unreal engine 5 and Octane Render,highly detailed, photorealistic, cinematic, natural colors.
A cute and adorable baby fox with big brown eyes, autumn leaves in the background enchanting,immortal,fluffy, shiny mane,Petals,fairyism,unreal engine 5 and Octane Render,highly detailed, photorealistic, cinematic, natural colors.
Janus-Pro @blue News

Das Matterhorn im direkten Vergleich

Doch wie sehen die Bilder im direkten Vergleich aus? Als Beispiel habe ich mir in Janus-Pro und Dall-E ein schönes Plätzchen in den Alpen mit Aussicht auf das Matterhorn erstellen lassen. Die chinesische Variante sieht zwar vom Stil her etwas realistischer aus, doch die komischen Konturen und auch der schräge Gipfel des Berges sind dann doch nicht ganz stimmig. Da gefällt die eher künstlerische Interpretation von Dall-E im Vergleich etwas besser.

Ein Wanderstopp mit Blick aufs Matterhorn aus Sicht von Janus-Pro ...
Ein Wanderstopp mit Blick aufs Matterhorn aus Sicht von Janus-Pro ...
Janus-Pro @blue News
... und die idyllische Umsetzung von Dall-E.
... und die idyllische Umsetzung von Dall-E.
Dall-E @blue News

Wie viel lässt die «soziale Moral» Chinas zu?

Aktuell kann Deepseek vielleicht noch nicht mit den grossen Bild-KI-Modellen mithalten. Aber das Unternehmen befindet sich definitiv auf der Überholspur. Nicht zuletzt wegen dem Open-Source-Ansatz des Unternehmens. Während OpenAI und andere US-Unternehmen ihre Modelle nur eingeschränkt oder kostenpflichtig zugänglich machen, sind Deepseeks Modelle unter der MIT-Lizenz frei nutzbar und können auf verschiedenen Plattformen wie Hugging Face oder GitHub heruntergeladen werden.

Ein potenzielles Problem könnte allerdings die politische Steuerung der Deepseek-Technologie sein. Ein erster Test mit dem Chatbot zeigte, dass dieser bestimmte politische Fragen nicht beantwortete und sich explizit der «sozialen Moral Chinas» verpflichtet sieht. Sollte dies auch für die Bild-KI gelten, könnte es auch massive Einschränkungen in der kreativen Nutzung geben. 

Ob Deepseek mit Janus-Pro tatsächlich den Markt umkrempeln kann, bleibt abzuwarten. Doch eines ist sicher: Der Wettbewerb in der KI-Branche nimmt weiter an Fahrt auf. Die etablierte Konkurrenz wird sich warm anziehen müssen.