Neuer Dienst Dank künstlicher Intelligenz wirst du problemlos mehrsprachig

Von Dirk Jacquemien

13.9.2023

Beendet künstliche Intelligenz die babylonische Sprachverwirrung?
Beendet künstliche Intelligenz die babylonische Sprachverwirrung?
Bild: Imago

Ein neuer KI-Dienst lässt es so erscheinen, als ob du ein Polyglott wärst. Denn über deine Lippen kommen plötzlich fremde Sprachen.

Von Dirk Jacquemien

Keine Zeit? blue News fasst für dich zusammen

  • Ein KI-Dienst übersetzt deine Videos in fremde Sprachen und passt sogar die Lippenbewegungen an.
  • Die Technik könnte es ermöglichen, Videokonferenzen über Sprachbarrieren hinweg zu führen.
  • Der Dienst ist allerdings noch in einer Beta-Phase und kostenpflichtig.

Eine neue Sprache zu lernen ist schwierig, vor allem, wenn du schon dem Schulalter entwachsen bist. Aber irgendwie scheint es auch immer weniger Notwendigkeit zu geben, sich neue Sprachen anzueignen. International redet eh fast jeder Englisch und wenn du doch mal nichts verstehst, gibt es zahlreiche Apps, die dir helfen.

Auf die nächste Stufe könnte das ein neuer Künstliche-Intelligenz-Dienst des kalifornischen Start-ups HeyGen bringen. Mit diesem kannst du Videos erstellen, in denen du mit deiner Stimme in einer dir völlig fremden Sprache sprichst.

Lippenbewegungen werden angepasst

Eine Demonstration des Dienstes ging jetzt auf X, dem ehemaligen Twitter, viral. Ein Nutzer nahm ein rund 30 Sekunden langes Video in seiner Muttersprache Englisch auf. HeyGen erstellte dann französische und deutsche Versionen des Videos, in denen die Lippenbewegungen auch noch perfekt an die neue Sprache angepasst wurden.

Und während die französische Version einen leicht undefinierbaren Akzent aufweist, klingt es wirklich so, als würde Finger fast lupenreines Hochdeutsch reden. Einzig die Übersetzung ist stellenweise etwas zu wörtlich, mit Redewendungen hat die KI scheinbar noch ein wenig Probleme.

Gleiche Technik wie bei Deepfakes

Der Dienst ist noch in einer Beta-Phase und kostenpflichtig. Acht Sprachen werden bislang unterstützt, aufgrund des hohen Andrangs dauert es zudem eine Weile, bis ein Video übersetzt wird. Perspektivisch dürfte die Technik mit genügend Rechenkraft dann allerdings auch in Echtzeit funktionieren und könnte Videokonferenzen über Sprachbarrieren hinweg ermöglichen.

Im Grunde steckt dahinter dieselbe Technologie wie bei Deepfakes. Und damit wäre es natürlich auch möglich, Menschen Worte in den Mund zu legen, die sie nie gesagt haben — und nun auch noch multilingual.