Der Dolmetscher in mir
Neue Technik verschmilzt die Stimme und die Mimik eines Dolmetschers mit dem Gesicht eines Redners
von Frank Grünberg
Videokonferenzen, bei denen die Teilnehmer verschiedene Sprachen sprechen, sind eine ermüdende Angelegenheit. Bei einer Simultan-Übersetzung weichen die Mimik des Redners und die Stimme des Dolmetschers im Hintergrund voneinander ab. Die Trennung der optischen und akustischen Information aber erschwert das Verständnis.
Forscher an der FAU haben daher zusammen mit Wissenschaftlern des Max-Planck-Instituts in Saarbrücken sowie der Stanford University in Kalifornien eine Technik entwickelt, die beide Kanäle in einem Bild vereint. „Wir verschmelzen die Stimme und die Mimik des Dolmetschers mit dem Gesicht des Redners“, erklärt Prof. Dr. Marc Stamminger vom Lehrstuhl für Graphische Datenverarbeitung das Konzept. „Und wir sind die ersten, die diese Verschmelzung in Echtzeit und ohne zusätzliche Gesichtsmarker schaffen.“
30 Parameter bestimmen die Gesichtsform
Die Idee, die Bewegung eines echten Menschen auf eine digital animierte Figur zu übertragen, ist nicht neu. Die Filmindustrie erweckt auf diese Weise Avatare zum Leben. Allerdings wird dafür nicht nur eine Marker-Technik benötigt, die die ursprüngliche Bewegung vermisst, sondern es ist auch viel Zeit nötig, selbst mit modernen Hochleistungsrechnern.
Die FAU-Forscher gehen anders vor. Sie nutzen erstens die Tatsache, dass es 3D-Modelle gibt, die das Antlitz eines Mitteleuropäers anhand von 30 Parametern individuell darstellen, und zweitens ihr Know-how, eine kommerziell erhältliche Grafikkarte in einen kleinen Supercomputer zu verwandeln.
Zunächst wird das Gesicht des Dolmetschers mit einer Standardtiefenkamera fotografiert. Sie erfasst nicht nur die Geometrie und die Textur des Gesichts, etwa Narben oder Leberflecken, sondern liefert auch dreidimensionale Informationen wie die Wölbung von Nase und Stirn. Anschließend wird ein Computerprogramm gestartet, das die 30 Parameter so einstellt, dass das 3D-Modell als eine Art Maske optimal auf das jeweilige Gesicht passt. Die Software arbeitet dabei ähnlich wie ein Tontechniker, der die Schieberegler an seinem Mischpult so lange hoch- und runterzieht, bis er den perfekten Sound und damit das beste Reglerset gefunden hat.
Genau wie für die Gesichtsform gibt es auch Parameter – etwa 70 Stück – mit denen sich die Mimik erfassen lässt. Wenn nun der Dolmetscher zu übersetzen beginnt, wird seine Mimik, die sich ja beim Sprechen laufend ändert, mehrmals pro Sekunde im Modell nachjustiert. Damit diese Nachjustierung fast ohne Zeitverlust erfolgt, passen die FAU-Forscher ihre Software an die spezielle Architektur der Grafikkarten an. „Diese Karten bieten bis zu 2000 einzelne Rechenkerne“, erklärt Justus Thies, der das Projekt „Facial Reenactement“ im Rahmen seiner Promotion vorangetrieben hat.
„Indem wir das Optimierungsprogramm in viele kleine Berechnungen unterteilen, die sich parallel ausführen lassen, verkürzen wir den gesamten Prozess auf Sekundenbruchteile.“ Auf Basis dieser Daten setzt der Bildgenerator das Mimik- 3D-Modell des Redners parallel zu den gesprochenen Worten des Dolmetschers in Bewegung. Die Folge: Auf den angeschlossenen Monitoren erscheint der Redner wie in einem alltäglichen Gespräch: optisch und akustisch aus einem Guss.
Bald auf dem Smartphone
Das Kooperationsprojekt wurde von der Deutschen Forschungsgemeinschaft im Rahmen des DFG-Graduiertenkollegs „Heterogene Bildsysteme“ gefördert. Im November 2015 stellten die Forscher das innovative Konzept samt Prototyp erstmals auf der SigGraph im japanischen Kobe vor, der weltweit größten Fachkonferenz für Computergrafik.
Und wie geht es nun weiter? „Aktuell benötigt das System noch einen gut ausgestatteten PC“, sagt Stamminger. „In Zukunft soll das Verfahren so angepasst werden, dass es direkt auf einem Smartphone eingesetzt werden kann.“
Diesen Beitrag – und viele weitere spannende Texte rund um das Thema Sinne und Sinneswahrnehmung – finden Sie in der aktuellen Ausgabe des FAU-Forschungsmagazins friedrich „Von Sinnen“.