Der Dolmetscher in mir

Die Bewegung und Mimik eines Menschen auf eine digital animierte Figur zu übertragen, ist nicht neu. In Echtzeit und ohne zusätzliche Sensoren, wie es die FAU-Forscher machen, schon. (Bild: Aniriana/Shutterstock.com/)

Neue Technik verschmilzt die Stimme und die Mimik eines Dolmetschers mit dem Gesicht eines Redners

4. November 2015

von Frank Grünberg

Videokonferenzen, bei denen die Teilnehmer verschiedene Sprachen sprechen, sind eine ermüdende Angelegenheit. Bei einer Simultan-Übersetzung weichen die Mimik des Redners und die Stimme des Dolmetschers im Hintergrund voneinander ab. Die Trennung der optischen und akustischen Information aber erschwert das Verständnis.

Forscher an der FAU haben daher zusammen mit Wissenschaftlern des Max-Planck-Instituts in Saarbrücken sowie der Stanford University in Kalifornien eine Technik entwickelt, die beide Kanäle in einem Bild vereint. „Wir verschmelzen die Stimme und die Mimik des Dolmetschers mit dem Gesicht des Redners“, erklärt Prof. Dr. Marc Stamminger vom Lehrstuhl für Graphische Datenverarbeitung das Konzept. „Und wir sind die ersten, die diese Verschmelzung in Echtzeit und ohne zusätzliche Gesichtsmarker schaffen.“

30 Parameter bestimmen die Gesichtsform

Die Idee, die Bewegung eines echten Menschen auf eine digital animierte Figur zu übertragen, ist nicht neu. Die Filmindustrie erweckt auf diese Weise Avatare zum Leben. Allerdings wird dafür nicht nur eine Marker-Technik benötigt, die die ursprüngliche Bewegung vermisst, sondern es ist auch viel Zeit nötig, selbst mit modernen Hochleistungsrechnern.

Die FAU-Forscher gehen anders vor. Sie nutzen erstens die Tatsache, dass es 3D-Modelle gibt, die das Antlitz eines Mitteleuropäers anhand von 30 Parametern individuell darstellen, und zweitens ihr Know-how, eine kommerziell erhältliche Grafikkarte in einen kleinen Supercomputer zu verwandeln.

Zunächst wird das Gesicht des Dolmetschers mit einer Standardtiefenkamera fotografiert. Sie erfasst nicht nur die Geometrie und die Textur des Gesichts, etwa Narben oder Leberflecken, sondern liefert auch dreidimensionale Informationen wie die Wölbung von Nase und Stirn. Anschließend wird ein Computerprogramm gestartet, das die 30 Parameter so einstellt, dass das 3D-Modell als eine Art Maske optimal auf das jeweilige Gesicht passt. Die Software arbeitet dabei ähnlich wie ein Tontechniker, der die Schieberegler an seinem Mischpult so lange hoch- und runterzieht, bis er den perfekten Sound und damit das beste Reglerset gefunden hat.

Genau wie für die Gesichtsform gibt es auch Parameter – etwa 70 Stück – mit denen sich die Mimik erfassen lässt. Wenn nun der Dolmetscher zu übersetzen beginnt, wird seine Mimik, die sich ja beim Sprechen laufend ändert, mehrmals pro Sekunde im Modell nachjustiert. Damit diese Nachjustierung fast ohne Zeitverlust erfolgt, passen die FAU-Forscher ihre Software an die spezielle Architektur der Grafikkarten an. „Diese Karten bieten bis zu 2000 einzelne Rechenkerne“, erklärt Justus Thies, der das Projekt „Facial Reenactement“ im Rahmen seiner Promotion vorangetrieben hat.

„Indem wir das Optimierungsprogramm in viele kleine Berechnungen unterteilen, die sich parallel ausführen lassen, verkürzen wir den gesamten Prozess auf Sekundenbruchteile.“ Auf Basis dieser Daten setzt der Bildgenerator das Mimik- 3D-Modell des Redners parallel zu den gesprochenen Worten des Dolmetschers in Bewegung. Die Folge: Auf den angeschlossenen Monitoren erscheint der Redner wie in einem alltäglichen Gespräch: optisch und akustisch aus einem Guss.

Video-Player

00:00

Pfeiltasten Hoch/Runter benutzen, um die Lautstärke zu regeln.

Bald auf dem Smartphone

Das Kooperationsprojekt wurde von der Deutschen Forschungsgemeinschaft im Rahmen des DFG-Graduiertenkollegs „Heterogene Bildsysteme“ gefördert. Im November 2015 stellten die Forscher das innovative Konzept samt Prototyp erstmals auf der SigGraph im japanischen Kobe vor, der weltweit größten Fachkonferenz für Computergrafik.

Und wie geht es nun weiter? „Aktuell benötigt das System noch einen gut ausgestatteten PC“, sagt Stamminger. „In Zukunft soll das Verfahren so angepasst werden, dass es direkt auf einem Smartphone eingesetzt werden kann.“

Diesen Beitrag – und viele weitere spannende Texte rund um das Thema Sinne und Sinneswahrnehmung – finden Sie in der aktuellen Ausgabe des FAU-Forschungsmagazins friedrich „Von Sinnen“.

Name	Standard-Cookie
Anbieter	Eigentümer dieser Website
Zweck	Speichert die Einstellungen der Besucher, die in der Consent-Banner ausgewählt wurden.
Datenschutzerklärung	https://www.fau.de/datenschutz/
Hosts	www.fau.de
Cookie Name	rrze-legal-consent
Cookie Laufzeit	1 Jahr

Name	WordPress
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Teste, ob ein Cookie gesetzt werden kann. Benutzersitzung speichern.
Datenschutzerklärung	https://www.fau.de/datenschutz/
Hosts	.www.fau.de
Cookie Name	wordpress_[*]
Cookie Laufzeit	Session

Name	SimpleSAML
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Dient zur Verwaltung des WebSSO-Sitzungsstatus.
Datenschutzerklärung	https://www.fau.de/datenschutz/
Hosts	www.fau.de
Cookie Name	SimpleSAMLSessionID,SimpleSAMLAuthToken
Cookie Laufzeit	Session

Name	PHPSESSID
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Bewahrt den Status der Benutzersitzung über Seitenanfragen hinweg.
Datenschutzerklärung	https://www.fau.de/datenschutz/
Hosts	www.fau.de
Cookie Name	PHPSESSID
Cookie Laufzeit	Session

Name	RSVP
Anbieter	Keine Übermittlung an Drittanbieter
Zweck	Dient zur Verwaltung des RSVP-Sitzungsstatus.
Datenschutzerklärung	https://www.fau.de/datenschutz/
Hosts	www.fau.de
Cookie Name	rrze_rsvp
Cookie Laufzeit	Session

Akzeptieren	Siteimprove Analytics
Name	Siteimprove Analytics
Anbieter	Rosenheimer Str. 143 C, 81671 München, Deutschland
Zweck	Wird verwendet, um die Nutzung der Website durch den Besucher zu erfassen.
Datenschutzerklärung	https://www.siteimprove.com/privacy/privacy-policy/
Hosts	siteimprove.com
Cookie Name	nmstat
Cookie Laufzeit	1000 Tage

Akzeptieren	YouTube
Name	YouTube
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Irland
Zweck	Wird verwendet, um Youtube-Inhalte zu entsperren.
Datenschutzerklärung	https://policies.google.com/privacy?hl=en&gl=en
Hosts	google.com, youtube.com, youtube-nocookie.com
Cookie Name	NID
Cookie Laufzeit	6 Monate

Akzeptieren	Vimeo
Name	Vimeo
Anbieter	Vimeo Inc., 555 West 18th Street, New York, New York 10011, Vereinigte Staaten
Zweck	Wird verwendet, um Vimeo-Inhalte zu entsperren.
Datenschutzerklärung	https://vimeo.com/privacy
Hosts	player.vimeo.com
Cookie Name	vuid
Cookie Laufzeit	2 Jahre

Akzeptieren	Slideshare
Name	Slideshare
Anbieter	Scribd, Inc., 460 Bryant St, 100, San Francisco, CA 94107-2594 Vereinigten Staten
Zweck	Wird verwendet, um Slideshare-Inhalte zu entsperren.
Datenschutzerklärung	https://www.slideshare.net/privacy
Hosts	www.slideshare.net
Cookie Name	__utma
Cookie Laufzeit	2 Jahre