Herhören! Digitale Klangwelten von morgen
Mit knapp 60 Zentimetern ist Nao nicht viel größer als ein Baby. Allerdings kann er schon laufen, sitzen und, ohne umzufallen, in die Hocke gehen. Auch sprechen hat er schon gelernt. Doch Nao ist kein Mensch, sondern ein Roboter, der den Menschen in Zukunft wertvolle Dienste leisten könnte – etwa als Page in einem Hotel oder als Helfer im Haushalt. Experten bezeichnen diese Maschinengattung daher als „humanoid“.
Am Lehrstuhl für Multimediakommunikation und Signalverarbeitung der FAU wird Nao auf die verbale und gestische Kommunikation mit dem Menschen trainiert. Eine große Herausforderung, spricht der Mensch doch am liebsten mit seinesgleichen. Quietschende oder krächzende Maschinen, die sich nur ruckartig bewegen, gelten daher nicht als wirklich gesellschaftsfähig. „In der Praxis wird der Erfolg der humanoiden Roboter vor allem davon abhängen, wie menschlich sie sich verständigen können“, erklärt Prof. Dr. Walter Kellermann das Ziel seiner Forschungsgruppe. Und mit Nao will er den Durchbruch schaffen.
Sprache ist das wichtigste Medium, über das sich Menschen miteinander verständigen. Anders als das Sehen funktioniert das Hören auch dann, wenn die Gesprächspartner keinen direkten Blickkontakt haben. Die Natur hat sie dafür nicht nur mit zwei Ohren ausgestattet, sondern auch mit einem äußerst leistungsfähigen Gehirn, das empfangene Signale sehr flexibel filtern und interpretieren kann.
Zudem bildet ein gutes Gehör die Voraussetzung für Geselligkeit, für menschliches Miteinander und Austausch. Wenn er will, versteht der Mensch sogar die Worte eines Gesprächspartners, die dieser in großem Abstand aus einer lärmenden Menschentraube heraus an ihn richtet. Wissenschaftler sprechen hier bezeichnenderweise vom „Cocktailparty-Problem“.
Maschinen können dieses Problem heute noch nicht lösen. Denn der Algorithmus, mit dem das menschliche Gehirn diese akustische Stress-Situation meistert, wurde bislang nicht entschlüsselt.
Eine einfache Lösung wird es wohl auch nicht geben. Dafür ist die mathematische Darstellung des Problems zu komplex. Schon bei einem Standard-Telefon werden heute Echokompensatoren verbaut, die hochkomplexe Algorithmen verwenden, um störende Rückkopplungen zu unterdrücken. Die Kleinstcomputer sind darauf spezialisiert, innerhalb von Bruchteilen von Sekunden bis zu 500 verschiedene Parameter so zu optimieren, dass beide Seiten ohne störende Nebengeräusche miteinander reden können. Dabei ändern sich die Parameter mit jedem Gespräch, da sie beispielsweise von der Architektur und der Ausstattung der Räume abhängen, in denen sich die Gesprächspartner gerade befinden.
Jenseits des Telefons nimmt der Aufwand, die eigentliche Nachricht aus einem akustischen Signal zu filtern, dramatisch zu. Sobald beide Seiten nicht über eine definierte Leitung (etwa ein Kupferkabel) kommunizieren, sich das Signal also nicht unmittelbar messen lässt, explodiert auch die Zahl der zu optimierenden Parameter. Bei einem Gespräch, bei dem die Worte physikalisch den Luftweg nehmen, ist das bereits der Fall. Noch kniffliger wird die Situation, wenn sich beide Gesprächspartner während ihrer Unterhaltung durch den Raum bewegen. So wie Roboter Nao es heute schon kann.
Mikrofone in den Armen
Am Lehrstuhl für Multimediakommunikation und Signalverarbeitung der FAU suchen die Wissenschaftler schon seit vielen Jahren nach Lösungen, wie sich die Mensch-Maschine-Kommunikation verbessern lässt. Dabei haben sie sich vor allem eine große Expertise in der statistischen Signalverarbeitung und der Entwicklung von leistungsfähigen Echtzeit-Algorithmen erarbeitet, die das eigentliche Sprachsignal mithilfe digitaler Werkzeuge von störenden Hintergrundgeräuschen befreien. Die Erkenntnisse des Lehrstuhls werden heute unter anderem zur Verbesserung von Hörgeräten genutzt.
Auch bei Roboter Nao kommt diese Technik zum Einsatz. Zudem nimmt er die Signale nicht nur über zwei Mikrofone auf, sondern gleich über ein ganzes Dutzend. Schließlich gilt in der akustischen Signalverarbeitung die Regel: Je mehr Mikrofone es gibt, desto genauer lässt sich die Richtung bestimmen, aus der jemand spricht.
Doch damit nicht genug. Einige der Mikrofone sind bei Nao sogar an die Arme montiert, sodass sie ihre Entfernung zueinander verändern, wenn der Roboter seine Arme spreizt. „Je weiter die Mikrofone auseinanderliegen, desto höher die potenzielle akustische Auflösung, des Mikrofonsystems“, erklärt Walter Kellermann. „Und je höher die Auflösung desto feiner kann Nao auf entfernte Schallquellen fokussieren.“
Dieses Phänomen ist aus der Optik bestens bekannt. Die fernen Sterne im Universum lassen sich einzeln am besten durch große Objektive oder gar riesige Teleskopschüsseln betrachten. Der Grund: Die maximal mögliche Auflösung eines Bildes nimmt mit dem Durchmesser der Kameralinse zu. Fachleute sprechen in diesem Zusammenhang von der Apertur.
Wird Nao mit seiner flexiblen, akustischen Apertur also der erste Roboter sein, der fehlerfrei auf Cocktailpartys parlieren kann? Der zudem auch alle anderen Voraussetzungen mitbringt, damit die Menschen ihn mögen? Weil er nicht nur wie ein Mensch hört und spricht, sondern auch in seinen Gesten behände wie ein Mensch kommuniziert?
Diese Fragen stehen im Mittelpunkt des Forschungsprojektes „Embodied Audition for RobotS (EARS)“, das die Europäische Union mit 3,52 Millionen Euro über drei Jahre fördert und bei dem Wissenschaftler der FAU mit Kollegen aus Beersheva, Paris, London, Berlin und Grenoble zusammenarbeiten. Geleitet wird das Konsortium von Erlangen aus.
Störgeräusche effizient unterdrücken
Generell ist Erlangen eine wichtige Adresse, wenn es um Technologien im Bereich der Audiocodierung und Signalverarbeitung geht. Warum? „Weil wir hier mit dem Lehrstuhl für Multimediakommunikation und Signalverarbeitung, den AudioLabs und dem Fraunhofer-Institut für Integrierte Schaltungen IIS eine weltweit führende Stellung einnehmen“, sagt Walter Kellermann. Diese Spitzenposition verdankt der Standort innovativen Entwicklungen, die von der fränkischen Metropolregion aus ihren Siegeszug antraten. Ein Beispiel für den Erfolg der engen Zusammenarbeit aus Fraunhofer IIS und FAU ist das weltweit bekannte Audiocodierverfahren mp3. Mittlerweile findet diese fruchtbare Kooperation ihre Fortsetzung mit den International Audio Laboratories Erlangen – kurz AudioLabs. Als Gemeinschaftseinrichtung beider Institutionen arbeiten dort rund 50 Wissenschaftler, Postdocs, Doktoranden und Studierende an dem Ziel, die Audioqualität digitaler Erlebniswelten zu verbessern.
So sind die hier entwickelten Technologien unter anderem für die Kommunikations- und Unterhaltungselektronik-Industrie sehr interessant. Um die Effizienz und den Komfort sowohl in der Mensch-Mensch- als auch der Mensch-Maschine-Kommunikation zu verbessern, zum Beispiel bei Telefonkonferenzen oder bei der Bedienung von technischen Geräten mittels Spracheingabe, ist der Einsatz von Freisprecheinrichtungen von Vorteil. Das aufgenommene Signal beinhaltet jedoch neben dem gewünschten Sprachsignal auch diverse unerwünschte Hintergrundgeräusche und störende akustische Quellen wie das Klingeln eines Telefons. Geeignete Signalverarbeitungsverfahren helfen dabei, die Sprachqualität und die Sprachverständlichkeit zu verbessern und störende Hintergrundgeräusche zu minimieren.
Ein weiteres Beispiel sind moderne Smart-TV-Geräte, die für die Internettelefonie genutzt werden können und per Sprache gesteuert werden. Obwohl die heutigen Geräte in der Lage sind, langsam variierende Störgeräusche gut zu unterdrücken, können schnelle Änderungen im akustischen Feld wie das Klingeln eines Telefons oder das Heulen eines Staubsaugers und vor allem Positionsänderungen dieser störenden Quellen nicht berücksichtigt werden und bringen daher die Mensch-Maschine-Kommunikation unter Umständen zum Erliegen. Die Sprachqualität und Sprachverständlichkeit beziehungsweise die Spracherkennung leiden enorm.
Im Zuge des „Spotforming“-Projekts beschäftigt sich Maja Taseska, Doktorandin bei den AudioLabs, genau mit dieser Thematik und sucht nach Alternativen. Taseska entwickelt dazu eine Aufnahmetechnik, die auf verteilten Mikrofon-Arrays basiert. Durch die räumliche Diversität der verteilten Mikrofon-Arrays werden Änderungen im Spektrum und in der Position der schnell variierenden Störquellen detektiert. Damit können sich die Signalverbesserungsalgorithmen schnell der konkreten akustischen Bedingung anpassen, selbst bei mehreren sich bewegenden und störenden Sprechern oder anderen unerwünschten Klangquellen.
Details akustisch in Szene setzen
Bilder und Töne besser aufeinander abstimmen – um diese Idee geht es in einem zweiten Projekt der AudioLabs. Während man heute bestimmte Bildausschnitte in einem digitalen Video nach Belieben heranzoomen kann, um bestimmte Details stärker herauszustellen, fehlen dafür in der Akustik noch die Voraussetzungen. Wie schön aber wäre es, wenn man die mittlere der drei Personen im Bild akustisch in den Vordergrund rücken könnte, während die Stimmen der anderen Personen und die Hintergrundgeräusche leiser werden? Oder wenn beim Zoomen auf die linke Person auch deren Stimme aus der Richtung zu hören wäre, wo sich die Person im Bild befindet?
Zur Lösung dieser Aufgabe setzt Oliver Thiergart, wissenschaftlicher Mitarbeiter bei den AudioLabs, in dem Projekt „Akustisches Zoomen“ auf die Zerlegung der Mikrofonaufnahmen in die unterschiedlichen Signaltypen „Direktschall“ und „Diffusschall“. Mit Direktschall sind die Signale gemeint, die die eigentliche Botschaft für einen Menschen transportieren und die ihn aus einer bestimmten Richtung erreichen. Über die Phasen- und Pegel-Unterschiede, die die Schallwellen an seinen beiden Ohren erzeugen, kann der Mensch diese Richtung sehr genau bestimmen. Bei Diffusschall geht das nicht, da dieser wie in Form von Straßenlärm aus allen Richtungen kommt.
Thiergart baut sein akustisches Zoom-System auf einen flexi-blen Algorithmus auf. Dadurch muss sich der Benutzer nicht schon bei der Aufnahme entscheiden, auf welche Details er akustisch zoomen will. Vielmehr kann er diese Wahl erst beim Abspielen treffen. „Technisch genügen dafür schon wenige Mikrofone und ein kleiner Computer, wie sie heute in tragbaren Digitalgeräten bereits verfügbar sind“, sagt Thiergart. „Meine Hoffnung ist daher, dass diese Technik schon bald als App auf Smartphones oder Digitalkameras Anwendung findet.“
Das Umfeld klingt mit
In eine andere Richtung geht die Arbeit von Prof. Dr. Rudolf Rabenstein vom Lehrstuhl für Multimediakommunikation und Signalverarbeitung: Er beschäftigt sich mit der Frage, wie sich akustische Szenen möglichst getreu nachbilden lassen. „Mit Hilfe von smarten Brillen betreten heute immer mehr Menschen virtuelle Räume, in denen sie sich rein optisch, nicht aber physisch bewegen“, erklärt er seinen Ansatz. „Was ihnen dabei fehlt, ist das dazugehörige akustische Umfeld, das sich verändert, wenn sie ihre Position im Raum verändern.“ Etwa wenn sie im Cyberspace ein ruhiges Museum verlassen und auf die laute Straße mit vorbeifahrenden Autos treten. Oder wenn sie in einem Konzertsaal vom Parkett in die Loge wechseln.
Das Forschungsfeld, das entsprechende Lösungen liefert, heißt „Sound Field Synthesis“, was sich als „Schallfeld-Synthese“ übersetzen lässt. Anders als die „Sprache“ zielt der „Schall“ nicht auf den Menschen mit seiner spezifischen Sinneswahrnehmung ab. Daher sucht Rudolf Rabenstein nach technischen Lösungen, wie man einen realen oder gedachten Raum akustisch so synthetisieren kann, dass im virtuellen Abbild jeder Raumpunkt genauso schwingt wie im Original. Auch diese Herausforderung hat ein optisches Analogon. So gleicht das Schallfeld einem Flachbildschirm, bei dem man jeden Bildpunkt räumlich und zeitlich einzeln ansteuern kann.
Mit gängigen Wiedergabetechniken lässt sich ein solches Schallfeld nicht erzeugen. Weder die Stereo-Technik mit zwei Wiedergabekanälen noch die Surround-Technik mit fünf Wiedergabekanälen sind in der Lage, die akustische Komplexität eines Raums in ihrer zeitlichen Veränderlichkeit nachzubilden. Dafür bildet die Inneneinrichtung mit schallreflektierenden Säulen oder schallschluckenden Gardinen eine – akustisch gesehen – zu komplexe Umgebung.
128 Lautsprecher flexibel anordnen
Rudolf Rabenstein und sein Team experimentieren daher mit Wiedergabesystemen, die bis zu 128 Lautsprecher umfassen. „Dabei legen wir großen Wert darauf, dass man flexibel mit unterschiedlichen Anordnungen arbeiten kann“, sagt er. „Schließlich muss man all diese Lautsprecher in jeder Wiedergabeumgebung anders positionieren.“
Die Praktikabilität des Konzepts ist bereits unter Beweis gestellt. Beispielsweise bei Hörgeräteherstellern, die es nutzen, um ihre Produkte in verschiedenen akustischen Umgebungen zu testen. Oder in Zusammenarbeit mit einem Flugzeughersteller, der die Kabinen seiner Jets durch Bordlautsprecher so beschallen wollte, dass sie akustisch größer wirken. Die Umsetzung scheiterte allerdings am Gewicht der Lautsprecher. Schließlich zählt in dieser Branche jedes zusätzliche Gramm.
Zudem eignet sich das Know-how auch für ganz andere Anwendungen. Beispielsweise nutzt es Rudolf Rabenstein in einem aktuellen Projekt, um Gleichstromnetze in Gebäuden zu modellieren. „Auf der theoretischen Ebene sind die Problemstellungen sehr ähnlich“, sagt er. „In der Akustik haben wir es mit Schallwellen zu tun, die sich durch die Luft ausbreiten. In der Elektrotechnik untersuchen wir elektrische Impulse, die über Leitungen und durch Schaltungen laufen.“
Doch egal, ob es sich um hörende Roboter, intelligente Fernbedienungen oder akustisches Zoomen handelt – eines lassen die Projekte nicht aufkommen: Zweifel daran, dass Akustikexperten aus Erlangen auch in Zukunft ein Wörtchen bei Innovationen auf diesem Gebiet mitzureden haben werden.
Diesen Beitrag – und viele weitere spannende Texte rund um das Thema Sinne und Sinneswahrnehmung – finden Sie in der aktuellen Ausgabe des FAU-Forschungsmagazins friedrich „Von Sinnen“.