Digitale Assistenten werden per KI menschlich

Intelligente Software "DIRFA" der NTU verleiht "sprechenden Köpfen" natürliche Sprache und Mimik

Viele Momentaufnahmen der "sprechenden Köpfe" (Fotos: ntu.edu.sg)

Singapur (pte020/17.11.2023/11:30) - Digitale Assistenten sehen künftig aus wie Menschen und sie sprechen auch so. Vorbilder sind reale Personen, denen eine Software deren Sprechweise, Mimik sowie Mund- und Kopfbewegungen verleiht. Um diese "sprechenden Köpfe" zu generieren, sind ein Audioclip und ein Porträt des Menschen nötig, der "verwandelt" werden soll. Die Software dahinter haben Forscher der Nanyang Technological University ( https://www.ntu.edu.sg ) (NTU) unter der Leitung von Lu Shijian entwickelt.

Training mit einer Mio. Vorbilder

Die Software "Diverse yet Realistic Facial Animations" (DIRFA) basiert auf Künstlicher Intelligenz (KI). Um realistische akustische und optische Videos zu schaffen, hat das Team DIRFA mit mehr als einer Mio. audiovisuellen Clips von über 6.000 Menschen trainiert, die aus einer Open-Source-Datenbank stammen. Das ist die Basis für die Erstellung von Videos mit realistisch wirkenden Menschen, die beliebige Texte sprechen können - und zwar genau so, wie es das Vorbild tun würde.

DIRFA soll nach den Vorstellungen der Entwickler unter anderem in der Gesundheitsversorgung eingesetzt werden. Die sprechenden Köpfe würden auf Patienten glaubwürdiger wirken als heutige virtuelle Assistenten und Chatbots. Das System könnte auch ein mächtiges Werkzeug für Personen mit Sprachbehinderungen und Gesichtslähmungen sein und ihnen helfen, ihre Gedanken und Emotionen durch ausdrucksstarke Avatare zu vermitteln und ihre Kommunikationsfähigkeit zu verbessern, heißt es.

Eine komplexe Herausforderung

Die Schaffung lebensechter Gesichtsausdrücke, die zu den gesprochenen Wörtern passen, sei eine komplexe Herausforderung gewesen. Das Team zielte darauf ab, sprechende Gesichter mit einer präzisen Synchronisation der Lippen, reicher Mimik und natürlichen Kopfbewegungen zu schaffen, die das gesprochene Wort sinnvoll begleiten. Um das zu erreichen, wurde zunächst DIRFA entwickelt, um die komplexen Beziehungen zwischen Audiosignalen und Gesichtsanimationen zu erfassen. "Konkret modelliert DIRFA die zu einem Satz am wahrscheinlichsten passende Mimik, wie eine hochgezogene Augenbraue oder eine gekrauste Nase", so Shijian.

(Ende)