Zum Inhalt springen

Künstliche Intelligenz Google-Software filtert einzelne Stimmen aus Geräuschkulisse heraus

Google-Entwicklern ist etwas gelungen, woran viele Audio-Programme scheitern: Die Ingenieure haben mit künstlicher Intelligenz einzelne Stimmen aus Alltagsvideos isoliert. Solche Technik könnte auch missbraucht werden.
Menschenmasse: Was, wenn man irgendwann jede Stimme einzeln hören könnte?

Menschenmasse: Was, wenn man irgendwann jede Stimme einzeln hören könnte?

Foto: Markus Schreiber/ AP

Musik dröhnt aus den Boxen, die Gäste reden immer lauter, um die anderen zu übertönen. Und obwohl der Schall aus allen Richtungen auf die Ohren prallt, können wir auf einer Party unseren Gesprächspartner meist ziemlich gut verstehen. Der Grund: Das Gehirn filtert die Umgebungsgeräusche gekonnt heraus, damit wir uns auf die Aussagen des Gegenübers konzentrieren können.

Während das Gehirn den sogenannten Cocktailparty-Effekt exzellent beherrscht, bereiten solche Tonaufnahmen klassischer Audio-Software oft Probleme. Wer etwa Störgeräusche aus einer Tonspur digital herausfiltern möchte, damit eine Stimme deutlicher zu hören ist, der bekommt in der Regel ein Ergebnis, das wie die eiernde Aufnahme eines alten Tonbandgeräts klingt.

Google-Entwickler haben nun eine Methode entwickelt, um Sprache in einem Video zu isolieren und Störgeräusche auszublenden. In einem Blogbeitrag  beschreiben die Ingenieure, wie sie virtuelle Nervennetze einsetzen, um mit künstlicher Intelligenz eine Stimme von den anderen Geräuschen zu trennen. Und zwar nicht nur über die Tonspur, sondern auch über die bewegten Bilder.

Interessante Beispielvideos

Das Ergebnis beeindruckt. In diesem Beispielvideo filtert die Software etwa die Umgebungsgeräusche in einer Cafeteria heraus:

Empfohlener externer Inhalt
An dieser Stelle finden Sie einen externen Inhalt von YouTube, der den Artikel ergänzt und von der Redaktion empfohlen wird. Sie können Ihre Zustimmung jederzeit wieder zurücknehmen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

In einem weiteren Video mit zwei gleichzeitig sprechenden Comedians gelingt es der Software sogar, die Sprachspuren komplett voneinander zu trennen und einzeln hörbar zu machen:

Empfohlener externer Inhalt
An dieser Stelle finden Sie einen externen Inhalt von YouTube, der den Artikel ergänzt und von der Redaktion empfohlen wird. Sie können Ihre Zustimmung jederzeit wieder zurücknehmen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Zwar klingen auch hier die herausgefilterten Stimmen teilweise so, als würde jemand in eine Gießkanne sprechen: Doch die Filterversuche herkömmlicher Software klingen noch viel schlechter .

Mit 100.000 Videos trainiert

Für die Analyse haben die Forscher der Software unter anderem befohlen, auf die Mimik der Personen in den Videos zu achten, um Lippenbewegungen mit Tönen zu kombinieren. Nach eigenen Angaben haben die Google-Mitarbeiter die künstliche Intelligenz mit 100.000 Videos gefüttert, die vor allem Lesungen und Talkrunden zeigten. Daraus wurden einzelne Sprecher herausgepickt, die klar verständlich waren. Die Forscher mischten schließlich Umgebungsgeräusche aus einer Sound-Datenbank hinzu, um die Software zu trainieren.

Die Entwicklung könnte zum Beispiel bei Videokonferenzen eingesetzt werden, um die Sprachqualität zu verbessern. Auch Untertitel könnten damit leichter automatisch generiert werden. Das klappt zwar jetzt schon, doch das automatische Untertiteln von Livestreams befindet sich noch in der Testphase. Derzeit probiert Google die Funktion auf einigen englischsprachigen Videokanälen mit mehr als 10.000 Abonnenten aus. Als häufige Fehlerquelle gibt Google noch immer Unterhaltungen an, bei denen mehrere Personen gleichzeitig reden.

Fotostrecke

Drohnenfotos von Martin Reisch: Die Welt wie im Computerspiel

Foto: safesolvent

Software mit Fähigkeiten wie den von Google gezeigten könnte prinzipiell aber auch als Spionagewerkzeug missbraucht werden. So könnten eines Tages vielleicht die Aussagen oder Parolen einzelner Teilnehmer aus dem Video einer Demonstration herausgefiltert werden - Sätze, die sonst einfach in der Soundkulisse untergegangen wären. Auch die Kamera-Überwachung in Fußgängerzonen und öffentlichen Plätzen könnte noch detailliertere Daten als bisher liefen, wenn einzelne Gespräche von Passanten extrahiert werden könnten. Auf eine SPIEGEL-Anfrage zu seinen Ton-Experimenten hat Google bis zum Freitagnachmittag nicht reagiert.