KI zum Klonen von Stimmen: Künstliche Stimmen, ganz natürlich

Ein Tool zum Klonen von gesprochener Sprache sorgt für Diskussionen. Der Hersteller betont die Potenziale – und schreckt vor einer Freigabe zurück.

Mund einer künstlichen Frauenfigur mit Computerplatine.

Stimmen ohne Einwilligung zu klonen ist rechtswidrig Foto: Christian Ohde/imago

Der Anruf kam, als ihre 15-jährige Tochter gerade auf einer Skifreizeit war. Auf dem Display stand eine unbekannte Nummer, doch als sie den Anruf annahm, hörte Jennifer DeStefano die Stimme ihrer Tochter, die weinte und um Hilfe flehte, so erzählte es DeStefano dem US-Fernsehsender WKYT. Dann habe sich eine Männerstimme gemeldet, die ein Lösegeld forderte und drohte, der Tochter etwas anzutun.

Allein: Es gab keine Entführung. Betrüger hatten mittels Software die Stimme der Tochter geklont. „Es war eins zu eins ihre Stimme. Es war ihr Tonfall. Es war genau so, wie sie geweint hätte“, sagte die Mutter. Der Fall, der sich zum Glück schnell aufklären ließ, liegt bereits ein knappes Jahr zurück, doch er bekommt neue Aktualität durch die jüngste Veröffentlichung aus dem Hause des US-Unternehmens OpenAI. Die auf den Bereich Künstliche Intelligenz spezialisierte Firma stellte Ende voriger Woche ihr jüngstes Tool vor: Voice Engine, ein Programm, mit dem sich Stimmen klonen lassen – und das deutlich schneller als mit bisherigen Programmen.

Künstliche Intelligenz (KI) ist eine der Technologien mit den aktuell größten Entwicklungssprüngen und ­OpenAI eines der führenden Unternehmen. Gestartet mit einem Non-Profit-Ansatz und der Idee, KI-Systeme zu entwickeln, die gut sind für die Menschheit, ist mittlerweile Microsoft maßgeblicher Investor und die Produkte der Firma sind durchaus umstritten. So auch Voice Engine. OpenAI zeigt anhand von Beispielen, dass das Programm auf Basis einer 15-sekündigen Audioaufnahme und einer Texteingabe eine neue Audiosequenz erzeugt, die den eingegebenen Text spricht und dabei vom Klang her sehr nah an der Sprecherstimme aus dem 15-Sekunden-Sample ist. Bislang waren als Basis für ein solches Klonen der Stimme in der Regel Stimmproben von mindestens einer Minute Länge nötig.

OpenAI betont die positiven Möglichkeiten: So könnten etwa Menschen, die infolge einer Krankheit nicht mehr sprechen können, wieder mit ihrer Stimme zu Wort kommen. Zumindest, wenn es eine 15-sekündige Audioaufnahme von der Person gibt, was in Zeiten von Sprachnachrichten bei vielen Menschen der Fall sein dürfte. Ein anderer Bereich könnte die internationale Kommunikation sein. So stellte OpenAI generierte Audio-Samples in mehreren Sprachen von Englisch über Japanisch bis Swahili vor. Die Basis dafür ist auch hier die 15-sekündige Referenzaufnahme und eine Texteingabe, die von der KI zu Sprache verarbeitet wird. Texte lassen sich heute schon schnell und in meist hoher Qualität mittels KI übersetzen, zum Beispiel mit Anbietern wie Google Translate oder DeepL.

Dieser Text stammt aus der wochentaz. Unserer Wochenzeitung von links! In der wochentaz geht es jede Woche um die Welt, wie sie ist – und wie sie sein könnte. Eine linke Wochenzeitung mit Stimme, Haltung und dem besonderen taz-Blick auf die Welt. Jeden Samstag neu am Kiosk und natürlich im Abo.

Dennoch hat OpenAI das Modell nicht allgemein für die Nutzung freigegeben, sondern lediglich die Ergebnisse vorgestellt. „Wir sind uns darüber im Klaren, dass die Erzeugung von Sprache, die den Stimmen der Menschen ähnelt, ernsthafte Risiken birgt“, so das Unternehmen in einem Blogbeitrag. Man teste die Technologie derzeit „in kleinerem Maßstab“ und werde dann über das weitere Vorgehen entscheiden. Die an den Tests beteiligten Partner müssten einer Reihe von Bedingungen zustimmen. Unter anderem dürften nur Stimmen verwendet werden, wenn die zugehörigen Personen einwilligten. Darüber hinaus habe das Unternehmen ein digitales Wasserzeichen entwickelt, was die Rückverfolgbarkeit von erstellten Sequenzen ermögliche.

Die Stimme von Nawalnys Mutter

„Ein naheliegender Gedanke bezüglich der Gefahren, Stimmen synthetisch zu generieren, ist der Einsatz für Desinformation“, sagt Sami Nenno, der am Alexander von Humboldt Institut für Internet und Gesellschaft dazu forscht, der taz. Audio-Deepfakes heißen solche gefälschten Sequenzen. Ein Beispiel: Eine vermeintliche Audio-Aufnahme von der Mutter des verstorbenen russischen Oppositionellen Alexej Nawalny, in der sie schwere Vorwürfe gegen dessen Ehefrau erheben soll. Nenno zufolge sind solche reinen Audio-Deepfakes jedoch aktuell selten.

Sein Kollege Matthias Kettemann, Professor für Innovationsrecht, stellt klar: Stimmen ohne Einwilligung zu klonen ist rechtswidrig. Doch dass ein Verbot nicht unbedingt auch eine wirksame Strafverfolgung nach sich zieht, zeigen jetzt schon Delikte von Identitätsdiebstahl bis Hassrede. Verbreitet hat sich daher die Forderung nach einer Art Wasserzeichen, um KI-generierte Inhalte eindeutig kenntlich zu machen, wie es auch bei Voice Engine der Fall sein soll. Kettemann ist skeptisch: „Jede Kennzeichnung lässt sich aufheben; und böswillige Akteure halten sich ohnedies nicht dran.“ Wichtiger sei daher Bildung, bereits in der Schule. Und Umsicht: „Es ist klug, dass OpenAI beschlossen hat, die Stimmen-KI nicht flächendeckend auszuspielen – gerade in einem Superwahljahr wäre das auch demokratiepolitisch herausfordernd.“

Einmal zahlen
.

Fehler auf taz.de entdeckt?

Wir freuen uns über eine Mail an fehlerhinweis@taz.de!

Inhaltliches Feedback?

Gerne als Leser*innenkommentar unter dem Text auf taz.de oder über das Kontaktformular.

Bitte registrieren Sie sich und halten Sie sich an unsere Netiquette.

Haben Sie Probleme beim Kommentieren oder Registrieren?

Dann mailen Sie uns bitte an kommune@taz.de.