Stimmenerkennung: Ein Blick hinter die Kulissen

Stimmenerkennung: Ein Blick hinter die Kulissen

Durch den Siegeszug von Smartphones und Tablets hat sich die Bedeutung von Technik im Alltag rasant gewandelt. Daten sind überall verfügbar und wann immer nötig, können Telefonate, Videoaufzeichnungen und durch Sprache gesteuerte Befehle erfolgen und vieles erleichtern. Gerade im Bereich der Spracherkennung und Sprachsteuerung wurden in den letzten Jahren immer größere Fortschritte gemacht, wenngleich in diesem Bereich noch viele Herausforderungen existieren.

Generell ist die Stimmen- und Spracherkennung sowie die Nutzung von Sprache als Steuermedium ein spannender Bereich, der viele Perspektiven bietet.

Für DigiFors ist in Zusammenarbeit mit dem Fraunhofer-Institut die Sprache und Spracherkennung jedoch weitaus mehr als nur eine Übertragungs- oder Steuerungstechnik. Was genau wir damit meinen, erklären wir nachfolgend genauer.

Spracherkennung anders gedacht: Stimmaufzeichnungen als Alleinstellungsmerkmal

Tonaufnahmen sind heute innerhalb von Sekunden erstellt und bearbeitet. Sie dienen dann etwa der Informationsübertragung in Form von Nachrichten, sind Bestandteil von Medien, Musik oder auch ein Sicherheits- und Echtheitsmerkmal. Durch die vielseitigen Möglichkeiten, die sich durch die Verwendung der menschlichen Stimme ergeben, bieten sich natürlich auch Verwendungszwecke, die in ihrer Form vom Urheber nicht gewünscht oder autorisiert wurden. Mitunter können Aufnahmen sogar zu Problemen führen:

  • Stellen Sie sich nur einmal vor, genügend kriminelle Energie vorausgesetzt, jemand hätte ein Interesse daran etwa einem Politiker oder einer Konzernchefin durch die Verbreitung kompromittierender Aufzeichnungen zu Schaden. Eine belastende Aufzeichnung wäre in der Lage innerhalb kürzester Zeit negative Publicity zu erzeugen und dem Ruf des Betroffenen/der Betroffenen nachhaltig zu schaden.
  • Doch was, wenn eine solche Aufnahme nicht einmal echt ist? Durch moderne Technik sind Imitationen, Mitschnitte oder sonstige Verfälschungen schnell hergestellt.

Eine Fälschung zu erkennen, ist für das menschliche Gehör kaum möglich. So sind die wahrnehmbaren Frequenzen begrenzt und jene Unterschiede, die ein Original von einer Fälschung unterscheiden, können ohne technische Hilfsmittel nicht erkannt werden. Mit derartigen Fällen beschäftigen sich dann Audio-Forensiker, die mit Hilfe von Hochtechnologie jedes noch so kleine Detail entlarven können.

Stimmenerkennung in der Forensik: Der gesprochene Fingerabdruck

Viele Merkmale einer Stimme lassen sich also erst mit Hilfe modernster Technik erkennen. Aufgrund der Vielzahl dieser Merkmale kann die Einzigartigkeit der Stimme beispielsweise mit der Einzigartigkeit eines Fingerabdruckes verglichen werden. Diese Fähigkeit ist aber nicht nur im Zusammenhang mit einem Kriminalfall äußerst nützlich, sondern kann auch die Grundlage zahlreicher moderner Digitalprozesse in Unternehmen sein. Durch Spracherkennung ergeben sich ganz neue Möglichkeiten, die den Arbeitsalltag tiefgreifend verändern können.

Ein Beispiel dafür liefert das Management von stimmbasierten Inhalten. Werden tagtäglich Inhalte produziert, veröffentlicht und verkauft, so müssen diese zwangsläufig auch archiviert und kontrolliert werden. Da Urheberrechtsverletzungen auch heute noch auf der Tagesordnung stehen, sind derart aktive Unternehmen natürlich auch daran interessiert, ihre Rechte wahrzunehmen. Angesichts der bloßen Menge an Daten und Inhalten ist eine händische Kontrolle aber gar nicht mehr möglich.

Wichtig: Automatisierung im Bereich der Stimmenerkennung ist also eine absolute Notwendigkeit. Mit der entsprechenden Technik im Hintergrund lassen sich auch riesige Datenmengen zuverlässig überprüfen und mit eigenen Inhalten vergleichen. Auch solche Verwendungen, die nicht auf den ersten Blick erkennbar sind, lassen sich so aufdecken. Darüber hinaus ist die Stimmenerkennung besonders in solchen Bereichen gefragt, welche für die öffentliche Sicherheit eine Rolle spielen.

Nicht gerade alltäglich: Stimmenforensik in der Praxis

Zugegeben, wirklich relevant ist die Stimmenforensik in vielen alltäglichen Bereichen nicht. Jedoch wird sie umso wichtiger, je sensibler ihr Einsatzgebiet ist. So kommt es im Ernstfall darauf an, dass Stimmenerkennung zuverlässig funktioniert und gesprochene Dinge zweifelsfrei einem Urheber zugeordnet werden können. Ein klassisches Beispiel bilden Krisensituationen, von denen natürlich hoffentlich so wenige wie möglich eintreten:

  • Sprach- und Stimmenerkennung spielten etwa eine Rolle, wenn es zu einem großflächigen Stromausfall oder gar einem Terroranschlag käme. Krisenstäbe und leitende Angestellte müssen dann sicher, zuverlässig und vor allem vertraulich kommunizieren können.
  • Die Manipulation von Stimmen und Sprache könnte mitunter fatale Folgen haben. Was für den Alltag verschwörerisch klingt, ist zumindest was die öffentliche Sicherheit angeht eine einzukalkulierende Gefahr.

Relevant wird die Tätigkeit von Stimm-Forensikern auch dann, wenn es beispielsweise um die Aufdeckung von Straftaten geht. Glücklicherweise gilt in Deutschland bis zu einer Verurteilung die Unschuldsvermutung und auch an die Beweisführung werden während eines Prozesses höchste Ansprüche gestellt.

Es gilt: Im Angesicht der zuvor genannten Möglichkeiten hat beispielsweise eine be- oder entlastende Tonaufnahme nicht den Wert als Beweis, den sie bis vor kurzem noch angenommen haben. Bestehen Zweifel hinsichtlich der Echtheit, so können etwa forensische Gutachten klären, ob das Audiomaterial auch wirklich vom angenommenen Urheber stammt.

Als erfahrener Dienstleister steht DigiFors in Zusammenarbeit mit dem Fraunhofer-Institut Behörden, Unternehmen und Kanzleien mit umfassender Expertise zur Verfügung. Gerne erklären wir Ihnen in einem persönlichen Gespräch die Möglichkeiten und Grenzen, die sich in Verbindung mit Spracherkennung und Stimmforensik bieten. Sprechen Sie uns dazu jederzeit an!