México - Marcar México

Términos internacionales de comercio (Incoterms):DDP
Todos los precios incluyen los costos de aranceles y aduana para los métodos de envío seleccionados.

Confirme su elección de moneda:

Dólares estadounidenses
Envío sin cargo para la mayoría de los pedidos superiores a $100 (USD)

Bench Talk for Design Engineers

Mouser German Blog

rss

Mouser Electronics, Inc german language blogs


Sprachtechnologie verspricht mehr als nur intelligentere Produkte Stephen Evanczuk

Sprachtechnologie verspricht weitaus mehr als nur intelligentere Produkte

(Quelle: ArtemisDiana – stock.adobe.com)

 

Fortschritte in der Spracherkennung haben bereits die Verbreitung von intelligenten Assistenten wie Amazon Alexa und Apple Siri beschleunigt. Doch die hochentwickelten Sprachtechnologien werden bald einen noch wichtigeren Dienst anbieten. Die auf künstlicher Intelligenz basierenden Technologien zur Sprachverarbeitung kommen dem Ziel immer näher, Millionen von Menschen mit Sprachverlust oder -behinderung eine Stimme zu geben.

 

Innovative Sprachtechnologien schaffen die Grundlage für einen riesigen, wettbewerbsintensiven Markt für intelligente Produkte. Laut dem 2022 Smart Audio Report1 von NPR und Edison Research nutzen 62 Prozent der Amerikaner ab 18 Jahren einen Sprachassistenten in einem ihrer Geräte. Deshalb ist es für Unternehmen sehr wichtig, sich am Trend zu hochentwickelten Sprachfunktionen zu beteiligen. Sie müssen nicht nur ihre eigene Marke mit synthetischen Sprachfunktionen stärken, sondern auch die beispiellosen Möglichkeiten der direkten Interaktion mit den Verbrauchern durch KI-basierte Sprachassistenten nutzen, die zuhören und über das Gerät des Nutzers in einem natürlich klingenden Gespräch antworten.

Komplexe Sprachsynthese-Pipeline

Die Sprachsynthese-Technologie hat sich gegenüber den Sprach-Encoder- oder Vocoder-Systemen, die vor fast einem Jahrhundert entwickelt wurden, um die Bandbreite bei Telefonübertragungen zu verringern, stark weiterentwickelt. Bei den heutigen Vocodern handelt es sich um hochentwickelte Subsysteme, die auf Deep-Learning-Algorithmen wie Convolutional Neural Networks (CNNs) basieren. Diese neuronalen Vocoder dienen jedoch nur als Backend für komplexe Sprachsynthese-Pipelines, in denen ein Akustikmodell enthalten ist, das verschiedene Merkmale der Stimme erzeugt, anhand derer die Hörer das Geschlecht, Alter und andere Faktoren einzelner Sprecher identifizieren können. In dieser Pipeline erzeugt das akustische Modell Akustikmerkmale, in der Regel in Form von Mel-Spektrogrammen, die das lineare Frequenzspektrum in einen Bereich übertragen, der für die menschliche Wahrnehmung besser geeignet ist. Neuronale Vocoder wie WaveNet von Google DeepMind verwenden diese akustischen Merkmale, um qualitativ hochwertige Audio-Ausgangswellenformen zu erzeugen.

Text-to-Speech (TTS) wird in der Branche in großer Zahl angeboten. Die Palette reicht von herunterladbaren mobilen Apps über Open-Source-Pakete wie OpenTTS bis hin zu umfassenden cloudbasierten, mehrsprachigen Diensten wie Amazon Polly, Google Text-to-Speech und Microsoft Azure Text to Speech. Viele TTS-Pakete und -Dienste unterstützen den Industriestandard Speech Synthesis Markup Language (SSML), der einen einheitlichen Ansatz für Sprachsyntheseanwendungen ermöglicht, um realistischere Sprachmuster inklusive Pausen, Phrasierung, Betonung und Intonation zu erreichen.

Dem Menschen eine Stimme geben

Heutige TTS-Software kann eine Sprachqualität liefern, die bei Weitem nicht so roboterhaft klingt wie die Sprache eines Elektrolarynx oder die Stimme des verstorbenen Stephen Hawking, sogar nachdem verbesserte Technologien zur Stimmwiedergabe verfügbar wurden2. Diese Pakete und Dienste zielen darauf ab, eine realistische Sprachschnittstelle für Anwendungen, Websites, Videos, automatische Sprachdialogsysteme und Ähnliches zu schaffen. Es ist also nicht ihr primäres Ziel, die Stimme einer bestimmten Person nachzuahmen – einschließlich ihres einzigartigen Tonfalls und ihrer Sprachmuster.

Auch wenn einige Dienste, wie z. B. der von Google, die Möglichkeit bieten, eine vom Nutzer bereitgestellte Stimme zu erzeugen, sind sie nicht darauf ausgerichtet, die Stimme einer Person nachzubilden, die ihre Stimme verloren hat. Für diese Menschen ist dies tatsächlich von großer Bedeutung, denn unsere einzigartige Stimme ist so eng mit unserer Identität verbunden, dass eine einfache stimmliche Begrüßung viel mehr aussagt als die einzelnen Worte. Menschen, die ihre Stimme verloren haben, fühlen sich nicht nur durch den Verlust ihrer Stimme ausgeschlossen. Für sie ist die Möglichkeit, mit ihrer eigenen Stimme mit anderen zu kommunizieren, das wahre Geschenk der neuen Sprachsynthese-Technologie.

Wie das Klonen von Stimmen entstand

Es gibt immer mehr Bemühungen, die Hürde für synthetische Stimmen zu senken, die an die einzigartige Persönlichkeit einer Person angepasst werden können. So hat der Schauspieler Val Kilmer im letzten Jahr enthüllt, dass er nach einer Kehlkopfkrebsoperation seine Stimme verloren hatte und das britische Unternehmen Sonantic für ihn eine synthetische Stimme entwickelt hat, die er als seine eigene erkennen konnte. In einem anderen viel beachteten Fall wurde die Stimme des verstorbenen Starkochs Anthony Bourdain in einem Film über sein Leben geklont, wobei die Worte in Bourdains Stimme gesprochen wurden, die der Koch zwar geschrieben, aber nie in seinem Leben ausgesprochen hatte.

VocalID ist ein weiterer Pionier auf dem Gebiet der Sprachverarbeitung. Das Unternehmen stellt Menschen individuelle Stimmen zur Verfügung, die auf Aufnahmen beruhen, die jeder Einzelne in Erwartung seines Stimmverlusts bei dem Unternehmen „gespeichert“ hat, oder individuelle Stimmen, die auf gespeicherten Aufnahmen basieren, die von Freiwilligen gemacht und auf die Person abgestimmt wurden, die ihre Stimme verloren hat. Die Person kann dann die benutzerdefinierte Sprachsynthese-App auf ihrem IoS-, Android- oder Windows-Mobilgerät starten und Gespräche mit ihrer eigenen Stimme führen.

Die Technologie zum Klonen von Stimmen entwickelt sich rasant weiter. Im Sommer 2022 hat Amazon gezeigt, dass eine Stimme mit Audioclips von weniger als 60 Sekunden Dauer geklont werden kann. Diese Demonstration wurde als Möglichkeit bezeichnet, die Stimme eines verstorbenen Verwandten wiederzubeleben und macht das Potenzial der künstlichen Intelligenz deutlich, die Sprachausgabe in einer vertrauten Stimme zu ermöglichen.

Doch angesichts der engen Verknüpfung von Stimme und Persönlichkeit birgt die originalgetreue Spracherzeugung sowohl Chancen als auch Gefahren. Wie auch bei sogenannten „Deepfake“-Videos stellt das Klonen von Stimmen eine erhebliche Sicherheitsbedrohung dar. Ein qualitativ hochwertiger Stimmenklon wurde Anfang 2020 für die betrügerische Überweisung von 35 Millionen Dollar verantwortlich gemacht. In diesem Fall überwies ein Bankmanager das Geld als Antwort auf eine telefonische Überweisungsanfrage mit einer Stimme, die er erkannte, die sich aber als gefälschte Stimme herausstellte.

Fazit

Mit Blick auf das Marktpotenzial dieser Technologie arbeiten Forscher in akademischen und kommerziellen Organisationen aktiv an neuen Methoden zur Erzeugung von Sprachausgaben, die alle Nuancen eines menschlichen Sprechers wiedergeben können, um den Verbraucher besser anzusprechen. Doch neben den großen Marktchancen verspricht die fortschrittliche Sprachsynthese-Technologie vor allem auch einen persönlicheren Nutzen für die Millionen von Menschen, die ohne Stimme geboren wurden oder ihre Stimme durch einen Unfall oder eine Krankheit verloren haben.

Quellen

1. „The Smart Audio Report.“ national public media, Juni 2022. https://www.nationalpublicmedia.com/insights/reports/smart-audio-report/.

2. Handley, Rachel. Stephen Hawking’s voice, made by a man who lost his own. BeyondWords, 15. Juli 2021. https://beyondwords.io/blog/stephen-hawkings-voice/.



« Zurück


Stephen Evanczuk verfügt über mehr als 20 Jahre Erfahrung als Autor für und über die Elektronikindustrie. Er schreibt über ein breites Themenspektrum, darunter Hardware, Software, Systeme und Anwendungen, einschließlich des IoT. Stephen promovierte in Neurowissenschaften über neuronale Netzwerke und arbeitete in der Luft- und Raumfahrtindustrie an massiv verteilten Sicherheitssystemen und Verfahren zur Beschleunigung von Algorithmen. Wenn er nicht gerade Artikel über Technologie und Engineering schreibt, arbeitet er derzeit an Deep Learning-Anwendungen für Erkennungs- und Empfehlungssysteme. 


Alle Autoren

Alle anzeigen Alle anzeigen
Blog nach Datum anzeigen