AT&T Text to Speech - Wie zuverlässig ist die Technik?

Andy Rabbach

27.06.2011

Unter "Text-to-Speech" versteht man das Erzeugen menschlicher Sprache mithilfe eines Computers. Man nennt dieses Verfahren auch Sprachsynthese und sie kann in den verschiedensten Situationen des Alltags sehr nützlich sein, z.B. bei Navigationssystemen oder auch z.B. beim Abruf einer SMS via Festnetz. Ebenfalls sehr nützlich sind solche Sprachsynthesen für sehbehinderte Menschen, wo solche künstlich generierten Stimmen verschiedene Sachverhalte ganz genau beschreiben können. Der US-amerikanische Telekommunikationskonzern "AT&T Inc." bietet einen solchen Dienst unter dem geschützten Markennamen "Labs Natural Voices" an. Doch wie zuverlässig ist die Technik eigentlich? Der folgende Beitrag wird sich mit dieser Fragestellung mal genauer beschäftigen.

Schwachstellen

Zuverlässigkeit heutiger Sprachsynthesen Frühere Generationen solcher Sprachsynthesen hatten punkto Zuverlässigkeit noch einige Schwächen, d.h. sie klangen eher künstlich und man hatte Probleme jedes einzelne Wort klar und deutlich zu verstehen. In den letzten Jahren jedoch hat sich die Technologie wesentlich verbessert, was vor allem daran liegt, dass auf eine Vielzahl von aufgenommenen Sprachsegmenten zurückgegriffen werden kann, welche zuvor in einer Datenbank hinterlegt worden sind. Diese werden dann mithilfe verschiedener Methoden optimal miteinander verknüpft. Schwachstellen solcher Voice-Engines Dabei muss eine solche "TTS-Engine" auf viele kleine Details achten, damit die Sätze auch später stimmig klingen und verständlich sind. Zum Beispiel gilt es auf die Art und Weise eines ausgesprochenen Wortes zu achten, insbesondere auch auf die Betonung. So existieren beispielsweise Wörter, die sich beim Aussprechen in nur einem Laut unterscheiden, etwa "Schatz" und "Satz". Beide Wörter haben natürlich eine völlig andere Bedeutung und die müssen von solch einem System auch erkannt werden. Dies gelingt der Sprachsoftware von AT&T Inc. aber sehr gut, wie ein praktischer Test beweist. Textverständnis und Sprachmelodie Hinzu kommt das Textverständnis, welches oft ein Hindernis solcher sprachbasierten Systeme sein kann, insbesondere dann wenn englische Wörter in der deutschen Sprache verwendet werden. Bei Zahlenangaben wiederum muss eine solche Sprachsynthese erkennen können, ob gerade ein Jahrgang gemeint ist oder etwa eine Telefonnummer, um die korrekte und übliche Aussprache zu erhalten. Hier muss notfalls etwas nachgeholfen werden, indem man z.B. bei einer Telefonnummer diese mit Leerzeichen zwischen den einzelnen Ziffern angibt. Existiert eine Telefonnummer mit Vorwahl, erkennt die Software diese als solche an. Schließlich sollte auch die Sprachmelodie stimmig klingen. Damit ist z.B. nicht nur der korrekte Akzent gemeint, sondern auch die Sprechpausen, die Art und Weise der Betonung oder auch der Rhythmus in dem gesprochen wird.

Ein Fazit

Alles in allem wird "Labs Natural Voices" den hohen Anforderungen einer solchen Sprachsynthese durchaus gerecht. Im Praxistest hat sich gezeigt, dass die eingegebenen Sätze nicht nur sauber und natürlich klingend wiedergegeben werden, sondern auch das z.B. Telefonnummern als solche erkannt werden, wenn eine Vorwahl drangehängt wird. Beim Einfügen englischer Begriffe jedoch (vermischte Sprache) werden diese nur "eingedeutscht" wiedergegeben.

Micro atx gehäusen: für wen sind sie am besten geeignet und welche einschränkungen gibt es im vergleich zu anderen atx-standards?

Beim pc zählen nicht nur die inneren werte. auch das äußere ist wichtig, schließlich sieht man das als erstes. wer einen ganz besonders kleinen computer zusammenstellen möchte, der greift zum micro-atx-gehaeuse. für wen sich diese kompakte bauform besonders eignet, zeigt der artikel.

27.08.2011

Mehr aus der Kategorie » Computer

Fritz wlan: was sind die vor- und nachteile?

Viele kennen das problem: der wlan-empfang reicht nicht aus, um die ganze wohnung oder weitere stockwerke abzudecken. immer wieder reißt die verbindung ab. mit dem fritz! wlan-repeater erhöht man die reichweite ganz einfach. ob das auch so einfach funktioniert, zeigt der artikel.

26.08.2011

Mehr aus der Kategorie » Computer

Erp supply chain management: was versteht man darunter?

Supply chain management (scm) im heutigen globalen umfeld ist außerordentlich wichtig für e-commerce, um bedeutende konkurrenz-vorteile schaffen. der zweck dieser abschnitts ist, zu klären, was hinter erp supply chain management steckt und dazu die wichtigste software vorzustellen.

10.08.2011

Mehr aus der Kategorie » Computer

Dsl-verfügbarkeit: wie wird sie getestet?

Um in den genuss vom schnellen internet per dsl zu kommen, benötigt der haushalt einen dsl-anschluss. als erstes muss aber geprüft werden, ob dsl im jeweiligen wohngebiet überhaupt verfügbar ist und welche geschwindigkeit möglich ist. über das internet lässt sich die dsl-verfügbarkeit schnell, kostenlos und einfach prüfen.

17.08.2011

Mehr aus der Kategorie » Computer

AT&T Text to Speech - Wie zuverlässig ist die Technik?

Schwachstellen

Ein Fazit

Gleiche Kategorie Artikel Computer

Alternative zu Fasching und Olympia: Konzert des Ensembles Pizzicato in der Christuskirche - Werke von Ravel, Brahms und Dvořák am 6. Februar

Jenseits der Ökonomie: Warum das wahre Zusammenwachsen der Welt ein Bewusstseinsereignis ist

Fritzi Furchtlos

Schneemann mit Hund, unterwegs in Richtung Alexandersbad