SEARCH
TOOLBOX
LANGUAGES
zuletzt geändert am 26. Januar 2010 um 10:39

TTS:Text-To-Speech oder Text-in-Sprache-Konvertierung

Aus tecWiki

Wechseln zu: Navigation, Suche

Die Konvertierung von am Computer geschriebenem Text in eine Sprachausgabe (Audiodatei) galt früher als Spielerei und hörte sich oft auch dementsprechend an. Professionell angewandt, können Text-To-Speech-Anwendungen (TTS) heutzutage aber durchaus von praktischem Nutzen sein.

Denkbar sind u.a. folgende Einsatzfälle:

  • Podcasts oder Audioblogs lassen sich so bequem erstellen. Besonders interessant ist hier der Einsatz von Anwendungen, die das Erzeugen von MP3-Dateien erlauben.
  • Autoren können sich den selbst geschriebenen Text anhören. Fehler, die man selbst gerne überliest, kann man so leichter finden. Auch die Verständlichkeit des geschriebenen Textes, also wie leicht man einem Artikel folgen kann, kann so überprüft werden.
  • Wichtiger noch, Sehbehinderte erhalten weitere Möglichkeiten, um am Alltagsleben teilzuhaben, z.B. E-Mails und Webseiten hören statt lesen.

Zur Konvertierung der Texte werden im Prinzip immer zwei Komponenten benötigt:

  • Die Anwendung zum Umsetzen des Textes in Sprache allgemein.
  • Ein Stimmpaket, welches die Stimmparameter des Sprechers/der Sprecherin enthält.

Anwendungen gibt es zur Genüge, auch kostenlose Anwendungen, wie Balabolka (Windows) und MARY (Linux/Windows). Die Qualität der Audioausgabe hängt aber in starkem Maße von dem verwendeten Stimmpaket ab. Stimmpakete gibt es ebenfalls in Hülle und Fülle, weiblich, männlich und in allen Sprachen. Nur die frei verfügbaren Stimmpakete SAPI4/SAPI5 (Windows) oder auch die des MBROLA-Projektes lassen beim Benutzer irgendwie keine Freude aufkommen, eher Gelächter. Die Open-Source-Stimmpakete des MBROLA-Projekts können Sie hier testen. Für kommerzielle Anwendung der Audiodateien müssen Sie die Lizenzbedingungen beachten.

Felix Burkhardt stellt auf seiner Webseite Deutsche Sprachsynthese eine Übersicht über die deutschsprachigen Anwendungen und Projekte zur Verfügung.

Für die Konvertierung bieten sich je nach Qualitätsanspruch an:

  • Online-Lösungen
    Die Qualität ist meist nicht sehr gut, bzw. läßt sich auch nicht über Parameter beeinflussen. Für deutsche Texte ist das Angebot sehr übersichtlich. Meist handelt es sich um Demo-Anwendungen, Sie dürfen den in WAV- oder MP3 umgesetzten Text nicht kommerziell verwenden.
  • Kostenlose Anwendungen mit frei verfügbaren Stimmpaketen
    Die Qualität ist zwar besser, auch weil man die Parameter (Tonhöhe, Sprechgeschwindigkeit etc.) beeinflussen kann, aber man kann darüber streiten, ob das Ergebnis professionell einsetzbar ist. Erwähnenswert ist die Java-Anwendung MARY des deutschen Forschungszentrums für künstliche Intelligenz (DFKI). Sie bietet eine Server-Client-Lösung, die zumindest für den technisch-interessierten Anwender reizvoll ist. Aber auch dieses Projekt verwendet die Stimmpakete des MBROLA-Projekts. Die Lizenzbedingungen sind auch hier zu beachten.
  • Kostenpflichtige Anwendungen
    Hier finden Sie Anwendungen aller Qualitätsstufen. Nicht immer ist allerdings der kommerzielle Gebrauch der erzeugten Audiodatei erlaubt. Ein interessantes Preismodell findet man bei Linguatec. Die Home-Version kostet immerhin 49.- Euro. Verwenden dürfen Sie sie aber allenfalls privat (Stand: Januar 2010). Die bekannteste Anwendung in der unteren Preisklasse dürfte TextAloud sein. Hierzu gibt es eine Vielzahl an sehr guten Stimmpaketen.
  • In den folgenden Artikeln finden Sie mehr zu der Installation und zum Einsatz der unten aufgelisteten Anwendungen: