Das Lesen und Informationsverarbeiten steigt in unserer Zeit immer weiter, immer häufiger hat man daher das Gefühl, dass man seine Augen auch einmal vom Text nehmen möchte und es doch andere Wege geben muss. Und die gibt es. Diese gibt es seit langer Zeit versteckt in den Systemen und immer wieder in der Entwicklung. Zum Beispiel ist die Speech API mindestens seit NT 5.0 Bestandteil des Systems und auch MacOS X bietet die Funktionalität der Sprachsynthese. Das iPhone kann es inzwischen auch, Siri sei dank.

TTS Reader - Ein Beispiel für SAPI unter Windows Trotzdem sind die Funktionen meist versteckt oder nicht ohne Weiteres verwendbar. Sprache und deren Ausgabe ist ein weites Feld, welches diverse Forschungs- und Entwicklungsgruppen beschäftigt. Immer wieder gibt es Neuentwicklungen und Errungenschaften die die Stimmen immer besser und weniger synthetisch erscheinen lassen.

Doch dieses ist nur eine Richtung. Auch in die andere Richtung geh die Entwicklung immer weiter. Wem war denn zuvor auch bekannt, dass er seinem Windows 7 auch Sprachanweisungen geben kann?

Natürlich ist die Entwicklung nicht nur auf Windows beschränkt, sondern findet sich auf den meisten Plattformen, so auch unter Linux.

Nicht nur körperlich eingeschränkte Personen profitieren von diesen Entwicklungen. Mehr noch ist diese Technologie immer wieder Teil von den Neuerungen bei jedem neuen Evolutionsschritt der Betriebstechnologie, dass die Interaktion mit dem Gerät natürlicher und direkter, ja sogar menschlicher, machen soll. So kann man mit dem System reden, mit dem Finger steuern und halt auch vorlesen lassen.

TIPP: Wer sich einen Überblick verschaffen will wird von der Menge an verfügbaren Sprachen, Seiten und Angeboten nahezu erdrückt. Eine sehr gute Übersicht zu bestehenden und verfügbaren Sprachen findet man auf der Vergleichsseite von Felix Burkhardt.

Wer sich auf offene oder zumindest kostenlose Lösungen beschränken will, kann sich einen der vielen kostenfreien Programme ansehen und seinen Favoriten wählen. Die Synthetikstimme, welche mitgeliefert wird überzeugt in der heutigen Zeit nicht mehr, daher empfiehlt es sich auch andere Stimmen hinzuzufügen.

Microsoft hat zum Beispiel eine Stimme von ScanSoft mit dem Namen Steffi, ursprünglich für sein AutoRoute, kostenfrei veröffentlicht. Diese kann durch die Verwendung der Speech-API auch in allen anderen Bereichen des Systems verwendet werden. Leider wurde sie später wieder vom Netz genommen, ist aber auf verschiedenen Seiten noch immer verfügbar. Wie unter Windows die Standardstimme eingestellt und konfiguriert werden kann beschreibt Microsoft im Eintrag 306902 seiner Knowledgebase.

TIPP 2: Wenn es nicht um beständige Lösungen sondern lediglich um die Digitalisierung von ein paar Sätzen oder Texten geht findet auf der Forschungsseite von AT&T sicher, was er benötigt. Die Seite bietet die Vertonung von beliebigen Texten in MP3 an.

Die Entwicklung und Verbesserung in diesem Bereich geht immer weiter, so ist es auch nicht verwunderlich, dass die Sprache der Synthetikvorleser von Generation zu Generation besser und natürlicher wird. Als Privatperson ist es durchaus ausreichend eine der kostenfreien Stimmen mit einem der Freeware-Programme, welche darauf zurückgreifen zu nutzen.

Interessant im kommerziellen Sinne sind diese Fähigkeiten sowieso in erster Linie bei Vertonungen, Hotlines und diversen anderen Supportleistungen, bei denen Menschen durch automatisierte Abläufe ersetzt werden sollen.

Wer sich gern mit der Technik auseinandersetzen will findet beim W3C auch eine Spezifikation. Ebenfalls vereinfacht das .NET-Framework durch einen entsprechenden Namespace die Verwendung dieser Technologie enorm. Eine kleine Einführung und Beschreibung einer .NET unabhängigen Technik findet sich auch bei SiPhon.

Share Your Thought