Als Entwickler oder Betreiber einer Website gehen Sie vielleicht ganz selbstverständlich davon aus, dass der Text auf Ihren Seiten von den Besuchern gelesen und die Bilder betrachtet werden. Aber so einfach ist es nicht: Auch Menschen mit Beeinträchtigungen wie Sehbehinderungen oder Leseschwäche wollen das Web möglichst unbeschwert nutzen. Und dank Sprachsynthese oder „Text to Speech“ können sie das auch immer besser.

Was ist Text to Speech?

Bei Text to Speech, kurz TTS, wird der Text auf einer Webseite (oder in einem anderen Dokument) in gesprochene Sprache umgewandelt. Dass dies automatisiert geht, ist auf die schnelle technische Entwicklung der Sprachsynthese in den letzten Jahren zurückzuführen. Besonders durch den Einsatz von Deep Learning gab es rasante Fortschritte: So ist die Sprachmelodie von Text to Speech heute schon sehr viel natürlicher und nicht mehr so monoton wie die von Computerstimmen aus früheren Jahrzehnten.

Die deutlichen Verbesserungen im Bereich der TTS-Technologien haben dazu geführt, dass auch die Funktionsbreite von und Auswahl an Screen-Readern in den letzten Jahren eine beeindruckende Entwicklung hingelegt hat. Screen-Reader sind Programme, die mittels TTS-Technologie den visuellen Inhalt einer Webseite oder von Applikationen in hörbare Sprache umwandeln. Oder auch anders ausgeben – zum Beispiel in Braille-Schrift, die von Blinden und Sehbehinderten mit dem Tastsinn gelesen werden kann. So wurden in den letzten Jahren massive Verbesserungen im Bereich der Barrierefreiheit von Webseiten und anderen Applikationen erreicht. Screen-Reader können dabei neben der eigentlichen TTS-Funktion noch unterschiedliche andere Fähigkeiten haben – sie können zum Beispiel dem Nutzer Informationen über die Navigationsstruktur der Webseite mitteilen.

Screen-Reader ermöglichen es also Menschen mit Sehbehinderungen, mit einer Leseschwäche oder mit anderen Hindernissen beim Lesen von Texten am Bildschirm den Inhalt einer Webseite zu verstehen – und sogar auf der Webseite zu navigieren. Auch Menüpunkte, Buttons und andere interaktive Elemente können vorgelesen werden, ebenso wie Links oder Überschriften. Sogar Bilder können Screen-Reader verarbeiten, indem sie nämlich die Bildbeschreibungen vorlesen. Diese werden als alternativer Text zum Bild schon vom Webentwickler vorgegeben. Beim Ausfüllen von Formularen helfen Screen-Reader ebenfalls, indem sie Formularfelder benennen und beim Ausfüllen eine auditive Rückmeldung geben. Mehr über Screen-Reader lesen Sie in diesem Beitrag: …

Übrigens wird Text to Speech auch von Menschen genutzt, die keine Beeinträchtigungen beim Sehen oder Lesen haben: Manchmal ist es einfach praktisch, sich eine Webseite vorlesen zu lassen, wenn man gerade die Hände voll hat oder anderweitig beschäftigt ist. Zudem ist es augenschonend und beugt Ermüdung vor.

Große Auswahl an günstigen Domain-Endungen – schon ab 0,08 € /Monat
Jetzt Domain-Check starten

Auf welchen Websites funktioniert Text to Speech am besten?

Dabei ist nicht jede Webseite gleich gut für TTS geeignet. Aber die gute Nachricht: Wenn Sie einige wenige Prinzipien beim Aufbau und inhaltlichen Befüllen Ihrer Webseite beachten, können Sie ihre TTS-Fähigkeit und Zugänglichkeit mit wenig Aufwand deutlich verbessern.

Zunächst ist es wichtig, dass Sie sich Gedanken darüber machen, welche Elemente auf Ihrer Webseite vorgelesen werden sollen. Diese sollten sprechende Namen und Beschreibungen erhalten. So können Sie zum Beispiel einem Button, mit dem Sie eine Kontaktaufnahme ermöglichen wollen, den Namen „Kontaktbutton“ geben. Dieser wird dann von den meisten TTS-Lösungen vorgelesen werden.

Ebenso wichtig oder noch wichtiger: dass Sie Ihren Bildern aussagekräftige Beschreibungen und alternative Texte geben. Ein alternativer Text ist der, der angezeigt wird, wenn das Bild aus irgendeinem Grund nicht dargestellt werden kann, etwa weil die Internetverbindung des Nutzers zu langsam ist. In HTML wird diese im alt-Attribut des img-Tags angegeben.

Wenn Sie Ihre Webseite noch weiter für Text to Speech optimieren möchten, dann können Sie sie sogar mit Hilfe einer HTML-ähnlichen Markup-Sprache auszeichnen, nämlich der sogenannten Speech Synthesis Markup Language (SSML). Mit ihrer Hilfe können Sie beispielsweise Pausen in den Sprachfluss einbetten, Sie können angeben, wenn Buchstaben einzeln ausgesprochen werden sollen – beispielsweise „A Deh A Zeh“ statt „Adac“, wenn es um den bekannten Automobilclub geht, – Sie können vorgeben, wie Uhrzeiten und Daten ausgesprochen werden, und vieles mehr. Für Besucher Ihrer Seite, die keine Screen-Reader nutzen, ist SSML nicht sichtbar und stört somit auch nicht.

Welche TTS-Plattformen sind empfehlenswert?

Nutzer, die Sehbehinderungen haben oder aus anderem Grund auf Text to Speech besonders angewiesen sind, nutzen häufig bereits dedizierte Apps, die auch solche Webseiten vorlesen können, die keine integrierte TTS-Funktion haben. Auch diese Apps kommen mit Ihrer Webseite besser zurecht, wenn Sie die oben genannten Punkte beachten, also etwa aussagekräftige Namen für Elemente der Webseite verwenden und Texte mit SSML auszeichnen.

Zudem ist TTS auch bereits in einer grundlegenden Form in Betriebssystemen mitgeliefert. Solche Funktionen sind aber in ihrer Sprachausgabe oft nicht besonders gut und ermüden den Zuhörer durch ihre unnatürliche Sprachmelodie. Oder führen sogar zu Missverständnissen: So muss die Software beispielsweise in der Lage sein, Kontext zu erkennen. Nehmen Sie diese beiden Sätze: „Die Katze läuft weg“ und „Die Katze läuft am Weg“ – sie sind fast gleich, aber das letzte Wort muss jeweils anders ausgesprochen werden, weil der Kontext ein anderer ist.

Besser ist es, wenn Sie selbst einen qualitativ hochwertigen TTS-Service in Ihre Webseite einbinden. Große Plattformen arbeiten hier oft mit Deep Learning und anderen Verfahren, die sicherstellen, dass die ausgegebene Sprache möglichst lebensnah klingt und vom Nutzer oft auch angepasst werden kann, beispielsweise als Frauen- oder Männerstimme, je nach Vorlieben.

Solche Dienste sind etwa das AWS-basierte Amazon Polly, Google Text to Speech AI oder die unabhängige Plattform Readspeaker.

Alle diese Plattformen bieten auch irgendeine Art von kostenlosem Test: Bei Amazon Polly können kostenlose AWS-Kontingente für den Betrieb von Polly genutzt werden, bis sie aufgebraucht sind. Bei Google Text to Speech AI gibt es derzeit 300 USD kostenloses Startguthaben, und bei Readspeaker gibt es eine 14-tägige kostenlose Testphase.

Wie können Sie Text to Speech auf Ihrer Webseite einbinden?

Konkret können Sie TTS mit einer dieser Plattformen – oder einer anderen – so auf Ihrer Webseite einbinden:

Sie erstellen zunächst ein Konto bei der gewünschten Plattform und konfigurieren dort den Dienst nach Ihren Vorstellungen, beispielsweise hinsichtlich Sprache und Region. Hier erfolgt in der Regel dann auch schon die Generierung von Zugriffsschlüsseln.

Im Quelltext Ihrer Webseite sprechen Sie dann die API des TTS-Anbieters an, um dort den Text in gesprochene Sprache umwandeln zu lassen. Dies erfolgt in der Regel durch das Senden von HTTPS-Anfragen an den entsprechenden API-Endpunkt. Die generierte Sprachausgabe wird von der API zurückgeschickt und kann dann nach Ihren Vorgaben auf der Webseite eingesetzt werden – beispielsweise, um sie mit dem audio-Tag in HTML abzuspielen. Aber auch andere Verwendungen sind möglich, etwa das Speichern als Audio-Datei.

Wenn Sie mit Hilfe dieser Schritte Text to Speech auf Ihrer Webseite einbinden, erschließen Sie sich ganz neue Besuchergruppen, die sich von anderen Seiten vielleicht schon frustriert abgewandt haben – und Sie tun nicht zuletzt auch etwas Gutes für Bevölkerungsgruppen, die sonst vielleicht von so mancher Informationsquelle abgeschnitten sind. Probieren Sie es einmal aus!

Titelmotiv: Bild von Chao Huang auf Pixabay

Host Europe

Große Auswahl an günstigen Domain-Endungen – schon ab 0,08 € /Monat
Jetzt Domain-Check starten