Produktivitäts-Booster: So steigert Spracherkennungs-Software Ihren Arbeitsalltag

timiglauer
11. Okt. 2024
5 Min. Lesezeit

Aktualisiert: 7. Juni

Wer das Zehnfingerschreiben gut beherrscht, kann mühelos ganze Artikel in wenigen Minuten verfassen. Für alle, die noch das sogenannte "Adler-Suchsystem" anwenden, gibt es dank moderner Technologien wie KI inzwischen eine Vielzahl an Alternativen.

Bereits 1962 entwickelte IBM ein erstes Spracherkennungssystem mit einem begrenzten Wortschatz. Bis 1986 konnte die Technologie bereits 20.000 Wörter erkennen. Den Durchbruch erzielte Dragon NaturallySpeaking 1997, als es erstmals möglich wurde, Wörter in Echtzeit zu diktieren. Rund zehn Jahre später hielt die Spracherkennung Einzug in Microsoft Word und Outlook. Der nächste Meilenstein folgte 2011 mit der Einführung von Siri durch Apple, das mithilfe von Deep Learning die Spracherkennung auf mobile Geräte brachte.

Besonders beeindruckt haben mich die Ergebnisse, die mit ChatGPT bei diktierten Texten inklusive automatischer Korrekturen erzielt werden können. Diese Begeisterung hat mich motiviert, mich intensiver mit aktueller Spracherkennungssoftware zu beschäftigen, um vor allem Mitarbeiter, die regelmäßig Texte schreiben müssen, zu entlasten.

Zusammenfassung für den schnell-Leser

In diesem Artikel habe ich mich mit verschiedenen Spracherkennungssoftware-Lösungen beschäftigt, darunter Speechnotes, Speech Recognition Anywhere, Dragon Anywhere und Notta. Dabei wurden die Vor- und Nachteile der einzelnen Tools, ihre Funktionsweise sowie Aspekte der Datensicherheit und Serverstandorte detailliert erörtert. Besonders hervorgehoben wurden die Benutzerfreundlichkeit, die Genauigkeit der Spracherkennung sowie spezielle Funktionen wie Echtzeit-Transkription und Anpassungsfähigkeit. Auch die Unterschiede bei der Datenschutzkonformität und den verwendeten Serverstandorten (z.B. Europa vs. USA) spielten eine zentrale Rolle. Zusätzlich wurden die Kostenmodelle und praktische Einsatzmöglichkeiten besprochen, um Unternehmen eine schnelle Orientierung zu bieten und bei der Wahl der passenden Software zu unterstützen.

Speechnotes

Meine eigene Produktivität habe ich durch den Einsatz von Speechnotes gesteigert, einem kostenfreien Text-to-Speech-Plugin aus Israel, das für verschiedene Internetbrowser verfügbar ist. Es war ein idealer Start für meine Aufgaben:

Man muss lediglich das Plugin aktivieren, ein Mikrofon anschließen – und schon kann der gesprochene Text in Echtzeit präzise in geschriebenen Text umgewandelt werden.

Laut den Datenschutzhinweisen werden die Daten nach der Verarbeitung sofort gelöscht, und die Verträge mit Google und Microsoft verbieten, dass die Daten für eigene Zwecke verwendet werden dürfen.

In meiner Erfahrung ist die Spracherkennung sehr genau, was auf die Nutzung der Google- und Microsoft-Engines zurückzuführen ist.

Ein Nachteil zeigte sich jedoch, wenn mehrere Websites gleichzeitig geöffnet waren. Sobald die Diktierfunktion auf einer Website aktiviert wird, ist es nicht möglich, sie auf einer anderen Website zu nutzen, solange die erste Instanz der Spracherkennung noch aktiv ist.

Um weiter zu diktieren, müssen entweder alle Fenster geschlossen und neu geöffnet oder ausschließlich die ursprünglich verwendete Instanz genutzt werden.

Alternativ kann man auch eine Zwischenablage für das Diktat nutzen, bei der es auch eine Werbefreie Premiumvariante gibt.

Eine interessante Alternative ist die Anwendung „Speech Recognition Anywhere“, bei der der Fehler mit dem gleichzeitigen Öffnen auf mehreren Websites anders gelöst wurde.

Speech Recognition Anywhere

Speech Recognition Anywhere ist eine interessante Alternative, die das Problem mehrerer geöffneter Instanzen geschickt löst, indem die Anwendung automatisch zur ersten aktiven Instanz wechselt. Wenn beispielsweise mehrere Browser-Tabs mit der Anwendung auf verschiedenen Monitoren geöffnet sind, wird beim Diktieren immer zur ersten Instanz zurückgekehrt, anstatt eine neue Sitzung zu starten. Auf diese Weise bleibt die Kontrolle über das aktive Mikrofon in einer einzigen Instanz, ohne dass es zu Fehlfunktionen kommt.

Auch bei Speech Recognition Anywhere werden laut den Datenschutzhinweisen keine Daten an die Server von Sea Breeze Computers übertragen, da die gesamte Spracherkennung lokal im Browser des Nutzers stattfindet und für die Verarbeitung die Web Speech API von Google verwendet wird.

Dragon Legal Anywhere

Die Spracherkennungssoftware mit der größten Popularität ist zweifellos Dragon Anywhere. Neben einer leistungsstarken Spracherkennung ohne zeitliche Begrenzung überzeugt sie durch eine intuitive Bedienung und wird häufig in professionellen Bereichen wie der Medizin, bei Juristen und Autoren eingesetzt. Wörter können individuell trainiert und Texte per Sprache korrigiert werden. Bei der Anwendung sind mir folgende Funktionen besonders positiv aufgefallen:

Automatische Deaktivierung bei Inaktivität
Visuelles Status-Mikrofon als Overlay
Direkte Verwendung in Microsoft Word

Ein weiterer Vorteil ist die Anpassung an das Sprechverhalten des Nutzers: Durch den Einsatz von künstlicher Intelligenz lernt Dragon im Laufe der Zeit, Aussprache und Gewohnheiten zu erkennen und verbessert so kontinuierlich die Erkennungsgenauigkeit.

Wie bei den meisten KI-basierten Spracherkennungstools erfolgt die Datenverarbeitung standardmäßig in den USA. Hier müssen besondere Vorkehrungen für einen sicheren Datentransfer getroffen werden.

Für den juristischen Bereich gibt es jedoch mit Dragon Legal Anywhere eine spezielle Version, bei der die Server in Europa gehostet werden und zusätzliche Sicherheitsmaßnahmen wie Verschlüsselung und rechtliche Aspekte speziell für Anwaltskanzleien umgesetzt wurden.

Abgesehen von den etwas höheren Kosten und der längeren Einarbeitungszeit hat Dragon Legal Anywhere definitiv seine Daseinsberechtigung und sollte bei der Auswahl geeigneter Tools berücksichtigt werden.

Notta

Da mich die mobile Diktierfunktion von ChatGPT, die auf der Open Source Software Whisper basiert, besonders fasziniert hat, wollte ich herausfinden, welche anderen Apps ebenfalls auf Whisper setzen. Dabei bin ich auf das KI-basierte Transkriptionstool Notta gestoßen. Dieses Tool bietet neben der Echtzeit-Transkription von Meetings in über 58 Sprachen auch KI-basierte Zusammenfassungen und lässt sich hervorragend als „Diktiergerät“ verwenden.

Man kann entweder direkt über die mobile App oder über die Website Aufnahmen starten und den gesprochenen Text verwenden. Das gesprochene Wort wird in Echtzeit aufgenommen und transkribiert, so dass man sofort sieht, was verstanden wurde. Alternativ kann ein Sprachmemo mit dem Smartphone aufgenommen und später über Notta hochgeladen werden, um den Text nachträglich zu transkribieren. Diese Flexibilität ist besonders praktisch, um unterwegs Notizen zu machen.

Auch wenn keine Internetverbindung besteht, kann mit Notta weiter diktiert werden. Sobald die Verbindung wieder hergestellt ist, erfolgt die Transkription automatisch. Diese Funktionen machen Notta zu einem nützlichen Begleiter, insbesondere durch die Möglichkeit, Aufzeichnungen effizient in Text umzuwandeln.

Die Kosten betragen 14,99 USD pro Monat für den Pro Plan und 27,99 USD pro Monat für den Business Plan. Zum Einstieg bietet Notta auch 120 Minuten Transkriptionszeit pro Monat kostenlos an.

Bezüglich dem Thema Datenschutz gibt sich Notta etwas zurückhaltend. Die Server basieren auf Amazon Web Service (AWS) und sind nach internationalen Standards wie ISO 27001 und SOC 2 Typ II zertifiziert. Für europäische Nutzer sichert Notta die Einhaltung der EU-Datenschutzanforderungen zu, allerdings erfolgt die Datenübertragung über ein weltweit verteiltes Servernetzwerk.

DeepL Write

Ein besonders nützliches Tool, das ich erwähnen möchte, ist DeepL Write, das Texte mithilfe von KI stilistisch und grammatikalisch optimiert.

In der aktuellen Web-Version bietet DeepL im Hinblick auf die Spracherkennungssoftware bisher nur eine Übersetzungsfunktion, die sich auf verschiedene Sprachen konzentriert. Eine vollständige Sprachoptimierung oder Diktierfunktion ist in der Web-Version derzeit nicht integriert.

Das könnte sich in naher Zukunft ändern, da die mobile App-Version bereits eine Echtzeit-Diktierfunktion bietet, bei der die Sprache erkannt und durch KI in einen sinnvollen Textzusammenhang gesetzt wird. Diese Weiterentwicklung könnte das Potenzial von DeepL zusätzlich erweitern und zur Produktivitätssteigerung beitragen.

Fazit für den Spracherkennungssoftware-Vergleich

Seitdem Künstliche Intelligenz mit kognitiven Fähigkeiten ausgestattet wurde, ist es möglich, menschliche Sprache nicht nur in Echtzeit zu verstehen und wiederzugeben, sondern sogar Versprecher automatisch zu korrigieren. Besonders in Zeiten, in denen die Wettbewerbsfähigkeit eines Unternehmens immer wichtiger wird und zeitaufwändige Aufgaben durch „intelligente“ Tools effizienter erledigt werden können, lohnt sich ein Blick auf moderne Spracherkennungssoftware.

Am Markt gibt es zahlreiche Anbieter. In diesem Beitrag wurden einige ausgewählte Lösungen untersucht, die durch eine intuitive Bedienung, hohe Erkennungsrate, Anpassungsfähigkeit, mobile Einsatzmöglichkeiten sowie ein gutes Kosten-Nutzen-Verhältnis überzeugen. Ein besonderer Fokus lag dabei auch auf dem Datenschutz.

Ziel dieses Beitrags ist es jedoch nicht, das beste Spracherkennungstool zu ermitteln, sondern die Funktionsweisen und Einsatzmöglichkeiten zu beleuchten, damit Unternehmen Zeit bei der Recherche sparen und gezielt entscheiden können, welche Software für ihre spezifischen Anforderungen geeignet ist.