Whisper Transkription von Audiodateien
Ich hatte schon mal darauf hingewiesen das ich ein Script samt nemo_action Menü erstellt hatte worüber man verschiedene Dateien (TXT, PDF, ODT) sich vorlesen lassen kann. Wobei das Script sowohl für espeak / mbrola für schnelle Umwandlung, mimic3 / mycroft für etwas langsamere aber realere Sprachausgabe und TTS/DDC (Thorsten Voice) für nahezu reale Sprechausgabe bzw. Speicherung in Audiodatei angepasst werden kann. Eine Beispiel Audio hatte ich hier angehängt.
Nun wollte ich aber nicht nur TTS (Text to speech) sondern auch andersrum STT (Speech to Text). Dabei gibt es mehrere Möglichkeiten wer einfach nur schnell was gesprochenes in Textform haben möchte, kann Texte in sein Handy über die Google Tastatur in eine Datei schreiben lassen oder über Chrome und Google Docs -> Tools Voice typing bzw. Script in Folgebeiträgen nutzen. Wenn man aber Komplette Audio Dateien, Tonspuren von Videos in Text umwandeln möchte kommt man an whisper nicht vorbei. Es hat den Vorteil das es OSS ist und im Vergleich zu Google Docs bleibt alles auf den eigenen Rechner.
Es gibt zwar auch python3-whisper und ein (flatpak von whisper (getestet, startet nicht)) in der Anwendungsverwaltung von LM aber die Installation aus den git und das updaten ist Kinderleicht.
Falls python3, pip und ffmpeg nicht installiert ist.
Jetzt kann Whisper installiert werden.
Für ein Update
Wenn wir nun eine Audiodatei z.B. mit ocenaudio / audacity .. erstellt haben oder mit z.B clipgrab eine Tonspur aus einen Video gelöst haben können wir mit folgenden Befehl eine Transkription durchführen also die Audioausgabe in eine Textdatei speichern.
Beim ersten Start wird die Sprachdatei also das angegebene das Sprachmodell heruntergeladen wodurch es etwas länger dauern kann. Diese gibt es in tiny, base, small, medium und large wobei ich mit medium die beste Erfahrung gemacht habe.
Wozu das ganze genutzt werden kann ? z.B. um einen Podcast auch in Textform zu veröffentlichen oder mit der Option --task translate englische Untertitel (leider gibt es die Übersetzung momentan nur in die englische Sprache) für seine Videos zu erstellen oder Besprechungen zu protokollieren etc.