Suche Software zum umwandeln von Sprache aus Video in Text

  • Hallo zusammen,

    gibt es für Linux eine Software die gesprochenes aus Video oder Sound-Dateien in Text umwandelt. Idealerweise mit graphischer Oberfläche, weil meine Frau damit arbeiten möchte. Die Dateien sind "nur" wenige Minuten lang.


    Danke im Voraus für eure Antworten.

    Wähle den richtigen, nicht den einfachsten Weg!

  • Ich mache das mit Whisper von OpenAI. Habe es lokal installiert, allerdings mit Bedienung im Terminal. Die Erkennungsrate ist erstaunlich hoch. Hier scheint es auch einen Online-Dienst zu geben, habe ich aber nicht getestet.

    Linux Mint Mate auf ASUS Zenbook Flip UX360U; Armbian auf Banana Pi

  • Die Terminal-Bedienung ist hier die Achillesverse.

    Ich habe mal die Online-Version probiert. Texterkennung ist gut, allerdings werde die ersten Sätze ignoriert.

    Wähle den richtigen, nicht den einfachsten Weg!

  • External Content youtu.be
    Content embedded from external sources will not be displayed without your consent.
    Through the activation of external content, you agree that personal data may be transferred to third party platforms. We have provided more information on this in our privacy policy.

    viele Grüße aus dem Norden

  • External Content youtu.be
    Content embedded from external sources will not be displayed without your consent.
    Through the activation of external content, you agree that personal data may be transferred to third party platforms. We have provided more information on this in our privacy policy.

    Interessanterweise bin ich auch bei dem Programm gelandet.

    Was da allerdings noch eine Hürde ist, ist die Spracherkennung bzw. die verschiedenen Sprachmodelle, die man benutzen/installieren kann.

    Gleich das erste, das ich ausprobiert habe, war nicht gerade der "Brüller". Versuche nun mal andere.

    Wähle den richtigen, nicht den einfachsten Weg!

  • Die Terminal-Bedienung ist hier die Achillesverse.

    Das ließe sich leicht umgehen. Nachdem man es installiert hat ist es für die Transcription einer Audio Datei genau ein Aufruf im Terminal. Man könnte sich mit Zenity oder Yad sehr schnell eine Bedienoberfläche zusammen basteln, so dass man es völlig ohne Kommandozeile nutzen könnte.

    Linux Mint Mate auf ASUS Zenbook Flip UX360U; Armbian auf Banana Pi

  • Auch wenn nicht perfekt, aber für den lokalen Betrieb durchaus funktionierend: "speech note". Das gibt es als Flatpak und auch als Installationsvariante. Hat aber auch ordentliche Hardwareanforderungen. Betreibe es selbst mit einer GTX 1060, was schon teils anstrengend ist. Das Modell was ich verwende ist das Whisper (medium). In Speechnote lade ich dann ganze Videos und Podcasts rein, um sie anschließend zu transcribieren. Danach noch Kontrolle und Nachbesserung. Alles lokal selbstverständlich.

    Gute Gedanken, Gute Worte, Gute Taten. (Film: Bohemian Rhapsody)
    Wer nach Art 5 Abs. 1 GG schreit, muss auch Abs. 2 gelesen und verstanden haben. Nur weil mir das Eine gefällt, heißt das nicht, das ich das Andere ignorieren kann.Ich teile meine Erfahrungen und Lösungswege gerne, das heißt aber nicht, dass sie richtig sind.
  • Auch wenn nicht perfekt, aber für den lokalen Betrieb durchaus funktionierend: "speech note". Das gibt es als Flatpak und auch als Installationsvariante. Hat aber auch ordentliche Hardwareanforderungen. Betreibe es selbst mit einer GTX 1060, was schon teils anstrengend ist. Das Modell was ich verwende ist das Whisper (medium). In Speechnote lade ich dann ganze Videos und Podcasts rein, um sie anschließend zu transcribieren. Danach noch Kontrolle und Nachbesserung. Alles lokal selbstverständlich.

    Habe ich auch mittlerweile installiert. Mit FasterWhisper large-v3

    Ja, die Hardware muss was tun, aber es kommt nicht oft vor und es sind meistens nur ein paar Minuten.

    Wähle den richtigen, nicht den einfachsten Weg!

Participate now!

Don’t have an account yet? Register yourself now and be a part of our community!