Nemo aktion für rembg

  • Durch den Artikel https://gnulinux.ch/diagramme-mit-ki-und-plantuml-erstellen aufmerksam geworden, habe ich die Konvertierung von planttext zu Diagrammen als Bild in das LibreOffice Writer KI-Assistent Plugin integriert. Zur Konvertierung muss graphviz, openjdk-17-jre und pandoc-plantuml-filter installiert sein

    Code
    apt install graphviz openjdk-17-jre pandoc-plantuml-filter


    Beispielbilder:

  • Heute kam eine neue version vom Krita AI Plugin raus und es ist richtig schnell geworden und da lokal auch unzensiert...

    Hab zum zeigen mal was harmloses gewählt. Sollte das schon zu viel sein bitte löschen.

    Angie und Albert. Wie schön. Ich finde es lustig, aber die Merz-Regierung will ja online "hart" durchgreifen. Man kann es auch übertreiben. Ich finde, dass KI großartige Möglichkeiten bietet. Die sozialen Netzwerke sollen ja voll davon sein. Nur bin ich in keinem Metzwerk weiter, außer bei youtube, wo ich mich gerne ab und an zum Wetter äußere.

  • N

    Angie und Albert. Wie schön. Ich finde es lustig, aber die Merz-Regierung will ja online "hart" durchgreifen.

    Naja, bei dem Bild sehe ich keine Missbrauchsmöglichkeiten? :/

    Per aspera ad astra

    Hardware: MEG X570 UNIFY | AMD Ryzen 9 5950X | 64 GB Ram | AMD Radeon RX 6600 | Hauppauge Starburst 2

    System: MX Linux (Plasma) im Dualboot mit Win11

  • Angie und Albert. Wie schön. Ich finde es lustig, aber die Merz-Regierung will ja online "hart" durchgreifen. Man kann es auch übertreiben. Ich finde, dass KI großartige Möglichkeiten bietet. Die sozialen Netzwerke sollen ja voll davon sein. Nur bin ich in keinem Metzwerk weiter, außer bei youtube, wo ich mich gerne ab und an zum Wetter äußere.

    viele reden auf den netzwerken vom deadinternet wegen der ki kann ich als täglicher nutzer bestätigen

    Immer schön Cremig bleiben!:)

  • Bitte weiterhin daran denken, dass wir hier keinerlei Politik-Themen dulden!

    Ich wollte keinesfalls gegen die Regeln verstoßen, es war auch nicht explizit böse gemeint. Aber ich habe hier keinesfalls ein Politikthema eröffnet, nur weil ich Kanzler Merz genannt habe. Man kann es auch als Administrator übertreiben. Nichts für ungut.

  • Es ging auch nicht explizit an dich! Aus Erfahrung wissen wir aber alle, dass ein kleiner Funke zu einem riesengroßen Feuer führen kann und oft auch wird. Aus einer kleinen Bemerkung wird sehr schnell eine Diskussion, die dann in der Regel ausartet. Das ist bei Politik leider immer so. Deshalb mein Hinweis an alle. ;)

    Arch Linux (KDE Plasma)

  • Es ging auch nicht explizit an dich! Aus Erfahrung wissen wir aber alle, dass ein kleiner Funke zu einem riesengroßen Feuer führen kann und oft auch wird. Aus einer kleinen Bemerkung wird sehr schnell eine Diskussion, die dann in der Regel ausartet. Das ist bei Politik leider immer so. Deshalb mein Hinweis an alle. ;)

    Danke für den Hinweis, lieber DenalB. Zu einem verbalen Brandstifter möchte ich natürlich nicht werden. Wir alle wissen, was da draußen alles abläuft.?(:huh:

  • Ich bin die Nacht wiedermal über ein nettes Projekt gestoßen und zwar smartlocate von NormanTUD um Bilder nach Inhalten zu finden dabei wird wie in dem Verlinkten Artikel eine KI generierte Index Datei mit Beschreibungen erstellt.

    Außerdem noch der Hinweis auf den Artikel zur KI-Bildgenerierung mittels Raphael zur kostenlosen online Bildgenerierung für User welche z.B. nicht die Rechenleistung haben das Krita Plugin offline nutzen zu können.

  • Ich bin die Nacht wiedermal über ein nettes Projekt gestoßen und zwar smartlocate von NormanTUD um Bilder nach Inhalten zu finden dabei wird wie in dem Verlinkten Artikel eine KI generierte Index Datei mit Beschreibungen erstellt.

    Außerdem noch der Hinweis auf den Artikel zur KI-Bildgenerierung mittels Raphael zur kostenlosen online Bildgenerierung für User welche z.B. nicht die Rechenleistung haben das Krita Plugin offline nutzen zu können.

    Herzlichen Dank für Deinen sehr nützlichen Beitrag. Ich habe soeben die KI-Bildgenerierung ausprobiert. Die Ergebnisse können sich sehen lassen und mein alter Laptop macht nicht die Grätsche.

    Edited once, last by Docendo (July 2, 2025 at 11:02 AM).

  • Habe die letzten Tage das LibreOffice KI-Assistent Plugin komplett überarbeitet.

    Unter anderem habe ich Pollinations direkt via API integriert wodurch das Plugin komplett ohne extra Tools wie tgpt oder pllama lauffähig ist. Dadurch ist es selbst in einem Live System z.B. die ganz normale Linux Mint ISO lauffähig. Es wird kein API Key benötigt und man kann sich Dokumente direkt erstellen lassen oder bearbeiten. Beim markierten Text bearbeiten oder erweitern wird auch nur der markierte Teil an die KI geschickt und keine sensiblen Sachen wenn man es ordentlich nutzt. Es können Bilder generiert und eingefügt werden und es gibt ein direkt integrierten KI-Chat um fragen zu stellen oder sich Anregungen zu holen ohne das am Dokument was geändert wird. Es ist aber auch möglich da Dateien rein zu laden wie PDFs etc. um sich diese zusammenfassen zu lassen oder auszuwerten. Es können sich komplette Dokumente oder markierte Texte vorgelesen lassen werden. Hierfür wird der bereits in Mint integrierte speech dispatcher mit espeak verwendet welcher wie bereits öfter schon erwähnt mit https://pied.mikeasoft.com durch z.B. Thorsten Voice o.ä. getauscht werden kann. Natürlich gibt es auch weiterhin die Möglichkeit tgpt direkt aus den Einstellungen installieren zu lassen genauso wie ollama oder auch nützliche Pakete für eine besser Formatierung wie pandoc oder für Diagrammdarstellungen plantuml usw.

    Es werden gängige Provider oder Modelle in den Einstellungen vorgeschlagen oder auch als direkte Auswahl angeboten. Es kann auch nach Updates für Terminal-GPT direkt in den Einstellungen gesucht und wenn nötig diese auch gleich installiert werden. Außerdem prüft das Plugin nun auch ob von sic selbst eine neuere Version zu Verfügung steht und informiert euch in dem Fall.

    Würde mich über Feedback freuen.


    Das KI-Assistent Plugin wurde zwar unter und für Linux Mint erstellt aber sollte wenn auch z.T. mit Einschränkungen überall funktionieren. So wird in den Einstellungen auch die Installation der Formatierungstools mittels pacman, dnf oder zypper unterstützt. Selbst unter Windows ist das Plugin nutzbar auch wenn da z.B. die Vorlesefunktion mangels "spd-say" nicht funktioniert oder das Plugin nicht zwischen deutsch und englischer Benutzeroberfläche entscheiden kann, was daran liegt das LibreOffice mit deutscher Oberfläche installiert ist aber es keine locales wie unter Linux gibt. (siehe Screenshot)

  • Neue Version: 1.10.7

    Diesmal habe ich hauptsächlich Fehler behoben so das man in den integrierten KI-Chat auch zwischen Chat und Dokument hin und her wechseln kann. Das das integrierte installieren und deinstallieren von tgpt und pied reibungslos unter Linux und Windows funktioniert, die Bildgenerierung und die Vorlesefunktion für Abschnitte oder komplette Dokumente auch unter Windows ordentlich läuft. Das die Updateinfo funktioniert aber nicht nervt uvm.

    Ich würde mich freuen wenn unter Windows und Linux getestet wird und es Feedback gibt.

    Was mir bekannt ist das unter Windows die Vorlesefunktion nicht gestoppt werden kann also entweder nur markierten Text vorlesen lassen oder Komplette Dokumente. Unter Linux kann die Vorlesefunktion mit ein zweiten klick auf "Strg+L" gestoppt werden.

  • Hallo maik3531,

    Wollte mal auf diesem Wege schreiben, wie cool ich das finde, was Du hier schaffst.:thumbup: Kam selber noch nicht in die Gelegenheit das Ganze zu testen, aber es steht zumindest schon einmal auf meiner Liste.

    Frage: Wie würde es ausschauen, ein Addon für LO zu schreiben, das ffmpeg 8 + Whisper nutzt, so dass eine native Spracheingabe möglich ist? Wärst Du daran interessiert, Dich damit zu beschäftigen?

    Gute Gedanken, Gute Worte, Gute Taten. (Film: Bohemian Rhapsody)
    Wer nach Art 5 Abs. 1 GG schreit, muss auch Abs. 2 gelesen und verstanden haben. Nur weil mir das Eine gefällt, heißt das nicht, das ich das Andere ignorieren kann.Ich teile meine Erfahrungen und Lösungswege gerne, das heißt aber nicht, dass sie richtig sind.
  • Frage: Wie würde es ausschauen, ein Addon für LO zu schreiben, das ffmpeg 8 + Whisper nutzt, so dass eine native Spracheingabe möglich ist? Wärst Du daran interessiert, Dich damit zu beschäftigen?

    Ich habe mir zu dem Thema mal die Artikel von z.B. heise angeschaut da es mich auch interessiert aber ich sehe da zwei Probleme zum einen ist ffmpeg noch in Version 7 in Linux MInt was ich als System nutze und zum zweiten ist die rede davon das es bei Audiodateien geht also wie auch bei Whisper vorher schon ging siehe TTS & STT Spracheingabe und Sprchausgabe

    Das Problem ist dabei das es keine direkte Spracheingabe nutzen kann und wie im verlinkten Artikel schon angeschnitten auch sehr lange dauern kann und dabei nicht sonderlich sparsam ist was ja damals der Grund dafür war VOSK-API und nerd-dictation zu nutzen da es lokal, schnell und relativ klein ist. Unter Windows kann man übrigens einfach mit dem Bordmitteln ( Windowstaste + H ) eine Diktierfunktion nutzen.

    Ich bin aber weiterhin für alle Vorschläge offen und werde mir sicher auch ffmpeg 8 genauer anschauen wenn es in Linux Mint verfügbar ist.

  • Ich nutze schon eine Diktierfunktion mittels VOSK-API und nerd-dictation falls du so was meinst ? Nicht über Kleinschreibung wundern ist abhängig von dem verwendeten vosk-model (hier nur das "small" im Einsatz )

    nerd-dictation hat den vorteil das es offline läuft

    Erst einmal vielen Dank für Deine Mühe. :)

    Z.Zt. Nutze ich "SpeechNote" als flatpak mit dem Model "FasterWhisper (medium)" . Habe eine Weile gebraucht, bis ich einen Kompromiss aus Leistung der Hardware und Akzeptanz der kleinen Verzögerungen finden konnte. Die Ergebnisse sind erstaunlich gut. Was ich bisher nicht kannte, war "nerd-didaction", muss ich mir einmal anschauen. Danke für den Tipp.

    Der Grund weshalb ich mit ffmpeg liebäugele wäre, dass es wohl etwas systemnäher wäre, als ein flatpak.Paket. Zudem, und das ist eher ein geschmackliches Problem, bekomme ich bei Speech Note partout keinen Darkmode zum Laufen. Immer wenn ich es starte, ist es so, als würde ich direkt in die Sonne starren. Nicht sehr angenehm. :(

    Obwohl doch soviel über Barrierefreiheit gesprochen wird, wird meines Erachtens das Thema "Spracheingabe" doch sehr vernachlässigt. Ich wäre nicht der Einzige, der sich eine native Lösung wünschen würde.

    Ich habe mir zu dem Thema mal die Artikel von z.B. heise angeschaut da es mich auch interessiert aber ich sehe da zwei Probleme zum einen ist ffmpeg noch in Version 7 in Linux MInt was ich als System nutze und zum zweiten ist die rede davon das es bei Audiodateien geht also wie auch bei Whisper vorher schon ging siehe TTS & STT Spracheingabe und Sprchausgabe

    Da war ich ein wenig mutiger und habe ffmpeg aus dem offiziellen ppa aktualisiert. Bisher konnte ich da keinerlei Probleme feststellen. Nur mit einem Sprachmodell habe ich es noch nicht getestet. Install FFmpeg (8.0 Updated) via PPA in Ubuntu 22.04 | Ubuntu 24.04

    Das Problem ist dabei das es keine direkte Spracheingabe nutzen kann und wie im verlinkten Artikel schon angeschnitten auch sehr lange dauern kann und dabei nicht sonderlich sparsam ist was ja damals der Grund dafür war VOSK-API und nerd-dictation zu nutzen da es lokal, schnell und relativ klein ist.

    Sollte ich den Abschnitt bzgl. Live-Übertragungen im Artikel:

    Code
    Auf Wunsch kann der neue Filter auch SRT-Dateien für Videos erstellen oder für Live-Übertragungen den Ton transkribieren.

    missverstanden haben?

    Unter Windows kann man übrigens einfach mit dem Bordmitteln ( Windowstaste + H ) eine Diktierfunktion nutzen.

    Windows habe ich schon vor langer Zeit den Rücken zugewandt. Meine damaligen Versuche, waren auch alles andere als befriedigend. Keine Ahnung woran es damals lag, an der Hardware konnte es nicht liegen.

    Ich bin aber weiterhin für alle Vorschläge offen und werde mir sicher auch ffmpeg 8 genauer anschauen wenn es in Linux Mint verfügbar ist.

    Ja, da lasse ich mir gerne mal etwas einfallen. Aber in jedem Fall noch einmal Danke. :)

    Gute Gedanken, Gute Worte, Gute Taten. (Film: Bohemian Rhapsody)
    Wer nach Art 5 Abs. 1 GG schreit, muss auch Abs. 2 gelesen und verstanden haben. Nur weil mir das Eine gefällt, heißt das nicht, das ich das Andere ignorieren kann.Ich teile meine Erfahrungen und Lösungswege gerne, das heißt aber nicht, dass sie richtig sind.
  • Hallöchen, ich war die Nacht auch nicht untätig und hatte ebenfalls das PPA installiert (was man aber nicht Voraussetzen kann von anderen Usern)

    - Das Paket ffmpeg aus dem PPA hat die "--enable-whisper" nicht siehe ffmpeg -filters | grep whisper

    Auch wenn es diesen Schalter haben sollte würde mindestens noch ein Sprachmodul wie ggml-small.de.bin benötigt, was selbst in der small Version 487,6 MB groß ist (im Vergleich das vosk-model-small-de-0.15.zip ist 46,5 MB) wenn whisper.cpp dazu kommt noch mal zwischen 1 und 8 GB was man nicht in ein Plugin packen kann und alle online modelle wie deepgram oder assemblyai benötigen API Keys also nicht machbar

    Der versuch ein anderes PPA zu verwenden endete mit Wiederherstellung mittels Timeshift

    Ich schau mir die Tage noch mal https://github.com/mkiol/dsnote an was die so im Code drin stehen haben aber momentan sehe ich da nicht das es so wird.


    Quote

    Meine damaligen Versuche, waren auch alles andere als befriedigend. Keine Ahnung woran es damals lag, an der Hardware konnte es nicht liegen.

    Unter Windows 11 wird mittlerweile auch ein Onlinedienst dafür genutzt, was dafür sorgt das es mittlerweile selbst mit Satzzeichen wie (Punkt . Fragezeichen ? usw.) gut umgehen kann. Dafür muss man sich aber auch hier bewusst sein das alles an Microsoft geschickt wird u. ggf. zum Training u.ä. verwendet wird.

  • Hui, da bist du aber fleißig gewesen.:)

    hatte ebenfalls das PPA installiert (was man aber nicht Voraussetzen kann von anderen Usern)

    Das ist wohl wahr, aber das ist auch wiederum das Problem mit den älteren Paketen.

    Auch wenn es diesen Schalter haben sollte würde mindestens noch ein Sprachmodul wie ggml-small.de.bin benötigt, was selbst in der small Version 487,6 MB groß ist (im Vergleich das vosk-model-small-de-0.15.zip ist 46,5 MB) wenn whisper.cpp dazu kommt noch mal zwischen 1 und 8 GB was man nicht in ein Plugin packen kann und alle online modelle wie deepgram oder assemblyai benötigen API Keys also nicht machbar

    Ich denke nicht, dass es dazu, irgendwelcher Online-Dienste benötigt. Klar, die Modelle sind ziemlich fett. Doch wenn man dem Benutzer die Auswahlmöglichkeit gibt, also Links zu Downloadquellen und dann eventuell in Klammern dahinter schreibt, empfohlen oder nicht, dann wäre das doch schon mal eine gute Lösung.

    Ich schau mir die Tage noch mal https://github.com/mkiol/dsnote an was die so im Code drin stehen haben aber momentan sehe ich da nicht das es so wird.

    Bin durch Zufall, nachdem ich meinen Beitrag hier abgesetzt hatte, auf die Installationsversion von Speech Note gestoßen und habe sie kurzerhand installiert. Mit der Integrierten Hardwarebeschleunigung für meine NVIDIA (GTX 1060) Karte und dem Whisper (large) 3 Modell, läuft es richtig schön flüssig. Dennoch schaue ich mir das mit dem Vosk Modell an. Denn es reizt mich schon ein kleineres Modell als 1.3 GB (Whisper) zu haben. Voraussetzung ist allerdings, dass auch die Rechtschreibprüfung halbwegs vernünftig funktioniert. Und da macht Whisper eine gute Figur. Leider funktioniert auch hier wieder nicht der Dark Mode. Ich habe keine Ahnung, was ich da noch installieren muss und mir eine KDE-Oberfläche hier rein zu prügeln, darauf habe ich nun auch keine Lust.

    Schön, dass du auch trotzdem noch weiterhin am Ball bleibst. :thumbup:

    Gute Gedanken, Gute Worte, Gute Taten. (Film: Bohemian Rhapsody)
    Wer nach Art 5 Abs. 1 GG schreit, muss auch Abs. 2 gelesen und verstanden haben. Nur weil mir das Eine gefällt, heißt das nicht, das ich das Andere ignorieren kann.Ich teile meine Erfahrungen und Lösungswege gerne, das heißt aber nicht, dass sie richtig sind.
  • Hallöchen @MyLibertad ich hatte mich zunächst an ein LibreOffice Plugin probiert, aber das wird nix da LibreOffice die gesamte Dateien im Vorfeld laden will was selbst bei den 50 MB des kleinen vosk Modell zu viel ist. Habe aber als Alternative ein Programm geschrieben was vosk gleich mitbringt und damit die umständliche installation mit pip etc. entfällt.

    Einfach das deb installieren und unter Zubehör stolperst du über Dictation was du starten kannst oder was mit dem nächsten Neustart geladen wird.

    Es erscheint ein Tray-Icon worüber du ein heruntergeladenes vosk Modell installieren kannst. Wie schon mal erwähnt würde ich vosk-model-small-de-0.15.zip erstmal vorziehen da ausreichend und relativ schnell. Also rechte Maustaste auf das Tray-Icon -> Sprachmodell installieren und da einfach die herunergeladene Zip auswählen. Das wars schon nun entweder über "Start/Stop Diktat" das ganze starten oder stoppen oder über die Tastenkombination "Strg + Alt + D" den Diktiervorgang starten oder stoppen (egal ob in Browser im Terminal oder in LibreOffice Writer...


    Der LibreOffice KI-Assistent erkennt nun übrigens auch bereits geladene Olama Modelle so das diese nur angeklickt werden müssen oder neue runter geladen werden können wenn man sie bei "manuellen Eintrag" eingibt.


  • Guten Morgen maik3531,

    Mensch, da legst Du Dich aber ins Zeug. :) :thumbup: Habe "Dictation" mit Vosk-Small problemlos installiert. Ich kann es starten und es erscheint im Tray. Nur zum Diktieren, lässt es sich nicht überreden. Weder über den Shortcut strg+alt+d, noch über das Menü. Visuell zeigt es mir ein, dass es aktiv ist, aber es tut sich sonst nichts weiter.

    Mache ich jetzt irgendetwas falsch? Wenn Du irgendwelche Logs brauchst, lass es mich wissen.

    Liebe Grüße

    Gute Gedanken, Gute Worte, Gute Taten. (Film: Bohemian Rhapsody)
    Wer nach Art 5 Abs. 1 GG schreit, muss auch Abs. 2 gelesen und verstanden haben. Nur weil mir das Eine gefällt, heißt das nicht, das ich das Andere ignorieren kann.Ich teile meine Erfahrungen und Lösungswege gerne, das heißt aber nicht, dass sie richtig sind.

Participate now!

Don’t have an account yet? Register yourself now and be a part of our community!