Dokumente scannen unter Linux

  • Dokumente scannen ist eine der wenigen Sachen, für die ich noch eine Windows-VM starte. Das muss sich ändern!

    Ziel soll es sein, PDF/A inkl. Texterkennung für die Langzeit-Archivierung zu erstellen. Hardware ist vorhanden (Epson DS-310) und funktioniert auch unter Linux. Allerdings war ich mit der Qualität der Scans nicht zufrieden, vielleicht habe ich aber auch nur die falschen Programme genutzt.

    Welche Anwendungen nutzt ihr und wie sieht euer Workflow aus? Einscannen, eventuelle Nachbearbeitung, Texterkennung.

    Danke vorab. :)

  • Einscannen ganz einfach mit XSane. Text scannen mit gImageReader.

    Ich archiviere aber nichts daher habe ich auch keinen Workflow für Text lesen.

    PC: AMD Ryzen 7 5700X | AMD RX6600 | 32GB RAM | Debian 12 Xfce
    Notebook: AMD Ryzen 5 5300U | Vega Graphic | 16GB RAM | Debian 12 Xfce

  • Dokumente scannen ist eine der wenigen Sachen, für die ich noch eine Windows-VM starte. Das muss sich ändern!

    Ziel soll es sein, PDF/A inkl. Texterkennung für die Langzeit-Archivierung zu erstellen. Hardware ist vorhanden (Epson DS-310) und funktioniert auch unter Linux. Allerdings war ich mit der Qualität der Scans nicht zufrieden, vielleicht habe ich aber auch nur die falschen Programme genutzt.

    Welche Anwendungen nutzt ihr und wie sieht euer Workflow aus? Einscannen, eventuelle Nachbearbeitung, Texterkennung.

    Danke vorab. :)

    Womit hattest du denn gescannt?

    Was für eine Distro hast du?

    Ich nehme den Document-Scanner von Linux Mint Cinnamon.

  • Steht ein Raspi oder so zur Verfügung? Falls nein, hat sich mein Beitrag gerade erledigt.

    Falls ja: Ich scanne mit meinem Epson WorkForce Pro auf ein Samba-Share und dort läuft dann ocrmypdf im auto-mode. Alles was in einem bestimmten Ordner landet, wird automatisch "ocr'ed".

    💾 AMD EPYC 7452 (8 Cores) 40GB | 💾 Unraid Homeserver i5-4570 16GB

    💻 Ryzen 9 7900X RX7800XT 32GB | 💻 MacBook Pro M2Pro 32GB

    EndeavourOS <3

  • Vielen Dank bis hierher.

    Als erstes habe ich mir gscan2pdf vorgenommen.

    Scannen funktioniert, allerdings liegt über allen Scans ein grauer Schleier. Dafür gibts dann die Funktion "bereinigen", bei der ich den Schwellwert für Weiß vorgeben kann. Für das Bereinigen ist wohl das Programm Unpaper zuständig, dass sich aber leider mit den folgenden Fehlermeldungen verabschiedet

    Code: Fehler Unpaper
    Using AVStream.codec to pass codec parameters to muxers is deprecated, use AVStream.codecpar instead.
    
    Encoder did not produce proper pts, making some up

    Ohne diese Korrektur sind die Scans für mich aber nicht zu gebrauchen.

    Texterkennung hat noch nicht funktioniert, habe ich aber erst einmal nicht weiter verfolgt. Auch fehlt eine Schräglagenkorrektur, ich kann hier nur in 90-Grad-Schritten den Scan rotieren lassen.

    Auf zum nächsten Programm...

  • Mit tesseract-ocr habe ich sehr gute Erfahrungen gemacht.

    Habe das auch mal beruflich eingesetzt weil die Drucker in einer Firma kein OCR konnten, nur mit teurer Nachrüstung.

    Das war aber bei den alten Druckern nicht mehr rentabel.

    Also "Scan to share" am Drucker eingerichtet, das PDF auf ein SHARE automatisch kopieren lassen, der Ordner wurde auf Veränderung mittels inotify überwacht und dann sprang ein Skript mit tesseract-ocr automatsich an, da habe ich dann noch Optimierungen vorgenommen, wie geraderücken usw.

    Das alles in Kombination mit OCRmyPDF wie bei Stardenver

    Die Ergebnisse waren immer sehr gut, zumnindestens hatte sich keiner beschwert damals.

    Vielleicht waren die auch nur froh das die endlich PDF's durchsuchen konnten.

    100% hat es aber nicht geklappt mit der Durchsuchung, da waren immer mal Textpassagen die nicht erkannt wurden.

    Weiss nicht ob das bei kommerziellen Profilösungen auch so ist.

    Hat da jemand Erfahrung?

    6 Mal editiert, zuletzt von bubba (20. Dezember 2021 um 16:11)

  • paperless-ng soll ja die entwickelte Lösung dafür sein, aber bislang konnte ich das leider nicht Testen. siehe: https://paperless-ng.readthedocs.io/en/latest/index.html

    Leider ist da wohl ein Raspi bislang noch eher zu schwach, aber vielleicht läuft das ja mit neueren Modellen flüssiger, dannn wäre das eine Überlegung für mich

    paperless-ng verwendet ocrmypdf als OCR-Software: https://ocrmypdf.readthedocs.io/en/latest/

    Edit: Hoppla der beitrag war redundant, pardon

    Seine Cordialität.

  • Ich betreibe schon lange ein Papierarmes Büro, früher mit Windows und nun mit Linux.

    Zum Glück konnte ich meinen Dokumentenscanner, durch die Hilfe dieses Forums, in Linux einbinden.

    Zum Scannen nutze ich gscanPDF in Verbindung mit Tesseract. Damit das Ergebnis stimmt, habe ich mir ein Scan-Profil so angelegt wie ich meine das die Dokumente in Ordnung sind. Aktuell reicht mir das um meine Dokumente in pdf auf der NAS abzulegen.

    Wahrlich, es werden noch wundersame Dinge geschehen!

    • Debian GNU/Linux 12 (bookworm) x86_64 auf AMD Ryzen 7 5800U, AMD ATI Radeon Vega Series
    • Kaisen GNU/Linux 2.2 (rolling) x86_64 auf Intel I5-10300H 4,5GHz, NVIDIA GeForce RTX 3050 M
  • Scannen mit Linux ist ja schon immer eine Sache für sich gewesen. Mittlerweile sollte es aber gut funktionieren.
    Viele, so auch hier wie ich lese, nutzen die typischen Scann Programme für Linux. Ich selber scanne unabhängig vom PC System nur noch vom Drucker/Scanner (EPSON WF-3720 Pro) direkt, dadurch habe ich immer ein sauberen Scann und kann die eingescannte Seite/en weiter bearbeiten, falls notwendig. Der weitere Vorteil ist ich kann die eingescannte Datei überall hinsenden, egal ob direkt zum PC, NAS, USB, in die Cloud oder per Mail an jemanden. Wenn OCR benötigt wird, nutze ich den Master PDF Editor, die letzte freie Version 4.3.89.

    Beim Kauf des nächsten Druckers werde ich verstärkt auf die Eigenschaften des Scannen achten.

    Bevor du mit dem Kopf durch die Wand willst, frage dich, was du im Nebenzimmer willst!

  • Scannen mit Linux ist ja schon immer eine Sache für sich gewesen. Mittlerweile sollte es aber gut funktionieren.
    Viele, so auch hier wie ich lese, nutzen die typischen Scann Programme für Linux. Ich selber scanne unabhängig vom PC System nur noch vom Drucker/Scanner (EPSON WF-3720 Pro) direkt, dadurch habe ich immer ein sauberen Scann und kann die eingescannte Seite/en weiter bearbeiten, falls notwendig. Der weitere Vorteil ist ich kann die eingescannte Datei überall hinsenden, egal ob direkt zum PC, NAS, USB, in die Cloud oder per Mail an jemanden. Wenn OCR benötigt wird, nutze ich den Master PDF Editor, die letzte freie Version 4.3.89.

    Beim Kauf des nächsten Druckers werde ich verstärkt auf die Eigenschaften des Scannen achten.

    Sehe das nicht so positiv.

    Mein Epson WF DS-310 läuft leider nicht standalone und unterstützt demnach auch nicht "Scan to pdf, Samba, nfs, mail...".

    Dazu kommuniziert er auch nur über TWAIN, dass aber ausschließlich über Windows und MacOS funktioniert.

    Tja, Augen auf beim Hardwarekauf. Entweder einen Scanner der nativ mit SANE läuft oder halt ein Scanner, der fertige PDFs versenden kann. Dann ist man wohl auf der sicheren Seite was Linux anbelangt.

  • oder halt ein Scanner, der fertige PDFs versenden kann.

    Ja, in der Arbeit haben wir so etwas. Der Drucker mit Scanner ist aber riesengroß und sicherlich für zu Hause zu teuer.
    Der kann außerdem passwortgeschütztes Drucken.

    PC: AMD Ryzen 7 5700X | AMD RX6600 | 32GB RAM | Debian 12 Xfce
    Notebook: AMD Ryzen 5 5300U | Vega Graphic | 16GB RAM | Debian 12 Xfce

  • Ja, in der Arbeit haben wir so etwas. Der Drucker mit Scanner ist aber riesengroß und sicherlich für zu Hause zu teuer.
    Der kann außerdem passwortgeschütztes Drucken.

    Das Gerät von Helmfuss kann es ja auch und ist nicht so riesig. Habe halt vor Jahren beim Kauf nicht darauf geachtet, aber hinterher ist man meistens (hoffentlich) schlauer.

    Solange mein noch Scanner funktioniert, nutze ich ihn halt über eine Windows VM. Ist auch nicht so schlimm, weil ich die Dokumente immer sammel und dann in einem Rutsch einscanne.

  • Tach ..

    Ich habe da ehrlich gesagt noch nie Probleme gehabt.

    Allerdings habe ich mir immer erst angesehen vorher ob der Scanner von meiner Distri RHEL/Cent unterstützt wird.

    Wenn ja lief es out of...

  • Tach ..

    Ich habe da ehrlich gesagt noch nie Probleme gehabt.

    Allerdings habe ich mir immer erst angesehen vorher ob der Scanner von meiner Distri RHEL/Cent unterstützt wird.

    Wenn ja lief es out of...

    Verstehe jetzt die Aussage nicht. Wenn ich mich vorher informiert habe, ob das Gerät von Linux unterstützt wird, dann ist es doch wenig überraschend, dass es dann auch unter Linux funktioniert.

  • Tach Sojan

    Das war nicht so gemeint wie du es vielleicht verstanden hast.

    Das war nur eine generelle Aussage das ich nur das verwende was von der Distribution die ich benutze auch generell unterstützt wird.

    Ich glaube ich bin ein guter "softler" aber ein äusserst schlechter "hardler"

    Das sollte keine irgendwie geartete Spitze gegen dich sein, wen du das so vertanden hast "SORRY"

  • Tach Sojan

    Das war nicht so gemeint wie du es vielleicht verstanden hast.

    Das war nur eine generelle Aussage das ich nur das verwende was von der Distribution die ich benutze auch generell unterstützt wird.

    Ich glaube ich bin ein guter "softler" aber ein äusserst schlechter "hardler"

    Das sollte keine irgendwie geartete Spitze gegen dich sein, wen du das so vertanden hast "SORRY"

    Kein Thema 8)

    Hatte deinen ersten Satz in der Richtung interpretiert, dass Scannen unter Linux generell kein Problem sei. Dem ist leider nicht so.

    Der technische Ansatz in der Einbindung des Scanners unter Linux unterscheidet sich völlig von dem in Windows und Mac. Das macht es ja so schwierig. ;(

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!