Beiträge von Sojan im Thema „Paperless-ng(x)“

Sojan

Hier noch eine schöne Zusammenfassung der Neuerungen der Version 2.0

Bisher größtes Update von paperless-ngx: Version 2.0.0 - Papierloses Büro endlich GoBD-konform?

Paperless-ngx Masterclass (Videokurs): https://www.digitalisierung-mit-kopf.de/products/videokurs-paperless-ngx-masterclassGrundlagenvideo paperless-ngx: htt...

www.youtube.com

Sojan

Paperless-ngx in Version 2.0 ist erschienen.

Schöneste Neuerung (für mich) ist die Verarbeitungsvorlage.Damit lassen sich neue Dokumente filtern und ensprechend der Vorgaben automatisch und vollständig taggen und einsortieren.

Der komplette changelog ist hier zu finden: https://docs.paperless-ngx.com/changelog/

Sojan

Paperless-ngx & Backup

Paperless-ngx legt per default die importierten Dokumente in die Ordner

originals (wie der Name schon sagt, werden hier unangetastet die Originale abgelegt)
archive (komprimierte/veränderte Kopien der Originale)
thumbnails (Vorschaubilder)

ab. Diese Ordner lassen sich z. B. durch rsync regelmäßig sichern, so dass das Wichtigste, nämlich die Dokumente, auf jeden Fall sicher sind.

Hinterlegte Tags, Korrespondenten, Speicherpfade, Dokumententypen und User sind aber in einer Datenbank gespeichert und würden beim bloßen Sichern der PDFs verloren gehen.

Aber Paperless-ngx bringt eine Backup-Funktion mit.

In den Ordner mit der Docker-Compose-Datei gehen und den folgenden Befehl ausführen

docker-compose exec -T webserver document_exporter ../export -z

Dabei wird alles gesichert, auch Tags & Co. Die Option -z fasst die Dateien zu einer einzigen Zip-Datei zusammen.

Ein Backup ist aber nur etwas wert, wenn es sich auch wieder zurückspielen lässt. Also in einer VM Paperless-ngx installiert und die zuvor erstellte Zip-Datei mit unzip paperless-sicherung.zip -d ~/Docker/paperless/export entpackt.

Anschließend noch mit

docker-compose exec -T webserver document_importer ../export

die Dateien wieder importiert.

Ergebnis: Alles wurde übernommen, sieht aus wie das Original.

Sojan

Zitat von Riley

Genau so eine Ordner Struktur habe ich aktuell ohne das Programm

Habe ich auch, ganz klassisch. Ordner/Dateien gibt es schon seit Jahrzehnten und wird sie vermutlich auch noch ewig geben, deshalb werde ich auch weiterhin darauf setzen.

Auf der anderen Seite sind die Komfortfunktionen eines Programms schon sehr nett, wie Volltextsuche, Tags, Mehrbenutzerumgebung, automatisches Einordnen von Scans, Zugriff vom Smartphone/Tablet usw.

Ich versuche nun, das Beste aus beiden Welten zu vereinen. Komfortable Bedienung auf der einen Seite bei gleichzeitig zukunftssicherer Archivierung in Ordner-/Dateistruktur.

Zitat von Riley

Für mich wäre es interessant wie sich das Programm in einer bestehenden Ordner Struktur einarbeitet .

Glaube nicht, dass das möglich ist. Die Dateien werden neu eingelesen und daraus das Archiv erstellt. Ist also eher eine langfristige Sache für verregnete Tage.

Zitat von Riley

Habe er das Gefühl paperless ist was für Menschen die noch nie eine PDF auf dem PC hatten

Oder genau anders rum...wenn du PDFs im fünfstelligem Bereich auf dem Rechner hast, dann wirst du es lieben.

Sojan

Nachdem ich das Thema Dokumentenarchiv eine ganze Weile hab ruhen lassen, habe ich einen erneuten Anlauf mit Paperless gewagt. Seit meinem letzten Versuch ist die Funktion Speicherpfad hinzugekommen und genau darum sollen es gehen.

Die meisten Programme ordnen die Dokumente intern über eine Datenbank zu. Ist das Programm futsch, dann wars das auch mit den Dokumenten. Paperless ist hier anders. Es besteht die Möglichkeit, anhand von Dokumenteneigenschaften und frei wählbaren Begriffen eine Ordnerstrukur zu bilden, so dass auch ohne Programm die Dokumente leicht auffindbar sind.

Hier einmal die Eigenschaften des Dokuments - rot markiert die Möglichkeit, einen Speicherort für dieses Dokument zu hinterlegen bzw. eine Voreinstellung auszuwählen (wie in diesem Beispiel geschehen).

Die Voreinstellung der Speicherpfade lassen sie über einen separaten Menüpunkt erstellen.

In den geschweiften Klammern lassen sich die Dokumenteneigenschaften abfragen, die Texte ohne Klammern sind frei wählbar, der Schrägstrich steht für eine Ordnerebene.

Code

Bankgeschäfte/{owner_username}/{correspondent}/Girokonto/{document_type}/{created_year}/{created} {title} ({owner_username})[{tag_list}]

Das geniale ist nun, ändere ich einen definierten Speicherpfad, so wird dieser automatisch auf alle Dokumente angewandt, bei denen diese Voreinstellung hinterlegt ist.

Und so sieht es dann auf Ordner- und Dateiebene aus.Für mich ist es so absolut ausreichend, so dass ich Paperless vermutlich als Dokumentenverwaltung einsetzen werde. Natürlich sollte das von Paperless erstellte Archiv regelmäßig auf einem separaten Datenträger gesichert werden.

Code

tree archive/
archive/
└── Bankgeschäfte
    ├── Alice
    │   └── ING
    │       └── Girokonto
    │           └── Kontoauszug
    │               └── 2021
    │                   └── 2021-03-31 Kontoauszug (Alice)[Girokonto,ING,Kontoauszug].pdf
    └── Paul
        ├── Commerzbank
        │   └── Tagesgeldkonto
        │       └── Kontoauszug
        │           ├── 2021
        │           │   └── 2021-09-30 Kontoauszug (Paul)[Commerzbank,Kontoauszug,Tagesgeld].pdf
        │           └── 2023
        │               ├── 2023-01-31 Kontoauszug (Paul)[Coomerzbank,Kontoauszug,Tagesgeld].pdf
        │               └── 2023-05-31 Kontoauszug (Paul)[Commerzbank,Kontoauszug,Tagesgeld].pdf
        └── ING
            └── Girokonto
                └── Kontoauszug
                    ├── 2021
                    │   ├── 2021-04-30 Kontoauszug (Paul)[Girokonto,ING,Kontoauszug].pdf
                    │   └── 2021-12-30 Kontoauszug (Paul)[Girokonto,ING,Kontoauszug].pdf
                    ├── 2022
                    │   ├── 2022-11-30 Kontoauszug (Paul)[Girokonto,ING,Kontoauszug].pdf
                    │   └── 2022-12-30 Kontoauszug (Paul)[Girokonto,ING,Kontoauszug].pdf
                    └── 2023
                        └── 2023-06-30 Kontoauszug (Paul)[Girokonto,ING,Kontoauszug].pdf

Alles anzeigen

Sojan

Zitat von Cordialis

Tatsächlich gab es während der Installation bereits die Möglichkeit mit dem default-User pi, was ich auch gemacht habe. in der .env war aber da nichts eingetragen. Ich habe dann nochmal separat dort einen Admin eingerichtet mit Passwort, aber es will dennoch nicht greifen und den Login zulassen

Hast du das schon ausprobiert?

Paperless-ng Portainer stack create superuser - S55MA HAM blog

When deploying paperless-ng stack with docker-compose file in Portainer you can’t login to paperless admin because superuser for login is missing (not…

s55ma.radioamater.si

Zitat

When deploying paperless-ng stack with docker-compose file in Portainer you can’t login to paperless admin because superuser for login is missing (not created). You need to create it by going into container webserver CLI console and create it.

Sojan

Ja, z. B. unter environment User und Passwort vergeben.

Sojan

Eine neue Version von Paperless-ngx steht zur Verfügung (1.10).

Testen konnte ich es noch nicht, da die letzte Version sich beim Upgrade auf 1.09 verabschiedet hat.

Release Paperless-ngx v1.10.0 · paperless-ngx/paperless-ngx

paperless-ngx 1.10.0 Features Feature: Capture stdout & stderr of the pre/post consume scripts @stumpylog (#1967) Feature: Allow running custom container…

github.com

Sojan

Zitat von Tealk

So wie ich das bis jetzt verstanden habe, wird alles an Dokumenten in einen Ordner gelegt und nur über die DB dann sortiert.

Nö, hatte ich schon im Beitrag Nr. 11 beschrieben. Du kannst die Konfiguration in Paperless so anpassen, dass bis zu vier Ebenen in der Ordner-/Dateistruktur möglich sind und die Dokumente automatisch darin einsortiert werden. Auch der Dateiname selbst lässt sich z. B. nach dem Titel automatisch benennen.

Das sollte völlig ausreichen, um Dokumente auch ohne Datenbank wiederzufinden.

Sojan

Stardenver

Auch wenn es sehr unwahrscheinlich ist...der Haken bei Posteingangs-Tag ist hoffentlich nicht gesetzt?

Sojan

Zitat von Stardenver

Aus irgendeinem Grund spinnen hier also die Filter und alles wird völlig falsch und unsinnig getaggt. Das empfinde ich nun als großes Problem. Gerade da es in der Diskussion mit nicoletta ja auch darum ging, ob man nur auf paperless setzen könnte. Wenn nun eine Software schon in einer einfachen Grunddisziplin versagt, würde ich das in Frage stellen wollen.

Hast du im Menü einmal die Protokolle aufgerufen? Ist dort zu erkennen, was das Programm erkannt hat und was es daraus gemacht hat?

Habe als Tag "Internet" und als Korrespontent "Vodafone" voreingestellt und wird beim Import von Dokumenten auch richtig erkannt.

Code

[2022-06-09 15:23:44,973] [DEBUG] [paperless.matching] Correspondent Vodafone matched on document 2019-12-05_Internet because it contains this word: Vodafone

[2022-06-09 15:23:44,975] [DEBUG] [paperless.matching] Tag Internet matched on document 2019-12-05_Vodafone Internet because it contains this word: Vodafone

Sojan

Zitat von nicoletta

was wäre denn der Nachteil nur peperless zuverwenden?

Die Frage kannst du auf alle Dokumentenverwaltungssysteme (DMS) ausweiten. Die meisten dieser Programme nutzen eine Datenbank zur Verwaltung des Archivs, in der sämtliche Angaben zum Dokument hinterlegt sind. Häufig ist das Auffinden eines Dokuments auch nur über dieses Programm sinnvoll möglich. Es besteht also eine Abhängigkeit.

Schöne wäre es, wenn das DMS die Dokumente so benennen und in Ordner ablegen würde, dass ich auch ohne Programm mich im Archiv zurechtfinden könnte.

Paperless bietet die Möglichkeit, die Dateien in einem begrenzten Umfang nach eigenen Vorgaben zu benennen und automatisch in Ordnern einzusortieren (max. 2-3 Ebenen).

Wenn dir das ausreicht, dann sehe ich keinen Nachteil, "Paperless only" zu betreiben.

Sojan

Zitat von Tealk

Welchen Mehrwert hat Paperless dann?

Mehrwert gegenüber was? Der reinen Verwaltung über Ordner und Dateinamen?

Sojan

Zitat von Brander Stier

Eine kleine Frage ist das extra abgesichert oder wird das direkt durch Anwender Anmeldung aktiviert ?
Ich finde keinen Hinweis darauf.

Du legst nach der Installation, aber vor Inbetriebnahme, einen Admin an.

Docker

docker-compose run --rm webserver createsuperuser

ohne Docker

sudo -u paperless paperless-manage createsuperuser

Sojan

Zitat von Stardenver

Das mit der Nummerierung ist für mich kein Problem, da paperless zusätzlich läuft. Also ich habe bereits auf dem Rechner und als eines von mehreren Backups ebenfalls auf dem NAS alle Dokumente. Ich schiebe die halt zusätzlich in paperless, da ich so von allen Geräten und auch mobil darauf zugreifen kann, ohne fremden Cloudspeicher nutzen zu müssen. Zudem habe ich so eine Volltextsuche.

Ok, das entschärft natürlich meine Bedenken.

Hatte auch schon überlegt, Paperless einfach zusätzlich laufen zu lassen - gewissermaßen als Komfortfunktion. Denn die Bedienung der GUI sagt mir schon zu.

Müsste ich mir noch ein Konzept überlegen, wie ich auf einfache Weise beide Welten unter einen Hut bekomme.

Sojan

Zitat von Tealk

Ja das mit dem Drucker wäre schon relevant würd ich sagen. Muss ich mir doch noch einen Rechner aufstellen als Server

Ich würde es erst einmal ausgiebig in einer VM testen. Ein Dokumentenarchiv soll ja für einen seeehr langen Zeitraum Bestand haben, da darf man sich schon etwas Zeit nehmen.

Verwaltungsprogramme kommen und gehen, was aber über die Jahrzehnte erhalten geblieben ist, ist die Ordner- und Dateistruktur. Deshalb ist es mir so wichtig, dass das Programm die Dokumente nicht nur über die Datenbank zuordnet, sondern die Ablage auch in einer "lesbaren" Form vornimmt.

Sojan

Zitat von Tealk

Macht es sinn paperless auf dem pc zu intallieren also wenn es nicht die ganze zeit läuft?

Technisch funktioniert es natürlich. Ob es Sinn macht, hängt von deinem Wünschen ab. Wenn du Dokumente vom Scanner direkt in das Eingangsverzeichnis von Paperless verschieben möchtest, dann muss halt der Rechner + Programm laufen. Vielleicht möchtest du auch übers Tablet, Notebook oder Smartphone auf deine Dokumente zugreifen können.

Ansonsten finde ich das Programm echt klasse, geht schon in die Richtung, wonach ich seit längerer Zeit suche. Einzig die Ordnerstruktur gefällt mir noch nicht, die würde ich gerne noch granularer haben. Leider gibt es aktuell nur zwei Felder + Datum, nach denen ich die Struktur vorgeben kann.

Ich werde die Entwicklung auf jeden Fall weiter verfolgen.

Sojan

Die simple Numerierung der Dateien in der Standardeinstellung sagt mir nicht zu. Denn wenn die Entwickler eines Tages keine Lust mehr haben, dann bleibt man auf einem Haufen nichtssagender Dateien zurück.

Ein paar Dokumente importiert, beschriftet und Tags vergeben.

Anschließend die /etc/paperless.conf angepasst. Am Ende des Dateinamens habe ich die vergebenen Tags in eckige Klammern gepackt.

PAPERLESS_FILENAME_FORMAT={document_type}/{correspondent}/{created_year}/{created} {title} [{tag_list}]

Paperless benennt die Dateien entsprechend der Vorgabe automatisch um. So würden sich notfalls auch Dokumente wiederfinden, wenn die Anwendung nicht (mehr) zur Verfügung stehen sollte.

Code

[archive]# tree .
.
├── Kontauszug
│   └── MeineBank
│       └── 2021
│           ├── 2021-10-29 Kontoauszug [].pdf
│           └── 2021-11-30 Kontoauszug [].pdf
└── Rechnung
    ├── Amazon
    │   ├── 2019
    │   │   └── 2019-02-07 Staubsauger [Haushalt].pdf
    │   └── 2022
    │       └── 2022-03-02 Flaschenhalter [Fahrrad].pdf
    ├── Berrybase
    │   ├── 2018
    │   │   └── 2018-12-06 Raspberry 3B [Computer].pdf
    │   ├── 2021
    │   │   └── 2021-01-07 HifiBerry [Computer,Hifi].pdf
    │   └── 2022
    │       └── 2022-02-07 RaspberryPi 4 [Computer].pdf
    ├── Ikea
    │   └── 2018
    │       └── 2018-08-14 Schreibtisch [Haushalt].pdf
    └── Stadtwerke
        └── 2019
            └── 2019-12-28 Abrechnung Strom [Haushalt].pdf

Alles anzeigen

Sojan

Testweise auf einem Archlinux-Server installiert, paperless-ngx gibt's im AUR.

Dateinamen und Ordnerstruktur lassen sich anpassen. Dazu muss die /etc/paperless.conf gemäß des Links angepasst werden.

Advanced topics — Paperless-ngx 1.7.1 documentation

In der Standardeinstellung wird alles in einem Ordner abgelegt und die Dateien werden durchnumeriert.

000001.pdf
000002.pdf
...

Sojan

Stardenver

Wow, danke für die ausführliche Rückmeldung. Ich hätte gerne 2 x Danke dafür vergeben.