Beiträge von Stardenver im Thema „Paperless-ng(x)“

    Paperless nginx kann aber weit mehr als Dokumente ablegen. In Verbindung mit einem Scanner und Verschlagwortung kann man das alles automatisieren. Dabei werden die Dokumente dann auch noch durchsuchbar gemacht. Inklusive der Ordnerstruktur, die man haben will.

    Ich bin nämlich auch gerade dran ein Konzept zu erarbeiten, wie ich meine Papierablage ab 2024 nur noch digital halte. Papier wird dann max. 4 Wochen aufbewahrt und dann vernichtet.

    Mal sehen, wie das wird.

    Falls du einen guten Workflow entwickelst, das Ganze dann zusätzlich noch in die Nextcloud (oder alternative Dienste) zu bekommen, wäre ich für Hinweise dankbar.

    Stardenver

    Auch wenn es sehr unwahrscheinlich ist...der Haken bei Posteingangs-Tag ist hoffentlich nicht gesetzt?

    Oh verdammt! Lösche ich jetzt aus Scham alle Posts hier zu dem Thema - oder lasse ich sie als Mahnmal stehen? Also gesetzt habe ich sie zu 100% nicht. Ich vermute mal, dass sich das Tool einfach die letzte Auswahl merkt. Also wenn du einen Haken setzt und einen neuen Tag erstellst, werden diese automatisch wieder gesetzt. Das war mir scheinbar entgangen.

    Da hast du mich und das Tool auf meinem Server wohl gerettet. Vielen Dank fürs Mitdenken!

    Hast du im Menü einmal die Protokolle aufgerufen? Ist dort zu erkennen, was das Programm erkannt hat und was es daraus gemacht hat?

    Habe als Tag "Internet" und als Korrespontent "Vodafone" voreingestellt und wird beim Import von Dokumenten auch richtig erkannt.

    Code
    [2022-06-09 15:23:44,973] [DEBUG] [paperless.matching] Correspondent Vodafone matched on document 2019-12-05_Internet because it contains this word: Vodafone
    
    [2022-06-09 15:23:44,975] [DEBUG] [paperless.matching] Tag Internet matched on document 2019-12-05_Vodafone Internet because it contains this word: Vodafone

    Ja. Das ist ja das komische. Laut Protokoll ist das so nie geschehen. Hier sieht man die Tags eines Test-PDF:

    Hier der Auszug aus dem Protokoll:

    Zeile 37

    Nur der Tag "Polizeibericht". Ich verstehe es gerade nicht.

    Okay.. jetzt haben wir hier ein ernstzunehmendes Problem! Gerade wollte ich meinen zuvor geäußerten Zugriff mit dem Ersetzen von Dokumenten testen. Dabei habe ich nach mehreren Tagen zum ersten mal wieder einen Blick in den Eingang geworfen. Dabei entdeckte ich, dass die Filter gerade mal so richtig durchdrehen.

    Wie man hier erkennen kann, wurden SÄMTLICHE Dokumente u.A. mit "Ute Schäfer" und "Ford Focus" getaggt. Schaut man sich nun die Tags mit ihren Filtern an, sieht man folgendes:

    Ute Schäfer sollte z.B. nur getaggt werden, wenn der exakte Wortlaut erkannt wird. Unter den gezeigten Dokumenten sind nun bspw sehr viele Polizeiberichte meines Landkreises hier. Die sammel ich aus reiner Neugierde und Hobby. Ich kann euch versichern, dass meine Mutter in keinem einzigen dort erwähnt wird.

    In meiner Rechnung von Netcup wird auch nirgends ein Ford Focus erwähnt.

    Aus irgendeinem Grund spinnen hier also die Filter und alles wird völlig falsch und unsinnig getaggt. Das empfinde ich nun als großes Problem. Gerade da es in der Diskussion mit nicoletta ja auch darum ging, ob man nur auf paperless setzen könnte. Wenn nun eine Software schon in einer einfachen Grunddisziplin versagt, würde ich das in Frage stellen wollen.

    Ich kann aktuell nicht sagen, was den Fehler ausgelöst hat und wie viele Dokumente betroffen sind. Ich habe tausende PDF in paperless liegen. Da muss ich mich dann nochmal mit beschäftigen. Aber ich habe gerade ein unschönes Gefühl.

    Edit/Ergänzung: Dokument 2, 3 und 4 sind anders getaggt, da ich diese manuell nachgebessert habe. Man sieht hier aber noch ein ebenfalls falsches Label. Eine Rechnung ist noch immer mit dem falsch zugeteilten "Polizeibericht" gelabelt. Das Wort taucht in der Rechnung natürlich gar nicht auf.

    Ich versuche es noch mal ...

    Was spricht sachlich dagegen nur paperless zu nutzen. Was hätte das für Nachteile?

    Alle Eier in einen Korb.. Du bist also der Software ausgeliefert, wenn du es so drastisch formulieren magst. Kommt es zu einer Fehlfunktion, ist vielleicht alles weg. Du musst zudem darauf vertrauen, dass die Software nichts unbemerkt verliert oder verschluckt. Problematisch könnte es zudem bei Dokumenten werden, die du weiterhin oder gar regelmäßig bearbeiten willst.

    Eventuell wird dein Workflow auch etwas eingegrenzt. Wenn du unter normalen Umständen ein Dokument versendest oder sonst wie weiterleitest, kannst du das einfach aus dessen Ordner heraus tun. Du kannst zudem das Kontextmenü von Dolphin, Thunar oder was auch immer du verwendest, benutzen. Das fällt hier weg. Damit du ein Dokument bearbeiten oder senden kannst, musst du es zunächst aus paperless herunterladen.

    Was ich selbst noch nicht ausprobiert habe, was aber dennoch interessant sein dürfte, ist das Ersetzen. Also du hast ein Dokument in paperless und willst dann Änderungen vornehmen und dann die vorhandene Version durch eine neuere ersetzen.

    Man kann es natürlich auch einfach umgekehrt machen. Alles in eigenen Ordnern und mit eigener Struktur und Namensgebung und dann einfach zusätzlich alles in paperless werfen. Einfach nur um die perfekte Suchmaschine für Dokumente zu haben und vielleicht als eine Art zusätzliches Backup.

    Irgendwie muss jedes Dokument ja so oder so auf den Rechner kommen. Wieso dann nicht einfach auch einmal kurz auf die Schaltfläche in paperless ziehen. Das ist 1 Sekunde Aufwand.

    Ich in meinem Fall fahre gut mit der doppelten Lösung. Ich habe alle Dokumente am Rechner und halt zusätzlich in paperless. Homeserver läuft eh 24/7. Wieso also nicht nutzen. Wenn jemand dafür aber nun extra einen Server anschaffen oder einrichten würde, sollte man in der Tat drüber nachdenken, ob man das wirklich benötigt.

    Jap, weil wenn ich mir die Arbeit doppelt mache ist das ja auch blöd.

    Wenn du deine Dokumente in Ordnern verwaltest, müsstest du für eine Volltextsuche ja ebenfalls irgendeinen Indexer verwenden. Du hast also eh ein Tool, um z.B. PDF zu indizieren und eine dazu gehörende Datenbank. Wenn du jetzt Dokumente hast, die nicht mit OCR versehen sind (Scans z.B.), musst du dir zusätzlich Tesseract installieren, die entsprechenden Sprachen dazu und das Ganze dann bei jedem Dokument einen OCR Scan mit Erstellung des Textoverlay laufen lassen.

    Genau das nimmt dir paperless nun ab. Du kannst entweder alle Dokumente an deinem Rechner in einen einzigen Ordner werfen und paperless die Arbeit machen lassen - oder aber du sortierst die Dokumente ein und legst sie zusätzlich in paperless.

    Paperless erleichtert dir also den Zugriff, das Finden und Bearbeiten von Dokumenten.

    Du kannst natürlich auch einfach auf lokale Dokumente verzichten und nur paperless verwenden. Das muss aber jede(r) selbst entscheiden.

    Ok, das entschärft natürlich meine Bedenken. ;)

    Hatte auch schon überlegt, Paperless einfach zusätzlich laufen zu lassen - gewissermaßen als Komfortfunktion. Denn die Bedienung der GUI sagt mir schon zu.

    Müsste ich mir noch ein Konzept überlegen, wie ich auf einfache Weise beide Welten unter einen Hut bekomme.

    Das automatische taggen ist hier sehr hilfreich. Bei mir kommen Dokumente in der Regel auf folgenden Wegen ins System:

    1. Ich scanne etwas mit dem Handy. Das landet dann automatisch in einem Eingangsordner

    2. Ich scanne über einen Scanner mit Einzug. Das landet ebenfalls im Eingangsordner

    3. Ich lade ein Dokument wie Rechnung oder Ähnlichem als PDF herunter. Landet in Firefox ebenfalls im Eingangsordner

    4. Ich erhalte ein Dokument per Mail. Das speichere ich dann ebenfalls im Eingangsordner

    Besagter Eingangsordner heißt bei mir "Incoming" und den synchronisiere ich zwischen den unterschiedlichen Geräten. Wann immer ich Zeit habe, räume ich diesen auf. Dazu benenne ich Dokumente um, die keinen passenden Namen haben. Dann schiebe ich einmal alle per darg&drop in paperless, wo sie erfasst werden. Danach schiebe ich sie in ihre eigentlichen Ordner.

    Es gibt Ausnahmen, in denen ich via Firefox ein Dokument herunterlade und direkt in seinem angedachten Ordner speichere. Das ist aber kein Problem. Ich öffne danach einfach die Weboberfläche von paperless und ziehe das Dokument aus dem Download-Manager in die Upload-Fläche. 2 Sekunden Aufwand und auch dieses Dokument ist sicher in Paperless.

    Das mit der Nummerierung ist für mich kein Problem, da paperless zusätzlich läuft. Also ich habe bereits auf dem Rechner und als eines von mehreren Backups ebenfalls auf dem NAS alle Dokumente. Ich schiebe die halt zusätzlich in paperless, da ich so von allen Geräten und auch mobil darauf zugreifen kann, ohne fremden Cloudspeicher nutzen zu müssen. Zudem habe ich so eine Volltextsuche.

    Lässt sich die Ordnerstruktur und Namensvergabe in paperless so einstellen, dass ich auch ohne Programm ein Dokument finden würde?

    Ich habe hier gar keine Ordnerstruktur mit Dateinamen. Das Programm speichert die ganzen Dokumente intern quasi in seiner eigenen Struktur ab. Wie die genau aufgebaut ist, kann ich dir nicht sagen. Denn das verwaltet paperless alles selbst und ich habe nie in die internen Ordner hinein gesehen.

    Paperless bietet zwei Möglichkeiten, Dokumente zu importieren. Zum einen ganz klassisch im Browser via drag&drop oder Schaltfläche - zum anderen über einen überwachten Ordner. In beiden Fällen wird das Dokument dann mit OCR versehen, indiziert und ins Archiv aufgenommen.

    Man kann nun bei jedem Dokument den Namen nach Belieben ändern, Kommentare, Anmerkungen und sonstige Meta hinzufügen, entfernen und bearbeiten. Zusätzlich arbeitet das Tool mit Tags. Du kannst Dokumente beliebig mit einem oder mehreren Tags versehen. Du kannst zudem ein Eingangs-Tag verwenden. Ich habe hier das Tag "offen" gewählt. Alle neuen Dokumente erhalten dieses automatisch. Alle paar Tage lasse ich mir nun alle "offenen" Dokumente anzeigen und schaue, ob diese richtig getaggt wurden. Dann entferne ich das Tag "offen".

    Mit automatisch getaggt meine ich übrigens tatsächlich automatisch. Du kannst Filter und Regeln erstellen, nach denen Dokumente automatisch mit Tags versehen werden. Wenn im Briefkopf z.B. Allianz, DEVK, etc steht, kann das Programm automatisch den Tag "Versicherungen" vergeben. Oder du lässt alles mit "Rechnung" auch als Rechnung taggen, usw.

    Du kannst alle Dokumente natürlich via Browser jederzeit herunterladen. Du selbst arbeitest hier aber nicht mit Ordnern oder Ordnerstukturen. Das übernimmt paperless alles für dich.

    Es ist sicher möglich, auf die Dateien direkt zuzugreifen. Das habe ich aber nie versucht. Auch aus Angst, dass ich das Programm dann durcheinander bringe und ein Chaos entsteht. Paperless ist also eher eine Art lokaler Cloudspeicher für Dokumente mit eigener Verwaltung.

    Was für ne Hardware hast du da drunter?

    Da rennt ein alter i5 4570 mit 16GB RAM. Wenn die Texterkennung läuft, neue Dokumente indiziert und importiert werden, geht die Last kurz hoch, fängt sich aber relativ schnell wieder ein. Ich muss dazu sagen, dass gleichzeitig ein PLEX Mediaserver auf dem Gerät läuft, ein PDF Auto-Tesseract (unabhängig von paperless), Handbrake, ein FTP für meine Hofkamera, MeTube, TubeSync, ein File-Downloader und ein Telegram-Bot.

    Der Screenshot zeigt die Spikes bei Texterkennung und Indizierung.

    Ich verwende es seit.. 3 Monaten? Weiß nicht mehr genau. Sind aber Monate. Will es nicht mehr missen. Läuft einwandfrei. Willst du irgendwas spezielles wissen oder sehen?

    Zur Installation kann ich dir nicht viel sagen. Habe es auf meinem unraid laufen. Benötigt halt Redis.