Paperless-ng(x)

Stardenver

Zitat von Sojan

Ok, das entschärft natürlich meine Bedenken.
Hatte auch schon überlegt, Paperless einfach zusätzlich laufen zu lassen - gewissermaßen als Komfortfunktion. Denn die Bedienung der GUI sagt mir schon zu.
Müsste ich mir noch ein Konzept überlegen, wie ich auf einfache Weise beide Welten unter einen Hut bekomme.

Das automatische taggen ist hier sehr hilfreich. Bei mir kommen Dokumente in der Regel auf folgenden Wegen ins System:

1. Ich scanne etwas mit dem Handy. Das landet dann automatisch in einem Eingangsordner

2. Ich scanne über einen Scanner mit Einzug. Das landet ebenfalls im Eingangsordner

3. Ich lade ein Dokument wie Rechnung oder Ähnlichem als PDF herunter. Landet in Firefox ebenfalls im Eingangsordner

4. Ich erhalte ein Dokument per Mail. Das speichere ich dann ebenfalls im Eingangsordner

Besagter Eingangsordner heißt bei mir "Incoming" und den synchronisiere ich zwischen den unterschiedlichen Geräten. Wann immer ich Zeit habe, räume ich diesen auf. Dazu benenne ich Dokumente um, die keinen passenden Namen haben. Dann schiebe ich einmal alle per darg&drop in paperless, wo sie erfasst werden. Danach schiebe ich sie in ihre eigentlichen Ordner.

Es gibt Ausnahmen, in denen ich via Firefox ein Dokument herunterlade und direkt in seinem angedachten Ordner speichere. Das ist aber kein Problem. Ich öffne danach einfach die Weboberfläche von paperless und ziehe das Dokument aus dem Download-Manager in die Upload-Fläche. 2 Sekunden Aufwand und auch dieses Dokument ist sicher in Paperless.

Tealk

Welchen Mehrwert hat Paperless dann?

Sojan

Zitat von Tealk

Welchen Mehrwert hat Paperless dann?

Mehrwert gegenüber was? Der reinen Verwaltung über Ordner und Dateinamen?

Tealk

Jap, weil wenn ich mir die Arbeit doppelt mache ist das ja auch blöd.

Stardenver

Zitat von Tealk

Jap, weil wenn ich mir die Arbeit doppelt mache ist das ja auch blöd.

Wenn du deine Dokumente in Ordnern verwaltest, müsstest du für eine Volltextsuche ja ebenfalls irgendeinen Indexer verwenden. Du hast also eh ein Tool, um z.B. PDF zu indizieren und eine dazu gehörende Datenbank. Wenn du jetzt Dokumente hast, die nicht mit OCR versehen sind (Scans z.B.), musst du dir zusätzlich Tesseract installieren, die entsprechenden Sprachen dazu und das Ganze dann bei jedem Dokument einen OCR Scan mit Erstellung des Textoverlay laufen lassen.

Genau das nimmt dir paperless nun ab. Du kannst entweder alle Dokumente an deinem Rechner in einen einzigen Ordner werfen und paperless die Arbeit machen lassen - oder aber du sortierst die Dokumente ein und legst sie zusätzlich in paperless.

Paperless erleichtert dir also den Zugriff, das Finden und Bearbeiten von Dokumenten.

Du kannst natürlich auch einfach auf lokale Dokumente verzichten und nur paperless verwenden. Das muss aber jede(r) selbst entscheiden.

nicoletta

was wäre denn der Nachteil nur peperless zuverwenden?

Sojan

Zitat von nicoletta

was wäre denn der Nachteil nur peperless zuverwenden?

Die Frage kannst du auf alle Dokumentenverwaltungssysteme (DMS) ausweiten. Die meisten dieser Programme nutzen eine Datenbank zur Verwaltung des Archivs, in der sämtliche Angaben zum Dokument hinterlegt sind. Häufig ist das Auffinden eines Dokuments auch nur über dieses Programm sinnvoll möglich. Es besteht also eine Abhängigkeit.

Schöne wäre es, wenn das DMS die Dokumente so benennen und in Ordner ablegen würde, dass ich auch ohne Programm mich im Archiv zurechtfinden könnte.

Paperless bietet die Möglichkeit, die Dateien in einem begrenzten Umfang nach eigenen Vorgaben zu benennen und automatisch in Ordnern einzusortieren (max. 2-3 Ebenen).

Wenn dir das ausreicht, dann sehe ich keinen Nachteil, "Paperless only" zu betreiben.

nicoletta

Das sehe ich nun eher als Vorteile von DMS. Was sind denn die Nachteile das man parallel nochmal eine Ordnerstruktur führt?

Brander Stier

Nur mal so zum Abschluss von mir.

Läuft erfrischend gut, nur weiss ich nicht wirklich ob ich das einsetzen werde.

Es ist zwar schön alles strukturiert Digital zu haben aber bisher bin ich auch ohne DMS mit meiner eigenen Ordnung ganz gut gefahren.

Ist halt eine gewissen allerdings ganz gute Umstellung von Nöten.

Tealk

Zitat von nicoletta

Was sind denn die Nachteile das man parallel nochmal eine Ordnerstruktur führt?

Doppelte Arbeit? Dann kann ich gleich nur Ordner nutzen.

Stardenver

Man kann es natürlich auch einfach umgekehrt machen. Alles in eigenen Ordnern und mit eigener Struktur und Namensgebung und dann einfach zusätzlich alles in paperless werfen. Einfach nur um die perfekte Suchmaschine für Dokumente zu haben und vielleicht als eine Art zusätzliches Backup.

Irgendwie muss jedes Dokument ja so oder so auf den Rechner kommen. Wieso dann nicht einfach auch einmal kurz auf die Schaltfläche in paperless ziehen. Das ist 1 Sekunde Aufwand.

Ich in meinem Fall fahre gut mit der doppelten Lösung. Ich habe alle Dokumente am Rechner und halt zusätzlich in paperless. Homeserver läuft eh 24/7. Wieso also nicht nutzen. Wenn jemand dafür aber nun extra einen Server anschaffen oder einrichten würde, sollte man in der Tat drüber nachdenken, ob man das wirklich benötigt.

Brander Stier

Zitat von Stardenver

Ich in meinem Fall fahre gut mit der doppelten Lösung. Ich habe alle Dokumente am Rechner und halt zusätzlich in paperless. Homeserver läuft eh 24/7. Wieso also nicht nutzen. Wenn jemand dafür aber nun extra einen Server anschaffen oder einrichten würde, sollte man in der Tat drüber nachdenken, ob man das wirklich benötigt.

Alleine zum schnelleren finden läuft es bei mir weiter.

Danke für den Tipp.

nicoletta

Ich versuche es noch mal ...

Was spricht sachlich dagegen nur paperless zu nutzen. Was hätte das für Nachteile?

Stardenver

Zitat von nicoletta

Ich versuche es noch mal ...
Was spricht sachlich dagegen nur paperless zu nutzen. Was hätte das für Nachteile?

Alle Eier in einen Korb.. Du bist also der Software ausgeliefert, wenn du es so drastisch formulieren magst. Kommt es zu einer Fehlfunktion, ist vielleicht alles weg. Du musst zudem darauf vertrauen, dass die Software nichts unbemerkt verliert oder verschluckt. Problematisch könnte es zudem bei Dokumenten werden, die du weiterhin oder gar regelmäßig bearbeiten willst.

Eventuell wird dein Workflow auch etwas eingegrenzt. Wenn du unter normalen Umständen ein Dokument versendest oder sonst wie weiterleitest, kannst du das einfach aus dessen Ordner heraus tun. Du kannst zudem das Kontextmenü von Dolphin, Thunar oder was auch immer du verwendest, benutzen. Das fällt hier weg. Damit du ein Dokument bearbeiten oder senden kannst, musst du es zunächst aus paperless herunterladen.

Was ich selbst noch nicht ausprobiert habe, was aber dennoch interessant sein dürfte, ist das Ersetzen. Also du hast ein Dokument in paperless und willst dann Änderungen vornehmen und dann die vorhandene Version durch eine neuere ersetzen.

Stardenver

Okay.. jetzt haben wir hier ein ernstzunehmendes Problem! Gerade wollte ich meinen zuvor geäußerten Zugriff mit dem Ersetzen von Dokumenten testen. Dabei habe ich nach mehreren Tagen zum ersten mal wieder einen Blick in den Eingang geworfen. Dabei entdeckte ich, dass die Filter gerade mal so richtig durchdrehen.

Wie man hier erkennen kann, wurden SÄMTLICHE Dokumente u.A. mit "Ute Schäfer" und "Ford Focus" getaggt. Schaut man sich nun die Tags mit ihren Filtern an, sieht man folgendes:

Ute Schäfer sollte z.B. nur getaggt werden, wenn der exakte Wortlaut erkannt wird. Unter den gezeigten Dokumenten sind nun bspw sehr viele Polizeiberichte meines Landkreises hier. Die sammel ich aus reiner Neugierde und Hobby. Ich kann euch versichern, dass meine Mutter in keinem einzigen dort erwähnt wird.

In meiner Rechnung von Netcup wird auch nirgends ein Ford Focus erwähnt.

Aus irgendeinem Grund spinnen hier also die Filter und alles wird völlig falsch und unsinnig getaggt. Das empfinde ich nun als großes Problem. Gerade da es in der Diskussion mit nicoletta ja auch darum ging, ob man nur auf paperless setzen könnte. Wenn nun eine Software schon in einer einfachen Grunddisziplin versagt, würde ich das in Frage stellen wollen.

Ich kann aktuell nicht sagen, was den Fehler ausgelöst hat und wie viele Dokumente betroffen sind. Ich habe tausende PDF in paperless liegen. Da muss ich mich dann nochmal mit beschäftigen. Aber ich habe gerade ein unschönes Gefühl.

Edit/Ergänzung: Dokument 2, 3 und 4 sind anders getaggt, da ich diese manuell nachgebessert habe. Man sieht hier aber noch ein ebenfalls falsches Label. Eine Rechnung ist noch immer mit dem falsch zugeteilten "Polizeibericht" gelabelt. Das Wort taucht in der Rechnung natürlich gar nicht auf.

nicoletta

Hat paperless eine Backupfunktion?

DMS die ich mir bisher angeschaut habe legen eine normale Ordnerstruktur auf einem Laufwerk an. Der Index und alle Beziehungen werden in einer Dastenbank gespeichert.

Ist das bei paperless anders?

Sojan

Zitat von Stardenver

Aus irgendeinem Grund spinnen hier also die Filter und alles wird völlig falsch und unsinnig getaggt. Das empfinde ich nun als großes Problem. Gerade da es in der Diskussion mit nicoletta ja auch darum ging, ob man nur auf paperless setzen könnte. Wenn nun eine Software schon in einer einfachen Grunddisziplin versagt, würde ich das in Frage stellen wollen.

Hast du im Menü einmal die Protokolle aufgerufen? Ist dort zu erkennen, was das Programm erkannt hat und was es daraus gemacht hat?

Habe als Tag "Internet" und als Korrespontent "Vodafone" voreingestellt und wird beim Import von Dokumenten auch richtig erkannt.

Code

[2022-06-09 15:23:44,973] [DEBUG] [paperless.matching] Correspondent Vodafone matched on document 2019-12-05_Internet because it contains this word: Vodafone

[2022-06-09 15:23:44,975] [DEBUG] [paperless.matching] Tag Internet matched on document 2019-12-05_Vodafone Internet because it contains this word: Vodafone

Stardenver

Zitat von Sojan
Hast du im Menü einmal die Protokolle aufgerufen? Ist dort zu erkennen, was das Programm erkannt hat und was es daraus gemacht hat?
Habe als Tag "Internet" und als Korrespontent "Vodafone" voreingestellt und wird beim Import von Dokumenten auch richtig erkannt.
Code
[2022-06-09 15:23:44,973] [DEBUG] [paperless.matching] Correspondent Vodafone matched on document 2019-12-05_Internet because it contains this word: Vodafone

[2022-06-09 15:23:44,975] [DEBUG] [paperless.matching] Tag Internet matched on document 2019-12-05_Vodafone Internet because it contains this word: Vodafone

Ja. Das ist ja das komische. Laut Protokoll ist das so nie geschehen. Hier sieht man die Tags eines Test-PDF:

Hier der Auszug aus dem Protokoll:

Code

[2022-06-03 22:01:03,451] [INFO] [paperless.consumer] Consuming presseportal_pol-ldk-glasscherben-hinter-reifen-gelegt-in-merke_5239500.pdf

[2022-06-03 22:01:03,452] [DEBUG] [paperless.consumer] Detected mime type: application/pdf

[2022-06-03 22:01:03,453] [DEBUG] [paperless.consumer] Parser: RasterisedDocumentParser

[2022-06-03 22:01:03,456] [DEBUG] [paperless.consumer] Parsing presseportal_pol-ldk-glasscherben-hinter-reifen-gelegt-in-merke_5239500.pdf...

[2022-06-03 22:01:03,832] [DEBUG] [paperless.parsing.tesseract] Extracted text from PDF file /tmp/paperless/paperless-upload-es1xen8b

[2022-06-03 22:01:03,894] [DEBUG] [paperless.parsing.tesseract] Calling OCRmyPDF with args: {'input_file': '/tmp/paperless/paperless-upload-es1xen8b', 'output_file': '/tmp/paperless/paperless-z5hi1l14/archive.pdf', 'use_threads': True, 'jobs': 2, 'language': 'deu', 'output_type': 'pdfa', 'progress_bar': False, 'skip_text': True, 'clean': True, 'deskew': True, 'rotate_pages': True, 'rotate_pages_threshold': 12.0, 'sidecar': '/tmp/paperless/paperless-z5hi1l14/sidecar.txt'}

[2022-06-03 22:01:03,936] [DEBUG] [paperless.parsing.tesseract] Incomplete sidecar file: discarding.

[2022-06-03 22:01:04,024] [DEBUG] [paperless.parsing.tesseract] Extracted text from PDF file /tmp/paperless/paperless-9c6vvtm6/archive.pdf

[2022-06-03 22:01:04,025] [DEBUG] [paperless.consumer] Generating thumbnail for presseportal_pol-ldk-ladung-verrutscht-kreative-sicherung-durch_5238652.pdf...

[2022-06-03 22:01:04,028] [DEBUG] [paperless.parsing] Execute: convert -density 300 -scale 500x5000> -alpha remove -strip -auto-orient /tmp/paperless/paperless-9c6vvtm6/archive.pdf[0] /tmp/paperless/paperless-9c6vvtm6/convert.png

[2022-06-03 22:01:04,452] [DEBUG] [paperless.parsing.tesseract] Incomplete sidecar file: discarding.

[2022-06-03 22:01:04,578] [DEBUG] [paperless.parsing.tesseract] Extracted text from PDF file /tmp/paperless/paperless-z5hi1l14/archive.pdf

[2022-06-03 22:01:04,579] [DEBUG] [paperless.consumer] Generating thumbnail for presseportal_pol-ldk-glasscherben-hinter-reifen-gelegt-in-merke_5239500.pdf...

[2022-06-03 22:01:04,582] [DEBUG] [paperless.parsing] Execute: convert -density 300 -scale 500x5000> -alpha remove -strip -auto-orient /tmp/paperless/paperless-z5hi1l14/archive.pdf[0] /tmp/paperless/paperless-z5hi1l14/convert.png

[2022-06-03 22:01:05,137] [DEBUG] [paperless.parsing.tesseract] Execute: optipng -silent -o5 /tmp/paperless/paperless-9c6vvtm6/convert.png -out /tmp/paperless/paperless-9c6vvtm6/thumb_optipng.png

[2022-06-03 22:01:05,574] [DEBUG] [paperless.parsing.tesseract] Execute: optipng -silent -o5 /tmp/paperless/paperless-z5hi1l14/convert.png -out /tmp/paperless/paperless-z5hi1l14/thumb_optipng.png

[2022-06-03 22:01:09,335] [DEBUG] [paperless.classifier] Document classification model does not exist (yet), not performing automatic matching.

[2022-06-03 22:01:09,337] [DEBUG] [paperless.consumer] Saving record to database

[2022-06-03 22:01:09,348] [DEBUG] [paperless.matching] Tag Polizeiberichte matched on document 2022-06-03 presseportal_pol-ldk-glasscherben-hinter-reifen-gelegt-in-merke_5239500 because it contains this string: "Pol-LDK"

[2022-06-03 22:01:09,431] [DEBUG] [paperless.consumer] Deleting file /tmp/paperless/paperless-upload-es1xen8b

[2022-06-03 22:01:09,438] [DEBUG] [paperless.parsing.tesseract] Deleting directory /tmp/paperless/paperless-z5hi1l14

[2022-06-03 22:01:09,439] [INFO] [paperless.consumer] Document 2022-06-03 presseportal_pol-ldk-glasscherben-hinter-reifen-gelegt-in-merke_5239500 consumption finished

Alles anzeigen

Zeile 37

Nur der Tag "Polizeibericht". Ich verstehe es gerade nicht.

Sojan

Stardenver

Auch wenn es sehr unwahrscheinlich ist...der Haken bei Posteingangs-Tag ist hoffentlich nicht gesetzt?

Stardenver

Zitat von Sojan

Stardenver
Auch wenn es sehr unwahrscheinlich ist...der Haken bei Posteingangs-Tag ist hoffentlich nicht gesetzt?

Oh verdammt! Lösche ich jetzt aus Scham alle Posts hier zu dem Thema - oder lasse ich sie als Mahnmal stehen? Also gesetzt habe ich sie zu 100% nicht. Ich vermute mal, dass sich das Tool einfach die letzte Auswahl merkt. Also wenn du einen Haken setzt und einen neuen Tag erstellst, werden diese automatisch wieder gesetzt. Das war mir scheinbar entgangen.

Da hast du mich und das Tool auf meinem Server wohl gerettet. Vielen Dank fürs Mitdenken!

Paperless-ng(x)

Jetzt mitmachen!

10 Benutzer haben hier geschrieben

Benutzer online in diesem Thema