Beiträge von maik3531 im Thema „Bilder mit Tesseract OCR in Text umzuwandeln - Nemo Action“

maik3531

In einen Beitrag auf LMU wurde zum Thema noch TextSnatcher genannt was interessant für die User sein könnte die kein Cinnamon verwenden oder den umgewandelten Text gleich in der Zwischenablage haben möchten.

maik3531

Texterkennung, Textdetection oder auch Textrecognition genannt also mittels OCR Text von Bildern auslesen und als Text ausgeben und speichern.

Dazu nutzen wir Tesseract (gleichnamig wie ein first-person shooter game based on Cube2/Sauerbraten) eine von HP, UNLV, und Google entwickelt und geschriebene Library API für "Optical Character Recognition" ORC. Um das ganze so einfach wie möglich zu halten auch wieder als Nemo Action Eintrag.

Code

[Nemo Action]
Name=Extract Text from Image
Name[de]=Text aus Bild extrahieren
Comment=Use Tesseract ocr to extract text from image
Comment[de]=Text aus Bilder mit Tesseract OCR extrahieren
Dependencies=tesseract
Exec=tesseract %F %P/"%e" -l deu
Selection=Image
Icon-Name=txt
Extensions=png;jpg;jpeg;bmp;gif
EscapeSpaces=true
 #### apt install tesseract-ocr-deu ####

Alles anzeigen

Die extract-text-from-image.nemo_action unter ~/.local/share/nemo/actions speichern und tesseract-ocr-deu installieren. Wobei -l deu sich natürlich auf die Sprache bezieht und beliebig angepasst werden kann. Es stehen unter Ubuntu/Mint 160 Pakete in allen erdenklichen Sprachen zur Verfügung wer sich alle installieren möchte kann das Metapaket tesseract-ocr-all herunterladen. Mir persönlich reicht deutsch. Die Texterkennung ist sehr gut wenn auch nicht 100% Fehlerfrei.