tesseract

tesseract scan.jpg -l deu text

Beschreibung:

  • scan.jpg Bilddatei für die Texterkennung
  • -l deu Sprache des Textes
  • text Ausgabedatei (.txt wird angefügt)

Sprachen:

  • deu (Deutsch)
  • deu-frak (gute Fraktur-Erkennung)
  • eng (Englisch)
  • fra (Französisch)
  • und viele andere

Wenn ein Dokument in mehreren Sprachen geschrieben ist, verbessert eine genaue Angaben der Sprachen die Texterkennung. Die zweite Sprache mit einem “+” hinzufügen (z.B. -l deu+eng).

Weitere Informationen:

Beispiele

Mehrere Seiten können auf einmal erfasst und der Text in eine einzige Datei zusammengefasst werden.

for i in *.png; do echo $i; tesseract $i $i -l deu; cat *.txt > inhalt.md; done; rm *.txt

Durchsuchbares PDF erstellen (ab Version 3.03).

tesseract scan.png -l deu text pdf

Mehrere Seiten zu einem durchsuchbaren PDF zusammenstellen

tesseract -l deu <(ls *.png) datei pdf