tesseract

Diesen längeren Text möchte ich wirklich nicht abtippen. Unter den Scanner und tesseract übernimmt die Texterfassung.

tesseract scan.jpg -l deu text

Beschreibung des Befehls

  • tesseract ruft das Programm auf
  • scan.jpg Bilddatei für die Texterkennung
  • -l deu Sprache des Textes
  • text Ausgabedatei (.txt wird angefügt)

Sprachen

  • deu (Deutsch)
  • deu-frak (Fraktur-Erkennung)
  • eng (Englisch)
  • fra (Französisch)
  • und viele andere

Wenn ein Dokument in mehreren Sprachen geschrieben ist, verbessert eine genaue Angaben der Sprachen die Texterkennung. Die zweite Sprache mit einem “+” hinzufügen (z.B. -l deu+eng).

Beispiele

Mehrere Seiten können auf einmal erfasst und der Text in eine einzige Datei zusammengefasst werden.

for i in *.jpg; do echo $i; tesseract $i $i -l deu; cat *.txt > inhalt.md; done; rm *.txt

Durchsuchbares PDF erstellen (ab Version 3.03).

tesseract scan.jpg -l deu text pdf

Weitere Informationen