Benjamin Eikels InternetseiteProjekte

Vergleich von freier Texterkennungssoftware

Zusammenfassung

Diese Seite präsentiert die Ergebnisse eines Vergleichs von drei freien Texterkennungsprogrammen bezüglich der Erkennungsgenauigkeit und Bearbeitungsgeschwindigkeit. Die Werkzeuge mussten eingescannte Bilder eines einfachen Textes ohne Formatierungen analysieren. Alle drei Testkandidaten sind Kommandozeilenprogramme, die unter Debian GNU/Linux installiert und verwendet wurden.

Inhaltsverzeichnis

Versuchsaufbau

In diesem Vergleich wurden die Programme GOCR (Paketversion 0.46-2), Ocrad (Paketversion 0.17-3) and Tesseract (Paketversion 2.03-2) verwendet. Die Software wurde als Paket aus dem Archiv von Debian GNU/Linux sid installiert.

Als Text wurde die GNU General Public License Version 2 benutzt. Die erste DIN A4-Seite der Lizenz wurde durch Kate mit einem Canon PIXMA iP4000 ausgedruckt und durch XSane mit einem AGFA SnapScan e25 in drei verschiedenen Auflösungen als Graustufenbild eingescannt.

Versuchsbilder
Ausgangstext 150 dpi 300 dpi 600 dpi

Zur Durchführung der Versuche wurde ein Shell-Skript eingesetzt, in dem die Aufrufparameter für die verschiedenen Programme zu finden sind. Zur Messung der Bearbeitungszeit kam das Programm time zum Einsatz. Zur Bestimmung der Erkennungsgenauigkeit wurde die produzierte Textdatei mit der Ausgangsdatei durch dwdiff verglichen.

Erkennungsgenauigkeit

Zur Bewertung wurden mit dem Programm dwdiff die Ergebnisse der Texterkennungssoftware Wort für Wort mit dem Ausgangstext verglichen. Die Ausgabe wurde in XHTML umgewandelt und die falsch erkannten Worte rot markiert. Die Erkennungsgenauigkeit gibt den Anteil richtig erkannter Worte an. Die Ergebnisse befinden sich in der Tabelle zusammen mit Verweisen auf die aufbereitete Ausgabe. Das nachfolgende Diagramm visualisiert die Daten in der Tabelle.

Bildauflösung
150 dpi 300 dpi 600 dpi
GOCR 80% 82% 65%
Ocrad 69% 83% 83%
Tesseract 98% 98% 98%

Erkennungsgenauigkeit

Bearbeitungszeit

Die Ausführungszeit der Texterkennungsprogramme wurde mit dem Kommando time gemessen. Die Zeiten sind im folgenden Diagramm zu sehen.

Bearbeitungszeit

Fazit

Nur Tesseract war in der Lage, das Bild einigermaßen fehlerfrei in Text umzuwandeln. GOCR und Ocrad leisteten sich einige Schwächen und der erstellte Text ist beinahe unbrauchbar. Der Einfluss der Bildauflösung ist beinahe nicht zu erkennen. Nur Ocrad profitiert anscheinend davon; GOCR liefert sogar schlechtere Ergebnisse bei hoher Auflösung. Bei der Geschwindigkeit ist Ocrad klarer Sieger, allerdings sollte man die Zeit besser investieren und Bilder mit Tesseract analysieren.

Copyright 2007-2012 Benjamin EikelLetzte Änderung: 2008-11-24T18:21:09+01:00Sprache wechseln: Deutsch English