Tutorial (en inglés) para el reconocimiento de texto con Tesseract OCR en Ubuntu 7.04, pero sirve para cualquier sistema (GNU/)Linux con imagemagick. Se trata de un programa desarrollado por HP durante 10 años, mejorado y liberado por Google (asegura que es el mejor OCR libre). Ya vimos que Google presentó el proyecto hace un año:
meneame.net/story/google-hace-open-source-soft-ocr y ya lo está integrando en una suite más potente que incluye reconocimiento de escritura manual multilingüe:
meneame.net/story/ocr-open-source-de-google