[gitec] Tesseract

André Brum da Silva andre em camaraagudo.rs.gov.br
Sexta Setembro 11 15:02:32 BRT 2009


Pessoal,

continua minha saga para escanear em pdf/ocr, agora com o velho HP
Scanjet 4400c funcionando no Ubuntu. Isso se faz necessário para dar
andamento ao cadastro dos textos integrais de normas jurídicas no SAPL.
E damos preferência para o formato pdf/ocr pela necessidade de pesquisa
textual.

Bom, parece que o Xsane ainda não se presta pra ocr, então instalei o
Tesseract, que é pra isso mesmo. Mas ainda não consegui fazer o bicho
funcionar adequadamente, o resultado ainda é precário em ocr.

Alguém que usa o Tesseract pode me dizer algo sobre sua configuração?

Obrigado.

André



Mais detalhes sobre a lista de discussão GITEC