[gitec] Tesseract

Ishida - CMRP ishida em camararibeiraopreto.sp.gov.br
Sexta Setembro 11 15:05:35 BRT 2009


Mano,

    O Resultado de OCR é proporcionala qualidade da imagem scaneada!

    Como te ajudar não sei, não conheço o Tesseract!!!

    Desculpe, tente aumentar a qualidade de scaneamento para o máximo, e 
depois de scaneado passe o OCR, que isso melhora o acerto do OCR.

    Levando em conta que você só salvara o que o OCR interpretar.. pode ser 
que o tamanho da imagem inicialmente não importe.

   Quado tentei usar por aqui... verifiquei que se digitalizar torto o OCR 
tem o acerto prejudicado.

Ishida
CM RIbeirão Preto

----- Original Message ----- 
From: "André Brum da Silva" <andre em camaraagudo.rs.gov.br>
To: "GITEC" <gitec em listas.interlegis.gov.br>
Sent: Friday, September 11, 2009 3:02 PM
Subject: [gitec] Tesseract


Pessoal,

continua minha saga para escanear em pdf/ocr, agora com o velho HP
Scanjet 4400c funcionando no Ubuntu. Isso se faz necessário para dar
andamento ao cadastro dos textos integrais de normas jurídicas no SAPL.
E damos preferência para o formato pdf/ocr pela necessidade de pesquisa
textual.

Bom, parece que o Xsane ainda não se presta pra ocr, então instalei o
Tesseract, que é pra isso mesmo. Mas ainda não consegui fazer o bicho
funcionar adequadamente, o resultado ainda é precário em ocr.

Alguém que usa o Tesseract pode me dizer algo sobre sua configuração?

Obrigado.

André

-- 
Site da Comunidade GITEC
http://colab.interlegis.gov.br

Para pesquisar o histórico da lista visite:
http://colab.interlegis.gov.br/wiki/PesquisaListas

Para administrar sua conta visite:
http://listas.interlegis.gov.br/mailman/listinfo/gitec 



Mais detalhes sobre a lista de discussão GITEC