[Gitec] SAPL 2.0.1 - Textos integrais

Fernando Ciciliati Jr. fernandociciliati at interlegis.gov.br
Thu Nov 4 12:57:10 BRST 2004


Luciano De Fázio escreveu:

Olá Luciano,

      Por projeto, era para funcionar. Na verdade, temos testado muito 
mais o pdf que outros tipos de arquivo.
Você tem certeza que o PDF que você está testando tem conteúdo de texto? 
Não é uma imagem scaneada?
Por favor, rode o comando "pdftotext <nome_do_arquivo_pdf>" para ver se 
ele consegue extrair o texto
desse arquivo pdf que você está testando.  É esse o utilitário que o 
sapl usa para fazer a indexação de pdf.
Verifique também, dentro de /sapl/documentos/norma_juridica/Catalog, 
clicando na aba "Indexes", clique em
"PrincipiaSearchSource", depois em "Converters", e veja se aparece algo 
do tipo:

Mime-Types 	Description 	depends on
application/msword,application/ms-word,application/vnd.ms-word 
Microsoft Word 	wvWare  
* application/pdf * 	* Adobe Acrobat PDF * 	* pdftotext   *
application/postscript 	Adobe Postscript Document 	ps2ascii  
application/vnd.sun.xml.writer 	OpenOffice 	 
text/html 	Converter HTML to ASCII 	 
text/plain 	Null converter 	 
text/sgml,text/xml 	Converter SGML to ASCII 	 


       Veja se o conversor para pdf está aparecendo.
        De qualquer forma, estarei pesquisando algo mais por aqui também.

SDS,
Ciciliati.

> Pessoal,
>
> Por que, ao cadastrar um arquivo "PDF - texto" como texto integral de 
> uma norma jurídica, o item Catalog correspondente não possui nenhum 
> dado para indexação, e nem funciona pesquisa textual para ele?
>
> Com outros tipos de arquivo (doc, txt) funciona tudo corretamente.
>
> Lembro que na versão anterior o cadastramento com PDF texto também 
> funcionava para pesquisa textual.
>
> Abraço,
>
> Luciano De Fázio
> Coordenador de Informática e Tecnologia
> Câmara Municipal de Catanduva - SP
>
>
> _______________________________________________
> Gitec mailing list
> Gitec at listas.interlegis.gov.br
> http://listas.interlegis.gov.br/mailman/listinfo/gitec
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: http://listas.interlegis.gov.br/pipermail/gitec/attachments/20041104/f1d948e3/attachment.html


Mais detalhes sobre a lista de discussão Gitec