[gitec] Leis e formatos de arquivos.

Jean Rodrigo Ferri jeanferri em interlegis.leg.br
Quinta Junho 27 16:26:11 BRT 2013


Olá pessoal,

Se o arquivo já está em DOC o SAPL irá indexá-lo, da mesma forma que se 
ele estiver em ODT ou PDF. O OCR só será útil para extrair texto de uma 
imagem.

Se for transformar para PDF, melhor utilizar o formato PDF/A, que é um 
formato aberto padrão ISO. Ele também permite a anexação de uma imagem 
do documento integral, assim mantém-se o texto para indexação ou reuso e 
também a íntegra do documento original.

Em tempos de dados abertos[1], precisamos estimular o uso de formatos 
abertos para armazenamento das informações públicas, e o formato ODF é 
um dos mais recomendados, então não é uma boa prática converter ODT para 
DOC, mas sim o contrário.

Para converter lotes de arquivos de um formato para outro você pode 
utilizar o aplicativo 'unoconv', que funciona na linha de comando do shell.

O casamento do PDF/A com o ODF é, na minha humilde opinião, o melhor dos 
mundos, pois estaremos utilizando somente formatos abertos, garantindo a 
mesma visualização atemporal do documento e garantindo também o reúso e 
edição futuras da informação. Essa é inclusive uma recomendação da 
e-ping[2].

[1] http://dados.gov.br/dados-abertos/
[2] http://eping.governoeletronico.gov.br/

Abraço,

Jean Ferri


Em 27-06-2013 14:31, Rafael Soares escreveu:
> Exatamente essa questão que eu queria levantar, acho melhor pegar os
> arquivos doc e converter para pdf, para facilitar também a indexação, já
> que poderemos pesquisar o texto "dentro" da lei, ao invés de escanear e
> aplicar o OCR.
> O SAPL "lê" arquivos pdf?
>
>
> Em 27 de junho de 2013 13:00, Juliano Rafael Bringer <
> informatica em camaradomingosmartins.es.gov.br> escreveu:
>
>> Boa tarde Rafael,
>>
>> Tenho utilizado esse principio de conversão de (doc.odt e etc) para pdf.
>>
>> Se formos pensar que a lei disponibilizada pela câmara em formatos html,
>> pdf, e outros não tem valor jurídico, teremos que resolver também quanto as
>> leis publicadas pelo Planalto em Brasília, que se encontra tudo em html.
>> Hoje qualquer um de nós consultamos a Constituição Federal por meio do site.
>> Espero ter contribuído.
>>
>> Abraços.
>>
>>
>>
>> Em 27 de junho de 2013 13:10, Rafael Soares <rafaelsoaresbr em gmail.com>escreveu:
>>
>> Eu acho interessante escanear pelo fato de termos uma cópia idêntica,
>>> porém sem valor jurídico né porque não está assinado digitalmente ou algo
>>> do tipo, além disso o OCR é uma solução muitas vezes falha.
>>> Como vamos começar do zero, queremos seguir um padrão, vi que a maioria
>>> de vocês prefere o PDF, é até um formato muito popular, mas é proprietário.
>>> Que tal converter os arquivos digitado que tenho (doc, docx) para pdf?
>>>
>>>
>>>
>>> Em 26 de junho de 2013 15:33, celso magela de almeida <
>>> celso em pocosdecaldas.mg.leg.br> escreveu:
>>>
>>> Rafael,
>>>>
>>>> aqui nos optamos pelo seguinte:
>>>>
>>>>
>>>> *1 - É preferível escanear as leis ou colocar os arquivos "digitados"?*
>>>> Para os antigos, usamos o que já tínhamos no sistema, arquivos
>>>> digitados, convertidos em PDF, sem a assinatura.
>>>> Para os novos, estamos gerando o documento, imprimindo, colendo as
>>>> assinaturas e carinbos e só após isso digitalizando (para que tenhamos os
>>>> documentos assinados).
>>>> Para as preposições, estamos usando assinaturas digitalizadas, portanto,
>>>> nesse caso, usamos os digitados já convertidos em PDF
>>>>
>>>>
>>>> * 2 - Qual formato de arquivo usar? PDF se forem escaneados? doc ou odt
>>>> se forem digitados?*
>>>> Estamos usando somente PDF com OCR. Exportados pelo BROffice ou
>>>> convertidos com o unoconv (unoconv -vf pdf *.odt).
>>>> Tomamos o cuidado de periodicamente testar o documento. É importante
>>>> para leitura de deficientes e pesquisa. Temos um cego na Câmara que faz
>>>> leitura no Jaws.
>>>> No Scaneamento de documentos resposta, por exemplo, usamos uma resolução
>>>> que equilibre qualidade e tamanho, mas temos um arquivo com 447 páginas que
>>>> dá 106Mb.
>>>>
>>>>
>>>> *3 - Dos anos anteriores é preciso colocar só as leis ou os projetos de
>>>> lei também?*
>>>> Para os anos anteriores, estamos importando tudo!
>>>> desde 1995
>>>> As normas já estão no sistema, mas as proposições e os documentos
>>>> administrativos ainda estamos fazendo... é muita coisa... 80 mil
>>>> documentos, além dos dados...
>>>>
>>>> Celso Magela de Almeida
>>>> Assessor TI
>>>> Câmara Municipal de Poços de Caldas - MG
>>>> www.pocosdecaldas.mg.leg.br
>>>> 35 - 3729-3840 - 8805-7054
>>>>
>>>>
>>>> *-- Por que esta mensagem é tão curta?   --  **Resposta:
>>>> http://3frases.efetividade.net* <http://3frases.efetividade.net>*  --*
>>>>
>>>>
>>>>
>>>> Em 26 de junho de 2013 13:19, Rafael Soares <rafaelsoaresbr em gmail.com>escreveu:
>>>>
>>>>>   Olá pessoal da lista,
>>>>>
>>>>> Estamos para colocar as leis no SAPL e surgem algumas dúvidas:
>>>>> 1 - É preferível escanear as leis ou colocar os arquivos "digitados"?
>>>>> 2 - Qual formato de arquivo usar? PDF se forem escaneados? doc ou odt
>>>>> se forem digitados?
>>>>> 3 - Dos anos anteriores é preciso colocar só as leis ou os projetos de
>>>>> lei também?
>>>>>
>>>>> Nós queríamos colocar apenas as leis e em formato doc ou odt dos anos
>>>>> anteriores,e daqui pra frente colocar todos os documentos.
>>>>>
>>>>>
>>>>> --
>>>>> (95)3624-2267
>>>>> (95)9144-8163
>>>>>
>>>>> Rafael Soares
>>>>> Auxiliar Técnico Legislativo
>>>>> Secretaria de Apoio Legislativo
>>>>> Câmara Municipal de Boa Vista
>>>>>
>>>>> --
>>>>> Site da Comunidade GITEC:
>>>>> http://colab.interlegis.leg.br
>>>>>
>>>>> Regras de participação:
>>>>> http://colab.interlegis.leg.br/wiki/ComoParticiparComunidade
>>>>>
>>>>> Para pesquisar o histórico da lista visite:
>>>>> http://colab.interlegis.leg.br/wiki/PesquisaListas
>>>>>
>>>>> Para administrar ou excluir sua conta visite:
>>>>> http://listas.interlegis.gov.br/mailman/listinfo/gitec
>>>>>
>>>>
>>>>
>>>> --
>>>> Site da Comunidade GITEC:
>>>> http://colab.interlegis.leg.br
>>>>
>>>> Regras de participação:
>>>> http://colab.interlegis.leg.br/wiki/ComoParticiparComunidade
>>>>
>>>> Para pesquisar o histórico da lista visite:
>>>> http://colab.interlegis.leg.br/wiki/PesquisaListas
>>>>
>>>> Para administrar ou excluir sua conta visite:
>>>> http://listas.interlegis.gov.br/mailman/listinfo/gitec
>>>>
>>>
>>>
>>>
>>> --
>>> (95)3624-2267
>>> (95)9144-8163
>>>
>>> Rafael Soares
>>> Auxiliar Técnico Legislativo
>>> Secretaria de Apoio Legislativo
>>> Câmara Municipal de Boa Vista
>>>
>>> --
>>> Site da Comunidade GITEC:
>>> http://colab.interlegis.leg.br
>>>
>>> Regras de participação:
>>> http://colab.interlegis.leg.br/wiki/ComoParticiparComunidade
>>>
>>> Para pesquisar o histórico da lista visite:
>>> http://colab.interlegis.leg.br/wiki/PesquisaListas
>>>
>>> Para administrar ou excluir sua conta visite:
>>> http://listas.interlegis.gov.br/mailman/listinfo/gitec
>>>
>>
>>
>>
>> --
>>
>> *Juliano Rafael Bringer Nunes*
>> julianobringer em gmail.com
>> CM Domingos Martins-ES


Mais detalhes sobre a lista de discussão GITEC