[gitec] Leis e formatos de arquivos.

Rafael Soares rafaelsoaresbr em gmail.com
Sexta Junho 28 13:12:22 BRT 2013


Vamos escanear então os documentos, só mais uma coisa que eu quero saber a
opnião de vocês, qual a resolução a gente usa pro scanner, a fim de obter o
melhor resultado no OCR? 200dpi? 300dpi?


Em 27 de junho de 2013 15:26, Jean Rodrigo Ferri <
jeanferri em interlegis.leg.br> escreveu:

> Olá pessoal,
>
> Se o arquivo já está em DOC o SAPL irá indexá-lo, da mesma forma que se
> ele estiver em ODT ou PDF. O OCR só será útil para extrair texto de uma
> imagem.
>
> Se for transformar para PDF, melhor utilizar o formato PDF/A, que é um
> formato aberto padrão ISO. Ele também permite a anexação de uma imagem
> do documento integral, assim mantém-se o texto para indexação ou reuso e
> também a íntegra do documento original.
>
> Em tempos de dados abertos[1], precisamos estimular o uso de formatos
> abertos para armazenamento das informações públicas, e o formato ODF é
> um dos mais recomendados, então não é uma boa prática converter ODT para
> DOC, mas sim o contrário.
>
> Para converter lotes de arquivos de um formato para outro você pode
> utilizar o aplicativo 'unoconv', que funciona na linha de comando do shell.
>
> O casamento do PDF/A com o ODF é, na minha humilde opinião, o melhor dos
> mundos, pois estaremos utilizando somente formatos abertos, garantindo a
> mesma visualização atemporal do documento e garantindo também o reúso e
> edição futuras da informação. Essa é inclusive uma recomendação da
> e-ping[2].
>
> [1] http://dados.gov.br/dados-abertos/
> [2] http://eping.governoeletronico.gov.br/
>
> Abraço,
>
> Jean Ferri
>
>
> Em 27-06-2013 14:31, Rafael Soares escreveu:
> > Exatamente essa questão que eu queria levantar, acho melhor pegar os
> > arquivos doc e converter para pdf, para facilitar também a indexação, já
> > que poderemos pesquisar o texto "dentro" da lei, ao invés de escanear e
> > aplicar o OCR.
> > O SAPL "lê" arquivos pdf?
> >
> >
> > Em 27 de junho de 2013 13:00, Juliano Rafael Bringer <
> > informatica em camaradomingosmartins.es.gov.br> escreveu:
> >
> >> Boa tarde Rafael,
> >>
> >> Tenho utilizado esse principio de conversão de (doc.odt e etc) para pdf.
> >>
> >> Se formos pensar que a lei disponibilizada pela câmara em formatos html,
> >> pdf, e outros não tem valor jurídico, teremos que resolver também
> quanto as
> >> leis publicadas pelo Planalto em Brasília, que se encontra tudo em html.
> >> Hoje qualquer um de nós consultamos a Constituição Federal por meio do
> site.
> >> Espero ter contribuído.
> >>
> >> Abraços.
> >>
> >>
> >>
> >> Em 27 de junho de 2013 13:10, Rafael Soares <rafaelsoaresbr em gmail.com
> >escreveu:
> >>
> >> Eu acho interessante escanear pelo fato de termos uma cópia idêntica,
> >>> porém sem valor jurídico né porque não está assinado digitalmente ou
> algo
> >>> do tipo, além disso o OCR é uma solução muitas vezes falha.
> >>> Como vamos começar do zero, queremos seguir um padrão, vi que a maioria
> >>> de vocês prefere o PDF, é até um formato muito popular, mas é
> proprietário.
> >>> Que tal converter os arquivos digitado que tenho (doc, docx) para pdf?
> >>>
> >>>
> >>>
> >>> Em 26 de junho de 2013 15:33, celso magela de almeida <
> >>> celso em pocosdecaldas.mg.leg.br> escreveu:
> >>>
> >>> Rafael,
> >>>>
> >>>> aqui nos optamos pelo seguinte:
> >>>>
> >>>>
> >>>> *1 - É preferível escanear as leis ou colocar os arquivos
> "digitados"?*
> >>>> Para os antigos, usamos o que já tínhamos no sistema, arquivos
> >>>> digitados, convertidos em PDF, sem a assinatura.
> >>>> Para os novos, estamos gerando o documento, imprimindo, colendo as
> >>>> assinaturas e carinbos e só após isso digitalizando (para que
> tenhamos os
> >>>> documentos assinados).
> >>>> Para as preposições, estamos usando assinaturas digitalizadas,
> portanto,
> >>>> nesse caso, usamos os digitados já convertidos em PDF
> >>>>
> >>>>
> >>>> * 2 - Qual formato de arquivo usar? PDF se forem escaneados? doc ou
> odt
> >>>> se forem digitados?*
> >>>> Estamos usando somente PDF com OCR. Exportados pelo BROffice ou
> >>>> convertidos com o unoconv (unoconv -vf pdf *.odt).
> >>>> Tomamos o cuidado de periodicamente testar o documento. É importante
> >>>> para leitura de deficientes e pesquisa. Temos um cego na Câmara que
> faz
> >>>> leitura no Jaws.
> >>>> No Scaneamento de documentos resposta, por exemplo, usamos uma
> resolução
> >>>> que equilibre qualidade e tamanho, mas temos um arquivo com 447
> páginas que
> >>>> dá 106Mb.
> >>>>
> >>>>
> >>>> *3 - Dos anos anteriores é preciso colocar só as leis ou os projetos
> de
> >>>> lei também?*
> >>>> Para os anos anteriores, estamos importando tudo!
> >>>> desde 1995
> >>>> As normas já estão no sistema, mas as proposições e os documentos
> >>>> administrativos ainda estamos fazendo... é muita coisa... 80 mil
> >>>> documentos, além dos dados...
> >>>>
> >>>> Celso Magela de Almeida
> >>>> Assessor TI
> >>>> Câmara Municipal de Poços de Caldas - MG
> >>>> www.pocosdecaldas.mg.leg.br
> >>>> 35 - 3729-3840 - 8805-7054
> >>>>
> >>>>
> >>>> *-- Por que esta mensagem é tão curta?   --  **Resposta:
> >>>> http://3frases.efetividade.net* <http://3frases.efetividade.net>*
>  --*
> >>>>
> >>>>
> >>>>
> >>>> Em 26 de junho de 2013 13:19, Rafael Soares <rafaelsoaresbr em gmail.com
> >escreveu:
> >>>>
> >>>>>   Olá pessoal da lista,
> >>>>>
> >>>>> Estamos para colocar as leis no SAPL e surgem algumas dúvidas:
> >>>>> 1 - É preferível escanear as leis ou colocar os arquivos "digitados"?
> >>>>> 2 - Qual formato de arquivo usar? PDF se forem escaneados? doc ou odt
> >>>>> se forem digitados?
> >>>>> 3 - Dos anos anteriores é preciso colocar só as leis ou os projetos
> de
> >>>>> lei também?
> >>>>>
> >>>>> Nós queríamos colocar apenas as leis e em formato doc ou odt dos anos
> >>>>> anteriores,e daqui pra frente colocar todos os documentos.
> >>>>>
> >>>>>
> >>>>> --
> >>>>> (95)3624-2267
> >>>>> (95)9144-8163
> >>>>>
> >>>>> Rafael Soares
> >>>>> Auxiliar Técnico Legislativo
> >>>>> Secretaria de Apoio Legislativo
> >>>>> Câmara Municipal de Boa Vista
> >>>>>
> >>>>> --
> >>>>> Site da Comunidade GITEC:
> >>>>> http://colab.interlegis.leg.br
> >>>>>
> >>>>> Regras de participação:
> >>>>> http://colab.interlegis.leg.br/wiki/ComoParticiparComunidade
> >>>>>
> >>>>> Para pesquisar o histórico da lista visite:
> >>>>> http://colab.interlegis.leg.br/wiki/PesquisaListas
> >>>>>
> >>>>> Para administrar ou excluir sua conta visite:
> >>>>> http://listas.interlegis.gov.br/mailman/listinfo/gitec
> >>>>>
> >>>>
> >>>>
> >>>> --
> >>>> Site da Comunidade GITEC:
> >>>> http://colab.interlegis.leg.br
> >>>>
> >>>> Regras de participação:
> >>>> http://colab.interlegis.leg.br/wiki/ComoParticiparComunidade
> >>>>
> >>>> Para pesquisar o histórico da lista visite:
> >>>> http://colab.interlegis.leg.br/wiki/PesquisaListas
> >>>>
> >>>> Para administrar ou excluir sua conta visite:
> >>>> http://listas.interlegis.gov.br/mailman/listinfo/gitec
> >>>>
> >>>
> >>>
> >>>
> >>> --
> >>> (95)3624-2267
> >>> (95)9144-8163
> >>>
> >>> Rafael Soares
> >>> Auxiliar Técnico Legislativo
> >>> Secretaria de Apoio Legislativo
> >>> Câmara Municipal de Boa Vista
> >>>
> >>> --
> >>> Site da Comunidade GITEC:
> >>> http://colab.interlegis.leg.br
> >>>
> >>> Regras de participação:
> >>> http://colab.interlegis.leg.br/wiki/ComoParticiparComunidade
> >>>
> >>> Para pesquisar o histórico da lista visite:
> >>> http://colab.interlegis.leg.br/wiki/PesquisaListas
> >>>
> >>> Para administrar ou excluir sua conta visite:
> >>> http://listas.interlegis.gov.br/mailman/listinfo/gitec
> >>>
> >>
> >>
> >>
> >> --
> >>
> >> *Juliano Rafael Bringer Nunes*
> >> julianobringer em gmail.com
> >> CM Domingos Martins-ES
> --
> Site da Comunidade GITEC:
> http://colab.interlegis.leg.br
>
> Regras de participação:
> http://colab.interlegis.leg.br/wiki/ComoParticiparComunidade
>
> Para pesquisar o histórico da lista visite:
> http://colab.interlegis.leg.br/wiki/PesquisaListas
>
> Para administrar ou excluir sua conta visite:
> http://listas.interlegis.gov.br/mailman/listinfo/gitec
>



-- 
(95)3624-2267
(95)9144-8163

Rafael Soares
Auxiliar Técnico Legislativo
Secretaria de Apoio Legislativo
Câmara Municipal de Boa Vista
-------------- Próxima Parte ----------
Um anexo em HTML foi limpo...
URL: http://listas.interlegis.gov.br/pipermail/gitec/attachments/20130628/e99780ac/attachment.htm 


Mais detalhes sobre a lista de discussão GITEC