6 de nov. de 2012

Ubuntu - Extraindo imagens de arquivos PDF, usando uma simples linha de comando

Baixei um visualizador de quadrinhos para meu PSP, mas infelizmente (ou felizmente, pelo motivo desta postagem) ele não oferece suporte para arquivos em PDF.

Então, procurei uma extrator de imagens de arquivos PDF e encontrei uma série de programas que modificavam, extraiam textos e visualizavam arquivos no formato PDF. Mas, nenhum que oferecesse simplicidade na extração das imagens de dentro destes arquivos em PDF. Alguns desses, como o PDFEditor e o Gimp, até oferecem a opção de extração de arquivo-por-arquivo, mas, imaginem extrair 70, 80... 100 páginas ou mais uma-a-uma de um PDF!

Foi quando encontrei o artigo do Alexandre Cunha, que me disse que eu provavelmente já tinha a ferramenta necessária no próprio sistema, o poppler-utils!

Se você não o tiver instalado, poderá fazê-lo simplesmente com:


Após a instalação deste pacote, basta criar um diretório qualquer gravar seu arquivo PDF dentro, abrir um terminal dentro deste diretório e rodar o seguinte comando:


Pronto! O comando "desmontará" seu arquivo PDF em arquivos texto no formato html, extraíndo todos as imagens pra dentro do diretório:


Um comentário: