quarta-feira, 26 de junho de 2013

Como extrair o texto de arquivos .ppt e .doc

Não sei vocês, mas eu fico irritado quando me mandam uma mensagem com um arquivo anexo (uma apresentação em .ppt, ou um documentos do Word .doc) e nesse anexo tem uma mensagem que poderia perfeitamente ser colocada diretamente no e-mail. A mensagem que tem 2Mb poderia muito bem ser de apenas 100Kb.

Outra situação que me irrita são aquelas apresentações em Power Point cheias de conteúdo. Parece que o apresentador simplesmente copiou a apostila do Word e colocou na Apresentação. 

Em ambos os casos, extrair o texto desses documentos geralmente é um trabalhão. Seleciona um trecho do texto, botão direito, copiar, muda para o editor de texto, botão direito, colar, volta para a apresentação, seleciona outro trecho, botão direito, copiar, volta para o editor, botão direito, colar, e assim sucessivamente até completar as oitenta telas da apresentação.

Mas quem usa Linux tem uma ótima opção instalando o pacote Catdoc

$ apt-get install catdoc

Para extrair o texto de uma apresentação, use o comando:

# catppt apresentação.ppt > apresentação.txt

Para extrair o texto de um arquivo .doc, use:

# catdoc documentos.doc > documento.txt

Agora temos dois arquivos com o que realmente interessa: apresentação.txt e documento.txt