GNU/Linux >> Tutoriales Linux >  >> Linux

¿Hay algún tipo de convertidor de PDF a texto?

Necesito archivos PDF para enviar mensajes de texto para poder buscarlos de forma masiva desde la línea de comandos. ¿Hay algún convertidor para Ubuntu, OBSD o distribución similar?

Tal vez publicación relacionada, OCR con ubuntu aquí.

Respuesta aceptada:

¡Tienes muchas opciones!

pdftotext de poppler ya se ha mencionado.

Hay un programa Haskell llamado pdf2line que funciona bien.

ebook-convert de calibre el programa de línea de comandos (o calibre mismo) es otra opción; puede convertir PDF a texto sin formato u otro formato de libro electrónico (RTF, ePub), en mi opinión genera mejores resultados que pdftotext, aunque es considerablemente más lento.

ebook-convert file.pdf file.txt

AbiWord puede convertir entre cualquier formato que conozca desde la línea de comandos y, al menos, opcionalmente tiene un complemento de importación de PDF:

abiword --to=txt file.pdf

Otra opción más es podofotextextract de la biblioteca de herramientas PDF de podofo. Realmente no he probado eso.

Si combina las dos herramientas de Ghostscript, pdf2ps y ps2ascii , tienes otra opción más.

De hecho, puedo pensar en algunos métodos más, pero lo dejaré así por ahora. 😉


Linux
  1. ¿Usando Uniq en texto Unicode?

  2. ¿Modificar un correo entrante de texto/sin formato a texto/html?

  3. gImageReader:extraiga texto de imágenes y PDF en Linux

  4. Combinar archivos pdf con clasificación numérica

  5. ¿Cómo extraer texto con OCR de un PDF en Linux?

Awk one-liners y scripts para ayudarlo a ordenar archivos de texto

Caja de herramientas Sysadmin:cómo usar el comando ordenar para procesar texto en Linux

Editor de texto Geany:una especie de genio

¿Visor de PDF con texto seleccionable?

¿Cómo puedo rasterizar todo el texto en un PDF?

Ordenar archivos de texto con varias líneas como una fila