Necesito archivos PDF para enviar mensajes de texto para poder buscarlos de forma masiva desde la línea de comandos. ¿Hay algún convertidor para Ubuntu, OBSD o distribución similar?
Tal vez publicación relacionada, OCR con ubuntu aquí.
Respuesta aceptada:
¡Tienes muchas opciones!
pdftotext
de poppler ya se ha mencionado.
Hay un programa Haskell llamado pdf2line
que funciona bien.
ebook-convert
de calibre el programa de línea de comandos (o calibre mismo) es otra opción; puede convertir PDF a texto sin formato u otro formato de libro electrónico (RTF, ePub), en mi opinión genera mejores resultados que pdftotext, aunque es considerablemente más lento.
ebook-convert file.pdf file.txt
AbiWord puede convertir entre cualquier formato que conozca desde la línea de comandos y, al menos, opcionalmente tiene un complemento de importación de PDF:
abiword --to=txt file.pdf
Otra opción más es podofotextextract
de la biblioteca de herramientas PDF de podofo. Realmente no he probado eso.
Si combina las dos herramientas de Ghostscript, pdf2ps
y ps2ascii
, tienes otra opción más.
De hecho, puedo pensar en algunos métodos más, pero lo dejaré así por ahora. 😉