Si puede procesar los archivos en bash
, este one-liner descomprimirá todo el texto:
unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'
Simplemente pásele el archivo pptx como $1
, y escribirá el texto en el archivo $2
. El contenido de cada diapositiva no aparecerá en el orden de presentación y no habrá etiquetas ni nada, por lo que necesitará algunas líneas más de guión y un directorio temporal para obtener una lista más legible.
Ya que tiene Abiword instalado, puede hacer un PDF primero
libreoffice --headless --convert-to pdf filename.pptx
Y luego use abiword para convertir el pdf a txt
abiword --to=txt filename.pdf