GNU/Linux >> Tutoriales Linux >  >> Linux

¿Herramientas para extraer texto de powerpoint pptx en linux?

Si puede procesar los archivos en bash , este one-liner descomprimirá todo el texto:

unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'

Simplemente pásele el archivo pptx como $1 , y escribirá el texto en el archivo $2 . El contenido de cada diapositiva no aparecerá en el orden de presentación y no habrá etiquetas ni nada, por lo que necesitará algunas líneas más de guión y un directorio temporal para obtener una lista más legible.


Ya que tiene Abiword instalado, puede hacer un PDF primero

libreoffice --headless --convert-to pdf filename.pptx

Y luego use abiword para convertir el pdf a txt

abiword --to=txt filename.pdf 

Linux
  1. Mis 5 herramientas favoritas de administrador de sistemas de Linux

  2. gImageReader:extraiga texto de imágenes y PDF en Linux

  3. ¿Cómo extraer una porción de texto de un archivo binario en linux/bash?

  4. ¿Cómo extraer texto con OCR de un PDF en Linux?

  5. ¿Cómo mostrar ciertas líneas de un archivo de texto en Linux?

Cómo crear directorios desde un archivo de texto en Linux

Cómo quitar la contraseña de un archivo PDF en Linux

Cómo mostrar datos de un archivo de texto en Linux

Herramientas de Linux:du vs df

Cómo extraer direcciones de correo electrónico de un archivo de texto en Linux

Cómo combinar archivos PDF usando herramientas GUI y CLI en Linux