GNU/Linux >> Tutoriales Linux >  >> Linux

¿Cómo buscar contenido de múltiples archivos pdf?

Recoll es una fantástica aplicación de búsqueda GUI de texto completo para Unix/Linux que admite docenas de formatos diferentes, incluido PDF. Incluso puede pasar el número de página exacto y el término de búsqueda de una consulta al visor de documentos y, por lo tanto, le permite saltar al resultado directamente desde su GUI.

Recoll también viene con una interfaz de línea de comandos viable y una interfaz de navegador web.


Existe pdfgrep, que hace exactamente lo que sugiere su nombre.

pdfgrep -R 'a pattern to search recursively from path' /some/path

Lo he usado para búsquedas simples y funcionó bien.

(Hay paquetes en Debian, Ubuntu y Fedora.)

Desde la versión 1.3.0, pdfgrep admite la búsqueda recursiva. Esta versión está disponible en Ubuntu desde Ubuntu 12.10 (Quantal).


Su distribución debe proporcionar una utilidad llamada pdftotext :

find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;

El "-" es necesario para tener salida de pdftotext a stdout, no a archivos. El --with-filename y --label= options pondrá el nombre del archivo en la salida de grep. El --color opcional la bandera es agradable y le dice a grep que genere resultados usando colores en la terminal.

(En Ubuntu, pdftotext es proporcionado por el paquete xpdf-utils o poppler-utils .)

Este método, usando pdftotext y grep , tiene una ventaja sobre pdfgrep si desea utilizar funciones de GNU grep que pdfgrep no admite Nota :pdfgrep-1.3.x admite -C opción para imprimir línea de contexto.


Linux
  1. Cómo ver el contenido de los archivos comprimidos en Linux

  2. Cómo usar el comando Grep para buscar texto en archivos

  3. ¿Cómo encontrar archivos en Ubuntu?

  4. Cómo comprimir varios archivos en Linux

  5. ¿Cómo cambiar la extensión de varios archivos?

Cómo excluir en Grep

Cómo realizar una búsqueda de patrones en archivos usando Grep

Cómo editar varios archivos usando Vim Editor

Cómo convertir por lotes archivos PDF en Linux

Cómo combinar varios archivos PDF en un solo PDF en Linux

Cómo realizar una búsqueda Grep en todos los archivos y en todos los directorios