Recoll es una fantástica aplicación de búsqueda GUI de texto completo para Unix/Linux que admite docenas de formatos diferentes, incluido PDF. Incluso puede pasar el número de página exacto y el término de búsqueda de una consulta al visor de documentos y, por lo tanto, le permite saltar al resultado directamente desde su GUI.
Recoll también viene con una interfaz de línea de comandos viable y una interfaz de navegador web.
Existe pdfgrep, que hace exactamente lo que sugiere su nombre.
pdfgrep -R 'a pattern to search recursively from path' /some/path
Lo he usado para búsquedas simples y funcionó bien.
(Hay paquetes en Debian, Ubuntu y Fedora.)
Desde la versión 1.3.0, pdfgrep admite la búsqueda recursiva. Esta versión está disponible en Ubuntu desde Ubuntu 12.10 (Quantal).
Su distribución debe proporcionar una utilidad llamada pdftotext
:
find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;
El "-" es necesario para tener salida de pdftotext a stdout, no a archivos. El --with-filename
y --label=
options pondrá el nombre del archivo en la salida de grep. El --color
opcional la bandera es agradable y le dice a grep que genere resultados usando colores en la terminal.
(En Ubuntu, pdftotext
es proporcionado por el paquete xpdf-utils
o poppler-utils
.)
Este método, usando pdftotext
y grep
, tiene una ventaja sobre pdfgrep
si desea utilizar funciones de GNU grep
que pdfgrep
no admite Nota :pdfgrep-1.3.x admite -C
opción para imprimir línea de contexto.