grep
es uno de los comandos más útiles y potentes de Linux para el procesamiento de texto. grep
busca en uno o más archivos de entrada líneas que coincidan con una expresión regular y escribe cada línea coincidente en la salida estándar.
En este artículo, vamos a explorar los conceptos básicos de cómo usar expresiones regulares en la versión GNU de grep
, que está disponible de forma predeterminada en la mayoría de los sistemas operativos Linux.
Grep Expresión Regular #
Una expresión regular o regex es un patrón que coincide con un conjunto de cadenas. Un patrón consta de operadores, construye caracteres literales y metacaracteres, que tienen un significado especial. GNU grep
admite tres sintaxis de expresiones regulares, básica, extendida y compatible con Perl.
En su forma más simple, cuando no se proporciona ningún tipo de expresión regular, grep
interpretar patrones de búsqueda como expresiones regulares básicas. Para interpretar el patrón como una expresión regular extendida, use -E
(o --extended-regexp
) opción.
En la implementación de GNU de grep
no hay diferencia funcional entre las sintaxis de expresión regular básica y extendida. La única diferencia es que en las expresiones regulares básicas los metacaracteres ?
, +
, {
, |
, (
y )
se interpretan como caracteres literales. Para mantener los significados especiales de los metacaracteres cuando se usan expresiones regulares básicas, los caracteres se deben escapar con una barra invertida (\<
). Explicaremos el significado de estos y otros metacaracteres más adelante.
En general, siempre debe encerrar la expresión regular entre comillas simples para evitar la interpretación y expansión de los metacaracteres por parte del shell.
Coincidencias literales #
El uso más básico de grep
El comando es buscar un carácter literal o una serie de caracteres en un archivo. Por ejemplo, para mostrar todas las líneas que contienen la cadena "bash" en el /etc/passwd
archivo, ejecutaría el siguiente comando:
grep bash /etc/passwd
La salida debería verse así:
root:x:0:0:root:/root:/bin/bash
linuxize:x:1000:1000:linuxize:/home/linuxize:/bin/bash
En este ejemplo, la cadena "bash" es una expresión regular básica que consta de cuatro caracteres literales. Esto le dice a grep
para buscar una cadena que tenga una "b" seguida inmediatamente por "a", "s" y "h".
Por defecto, el grep
El comando distingue entre mayúsculas y minúsculas. Esto significa que los caracteres en mayúsculas y minúsculas se tratan como distintos.
Para ignorar mayúsculas y minúsculas al buscar, use -i
opción (o --ignore-case
).
Es importante notar que grep
busca el patrón de búsqueda como una cadena, no como una palabra. Entonces, si estaba buscando "gnu", grep
también imprimirá las líneas donde "gnu" está incrustado en palabras más grandes, como "cygnus" o "magnum".
Si la cadena de búsqueda incluye espacios, debe encerrarlo entre comillas simples o dobles:
grep "Gnome Display Manager" /etc/passwd
Anclaje #
Los anclas son metacaracteres que le permiten especificar en qué parte de la línea se debe encontrar la coincidencia.
El ^
(símbolo de intercalación) coincide con la cadena vacía al principio de una línea. En el siguiente ejemplo, la cadena "linux" coincidirá solo si aparece al principio de una línea.
grep '^linux' file.txt
El $
(dólar) coincide con la cadena vacía al comienzo de una línea. Para encontrar una línea que termine con la cadena "linux", usaría:
grep 'linux$' file.txt
También puede construir una expresión regular utilizando ambos anclajes. Por ejemplo, para buscar líneas que contengan solo "linux", ejecute:
grep '^linux$' file.txt
Otro ejemplo útil es el ^$
patrón que coincide con todas las líneas vacías.
Número de carácter único coincidente
El .
El símbolo (punto) es un metacarácter que coincide con cualquier carácter único. Por ejemplo, para hacer coincidir cualquier cosa que comience con "kan", luego tenga dos caracteres y termine con la cadena "roo", usaría el siguiente patrón:
grep 'kan..roo' file.txt
Expresiones de paréntesis #
Las expresiones entre corchetes permiten hacer coincidir un grupo de caracteres encerrándolos entre corchetes []
. Por ejemplo, busque las líneas que contienen "aceptar" o "acento", podría usar la siguiente expresión:
grep 'acce[np]t' file.txt
Si el primer carácter dentro de los corchetes es el símbolo de intercalación ^
, entonces coincide con cualquier carácter único que no esté entre corchetes. El siguiente patrón coincidirá con cualquier combinación de cadenas que comience con "co" seguida de cualquier letra excepto "l" seguida de "la", como "coca", "cobalt" y así sucesivamente, pero no coincidirá con las líneas que contienen "cola ”:
grep 'co[^l]a' file.txt
En lugar de colocar los caracteres uno por uno, puede especificar un rango de caracteres dentro de los corchetes. Una expresión de rango se construye especificando el primer y último carácter del rango separados por un guión. Por ejemplo, [a-a]
es equivalente a [abcde]
y [1-3]
es equivalente a [123]
.
La siguiente expresión coincide con cada línea que comienza con una letra mayúscula:
grep '^[A-Z]' file.txt
grep
también admiten clases predefinidas de caracteres que están encerrados entre corchetes. La siguiente tabla muestra algunas de las clases de caracteres más comunes:
Cuantificador | Clases de personajes |
---|---|
[:alnum:] | Caracteres alfanuméricos. |
[:alpha:] | Caracteres alfabéticos. |
[:blank:] | Espacio y tabulador. |
[:digit:] | Dígitos. |
[:lower:] | Letras minúsculas. |
[:upper:] | Letras mayúsculas. |
Cuantificador | Descripción |
---|---|
* | Hacer coincidir el elemento anterior cero o más veces. |
? | Hacer coincidir el elemento anterior cero o una vez. |
+ | Haz coincidir el elemento anterior una o más veces. |
{n} | Coincide exactamente con el elemento anterior n veces. |
{n,} | Coincide con el elemento anterior al menos n veces. |
{,m} | Coincide con el elemento anterior como máximo m veces. |
{n,m} | Hacer coincidir el elemento anterior de n a m veces. |
Expresión | Descripción |
---|---|
\b | Hacer coincidir un límite de palabra. |
\< | Hacer coincidir una cadena vacía al principio de una palabra. |
\> | Hacer coincidir una cadena vacía al final de una palabra. |
\w | Hacer coincidir una palabra. |
\s | Hacer coincidir un espacio. |