GNU/Linux >> Tutoriales Linux >  >> Linux

¿Cómo extraigo todos los enlaces externos de una página web y los guardo en un archivo?

Necesitarás 2 herramientas, lynx y awk , prueba esto:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Si necesita líneas de numeración, use el comando nl , prueba esto:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Aquí hay una mejora en la respuesta de lelton:no necesitas awk en absoluto porque lynx tiene algunas opciones útiles.

lynx -listonly -nonumbers -dump http://www.google.com.br

si quieres numeros

lynx -listonly -dump http://www.google.com.br

Linux
  1. Cómo extraer el archivo tar.gz en Linux usando la línea de comandos

  2. Cómo extraer archivos .gz y .tar.gz en Linux

  3. Cómo obtener todos los archivos que excedan cierto tamaño y eliminarlos

  4. ¿Cómo se comprime un archivo y se conserva el archivo .gz?

  5. Cómo extraer subtítulos de películas MP4 y MKV

Comprender las rutas de los archivos y cómo usarlas en Linux

Cómo obtener la fecha y hora actuales en Python

Cómo usar Sudo y el archivo Sudoers

Cómo guardar un archivo en Vim/Vi y salir del editor

Cómo guardar un archivo en Vi / Vim y salir del editor

Cómo grabar audio y guardar como archivo MP3 usando Audacity