Quiero descargar el código fuente HTML completo de una X página web, pero curvando el enlace X devolverá código fuente HTML parcial ya que esa página web requiere desplazamiento para ver más contenido. Parece que curl no pasa de "desplazarse hacia abajo".
Hasta ahora, solo puedo hacer esto manualmente:
1) Vaya al sitio web deseado
2) Ejecute el siguiente comando en la consola del navegador para desplazarse automáticamente (cargar todos los objetos):
var scroll =setInterval(función(){ ventana.scrollBy(0,1000); }, 2000);
3) Copie el código fuente HTML completo del elemento de inspección
Entonces la pregunta es, ¿cómo puedo ejecutar curl
comando para que raspe el contenido completo de la página web (se desplaza hasta que carga todos los objetos) antes de enviarlo a la terminal para lograr el mismo resultado que los pasos mencionados anteriormente? Si no con curl
, tal vez wget
?
Respuesta aceptada:
curl
no es un navegador completo y, según mi leal saber y entender, no admite la ejecución de JavaScript. Utiliza HTTP/FTP para obtener archivos; eso es todo. Si desea realizar pruebas de funcionalidad que dependen de secuencias de comandos u otras herramientas que una solicitud HTTP simple no puede abordar, deberá buscar un conjunto de pruebas más profundo como Selenium.