Usa w3m -dump <page.html>
.
Le dará la representación de texto del archivo html.
Desde la página del manual:
-dump dump formatted page into stdout
Aunque dice formatted
, la salida es solo texto sin formato.
html2text es un script de Python que convierte una página de HTML en texto equivalente estructurado por Markdown. html2text se puede descargar y ejecutar en cualquier sistema operativo que tenga Python instalado. El programa html2text está en los repositorios de muchas distribuciones de Linux y se puede ejecutar desde la línea de comandos de esta manera:
html2text -style pretty input.html
Este comando no solo convierte el archivo html original en texto, sino que también hace un buen trabajo al hacer que la salida de texto sin formato sea fácil de leer. Los encabezados parecen encabezados, las listas parecen listas, etc.
Si tiene problemas con la conversión automática de tablas de páginas web a texto sin formato, puede hacerlo fácilmente con un editor de rebajas moderno como Typora o las aplicaciones Mark Text GUI para Windows/Mac/Linux. Comparando estas dos aplicaciones, Mark Text es mejor que Typora para capturar con precisión todo en una página web y Typora tiene un editor más fácil de usar, así que uso ambas aplicaciones. Utilizo Mark Text como capturador de páginas web y luego copio/pego el texto de rebajas que capturé en Typora y uso Typora para editarlo.
Como mencionó Gombai Sándor, en un comentario a la respuesta de NZD:
lynx -dump -nolist -nomargins
Cuando se ejecuta desde la línea de comandos con una URL, escribe la salida en stdout. Esto parece funcionar muy bien. -nomargins
es posible que no se admita si solo se tiene acceso a una versión anterior de lynx
(es decir, Lynx versión 2.8.5rel.5 (29 de octubre de 2005) en un UNIX antiguo).
El resultado parece bastante libre de marcas y enlaces, con algunas posibles excepciones (la siguiente lista puede no ser típica o exhaustiva):
- Parece que hay espacios en blanco adicionales en los datos tabulares y, al menos en algunos casos, parece que, si bien el espacio en blanco suele ser útil para extraer los datos tabulares, en ocasiones es inconsistente y complica el análisis.
- Si bien los enlaces no se descargan, puede aparecer texto visible. Por ejemplo, las referencias a las notas al pie pueden mostrarse como asteriscos o, en un wiki, los clics pueden mostrarse como texto sin formato equivalente (sin la URL subyacente).
- Algunas referencias pueden expandirse y mostrar el texto alternativo.
- Las listas desordenadas se vuelcan con asteriscos y sangría.
- Vuelco de las listas de pedidos con números y sangría.
- Los campos de entrada pueden aparecer como guiones bajos