GNU/Linux >> Tutoriales Linux >  >> Linux

¿HTML a texto sin formato SIN FORMATO?

Usa w3m -dump <page.html> .

Le dará la representación de texto del archivo html.

Desde la página del manual:

-dump  dump formatted page into stdout

Aunque dice formatted , la salida es solo texto sin formato.


html2text es un script de Python que convierte una página de HTML en texto equivalente estructurado por Markdown. html2text se puede descargar y ejecutar en cualquier sistema operativo que tenga Python instalado. El programa html2text está en los repositorios de muchas distribuciones de Linux y se puede ejecutar desde la línea de comandos de esta manera:

html2text -style pretty input.html  

Este comando no solo convierte el archivo html original en texto, sino que también hace un buen trabajo al hacer que la salida de texto sin formato sea fácil de leer. Los encabezados parecen encabezados, las listas parecen listas, etc.

Si tiene problemas con la conversión automática de tablas de páginas web a texto sin formato, puede hacerlo fácilmente con un editor de rebajas moderno como Typora o las aplicaciones Mark Text GUI para Windows/Mac/Linux. Comparando estas dos aplicaciones, Mark Text es mejor que Typora para capturar con precisión todo en una página web y Typora tiene un editor más fácil de usar, así que uso ambas aplicaciones. Utilizo Mark Text como capturador de páginas web y luego copio/pego el texto de rebajas que capturé en Typora y uso Typora para editarlo.


Como mencionó Gombai Sándor, en un comentario a la respuesta de NZD:

lynx -dump -nolist -nomargins

Cuando se ejecuta desde la línea de comandos con una URL, escribe la salida en stdout. Esto parece funcionar muy bien. -nomargins es posible que no se admita si solo se tiene acceso a una versión anterior de lynx (es decir, Lynx versión 2.8.5rel.5 (29 de octubre de 2005) en un UNIX antiguo).

El resultado parece bastante libre de marcas y enlaces, con algunas posibles excepciones (la siguiente lista puede no ser típica o exhaustiva):

  • Parece que hay espacios en blanco adicionales en los datos tabulares y, al menos en algunos casos, parece que, si bien el espacio en blanco suele ser útil para extraer los datos tabulares, en ocasiones es inconsistente y complica el análisis.
  • Si bien los enlaces no se descargan, puede aparecer texto visible. Por ejemplo, las referencias a las notas al pie pueden mostrarse como asteriscos o, en un wiki, los clics pueden mostrarse como texto sin formato equivalente (sin la URL subyacente).
  • Algunas referencias pueden expandirse y mostrar el texto alternativo.
  • Las listas desordenadas se vuelcan con asteriscos y sangría.
  • Vuelco de las listas de pedidos con números y sangría.
  • Los campos de entrada pueden aparecer como guiones bajos

Linux
  1. python convierte documentos de microsoft office a texto sin formato en linux

  2. ¿Cómo convertir la salida de shell de Linux a HTML?

  3. ¿Cómo podemos almacenar una contraseña que no sea texto sin formato?

  4. ¿Cómo envío texto en color a una terminal Linux?

  5. obtener fuente HTML o texto enriquecido del portapapeles X

Haga ping a varios servidores y muestre la salida en la interfaz de usuario de texto superior

Cómo guardar la salida del comando de Linux en una imagen o un archivo de texto

Bash scripting:cómo escribir datos en archivos de texto

¿Buscar texto en la salida del terminal?

Bash Scripting:cómo generar y formatear texto en Linux Shell

Los mejores editores de texto de Linux:los 20 editores de texto y HTML revisados