GNU/Linux >> Tutoriales Linux >  >> Linux

¿Qué método de archivo es mejor para comprimir archivos de texto en Linux?

La última actualización de maximumcompression.com es junio de 2011 (respuesta actualizada en octubre de 2015)
Por lo tanto, este sitio web no menciona
el actual campeón del compresor de texto en todo el mundo :

      cmix

Competencias/Puntos de referencia:

  • enwiki6
    18,2 % de compresión del archivo de texto de 1 MB enwik6
  • Calgary
    17,6 % de compresión de los 14 archivos del corpus de Calgary (archivo tar de 3GB)
  • Premio Hutter
    15,7 % de compresión del archivo de texto de 100 MB enwik8
    (pero cmix no es el ganador porque requiere demasiada memoria RAM, más de 20 GB)
  • Evaluación comparativa de compresión de código abierto de Silesia
    15,7 % de compresión del 202 MB del corpus de Silesia
  • Evaluación comparativa de compresión de texto grande
    12,4 % de compresión del archivo de texto de 1 GB enwik9

Detalles:
Byron Knoll está desarrollando activamente cmix como software libre (GPL) desde 2013 basado en el libro Compresión de datos explicada por Matt Mahoney. Matt Mahoney también mantiene algunos de los puntos de referencia anteriores y propone ZPAQ (WP), un archivador incremental de línea de comandos.

Si prefieres una herramienta más estándar (que requiera menos RAM) te recomiendo:

      lrzip

lrzip es una evolución de rzip de Con Kolivas.
lrzip significa dos nombres:Long Range ZIP y Lzma RZIP .
lrzip suele ser mejor que xz (otra popular herramienta de compresión).
Alexander Riccio también recomienda lrzip .

Mi favorito es:

      zpaq

El "experto en archivadores" , Matt Mahoney, ha trabajado intensamente en algoritmos PAQ durante diez años y ofrece el mejor compromiso entre los recursos de CPU/memoria y el nivel de compresión.

Sin embargo, el último zpaq la versión no suele estar empaquetada/disponible en distribuciones recientes :-(
Siempre lo compilo desde las fuentes cuando tengo una máquina nueva y necesito un muy buen compresor:https://github.com/zpaq/zpaq

clone https://github.com/zpaq/zpaq
cd zpaq
g++ -O3 -march=native -Dunix zpaq.cpp libzpaq.cpp -pthread -o zpaq

Normalmente, bz2 tiene una mejor relación de compresión, combinada con mejores funciones de recuperación.

OTOH, gz es más rápido.

Se dice que xz es incluso mejor que bz2, pero no conozco el comportamiento del tiempo.


Tal vez podría echar un vistazo a esos puntos de referencia, especialmente la parte que prueba la compresión de archivos de registro.


Linux
  1. Use anacron para un mejor crontab

  2. Cómo unir dos archivos de texto en Linux

  3. Guía completa para usar AsciiDoc en Linux

  4. Linux vs Windows:qué sistema operativo es mejor para juegos de PC

  5. ¿Qué software de compresión de archivos para Linux ofrece la mayor reducción de tamaño?

Comprimir y archivar archivos y directorios

Ahorre espacio comprimiendo archivos y carpetas en Linux

Encuentra texto en archivos en Linux usando grep

Configuración de Dropbox para un servidor en la nube de Linux

Ubuntu vs Arch:¿Qué distribución de Linux es mejor?

Hardware de terminal de texto (para Linux)