La última actualización de maximumcompression.com es junio de 2011 (respuesta actualizada en octubre de 2015)
Por lo tanto, este sitio web no menciona
el actual campeón del compresor de texto en todo el mundo :
cmix
Competencias/Puntos de referencia:
- enwiki6
18,2 % de compresión del archivo de texto de 1 MB enwik6 - Calgary
17,6 % de compresión de los 14 archivos del corpus de Calgary (archivo tar de 3GB) - Premio Hutter
15,7 % de compresión del archivo de texto de 100 MB enwik8
(perocmix
no es el ganador porque requiere demasiada memoria RAM, más de 20 GB) - Evaluación comparativa de compresión de código abierto de Silesia
15,7 % de compresión del 202 MB del corpus de Silesia - Evaluación comparativa de compresión de texto grande
12,4 % de compresión del archivo de texto de 1 GB enwik9
Detalles:
Byron Knoll está desarrollando activamente cmix
como software libre (GPL) desde 2013 basado en el libro Compresión de datos explicada por Matt Mahoney. Matt Mahoney también mantiene algunos de los puntos de referencia anteriores y propone ZPAQ (WP), un archivador incremental de línea de comandos.
Si prefieres una herramienta más estándar (que requiera menos RAM) te recomiendo:
lrzip
lrzip
es una evolución de rzip
de Con Kolivas.
lrzip
significa dos nombres:Long Range ZIP y Lzma RZIP .
lrzip
suele ser mejor que xz
(otra popular herramienta de compresión).
Alexander Riccio también recomienda lrzip
.
Mi favorito es:
zpaq
El "experto en archivadores" , Matt Mahoney, ha trabajado intensamente en algoritmos PAQ durante diez años y ofrece el mejor compromiso entre los recursos de CPU/memoria y el nivel de compresión.
Sin embargo, el último zpaq
la versión no suele estar empaquetada/disponible en distribuciones recientes :-(
Siempre lo compilo desde las fuentes cuando tengo una máquina nueva y necesito un muy buen compresor:https://github.com/zpaq/zpaq
clone https://github.com/zpaq/zpaq
cd zpaq
g++ -O3 -march=native -Dunix zpaq.cpp libzpaq.cpp -pthread -o zpaq
Normalmente, bz2 tiene una mejor relación de compresión, combinada con mejores funciones de recuperación.
OTOH, gz es más rápido.
Se dice que xz es incluso mejor que bz2, pero no conozco el comportamiento del tiempo.
Tal vez podría echar un vistazo a esos puntos de referencia, especialmente la parte que prueba la compresión de archivos de registro.