Hice un raspado de sitio web para un proyecto de conversión. Me gustaría hacer algunas estadísticas sobre los tipos de archivos allí, por ejemplo, 400 .html
archivos, 100 .gif
, etc. ¿Cuál es una manera fácil de hacer esto? Tiene que ser recursivo.
Editar: Con la secuencia de comandos que publicó maxschelpzig, tengo algunos problemas debido a la arquitectura del sitio que raspé. Algunos de los archivos tienen el nombre *.php?blah=blah&foo=bar
con varios argumentos, por lo que los cuenta a todos como únicos. Entonces, la solución debe considerar *.php*
ser todos del mismo tipo, por así decirlo.
Respuesta aceptada:
Podrías usar find
y uniq
para esto, por ejemplo:
$ find . -type f | sed 's/.*.//' | sort | uniq -c
16 avi
29 jpg
136 mp3
3 mp4
Explicación del comando
find
imprime recursivamente todos los nombres de archivosed
elimina de cada nombre de archivo el prefijo hasta la extensión del archivouniq
asume entrada ordenada-c
hace el conteo (como un histograma).