GNU/Linux >> Tutoriales Linux >  >> Linux

¿Por qué uniq cuenta palabras idénticas como diferentes?

Intenta ordenar primero:

cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt

O use "sort -u" que también elimina los duplicados. Ver aquí.


El tamaño del archivo no tiene nada que ver con lo que estás viendo. Desde la página man de uniq(1):

Nota:'uniq' no detecta líneas repetidas a menos que sean adyacentes. Es posible que desee ordenar la entrada primero o usar 'sort -u' sin 'uniq'. Además, las comparaciones respetan las reglas especificadas por 'LC_COLLATE'.`

Así que ejecuta uniq en

a
b
a

devolverá:

a
b
a

Linux
  1. ¿Por qué un nuevo directorio tiene un recuento de enlaces duros de 2 antes de que se le agregue algo?

  2. ¿Usando Uniq en texto Unicode?

  3. ¿Por qué el hombre imprime "dame dame dame" a las 00:30?

  4. Linux:¿por qué no funciona Setuid?

  5. ¿Por qué `exit &` no funciona?

Comando WC de Linux para contar el número de líneas, palabras y caracteres

¿Por qué la expansión variable sin $ funciona en expresiones?

¿Por qué el tiempo de Unix comienza en 1970-01-01?

¿Por qué Ctrl + flecha izquierda no salta palabras?

¿Por qué top muestra una cantidad diferente de núcleos que cpuinfo?

¿Por qué find -mtime no funciona como se esperaba en archivos con diferentes zonas horarias?