En primer lugar, definitivamente no desea abrir el archivo en un editor (es demasiado grande para editarlo de esa manera).
En cambio, si solo desea identificar si el archivo contiene algo más que A
, T
, C
y G
, puedes hacerlo con
grep '[^ATCG]' filename
Esto devolvería todas las líneas que contengan algo más que esos cuatro caracteres.
Si desea eliminar estos caracteres del archivo, puede hacerlo con
tr -c -d 'ATCG\n' <filename >newfilename
(si esta es la forma correcta de "corregir" el archivo o no, no lo sé)
Esto eliminaría todos los caracteres del archivo que no sean uno de los cuatro y también conservaría las líneas nuevas (\n
). El archivo editado se escribiría en newfilename
.
Si se trata de un error sistemático que ha agregado algo al archivo, esto podría corregirse con sed
o awk
, pero aún no sabemos cómo se ven sus datos.
Si tienes el archivo abierto en vi
o vim
, luego el comando
/[^ATCG]
encontrará el siguiente carácter en el búfer de edición que no sea un A
, T
, C
o G
.
Y :%s/[^ATCG]//g
los eliminará a todos.