Usando Linux (Fedora, específicamente) como mi estación de trabajo principal, a veces noté extraños caracteres no imprimibles como en las siguientes capturas de pantalla (abajo a la izquierda en la primera imagen y arriba a la izquierda en la segunda imagen):
En la imagen de arriba, los caracteres no imprimibles aparecieron en gnome-terminal con bash shell. Estaba saliendo del shell interactivo de ipython por un sys.stdin.close()
piratería.
En la imagen superior, el personaje aparecía en una página web abierta en firefox, concretamente en el archivo de texto RFC 822, justo antes del índice de este RFC.
Tengo curiosidad y quiero saber cuáles son. Infiero que estos son algún tipo de representación de Unicode. ¿Tengo razón? Si es así, ¿dónde se define este tipo de notación? ¿Cómo se llama?
Respuesta aceptada:
El cuadro cuadrado suele ser para caracteres que están ausentes en su fuente actual. El código interno es un código de caracteres UTF-8 de dos bytes. Los terminales modernos son UTF8, por lo que puede obtener esto si intenta enviar algunos datos binarios a su terminal. Parece que hiciste algo realmente extraño con tu python y python generó algo de basura en la pantalla, que se interpretó como caracteres desconocidos y obtuviste algo de basura utf-8. Siempre puedes obtener basura aleatoria similar con 'cat /dev/urandom'.