GNU/Linux >> Tutoriales Linux >  >> Linux

¡Cómo instalar Anaconda en Linux para la ciencia de datos gana!

En los últimos cinco años, la industria de la ciencia de datos se ha disparado y los trabajos en ciencia de datos son abundantes y bien pagados. Pero, iniciarse en la ciencia de datos puede ser difícil. Uno de los mayores obstáculos es tener las herramientas y el entorno correctos configurados en su computadora. Bueno, no a menos que vea cómo instalar Anaconda y cómo usarlo para la ciencia de datos.

Anaconda es una poderosa plataforma de ciencia de datos y una excelente manera de comenzar con el análisis, el modelado y la visualización de datos. Y en este tutorial, seguirá los pasos para instalar Anaconda en Ubuntu Linux y algunas tareas básicas de manipulación y visualización de datos.

¿Listo? ¡Siga leyendo para aprender cómo comenzar con la ciencia de datos usando Anaconda en Linux!

Requisitos

Este tutorial será una demostración práctica. Si desea continuar, asegúrese de tener una máquina Ubuntu Linux con al menos 4 GB de RAM y 5 GB de espacio libre en disco.

El espacio mínimo en disco necesario para instalar Anaconda es de 5 GB, pero necesitará más espacio libre para realizar un trabajo serio de ciencia de datos. Trabajar en ciencia de datos requiere mucho espacio en disco porque tiene que descargar y almacenar conjuntos de datos. Tener 50 GB de espacio libre en su máquina sería suficiente para trabajar en ciencia de datos.

Descarga del script Bash del instalador de Anaconda

Ya sea que sea nuevo en la ciencia de datos o un profesional experimentado, Anaconda es la plataforma perfecta para sus necesidades de modelado y análisis de datos. Pero primero, deberá instalar Anaconda en su máquina.

Para instalar Anaconda, deberá descargar el script Bash del instalador del sitio web de Anaconda. En el momento de escribir este artículo, la última versión es Anaconda3-2021.11-Linux-x86_64.sh.

1. Abra su terminal y ejecute los siguientes comandos para descargar y guardar el script Bash del instalador de Anaconda en su /tmp directorio.

cd /tmp
curl -O https://repo.anaconda.com/archive/Anaconda3-2021.11-Linux-x86_64.sh

2. A continuación, ejecute el siguiente comando sha256sum para generar un hash criptográfico SHA-256 para el archivo descargado (Anaconda3-2021.11-Linux-x86_64.sh). Este comando le brinda una manera de verificar la integridad del script Bash del instalador usando MD5 o SHA256.

La descarga de archivos de Internet siempre conlleva el riesgo de que los archivos se manipulen o dañen en tránsito. Verificar la integridad del script Bash del instalador es crucial para asegurarse de haber recibido una copia idéntica del archivo que Anaconda publicó originalmente.

sha256sum Anaconda3-2021.11-Linux-x86_64.sh

Anote los hashes del archivo para compararlos con los disponibles en el sitio web de Anaconda (paso tres).

3. Por último, abra su navegador web favorito y navegue hasta la lista de hashes de Anaconda.

Busque el nombre del script Bash del instalador que descargó (Anaconda3-2021.11-Linux-x86_64.sh). Una vez encontrados, asegúrese de que los valores hash que anotó en el paso dos coincidan con los que aparecen en el sitio web de Anaconda.

Si los valores hash no coinciden, repita los pasos del uno al tres y vuelva a comprobar los valores hash.

Instalación de Anaconda en Ubuntu

Ahora que descargó el script Bash y verificó su integridad, está listo para instalar Anaconda. El script Bash del instalador incluye todos los comandos de instalación necesarios, por lo que todo lo que necesita hacer es ejecutarlo.

1. Ejecute el siguiente comando para instalar Anaconda en su máquina. Asegúrese de reemplazar Anaconda3-2021.11-Linux-x86_64.sh con el nombre del archivo de script Bash que descargó.

Tenga en cuenta que debe incluir el comando bash independientemente de su shell.

bash Anaconda3-2021.11-Linux-x86_64.sh

2. Después de ejecutar el script Bash, presione Entrar para ver el Acuerdo de licencia de usuario final (EULA) cuando se le solicite. Siga presionando Intro para leer hasta el final del EULA.

3. Después de leer el EULA, escriba sí y presione Entrar para aceptar los términos de la licencia, como se muestra a continuación.

4. Ahora, presione Entrar para aceptar la ubicación de instalación predeterminada de Anaconda. Puede elegir cualquier ubicación que desee, pero se recomienda elegir un directorio dentro de su carpeta de inicio para un acceso más fácil.

5. Ingrese yes y presione Enter cuando se le solicite inicializar Anaconda3. Este comando conda init garantiza que el comando conda esté disponible desde su terminal cada vez que inicie sesión en su máquina.

6. A continuación, ejecute el siguiente comando para aplicar los cambios a su entorno de shell.

source ~/.bashrc

Su shell actual cambia a la base, lo que indica que Anaconda3 se instaló correctamente, como se muestra a continuación. base es el entorno de shell predeterminado en Anaconda que proporciona todas las bibliotecas y herramientas básicas de Python necesarias para la ciencia de datos.

El entorno de shell básico incluye potentes herramientas de línea de comandos, como conda, indicador de anaconda y Jupyter Notebook.

7. Ejecute el siguiente comando conda list para verificar que Anaconda esté correctamente instalado.

conda list 

Verá una lista de todos los paquetes y versiones, como se muestra a continuación, que se incluyen actualmente como parte de su entorno base.

8. Por último, ejecute el siguiente comando de desactivación de conda para cerrar la sesión de anaconda.

conda deactivate

Tenga en cuenta que los comandos conda activate y conda deactivate solo funcionan en conda 4.6 y versiones posteriores. Para versiones de conda anteriores a la 4.6, ejecute los siguientes comandos en su lugar:source activate o source deactivate

Configuración de sus entornos Anaconda

Acaba de instalar Anaconda en su máquina, pero debe configurar entornos antes de poder usar Anaconda para la ciencia de datos. Los entornos son ubicaciones separadas en su sistema de archivos donde puede instalar diferentes versiones de Python y paquetes.

Esta configuración es útil si necesita trabajar con varios proyectos que requieren diferentes versiones de paquetes o de Python.

Desde este punto a lo largo del tutorial, puede nombrar entornos y archivos como desee, ya que son arbitrarios.

Para configurar sus entornos de Anaconda:

1. Ejecute el comando conda create a continuación para crear un nuevo entorno llamado my_env ejecutando Python3 (python=3).

conda create --name my_env python=3

2. A continuación, ingrese y y presione Entrar cuando se le solicite elegir si continuar o no con la creación del entorno.

3. Una vez que se haya creado el entorno, ejecute el siguiente comando de activación de conda para activar su nuevo entorno (my_env).

conda activate my_env

4. Ahora, ejecute el siguiente conda create Comando para instalar todas las bibliotecas y herramientas principales de Python que se enumeran a continuación necesarias para la ciencia de datos para su data_env entorno:

  • scipy – Una popular biblioteca de Python para computación científica para realizar tareas de análisis de datos.

numpy – Una biblioteca para trabajar con arreglos multidimensionales.

  • pandas – Una biblioteca útil para el análisis de datos, ya que proporciona una forma potente e intuitiva de trabajar con datos tabulares.
  • matplotlib – Una biblioteca de gráficos utilizada para crear visualizaciones sofisticadas de sus datos.
 conda create --name data_env python=3 numpy scipy pandas matplotlib

5. Ingrese y y presione Entrar para continuar creando el entorno data_env.

6. Finalmente, ejecute el siguiente comando conda env para verificar la lista de entornos disponibles.

conda env list

Verá todos los entornos que se han creado en su máquina, incluido el entorno base, como se muestra a continuación.

Ejecutar su primer programa de Python

Ahora tiene su entorno en ejecución, y eso es genial. Pero el medio ambiente no está haciendo mucho en este momento a menos que escribas un programa en él. En este tutorial, usará su entorno para escribir y ejecutar un programa de Python de calculadora de edad simple.

Para escribir un programa de Python con su entorno:

1. Ejecute el siguiente comando para activar su entorno (my_env).

conda activate my_env

2. A continuación, ejecute el siguiente comando para abrir el intérprete de Python. El intérprete de Python es un entorno REPL (bucle de lectura, evaluación e impresión) que le permite escribir y ejecutar código de Python de forma interactiva.

python3

3. Copie y pegue el siguiente código en el intérprete y presione Entrar.

Este bloque de código calcula e imprime la edad al morir de una persona nacida en 1900 y disminuida en 1970.

birth_year = 1900
death_year = 1970
age_at_death = death_year - birth_year
print(age_at_death)

A continuación, puede ver la salida 70 impresa en la terminal, lo que indica que la persona tenía 70 años cuando murió.

4. Ahora, ejecute el comando exit() a continuación para salir del intérprete de Python

exit()

5. Por último, ejecute el siguiente comando para cerrar y finalizar la sesión del entorno my_env.

conda deactivate

Creación de su primer proyecto de ciencia de datos

Hasta ahora, ha visto cómo ejecutar un programa Python simple utilizando su entorno. Pero esta vez, intensifique su juego de ciencia de datos creando su primer proyecto. Un proyecto de ciencia de datos generalmente implica recopilar, explorar, analizar y visualizar datos para abordar una necesidad o problema comercial específico.

Para construir su primer proyecto de ciencia de datos, represente sus datos con un diagrama de dispersión claro (X, Y) utilizando la biblioteca matplotlib:

1. Ejecute el siguiente comando de activación de conda para activar un entorno llamado data_env.

conda activate data_env

2. A continuación, cree un archivo de Python llamado scatter.py utilizando su editor de texto preferido.

nano scatter.py

3. Complete el siguiente código en su scatter.py archivo, guarde los cambios y cierre el editor. Este bloque de código crea dos matrices, cada una con 12 elementos, y traza y muestra puntos de datos.

# Imports matplotlib.pyplot to visualize the plot
import matplotlib.pyplot as plt
# Contains an array of numbers (cars ages) to x.
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
# Contains an array of nunbers (cars speeds) to y.
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
# Plot the data points
plt.scatter(x, y)
# Show the plotted data points
plt.show()

4. Finalmente, ejecute el siguiente comando para ejecutar el archivo de Python (scatter.py), que muestra el gráfico en la pantalla.

python scatter.py

Verá los puntos de datos trazados en un gráfico como se muestra a continuación. La relación entre la edad y la velocidad de los automóviles es clara y puede ayudar a informar las decisiones sobre cómo mantener o mejorar el rendimiento de una flota de automóviles.

La relación aparente es que, a medida que aumenta la edad de un automóvil, disminuye la velocidad a la que puede viajar.

También puede notar una ligera correlación positiva entre la edad y la velocidad:a medida que aumenta la edad de los automóviles, sus velocidades también tienden a aumentar ligeramente. Esta relación puede ser útil para los fabricantes de automóviles que desean optimizar el rendimiento y la eficiencia de sus vehículos.

¡Ahí tienes! Ha instalado con éxito Anaconda en Linux y ha creado su primer proyecto de ciencia de datos.

Eliminación de entornos

Los entornos consumen su almacenamiento, especialmente si mantiene los que ya no sirven para ningún propósito. ¿Por qué no eliminarlos? El conda env remove funcionará siempre que sepa el nombre del entorno que desea eliminar.

Ejecute el siguiente comando para enumerar todos los entornos.

conda env list

Anote el nombre del entorno que planea eliminar.

Ahora, ejecute el siguiente comando para remove el entorno llamado (-n ) data_env . Reemplazar data_env con el nombre de su entorno de destino para eliminar.

conda env remove -n data_env

Alternativamente, puede ejecutar el siguiente comando especificando la ruta (-p ) donde se encuentra el entorno (/root/anaconda3/envs/data_env ).

conda env remove -p /root/anaconda3/envs/data_env

Conclusión

En este tutorial, aprendió a instalar Anaconda en Ubuntu Linux y a crear un entorno de Python 3 para la ciencia de datos. Escribiste tu primer programa y usaste matplotlib para trazar tus datos.

En este punto, ¡ya está listo para comenzar su viaje como científico de datos con estas habilidades!

¿Por qué no comenzar su viaje de ciencia de datos con Anaconda Navigator? ¡Empieza a explorar, analizar y visualizar datos para tus propios proyectos!


Linux
  1. Cómo instalar Linux en 3 pasos

  2. Cómo instalar Python en Linux

  3. Cómo instalar Java en Linux

  4. Cómo instalar NodeJS en Linux

  5. como instalar anaconda/miniconda en Linux silenciosamente

Cómo instalar Splunk en Debian 11 o 10 Linux

Cómo instalar Anaconda en Rocky Linux 8

Cómo instalar Anaconda en Linux Mint 20

Cómo instalar el subsistema de Windows para Linux

Cómo instalar Anaconda Python en Rocky Linux 8

Cómo instalar Anaconda Python en Rocky Linux 8