GNU/Linux >> Tutoriales Linux >  >> Ubuntu

Introducción a Python Pandas

Introducción

Pandas es una biblioteca Python de código abierto que se utiliza principalmente para el análisis de datos. La colección de herramientas del paquete Pandas es un recurso esencial para preparar, transformar y agregar datos en Python.

La biblioteca de Pandas se basa en el paquete NumPy y es compatible con una amplia gama de módulos existentes. La adición de dos nuevas estructuras de datos tabulares, Series y marcos de datos , permite a los usuarios utilizar funciones similares a las de las bases de datos relacionales o las hojas de cálculo.

Este artículo le muestra cómo instalar Python Pandas e introduce comandos básicos de Pandas.

Cómo instalar Python Pandas

La popularidad de Python ha resultado en la creación de numerosas distribuciones y paquetes. Los administradores de paquetes son herramientas eficientes que se utilizan para automatizar el proceso de instalación, administrar actualizaciones, configurar y eliminar paquetes y dependencias de Python.

Nota: Versión de Python 3.6.1 o posterior es un requisito previo para la instalación de Pandas. Utilice nuestra guía detallada para verificar su versión actual de Python. Si no tiene la versión de Python requerida, puede usar una de estas guías detalladas:

  • Cómo instalar Python 3.8 en Ubuntu 18.04 o Ubuntu 20.04.
  • Cómo instalar Python 3 en Windows 10
  • Cómo instalar la última versión de Python 3 en Centos 7

Instalar Pandas con Anaconda

El paquete Anaconda ya contiene la biblioteca Pandas. Verifique la versión actual de Pandas escribiendo el siguiente comando en su terminal:

conda list pandas

El resultado confirma la versión y compilación de Pandas.

Si Pandas no está presente en su sistema, también puede usar el conda herramienta para instalar Pandas:

conda install pandas

Anaconda administra toda la transacción mediante la instalación de una colección de módulos y dependencias.

Instalar Pandas con pip

El repositorio de software PyPI se administra regularmente y mantiene las últimas versiones del software basado en Python. Instale pip, el administrador de paquetes de PyPI, y utilícelo para implementar pandas de Python:

pip3 install pandas

El proceso de descarga e instalación tarda unos minutos en completarse.

Instalar Pandas en Linux

La instalación de una solución preempaquetada puede no ser siempre la opción preferida. Puede instalar Pandas en cualquier distribución de Linux usando el mismo método que con otros módulos. Por ejemplo, use el siguiente comando para instalar el módulo básico de Pandas en Ubuntu 20.04:

sudo apt install python3-pandas -y 

Tenga en cuenta que los paquetes en los repositorios de Linux a menudo no contienen la última versión disponible.

Uso de Python Pandas

La flexibilidad de Python le permite usar Pandas en una amplia variedad de marcos. Esto incluye editores de código básicos de Python, comandos emitidos desde el shell de Python de su terminal, entornos interactivos como Spyder, PyCharm, Atom y muchos otros. Los ejemplos prácticos y los comandos de este tutorial se presentan con Jupyter Notebook.

Importación de la biblioteca Python Pandas

Para analizar y trabajar con datos, debe importar la biblioteca de Pandas en su entorno de Python. Inicie una sesión de Python e importe Pandas usando los siguientes comandos:

import pandas as pd
import numpy as np

Se considera una buena práctica importar pandas como pd y el numpy biblioteca científica como np . Esta acción te permite usar pd o np al escribir comandos. De lo contrario, sería necesario ingresar el nombre completo del módulo cada vez.

Es fundamental importar la biblioteca de Pandas cada vez que inicie un nuevo entorno de Python.

Series y DataFrames

Python Pandas utiliza Series y DataFrames para estructurar datos y prepararlos para diversas acciones analíticas. Estas dos estructuras de datos son la columna vertebral de la versatilidad de Pandas. Los usuarios que ya están familiarizados con las bases de datos relacionales comprenden de forma innata los conceptos y comandos básicos de Pandas.

Serie Pandas

Las series representan un objeto dentro de la biblioteca Pandas. Dan estructura a conjuntos de datos simples y unidimensionales emparejando cada elemento de datos con una etiqueta única. Una serie consta de dos matrices:la principal matriz que contiene los datos y el índice matriz que contiene las etiquetas emparejadas.

Utilice el siguiente ejemplo para crear una Serie básica. En este ejemplo, la Serie estructura los números de venta de automóviles indexados por fabricante:

s = pd.Series([10.8,10.7,10.3,7.4,0.25], 
      index = ['VW','Toyota','Renault','KIA','Tesla')

Después de ejecutar el comando, escriba s para ver la serie que acaba de crear. El resultado enumera los fabricantes según el orden en que se ingresaron.

Puede realizar un conjunto de funciones complejas y variadas en Series, incluidas funciones matemáticas, manipulación de datos y operaciones aritméticas entre Series. Una lista completa de parámetros, atributos y métodos de Pandas está disponible en la página oficial de Pandas.

Marcos de datos de Pandas

El DataFrame introduce una nueva dimensión a la estructura de datos de la Serie. Además de la matriz de índices, un conjunto de columnas estrictamente organizadas proporciona a los marcos de datos una estructura similar a una tabla. Cada columna puede almacenar un tipo de datos diferente. Intente crear manualmente un dict objeto llamado 'datos' con los mismos datos de ventas de automóviles:

data = { 'Company' : ['VW','Toyota','Renault','KIA','Tesla'],
'Cars Sold (millions)' : [10.8,10.7,10.3,7.4,0.25],
'Best Selling Model' : ['Golf','RAV4','Clio','Forte','Model 3']}

Pase el objeto 'datos' a pd.DataFrame() constructor:

frame = pd.DataFrame(data)

Use el nombre del DataFrame, frame , para ejecutar el objeto:

frame

El DataFrame resultante formatea los valores en filas y columnas.

La estructura de DataFrame le permite seleccionar y filtrar valores en función de columnas y filas, asignar nuevos valores y transponer los datos. Al igual que con Series, la página oficial de Pandas proporciona una lista completa de parámetros, atributos y métodos de DataFrame.

Leer y escribir con pandas

A través de Series y DataFrames, Pandas presenta un conjunto de funciones que permiten a los usuarios importar archivos de texto, formatos binarios complejos e información almacenada en bases de datos. La sintaxis para leer y escribir datos en Pandas es sencilla:

  • pd.read_filetype = (filename or path) – importar datos de otros formatos a Pandas.
  • df.to_filetype = (filename or path) – exportar datos de Pandas a otros formatos.

Los formatos más comunes incluyen CSV , XLXS , JSON , HTML, y SQL .

En este ejemplo, la nz_population El archivo CSV contiene los datos de población de Nueva Zelanda de los 10 años anteriores. Importe el archivo CSV usando la biblioteca de Pandas con el siguiente comando:

pop_df = pd.read_csv('nz_population.csv')

Los usuarios son libres de definir el nombre del DataFrame (pop_df ). Escriba el nombre del DataFrame recién creado para mostrar la matriz de datos:

pop_df

Comandos comunes de Pandas

Una vez que importa un archivo a la biblioteca de Pandas, puede usar un conjunto de comandos sencillos para explorar y manipular los conjuntos de datos.

Comandos básicos del marco de datos

Ingrese el siguiente comando para recuperar una descripción general del pop_df DataFrame del ejemplo anterior:

pop_df.info()

El resultado proporciona el número de entradas, el nombre de cada columna, los tipos de datos y el tamaño del archivo.

Usa el pop_df.head() comando para mostrar las primeras 5 filas del DataFrame.

Escriba pop_df.tail() comando para mostrar las últimas 5 filas del pop_df Marco de datos.

Seleccione filas y columnas específicas usando sus nombres y el iloc atributo. Seleccione una sola columna utilizando su nombre entre corchetes:

pop_df['population']

El iloc El atributo le permite recuperar un subconjunto de filas y columnas. Las filas se especifican delante de la coma y las columnas después de la coma. El siguiente comando recupera datos de la fila 6 a la 16 y de la columna 2 a la 4:

pop_df.iloc [6:15,2:4]

Los dos puntos : indica a Pandas que muestre todo el subconjunto especificado.

Expresiones condicionales

Puede seleccionar filas en función de una expresión condicional. La condición se define entre corchetes [] . El siguiente comando filtra las filas en las que el valor de la columna "porcentaje" es superior al 0,50 por ciento.

pop_df [pop_df['percent'] > 0.50]

Agregación de datos

Use funciones para calcular valores de una matriz completa y producir un solo resultado. Corchetes [] también permite a los usuarios seleccionar una sola columna y convertirla en un DataFrame. El siguiente comando crea una nueva total_migration DataFrame de la migración columna en pop_df :

total_migration = pop_df['migration']

Verifique los datos revisando las primeras 5 filas:

total_migration.head()

Calcule la migración neta a Nueva Zelanda con df.sum() función:

total_migration = total_migration.sum()
total_migration

La salida produce un único resultado que representa la suma total de los valores en total_migration Marco de datos.

Algunas de las funciones de agregación más comunes incluyen:

  • df.mean() – Calcular la media de los valores.
  • df.median() – Calcular la mediana de los valores.
  • df.describe() – Proporciona un resumen estadístico.
  • df.min()/df.max() – Los valores mínimo y máximo en el conjunto de datos.
  • df.idxmin()/df.idxmax() – Los valores de índice mínimo y máximo.

Estas funciones esenciales representan solo una pequeña fracción de las acciones y operaciones disponibles que ofrece Pandas.


Ubuntu
  1. Función Python abs()

  2. Cómo instalar Python 3.9 en Ubuntu 18.04

  3. ¿Cómo actualizar Python de 3.4.3 a 3.5?

  4. ¿Instalación de Python 3.3.2?

  5. Introducción a Docker

Cómo instalar Python 3.8 en Ubuntu 18.04

Cómo instalar Python 3.9 en Ubuntu 20.04

Instale Python 3.7 en Ubuntu 18.04 LTS

Instale Python 3.9 en Ubuntu 20.04 LTS

Cómo instalar Python 3.11 en Ubuntu 20.04

Cómo instalar Python 3.6 en Ubuntu 16.04, Ubuntu 16.10, 17.04

    Leer Escribir
    pd.read_csv (‘nombre de archivo.csv’) df.to_csv (‘nombre de archivo o ruta’)
    pd.read_excel (‘nombre de archivo.xlsx’) df.to_excel (‘nombre de archivo o ruta’)
    pd.read_json (‘nombre de archivo.json’) df.to_json ('nombre de archivo o ruta')
    pd.read_html (‘nombre de archivo.htm’) df.to_html (‘nombre de archivo o ruta’)
    pd.read_sql (‘nombre de tabla’) df.to_sql ('Nombre de la base de datos')