Pandas Desde 0

3 de septiembre de 2024

Pandas es la librería principal que todo científico de datos debe dominar. Es la navaja suiza para la manipulación y organización de datos en Python, permitiendo realizar tareas complejas de limpieza y análisis de forma increíblemente eficiente.

En este tutorial (basado en este video introductorio), cubrimos los fundamentos de Pandas para que puedas empezar a transformar tus datos con confianza.

1. Estructuras de Datos Clave: Series y DataFrames

Lo primero es entender sus dos estructuras principales:
- Series: Son arreglos unidimensionales, similares a una columna en una tabla de Excel.
- DataFrames: Son estructuras bidimensionales, compuestas por múltiples Series. Es la tabla de datos con la que trabajarás la mayor parte del tiempo.

2. Importación de Datos

Un flujo de trabajo siempre comienza cargando datos. Aprenderás a importar información desde las fuentes más comunes de una manera sencilla:
- Archivos Excel (.xlsx)
- Archivos CSV (.csv)
- Bases de datos SQL

3. Indexación y Selección de Datos

Una vez cargados los datos, es crucial saber cómo acceder a ellos. Explicamos las cuatro formas principales para seleccionar columnas (., [], .loc[] y .iloc[]) y las diferentes técnicas de indexación para filtrar filas: simple, múltiple y por rango.

4. Calidad y Exploración de Datos

Antes de cualquier análisis, debemos revisar la calidad de nuestros datos. Vemos cómo usar funciones básicas como .shape, .info() y .describe() para obtener un resumen rápido. También repasamos los tipos de datos más comunes (int64, float64, object, datetime64) y cómo calcular estadísticos básicos como la media, mediana y la frecuencia con .value_counts().

Video Tutorial Completo