Introducción a Pandas - Bloque 3

En esta sección aprenderás lo básico sobre Pandas, al menos a un nivel conceptual. Hemos preparado un video explicativo para ti, donde cubriremos los siguientes temas:

Operaciones básicas: Estadísticos
Operaciones básicas: Apply
Unión de datos: Concatenación
Bonus: Gráficas en Pandas.

Operaciones básicas: Estadísticos.

Como se ha mencionado anteriormente, en cada columna normalmente se tendrá una variable, como nombres, edad, etc. y en cada fila habrá un registro de esa variable. Hay diversos estadísticos que podemos calcular para conocer más sobre la variable y como se comporta. Por ejemplo, si suponemos que una variable sigue un comportamiento normal, entonces conocer su media (promedio) $\mu$ y su desviación estándar $\sigma$ nos será de mucha utilidad. Si $\mu = 10$ y $\sigma = 3$, tenemos:

Si quieres ver como hacer una gráfica como esta con Python, visita este link. Ya obtuvimos algunos valores con .describe(), y ahora veremos algunas otras funciones útiles.

# Obtenemos la media de todas las columnas
promedios = df.mean()
 
# Media de una sola columna usando .loc()
promedio = df.loc[:,'Columna1'].mean()
 
# Podemos usar describe() en solo una sección del df
descripcion = df.iloc[0:15, [2, 4]].describe()
 
# También podemos obtener la desviación estándar
stds = df.std()
 
# Valores mínimos y máximos
maxs = df.max()
mins = df.min()

Operaciones básicas: Apply.

En muchas ocasiones, no sólo estaremos interesados en consultar o describir los datos, si no también en operarlos. Podemos aplicar funciones a los datos para obtener valores de interés. Para esto, usamos .apply().

# Aplicamos la función seno a los datos
df_seno = df.apply(np.sin)

Unión de datos: Concatenación

Podemos unir dos DataFrames. Si ambos comparten columnas, entonces será como agregar más filas al final:

Si se tienen algunas columnas diferentes, el DataFrame final tendrá columnas extra y valores faltantes (aunque también puedes elegir eliminar las columnas que no coinciden).

Para esto, usamos:

# Unimos dos DataFrames.
df_nuevo = pd.concat([df1, df2])

Bonus: Gráficas en pandas.

Podemos gráficar fácilmente los datos en un DataFrame:

# Gráfica de linea
df.plot(x = 'Columna1', y = 'Columna2')

# Gráfica de puntos
df.plot.scatter(x = 'Columna1', y = 'Columna2')

Revisa los slides:

Ejecuta el código:

◀︎ Anterior 📝 Realizar prueba del módulo Siguiente ▶︎