Introducción a Pandas - Bloque 3
En esta sección aprenderás lo básico sobre Pandas, al menos a un nivel conceptual. Hemos preparado un video explicativo para ti, donde cubriremos los siguientes temas:
- Operaciones básicas: Estadísticos
- Operaciones básicas: Apply
- Unión de datos: Concatenación
- Bonus: Gráficas en Pandas.
Operaciones básicas: Estadísticos.
Como se ha mencionado anteriormente, en cada columna normalmente se tendrá una variable, como nombres, edad, etc. y en cada fila habrá un registro de esa variable. Hay diversos estadísticos que podemos calcular para conocer más sobre la variable y como se comporta. Por ejemplo, si suponemos que una variable sigue un comportamiento normal, entonces conocer su media (promedio) $\mu$ y su desviación estándar $\sigma$ nos será de mucha utilidad. Si $\mu = 10$ y $\sigma = 3$, tenemos:

Si quieres ver como hacer una gráfica como esta con Python, visita este link. Ya obtuvimos algunos valores con .describe(), y ahora veremos algunas otras funciones útiles.
# Obtenemos la media de todas las columnas
promedios = df.mean()
# Media de una sola columna usando .loc()
promedio = df.loc[:,'Columna1'].mean()
# Podemos usar describe() en solo una sección del df
descripcion = df.iloc[0:15, [2, 4]].describe()
# También podemos obtener la desviación estándar
stds = df.std()
# Valores mínimos y máximos
maxs = df.max()
mins = df.min()
Operaciones básicas: Apply.
En muchas ocasiones, no sólo estaremos interesados en consultar o describir los datos, si no también en operarlos. Podemos aplicar funciones a los datos para obtener valores de interés. Para esto, usamos .apply().
# Aplicamos la función seno a los datos
df_seno = df.apply(np.sin)
Unión de datos: Concatenación
Podemos unir dos DataFrames. Si ambos comparten columnas, entonces será como agregar más filas al final:
Si se tienen algunas columnas diferentes, el DataFrame final tendrá columnas extra y valores faltantes (aunque también puedes elegir eliminar las columnas que no coinciden).
Para esto, usamos:
# Unimos dos DataFrames.
df_nuevo = pd.concat([df1, df2])
Bonus: Gráficas en pandas.
Podemos gráficar fácilmente los datos en un DataFrame:
# Gráfica de linea
df.plot(x = 'Columna1', y = 'Columna2')
# Gráfica de puntos
df.plot.scatter(x = 'Columna1', y = 'Columna2')