Bloque 2:

- Revisando los datos.
- Selección de datos por etiqueta.
- Selección de datos por posición.

Introducción a Pandas - Bloque 2



En esta sección aprenderás lo básico sobre Pandas, al menos a un nivel conceptual. Hemos preparado un video explicativo para ti, donde cubriremos los siguientes temas:

  • Revisando los datos.
  • Selección de datos por etiqueta.
  • Selección de datos por posición.

Revisando los datos.

Para visualizar los datos de un DataFrame, tenemos dos opciones:

# Mostramos las primeras 7 filas.
df.head(n = 7)
 
# Mostramos las últimas 4 filas.
df.tail(n = 4)

Si queremos ver un DataFrame completo, lo ponemos solo en una celda.

# Para ver todo el DataFrame
df

Si el DataFrame es muy grande, no se podrá visualizar completo.

Además de consultar partes del DataFrame, también podemos consultar las etiquetas en las filas y las columnas, así como todos los valores del DataFrame.

columnas = df.columns  # Obtenemos columnas
indice = df.index  # Obtenemos filas
valores = df.values  # Obtenemos valores

Finalmente, cuando tenemos un conjunto de datos, nos será útil hacer un análisis inicial (exploratorio) de los datos. Si consideramos que en las columnas tenemos variables y en las filas distintos registros de estas, podemos obtener valores de interés con:

# Describimos en general el DataFrame
df.describe()

Obtenemos valores de interés de las variables, como el valor máximo, valor mínimo, media, etc. Pero, ¿qué pasa si tenemos las variables en las filas?. Podemos trasponer el DataFrame, de manera similar a lo que se hizo en el módulo de NumPy:

# Trasponemos un dataframe y guardamos el resultado
df_traspuesto = df.T

Selección de datos por etiqueta.

Podemos seleccionar una o varias columnas específicas de un DataFrame utilizando las etiquetas. Se crea un nuevo DataFrame con las columnas especificadas.

De manera similar, podemos seleccionar filas utilizando el índice. Podemos seleccionar una o varias filas y se crea también un nuevo DataFrame

Para seleccionar utilizando las etiquetas (nombres de filas y columnas) usamos el método loc(). Funciona como sigue:

# Seleccionamos una sola columna.
serie_columna = df.loc[:, ['Columna1']]
 
# Seleccionamos más de una columna.
df_columnas = df.loc[:, ['Columna1','Columna2']]
 
# Seleccionamos más de una fila.
df_filas = df.loc[['Indice1', 'Indice2'], :]

Es importante notar que esta selección no afecta al DataFrame original, y que además lo que no se selecciona se conserva (por ejemplo, al seleccionar una sola columna, el nuevo DataFrame conserva todas las filas).

También puedes seleccionar al mismo tiempo columnas y filas:

Finalmente, puedes obtener una única celda de dos maneras:

dato = df.loc['Fila', 'Columna']
dato = df.at['Fila', 'Columna'] # Lo mismo, pero más rápido

Selección de datos por posición.

En la sección anterior, seleccionamos dado a etiquetas, esto es, con los nombres de las filas y las columnas. Podemos hacer lo mismo pero está vez con la posición. Para esto, en lugar de loc() y at(), usamos iloc() y iat().

# Seleccionamos las primeras 2 columnas.
df_columnas = df.iloc[:, 0:1]
 
# Seleccionamos las últimas 3 filas
df_filas = df.iloc[-3:, :]
 
# Elemento unico
dato = df.iat[0, 0]

Revisa los slides:

Google Slides

Ejecuta el código:

Open In Colab