Bloque 1:

- Introducción a Pandas.
- Dónde encontrar datos.
- Carga de datos de diferentes formatos.
- Series y DataFrames.

Introducción a Pandas - Bloque 1



En esta sección aprenderás lo básico sobre Pandas, al menos a un nivel conceptual. Hemos preparado un video explicativo para ti, donde cubriremos los siguientes temas:

  • Introducción a Pandas.
  • Dónde encontrar datos.
  • Carga de datos de diferentes formatos.
  • Series y DataFrames.

¿Qué es Pandas?

Pandas es una librería de Python con la que puedes trabajar con datos tabulados. Es muy útil para limpiar, analizar y procesar datos.

De acuerdo con Wikipedia: “(…) es una biblioteca de software escrita como extensión de NumPy para manipulación y análisis de datos para el lenguaje de programación Python. En particular, ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.”

Objetos en Pandas.

En Pandas, los objetos con los que trabajaremos son dos: DataFrames y Series. Un DataFrame lo puedes entender como un tabla (como las de Excel), y una Series como una tabla con una sola columna. Más adelante veremos mas a detalle a estos dos objetos que son los objetos base de Pandas.

¿Dónde encontrar datos?

En internet existen repositorios de datos abiertos de los que puedes descargar datasets, jugar con ellos, analizarlos y aprender. Algunos ejemplos:

  1. Kaggle: Sitio web para prácticar y aprender sobre ciencia de datos y machine learning. Además de los datasets que hay en el sitio, ¡puedes correr notebooks como este!. Los dataset están por lo general explicados y listos para usarse.
  2. UC Irvine Machine Learning Repository: En este repositorio hay más de 500 datasets de diversos temas. Usualmente son útiles para practicar y aprender sobre machine learning.
  3. Datos Abiertos de México: En este sitio web se encuentra una recopilación de datos abiertos de diversas instituciones, así como del gobierno federal y gobiernos estatales.
  4. INEGI: Datos obtenidos de los diversos censos que realiza el Instituto Nacional de Estadística y Geografía.

Incluso puedes encontrar datos abiertos de ciencia:

  1. CERN Opendata: Más de dos petabytes de datos de física de partículas.
  2. NASA Open Data Portal: Datos aeroespaciales, de ciencias de la tierra… ¡Muchos datos!

Esta no es una lista exhaustiva, hay muchos más recursos disponibles con los que puedes trabajar.

Carga de datos de diferentes formatos.

Con Pandas puedes cargar datos de archivos externos, los cuales pueden estar en internet o en tu computadora (quizá bajaste alguna de las páginas de arriba 👀). Por lo general se utilizan datos tabulados (tablas) en Pandas, y los tipos de archivos desde los que puedes cargar datos son varios. Los más comunes son archivos con valores separados por comas o CSV, por sus siglas en inglés, con extensión .csv y archivos de Excel con extensión .xlsx.

# Para importar un archivo csv
datos = pd.read_csv('nombre_del_archivo.csv')
 
# Para importar un archivo de excel
datos = pd.read_excel('nombre_del_archivo.xlsx') 

Hay más tipos de archivos válidos, como .html o .json y se importan al igual que los ejemplos anteriores. De la misma manera en la que cargamos datos, podemos guardar un DataFrame o una Series en un archivo con extensión válida:

# Guardamos los datos en un archivo CSV
datos.to_csv('datos_guardados.csv')

Series y DataFrames.

Como ya mencionamos, una Series se puede entender como una tabla con una sola columna, aunque también puedes verla como una lista donde cada elemento tiene una etiqueta, un índice el cual por default es un número entero de la posición del elemento.

Los DataFrames son más complejos que las Series, ya que ahora tenemos una tabla con varias columnas. En este caso, tendremos índices para cada fila y también etiquetas para las columnas. Los valores default son también enteros que indican la posición.


Revisa los slides:

Google Slides

Ejecuta el código:

Open In Colab