top of page
franja-AMAT.png
icon-comienzoAMAT-04.png
icon-comienzoAMAT-03.png

Inicia

21 de febrero 2026

Horario

9:00 a 11:00 hrs.

Sábado y domingo


Modalidad

Online en vivo
Introducción al Big Data con Pyspark

Duración

20 hrs.

Precio público general

$6,699

Precio comunidad AMAT

$5,999

Comparte y multiplica el conocimiento

objetivo
del curso

Desarrollar competencias prácticas para crear, depurar y optimizar pipelines de datos con PySpark (Spark 4.x): ingestión, transformación y modelado con DataFrames/Spark SQL; escritura en formatos lakehouse; fundamentos de rendimiento y calidad; e introducción al enriquecimiento con IA (embeddings/inferencia) y evaluación básica de resultados.


A quién va dirigido

Profesionales con base en Python y SQL (Data Analysts, Data Engineers, Data Scientists y

desarrolladores que migran de pandas/SQL) que necesiten procesar datos a escala en

entornos modernos (lakehouse, notebooks y orquestación).


Recomendable: manejo básico de estructuras tipo DataFrame y consultas SQL.


Alcance

El curso cubre el flujo típico de un pipeline de datos en Spark: lectura y escritura de datos

(CSV/JSON/Parquet y, según el entorno, tablas tipo lakehouse como Delta/Iceberg),

transformaciones con DataFrames/Spark SQL, introducción a MLlib y Structured Streaming, y

patrones actuales para integrar IA en procesos batch (embeddings, clasificación y resumen)

con buenas prácticas de coste, calidad y gobernanza. No incluye administración avanzada de clústeres ni tuning profundo; se prioriza la empleabilidad.


Temario resumido


  1. Introducción a Big Data y Apache Spark

  2. DataFrames y API moderna de PySpark

  3. RDDs

  4. Lectura y escritura de datos

  5. Spark SQL para análisis y transformación

  6. Transformaciones avanzadas y UDFs (con enfoque en rendimiento)

  7. Machine Learning con PySpark (MLlib)

  8. IA aplicada a datos con PySpark (GenAI)

  9. Optimización, troubleshooting y calidad de datos

  10. Structured Streaming

Descarga el temario completo

de nuestro curso -- >

Instructor del curso

M.C. Corina Cerezo
M.C. Corina Cerezo

Maestría en Ciencias Matemáticas, UNAM IIMAS.

Especialidad en Estadística Aplicada, UNAM IIMAS.
Licenciatura en Matemáticas Aplicadas y Computación, UNAM FES ACATLÁN.

bottom of page