

Inicia
21 de febrero 2026
Horario
9:00 a 11:00 hrs.
Sábado y domingo
Modalidad
Online en vivo
Introducción al Big Data con Pyspark
Duración
20 hrs.
Precio público general
$6,699
Precio comunidad AMAT
$5,999
Comparte y multiplica el conocimiento
objetivo
del curso
Desarrollar competencias prácticas para crear, depurar y optimizar pipelines de datos con PySpark (Spark 4.x): ingestión, transformación y modelado con DataFrames/Spark SQL; escritura en formatos lakehouse; fundamentos de rendimiento y calidad; e introducción al enriquecimiento con IA (embeddings/inferencia) y evaluación básica de resultados.
A quién va dirigido
Profesionales con base en Python y SQL (Data Analysts, Data Engineers, Data Scientists y
desarrolladores que migran de pandas/SQL) que necesiten procesar datos a escala en
entornos modernos (lakehouse, notebooks y orquestación).
Recomendable: manejo básico de estructuras tipo DataFrame y consultas SQL.
Alcance
El curso cubre el flujo típico de un pipeline de datos en Spark: lectura y escritura de datos
(CSV/JSON/Parquet y, según el entorno, tablas tipo lakehouse como Delta/Iceberg),
transformaciones con DataFrames/Spark SQL, introducción a MLlib y Structured Streaming, y
patrones actuales para integrar IA en procesos batch (embeddings, clasificación y resumen)
con buenas prácticas de coste, calidad y gobernanza. No incluye administración avanzada de clústeres ni tuning profundo; se prioriza la empleabilidad.
Temario resumido
Introducción a Big Data y Apache Spark
DataFrames y API moderna de PySpark
RDDs
Lectura y escritura de datos
Spark SQL para análisis y transformación
Transformaciones avanzadas y UDFs (con enfoque en rendimiento)
Machine Learning con PySpark (MLlib)
IA aplicada a datos con PySpark (GenAI)
Optimización, troubleshooting y calidad de datos
Structured Streaming



