O que você aprenderá_

Crie e transforme DataFrames usando a API do PySpark e consultas SQL.
Modele e infira schemas a partir de arquivos CSV para garantir a integridade dos dados.
Implemente pipelines de ETL modularizados para leitura, limpeza, enriquecimento e gravação de dados.
Trate tipos, valores nulos e padronize texto para preparar dados para análise e uso.
Aplique caching, persistência em memória e particionamento para melhorar a performance de jobs.
Armazene dados em formatos eficientes como Parquet e organize particionamento para consultas rápidas.
Utilize IA para revisar transformações, auxiliar no debugging e identificar oportunidades de otimização, reconhecendo suas limitações.

Público alvo_

Profissionais, engenheiros de dados e estudantes que lidam com grandes volumes de dados e querem aprender a construir pipelines de ETL, transformar DataFrames e otimizar processamento distribuído no Databricks.

Agnes Ruescas

Engenheira de Dados, formada em Engenharia da Computação pela FIAP e pós-graduanda em Engenharia de Dados pela Universidade Presbiteriana Mackenzie. Atua na construção de pipelines, infraestrutura em nuvem e monitoramento de ambientes de dados. Com experiência em DevOps, traz uma visão prática sobre como colocar soluções de dados em produção com qualidade e escalabilidade, conectando teoria e mercado.

Curso atualizado em 17/06/2026

Já estuda na Alura?

Comece o curso agora

Ementa

Introdução ao Spark
- Introdução
- Preparando o ambiente: Arquivos do projeto
- O problema que o Spark resolve
- Otimização de busca de passagens na Jornada Milhas
- Como o Spark funciona no Databricks
- Trailers na Luz & Cena
- Spark vs SQL-quando usar cada um
- Para saber mais: comandos mágicos no databricks
- Escolhendo a ferramenta certa para análise de contatos na Indexa
- Estrutura de um job Spark básico
- Eficiência na entrega de pacotes com Hermex Log
- Faça como eu fiz: PySpark no Databricks
- O que aprendemos?
DataFrames na prática
- Leitura de dados com PySpark
- Padronização de dados para o HomeHub
- Entendendo schema na prática
- Para saber mais: catalog e volumes no databricks
- Garantindo a integridade dos dados de agendamento na Calmaria Spas
- Primeiras transformações
- Aprimorando a recomendação de filmes no Cinetopia
- Filtros, agregações e ordenação
- Analisando a eficácia dos freelancers na plataforma Freelando
- Faça como eu fiz: PySpark e dados
- O que aprendemos?
Tratamento e enriquecimento de dados
- Limpeza e tratamento de nulos
- Garantindo a integridade dos dados de interação na CodeConnect
- Tratamento de tipos e formatos
- Tratamento de dados inconsistentes na Clínica Médica Voll
- Joins e enriquecimento de dados
- Para saber mais: chaves de join e integridade referencial
- Otimizando o inventário da Meteora com dados enriquecidos
- Explorando dados com IA
- Padronização de dados para insights mais precisos
- Faça como eu fiz: tratamento de dados
- O que aprendemos?
Organizando transformações no PySpark
- Organizando etapas de transformação
- Estruturando o fluxo de tarefas na plataforma Checklist
- Criando um fluxo reutilizável
- Gerenciando dados de ingressos no CodeChella
- Boas práticas de organização de código
- Para saber mais: usar markdown para organizar notebooks
- Melhorando a manutenção do e-commerce UseDev
- IA para revisar e melhorar transformações
- Aplicando boas práticas no Checklist
- Faça como eu fiz: organizar pipeline
- O que aprendemos?
Performance básica
- Caching e quando usar
- Otimização de consultas na plataforma Runner Circle
- Particionamento básico
- Otimizando a entrega de produtos geeks
- Leitura eficiente de arquivos
- Para saber mais: renomeação de colunas em joins no Spark
- Otimização de dados para agendamentos no Calmaria Spas
- IA para otimizar e explicar código
- Melhoria na categorização de produtos na Meteora
- Faça como eu fiz: otimizar pipeline
- O que aprendemos?
Consolidando transformações com IA
- Revisão do fluxo de transformação
- Aprimorando a experiência do usuário no CodeChella
- IA para gerar e revisar transformações de dados
- Para saber mais: idempotência em pipelines de dados
- Padronização de dados de pacientes na Clínica Médica Voll
- IA para debug-identificando e corrigindo erros
- Identificando e corrigindo erros em transações financeiras
- Limitações do uso de IA no desenvolvimento
- Avaliando sugestões de IA na Techsafe
- Conclusão-dados prontos para persistir
- Projeto final do curso
- Faça como eu fiz: pipeline Databricks
- O que aprendemos?

Descubra se esse curso é pra você! Leia as primeiras aulas

Comece essa formação agora mesmo e capacite-se para seu próximo projeto!

Conheça os planos

Escola

Data Science

Trabalhe com dados. Aprofunde seu conhecimento nas principais ferramentas de uma pessoa data scientist. Descubra as diferentes possibilidades de análise de dados, do Excel ao Python, e mergulhe em frameworks e bibliotecas, como Pandas, Scikit-Learn e Seaborn.

Conheça a escola