Skip to content

emersonleaojr/capgemini-aceleracao-pyspark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Capgemini - Aceleração PySpark 2022

Este projeto é parte do Programa de Aceleração PySpark da Capgemini Brasil.

Sobre

Este projeto consiste em realizar tarefas que buscam garantir a qualidade dos dados para responder perguntas de negócio a fim de gerar relatórios de forma assertiva. As tarefas são essencialmente apontar inconsistências nos dados originais, e realizar transformações que permitam tratar as inconsistências e enriquecer os dados. Em resumo, o projeto está organizado em três módulos: (1) qualidade, (2) transformação, e (3) relatório.

Dependências

Para executar os Jupyter Notebooks deste repositório é necessário ter o Spark instalado localmente e também as seguintes dependências:

pip install pyspark findspark

Estrutura de diretórios

├── LICENSE
├── README.md
├── data                    <- Diretório contendo os dados brutos.
│   ├── airports.csv
│   ├── planes.csv
│   ├── flights.csv
│
├── notebooks
│   ├── 1_quality.ipynb          <- Contém apontamentos de dados inconsistêntes.
│   ├── 2_transformation.ipynb   <- Contem tratamentos dos dados.
│   ├── 3_report.ipynb           <- Contém respostas de negócio baseadas em dados.