Este projeto é parte do Programa de Aceleração PySpark da Capgemini Brasil.
Este projeto consiste em realizar tarefas que buscam garantir a qualidade dos dados para responder perguntas de negócio a fim de gerar relatórios de forma assertiva. As tarefas são essencialmente apontar inconsistências nos dados originais, e realizar transformações que permitam tratar as inconsistências e enriquecer os dados. Em resumo, o projeto está organizado em três módulos: (1) qualidade, (2) transformação, e (3) relatório.
Para executar os Jupyter Notebooks deste repositório é necessário ter o Spark instalado localmente e também as seguintes dependências:
pip install pyspark findspark
├── LICENSE
├── README.md
├── data <- Diretório contendo os dados brutos.
│ ├── airports.csv
│ ├── planes.csv
│ ├── flights.csv
│
├── notebooks
│ ├── 1_quality.ipynb <- Contém apontamentos de dados inconsistêntes.
│ ├── 2_transformation.ipynb <- Contem tratamentos dos dados.
│ ├── 3_report.ipynb <- Contém respostas de negócio baseadas em dados.