New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

ma_timon #1012

Open

engFelipeMonteiro wants to merge 2 commits into okfn-brasil:main from engFelipeMonteiro:feature/ma_timon

engFelipeMonteiro commented Oct 28, 2023 •

edited

AO ABRIR um Pull Request de um novo raspador (spider), marque com um X cada um dos items do checklist
abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.

Checklist - Novo spider

Você executou uma extração completa do spider localmente e os dados retornados estavam corretos.
Você executou uma extração por período (start_date e end_date definidos) ao menos uma vez e os dados retornados estavam corretos.
Você verificou que não existe nenhum erro nos logs (log_count/ERROR igual a zero).
Você definiu o atributo de classe start_date no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.
Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.

Descrição

<Descreva o seu Pull Request informando a issue (caso exista) que está sendo solucionada ou uma descrição do código apresentado>

engFelipeMonteiro added 2 commits

October 18, 2023 07:44


          commit inicial timon-MA

e01504a


          Merge branch 'okfn-brasil:main' into feature/ma_timon

b633033

Author

engFelipeMonteiro commented Oct 28, 2023

ocorreu apenas um erro referente ao arquivo suplementar do dia 12/05/2021, no qual realmente não existe

trevineju added the hacktoberfest-accepted label

Author

engFelipeMonteiro commented Nov 4, 2023

trevineju linked an issue

that may be closed by this pull request

Open

1 task

rennerocha reviewed

View reviewed changes

data_collection/gazette/spiders/ma_timon.py

		from gazette.spiders.base import BaseGazetteSpider


		class AmManausSpider(BaseGazetteSpider):

Member

rennerocha Jan 10, 2024

problema O nome do spider está incorreto.

rennerocha requested changes

View reviewed changes

data_collection/gazette/spiders/ma_timon.py

+              class AmManausSpider(BaseGazetteSpider):
+                  name = "ma_timon"
+                  start_date = datetime.date(2013, 3, 20)
+                  start_urls = ["https://timon.ma.gov.br/diario/pesquisa.php"]

Member

rennerocha Jan 10, 2024

sugestão Quando usamos o start_requests para realizar os primeiros requests do spider, não usamos o start_urls (que na prática é apenas uma abstração para o start_requests)

data_collection/gazette/spiders/ma_timon.py


		TERRITORY_ID = "2112209"

		def start_requests(self) -> scrapy.FormRequest:

Member

rennerocha Jan 10, 2024

sugestão No projeto não estamos utilizando tipagem de nenhum tipo. Para manter o projeto consistente, não adicionar tipos.

data_collection/gazette/spiders/ma_timon.py

+                      base_url = "https://timon.ma.gov.br/diario/pesquisa.php"
+                      params = {
+                          "TipoDiario_datas": "Executivo",  # (Legislativo, Executivo, Todos)

Member

rennerocha Jan 10, 2024

sugestão: COmentário desnecessário, já que só obtemos diários do executivo nesse spider.

data_collection/gazette/spiders/ma_timon.py

+                          method="POST",
+                          formdata=params,
+                          callback=self.parse,
+                          # cb_kwargs={"params": params},

Member

rennerocha Jan 10, 2024

problema Não deixe código comentado. Isso apenas aumenta o ruído dentro do código dificultando a leitura.

data_collection/gazette/spiders/ma_timon.py

+                  def parse(self, response) -> Gazette:
+                      trs = response.xpath(
+                          "/html/body/div/header/div[2]/header/div/div[1]/header/div[2]/div/div/table/tbody/tr"

Member

rennerocha Jan 10, 2024

problema Esse XPath está extremamente específico. O ideal é ser mais geral e mais simples, de modo a não quebrar simplesmente se um div aparecer sem quebrar todo o resto do layout.

data_collection/gazette/spiders/ma_timon.py

+                      )
+                  def parse(self, response) -> Gazette:
+                      trs = response.xpath(

Member

rennerocha Jan 10, 2024

sugestão trs não é um bom nome para essa variável, já que não temos nenhuma ideia do que isso significa. gazettes é um nome melhor.

data_collection/gazette/spiders/ma_timon.py

+                      trs = response.xpath(
+                          "/html/body/div/header/div[2]/header/div/div[1]/header/div[2]/div/div/table/tbody/tr"
+                      )
+                      for tr in trs:

Member

rennerocha Jan 10, 2024

sugestão Com nomes melhores: for gazette in gazettes:

data_collection/gazette/spiders/ma_timon.py

+                          "/html/body/div/header/div[2]/header/div/div[1]/header/div[2]/div/div/table/tbody/tr"
+                      )
+                      for tr in trs:
+                          # import pdb; pdb.set_trace()

Member

rennerocha Jan 10, 2024

problema Não deixe código comentado. Só aumenta a desorganização do código.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment