Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Guarapuava-PR #711

Open
talitaburbulhan opened this issue Oct 9, 2022 · 3 comments · May be fixed by #1069
Open

Guarapuava-PR #711

talitaburbulhan opened this issue Oct 9, 2022 · 3 comments · May be fixed by #1069
Labels
spider Adiciona ou atualiza um robô raspador

Comments

@talitaburbulhan
Copy link

According to the census, the city of Guarapuava has its gazettes here:
https://www.guarapuava.pr.gov.br/boletins-oficiais/

I would like to work on this issue.

@trevineju trevineju added the spider Adiciona ou atualiza um robô raspador label Oct 10, 2022
@trevineju
Copy link
Member

estou deixando a issue disponível para contribuição

@almeidadm
Copy link
Contributor

Olá! Quero contribuir nessa issue

@almeidadm
Copy link
Contributor

almeidadm commented Oct 30, 2023

Olá!
Relato aqui algumas dificuldades em automatizar a construção desse spider, e também apresentar propostas na implementação da spider.
Dessa forma, pretendo deixar mais claro as motivações da construção do código.

>Boletins em duas partes
Alguns boletins apresentam a descrição "Parte I" e "Parte II".
image
fonte: https://www.guarapuava.pr.gov.br/boletins-oficiais/2015-2/

Nesse caso, aqueles arquivos com a descrição "Parte I" serão tratados como ediçao regular, enquanto aqueles com "Parte II" serão tratados como edição extra.

>Erros no HTML da página
image
fonte: https://www.guarapuava.pr.gov.br/boletins-oficiais/2020-2/

Especificamente na consulta dos boletins de 2020, existe um item listado em branco. Ele é acessado pelo mesmo seletor que os boletins. Para que esse caso não retorne erro, acredito que a melhor solução é ignorar os itens selecionados com atributos href e text vazios.

>Boletim sem data não possuem arquivos disponíveis
image
fonte: https://www.guarapuava.pr.gov.br/boletins-oficiais/2011-2/

Algumas edições de boletim não estão disponíveis. Nesse caso, elas apresentam o número da edição, mas não apresentam data da edição. Foram encontrados no total 11 boletins indisponíveis. Nesse caso, acredito que ignorar os boletins que não apresentam data garante que a coleta não gere erros.

Buscarei deixar explicito onde implementei as soluções pra cada um desses casos.

@almeidadm almeidadm linked a pull request Jan 23, 2024 that will close this issue
5 tasks
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
spider Adiciona ou atualiza um robô raspador
Projects
Status: em revisão
Development

Successfully merging a pull request may close this issue.

3 participants