Skip to content
Hatcat123 edited this page Aug 8, 2019 · 5 revisions

Welcome to the ECommerceCrawlers wiki!

这是一个开源的爬虫项目,项目中的内容多为实用的技巧。同时整理借鉴了多为爬虫博客的精华。得到爬虫大牛的start······

如何参与贡献?

贡献内容包含且不仅限于:优秀的爬虫项目、对本项目中爬虫的优化、对本项目中爬虫添加详细说明或文档。

添加贡献的方法:贡献方法

爬虫指导

🙋0x01 爬虫简介

爬虫

爬虫到底违法吗?

爬虫作用

网页介绍

Roobots协议

🙋0x02爬取过程

获取数据

模拟获取数据

🙋0x03解析数据

re

beautifulsoup

xpath

yquery

css

🙋0x04 存储数据

小规模数据存储(文本)

  • txt文本
  • csv
  • excel

大规模数据存储(数据库)

  • mysql
  • redis
  • mongodb

🙋0x05 反爬措施

反爬

反反爬

🙋0x06 效率爬虫

多线程

多进程

异步协程

scrapy框架

🙋0x07 可视化处理

flask Web

django Web

tkinter

echarts

electron

Clone this wiki locally