Home

Jump to bottom

Hatcat123 edited this page Aug 8, 2019 · 5 revisions

Welcome to the ECommerceCrawlers wiki!

这是一个开源的爬虫项目，项目中的内容多为实用的技巧。同时整理借鉴了多为爬虫博客的精华。得到爬虫大牛的start······

如何参与贡献？

贡献内容包含且不仅限于：优秀的爬虫项目、对本项目中爬虫的优化、对本项目中爬虫添加详细说明或文档。

添加贡献的方法：贡献方法

爬虫指导

🙋0x01 爬虫简介

爬虫到底违法吗？

爬虫作用

网页介绍

Roobots协议

🙋0x02爬取过程

获取数据

模拟获取数据

🙋0x03解析数据

re

beautifulsoup

xpath

yquery

css

🙋0x04 存储数据

小规模数据存储（文本）

txt文本
csv
excel

大规模数据存储（数据库）

mysql
redis
mongodb

🙋0x05 反爬措施

反爬

反反爬

🙋0x06 效率爬虫

多线程

多进程

异步协程

scrapy框架

🙋0x07 可视化处理

flask Web

django Web

tkinter

echarts

electron

微信公众号爬取研究

Clone this wiki locally