Python爬虫的流程是怎样的?
三个流程的技术实现是什么?
Python爬虫的流程
1、获取网页。
2、解析网页,提取数据。
3、存储数据
三个流程的技术实现
1、获取网页:requests、urllib、selenium
进阶技术:多线程多进程抓取、登录抓取、突破IP封禁、使用服务器抓取
2、解析网页:re、BeautifulSoup、lxml
进阶技术:解决中文乱码
3、存储数据:txt文件、csv文件、MySQL数据库、MongoDB数据库
进阶技术:Scrapy爬虫框架、分布式爬虫