Python爬虫教程(一)：爬虫

天真的柏拉图

已于 2022-04-02 09:25:46 修改

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： Python爬虫文章标签： python 爬虫

于 2022-04-02 09:20:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IUUUUUUU/article/details/123912651

1. 爬虫相关概念

1.1 定义

一段根据url爬取网页获取有用信息的程序，使用程序模拟浏览器向服务器发送请求获取响应信息

1.2 核心

爬取网页：爬取整个网页，包含网页所有内容
解析数据：将网页中的数据进行解析

1.3 难点

爬虫与反爬虫之间的博弈

1.4 用途

数据分析/人工数据集
社交软件冷启动
舆情监控
竞争对手监控

1.5 分类

通用爬虫(无需掌握)：爬取的数据大多是无用的无法根据用户的需求精准获取数据

几乎所有的搜索引擎都是通用爬虫

一般过程为：访问网页—>爬取数据—>存储数据—>处理数据—>提供检索服务

本应该根据PageRank算法(参考网站流量、点击率等指标)进行排名，现在却通过竞价进行排名
聚焦爬虫(需要掌握)：根据需求实现爬虫程序抓取需要的数据

设计思路：
- 确定爬取的网页——如何获取url
- 模拟浏览器通过HTTP协议访问url，获取服务器返回的html代码——如何访问
- 解析html字符串(根据一定规则提取需要的数据)——如何解析

1.6 反爬手段

User-Agent
User-Agent(用户代理)，简称UA，是一个特殊的字符串头，使得服务器能够识别客户使用的操作系统及其版本、CPU类型、浏览器及其版本、浏览器渲染引擎、浏

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。