学python爬虫与实践_他是只猫的博客-CSDN博客

学python爬虫与实践

文章平均质量分 71

基础部分：爬虫基本原理、Requests库、正则表达式、解析BeautifulSoup4、PyQuery详解、xpath、parse、Selenium详解；实战部分：50个爬虫实例，包括代理的使用（Cookies的维护），反爬虫机制、数据库的使用；框架和分布式爬虫：Scrapy框架与分布式。

文章数：12 文章阅读量：5632 文章收藏量：251

作者: 他是只猫

没有特别幸运，那么就请先特别努力，别因为懒惰而失败，还矫情地将原因归于自己倒霉。只有特别努力，才能显得毫不费力。

展开

专栏收录文章

如何入门python爬虫

网络爬虫，其实叫作网络数据采集更容易理解。就是通过编程向网络服务器请求数据（HTML表单），然后解析HTML，提取出自己想要的数据。根据url获取HTML数据解析HTML，获取目标信息存储数据重复第一步，直到拿到所有想要的数据这会涉及到数据库、网络服务器、HTTP协议、HTML、数据科学、网络安全、图像处理等非常多的内容。但对于初学者而言，并不需要掌握这么多。

原创 2023-07-30 14:10:39 · 1124 阅读 · 0 评论
python爬虫基础（一）---0基础也能看得懂

@python爬虫基础（一）—0基础也能看到得懂前言爬虫介绍：什么是网络爬虫？网络爬虫就是可以很方便地获取到网络中的数据。为什么要使用爬虫获取数据？在大数据时代效率和成本是非常重要的，使用爬虫就可以非常高效便捷地获取到数据。爬虫的不同作用：采集资源；使用爬虫程序实现投票或点赞的效果；可以编写程序抢票；可以抢购商品等等。爬虫的分类：根据被爬取的网站数量区分爬虫类型，可分为通用网络爬虫和聚焦网络爬虫通用网络爬虫：在全网范围内爬取网页信息，如百度、GOOGLE搜索引擎。全网爬取数

原创 2021-05-31 18:57:56 · 345 阅读 · 0 评论
python爬虫基础（二）BeautifulSoup库的使用---0基础也能看得懂

python爬虫基础（二）—0基础也能看得懂前言 BeautifulSoup库 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库。它能够通过你换的转换器实现惯用的文档导航、查找、修改文档的方式。在python爬虫开发中，我们主要用到的是Beautiful Soup的查找提取功能，修改文档的方式很少用到。 BeautifulSoup(label, ‘html.parser’)传入两个参数，第一个参数表示要提取的对象，第2个参数是html的标志。常见函数： pretti

原创 2021-06-02 11:44:55 · 479 阅读 · 0 评论
python爬虫基础---正则表达式

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例

原创 2021-06-14 17:18:55 · 248 阅读 · 1 评论
python爬虫基础---pyquery解析

前言 pyquery：一个类似 jquery 的 Python 库 pyqueryAPI类似于jquery。pyquery 使用 lxml 进行快速 xml 和 html 操作。可以借助pip3 install pyquery 或者 conda install pyquery 安装一、pyquery 初始化，我们在解析HTML文档时，首先需要将其初始化一个pyquery对象；初始化方法，直接传入字符串、传入URL、传入文件名等等。 1.传入字符串 html = ''' <div>

原创 2021-06-21 12:23:05 · 313 阅读 · 0 评论
python爬虫---scrapy入门（一个实例来了解一下scrapy爬虫流程）

scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛；框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常方便。库安装： pip install scrapy conda install scrapy 以scrapy的教程网站上的一个例子为例，我们来实例化一下scrapy爬虫。 #scrapy教程 https://docs.scrapy.org/en/latest/intro/examp

原创 2021-06-21 20:01:02 · 377 阅读 · 0 评论
python爬虫---MongoDB保存爬取的数据

python爬虫 scrapy爬虫博客文章，本文章主要是补充爬虫数据的保存。 https://blog.csdn.net/suwuzs/article/details/118091474 一、对items进行处理二、使用步骤 1.引入库代码如下（示例）： import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwa

原创 2021-06-22 00:32:05 · 331 阅读 · 0 评论
爬虫正能量---爬虫实例---爬取某鱼视频封面图片

前言爬虫基本思路：一、数据来源分析 1、开发者工具（抓包分析）>>>F12/鼠标右键点击检查 2、通过视频播放页面打开开发者工具选择network 进行抓包分析（可以找视频的播放地址） 3、找视频播放地址来源：复制播放地址中一小段参数在开发者工具中进行搜索 4、通过对比两个 url地址区别：知道是根据视频的ID 来发生改变的 5、可以通过视频的列表页获取每个视频的ID 爬虫的基本思路是一样的，如果对爬虫基本思路有不清楚的可以参考我的python爬虫和数据处理的博客专栏。一、p

原创 2021-07-04 17:13:23 · 349 阅读 · 0 评论
爬虫实例---采集微博数据，抓取最新消息

前言目标网站 https://m.weibo.cn/u/3591355593?uid=3591355593&t=0&luicode=10000011&lfid=100103type%3D1%26q%3D%E5%90%B4%E4%BA%A6%E5%87%A1 一、请求目标网站目标数据： """ 目标网站 https://m.weibo.cn/u/3591355593?uid=3591355593&t=0&luicode=10000011&lfid=100

原创 2021-07-22 00:07:12 · 681 阅读 · 0 评论
爬虫---代理的使用

前言我们在做爬虫的时候，在爬虫去数据的过程中，有时候遇到这样的情况：程序最开始抓取数据可以正常运行，拿到数据，一切看起来是那么美好，然而不一会功夫可能就出现错误，比如403Forbidden；但是过了一会爬虫又可以成功运行了，但是一会有出现这种情况。出现这个现象的原因是网站采取了一些反爬虫的措施。服务器在检测到某个IP在单位时间内的请求次数过高，比如说，你1s内向服务器发送了1000次请求，这样服务器会判定当前访问为爬虫，直接拒绝服务。这个我们可以称之为封IP。一般服务器封IP会有个时间，即封掉你的IP

原创 2021-08-01 11:10:31 · 717 阅读 · 0 评论
爬虫模拟登陆---验证码的识别

前言随着爬虫与反爬虫的发展，许多网站采取各种各样的的措施来反爬虫，其中一个措施就是使用验证码。验证码可以归功于12306，用过的肯定都头疼过。极验滑动验证码需要滑动拼合滑块完成验证；点触验证码，需要完全点击正确结果验证；滑动宫格验证码；计算题验证码；微博宫格验证码；今天我们以点触验证码为例来实现一个网站的模拟登陆。点触验证码：直接点击图中符合要求的图。所有答案正确，验证才会成功。如果有一个答案错误，验证就会失败。这种验证码就成为点触验证码。一、点触验证识别现在有很多专门提供点触

原创 2021-08-10 17:17:32 · 465 阅读 · 0 评论
python爬虫---突破JS加密实现桌面翻译器

网页分析目标网站：https://fanyi.youdao.com/ 进入NetWork后，找到对应的Request URL 因为有道是进行了JS加密的，所以这里我们要注意表单，然后分析表单中的一些加密信息。同样的通过搜索找到相应的js文件，找到对应的值和加密方法。 r:时间戳，注意保留的位数 i:是r加上[0,9]之间的一个随机数 t:浏览器版本的md5加密 sign：对"fanyideskweb" + e + i + "Y2FYu%TNSbMCxc3t2u^XT"这一串数据的md5加密

原创 2021-08-27 12:02:11 · 203 阅读 · 1 评论

学python爬虫与实践

作者: 他是只猫

如何入门python爬虫

python爬虫基础（一）---0基础也能看得懂

python爬虫基础（二）BeautifulSoup库的使用---0基础也能看得懂

python爬虫基础---正则表达式

python爬虫基础---pyquery解析

python爬虫---scrapy入门（一个实例来了解一下scrapy爬虫流程）

python爬虫---MongoDB保存爬取的数据

爬虫正能量---爬虫实例---爬取某鱼视频封面图片

爬虫实例---采集微博数据，抓取最新消息

爬虫---代理的使用

爬虫模拟登陆---验证码的识别

python爬虫---突破JS加密实现桌面翻译器