Python 爬虫从入门到入坑全系列教程(详细教程 + 各种实战)

本文介绍了Python爬虫的基础知识,包括爬虫的准备工作,如参考资料和前提知识;深入讲解了爬虫的定义、特征、工作步骤及分类。特别讨论了Python中的urllib库,阐述了其在Python2和3中的变化,并通过案例展示了如何解决网页编码问题、使用urlopen及其返回对象、以及请求数据的发送。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫准备工作

  • 参考资料

  • python 网络数据采集 ’ 图灵工业出版

  • 精通 python 爬虫框架 Scrapy ’ 人民邮电出版社

  • python3 网络爬虫

  • Scrapy官方教程

  • 前提知识

  • url

  • http 协议

  • web 前端 ’ html, css, js

  • ajax

  • re, xpath

  • xml

爬虫简介

  • 爬虫定义:网络爬虫(又被称为网页蜘蛛、网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

  • 两大特征

  • 能按作者要求下载数据或者内容

  • 能自动在网络上流窜

  • 三大步骤

  • 下载网页

  • 提取正确的信息

  • 根据一定规则自动跳到另外的网页上执行上两步内容

  • 爬虫分类

  • 通用爬虫

  • 专用爬虫(聚焦爬虫)

  • Python 网络包简介

  • python2.x:urllib,urllib2,urllib3,httplib,httplib2,requests

  • python3.x:urllib,urllib3,httplib2,requests

  • python2:urllib 和 urllib2 配合使用,或者 requests

  • python3:urllib,requests

urllib

  • 包含模块

  • urllib.request: 打开和读取 urls

  • urllib.error: 包含 urllib.request 产生的常见的错误,使用 try 捕捉

  • urllib.parse: 包含解析 url 的方法

  • urllib.robotparse: 解析 robots.txt 文件

  • 案例 v01

  '''
  案例v01
  使用urllib.request请求一个网页内容,并把内容打印出来
  '''
  from urllib import request
  
  if __name__ == '__main__':
      url = "https://www.zhaopin.com/taiyuan/"
      # 打开相应url并把相应页面作为返回
      rsp = request.urlopen(url)
  
      # 把返回的结果读取出来
      # 读取出来内容类型为bytes
      html = rsp.read()
      print(type(html))
  
      # 如果想把bytes内容转换成字符串,需要解码
      print(html.decode())
  • 网页编码问题解决

  • chardet 可以自动检测页面文件的编码格式,但是,可能有误

  • 需要安装,conda install chardet

  • 案例 v02

  '''
  案例v02
  利用request下载页面
  自动检测页面编码
  
  '''
  import urllib
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值