Python-Guide-CN项目：使用Python进行HTML网页抓取实战指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_01006/article/details/148527389

Python-Guide-CN项目：使用Python进行HTML网页抓取实战指南

Python-Guide-CN Python最佳实践指南。 The chinese translation of "Hitchhiker's Guide to Python". 项目地址: https://gitcode.com/gh_mirrors/py/Python-Guide-CN

什么是网页抓取？

网页抓取（Web Scraping）是一种从网页中提取结构化数据的技术。在当今数据驱动的时代，许多有价值的信息都存在于网页中，但并非所有网站都提供便捷的API或标准化的数据格式（如CSV或JSON）。这时，网页抓取技术就显得尤为重要。

网页抓取的核心思想是模拟人类浏览网页的行为，但通过程序自动化实现，能够高效地从大量网页中提取所需信息。这项技术广泛应用于价格监控、市场研究、新闻聚合、数据分析等多个领域。

为什么选择Python进行网页抓取？

Python因其丰富的库生态系统和简洁的语法，成为网页抓取的首选语言之一。在Python-Guide-CN项目中，重点介绍了使用lxml和Requests库组合进行网页抓取的方案，这是因为：

Requests库：比Python内置的urllib2更简单易用，提供了直观的API来处理HTTP请求
lxml库：一个高性能的HTML/XML解析库，支持XPath和CSS选择器两种定位方式
组合优势：Requests负责获取网页内容，lxml负责解析和提取数据，分工明确，效率高

环境准备

在开始之前，需要安装必要的Python库：

pip install lxml requests

这两个库都是Python生态中非常成熟的工具，拥有活跃的社区支持和良好的文档。

实战：基础网页抓取示例

让我们通过一个具体的例子来理解网页抓取的全过程。假设我们需要从一个商品页面抓取买家名称和商品价格信息。

第一步：获取网页内容

from lxml import html
import requests

# 发送HTTP GET请求获取网页内容
page = requests.get('http://econpy.pythonanywhere.com/ex/001.html')

这里我们使用Requests库的get方法获取网页内容。Requests会自动处理HTTP连接、请求发送和响应接收等底层细节。

第二步：解析HTML内容

# 将网页内容解析为HTML树结构
tree = html.fromstring(page.text)

html.fromstring()方法将网页文本转换为一个可以被XPath或CSS选择器查询的树状结构。这个树结构保留了HTML文档的完整层次关系，使我们能够精确地定位到特定元素。

第三步：使用XPath定位数据

XPath是一种在XML/HTML文档中导航和选择节点的语言。它提供了强大的路径表达式来定位文档中的特定元素。

在我们的示例页面中，数据存储在两个元素中：

买家名称：位于title="buyer-name"的div元素中
商品价格：位于class="item-price"的span元素中

对应的XPath表达式如下：

# 提取所有买家名称
buyers = tree.xpath('//div[@title="buyer-name"]/text()')

# 提取所有商品价格
prices = tree.xpath('//span[@class="item-price"]/text()')

第四步：处理和使用数据

提取到的数据可以直接在Python中使用：

print('买家列表:', buyers)
print('价格列表:', prices)

输出结果将显示页面上所有的买家名称和对应的商品价格。

XPath选择器详解

XPath是网页抓取中定位元素的核心技术。让我们深入了解一些常用的XPath表达式：

//div：选择文档中所有的div元素
//div[@class="example"]：选择class属性为"example"的所有div
//a/@href：提取所有a标签的href属性值
//div/text()：提取div元素的文本内容
//div[contains(@class, "test")]：选择class属性包含"test"的div

在实际项目中，可以使用浏览器的开发者工具（Chrome的检查元素或Firefox的Firebug）快速获取元素的XPath路径。

进阶技巧

1. 处理动态加载内容

有些网站使用JavaScript动态加载内容。对于这种情况，可以考虑使用Selenium或Pyppeteer等工具模拟浏览器行为。

2. 分页处理

要抓取多页数据，可以分析分页URL规律，构造循环请求：

base_url = "http://example.com/page/{}"
for page_num in range(1, 11):  # 假设抓取前10页
    url = base_url.format(page_num)
    # 发送请求并处理响应...

3. 异常处理

网络请求可能失败，需要添加适当的异常处理：

try:
    response = requests.get(url, timeout=5)
    response.raise_for_status()  # 检查HTTP错误
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

4. 遵守robots.txt

在抓取前检查目标网站的robots.txt文件，尊重网站的抓取规则。

最佳实践

设置请求头：模拟浏览器行为，避免被识别为爬虫

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...'
}
response = requests.get(url, headers=headers)

控制请求频率：添加延迟避免对服务器造成过大压力
```
import time
time.sleep(1)  # 每次请求间隔1秒
```

使用会话：复用TCP连接提高效率

session = requests.Session()
response = session.get(url)

数据存储：考虑将抓取结果保存到文件或数据库

import csv
with open('output.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['Buyer', 'Price'])  # 写入标题行
    for buyer, price in zip(buyers, prices):
        writer.writerow([buyer, price])