Python Scrapy批量爬取CSDN博客内容

最新推荐文章于 2024-03-22 07:50:50 发布

Sound_of_ Silence

最新推荐文章于 2024-03-22 07:50:50 发布

阅读量557

点赞数

CC 4.0 BY-SA版权

分类专栏： Python 爬虫基础文章标签： Scrapy 爬虫

本文链接：https://blog.csdn.net/weixin_44521703/article/details/100067961

本文介绍了如何使用Scrapy框架批量爬取CSDN博客的标题、URL和内容。通过创建爬虫，配置settings以启用item_pipelines和设置延迟请求，以及在pipelines中存储数据到MongoDB，成功完成了数据抓取。提醒读者注意不要频繁访问以免对服务器造成压力，并指出CSDN可能能检测IP，不适合用于刷访问量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天忽然想着爬一下之前写的所有博客的内容，也是巩固练习一下scrapy，目标定位，爬取标题，url与内容：

采用 scrapy genspider -t crawl 命令创建爬虫，之后在爬虫文件中进行修改，主代码很简单：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class BlogSpider(CrawlSpider):
    name = 'blog'
    allowed_domains = ['csdn.net']
    start_urls = ['https://blog.csdn.net/weixin_44521703/article/list/{}?'.format(i) for i in range