本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
基本开发环境💨
Python 3.6
Pycharm
wkhtmltopdf
相关模块的使用💨
pdfkit
requests
parsel
安装Python并添加到环境变量,pip安装需要的相关模块即可。
一、💥目标需求
将CSDN这上面的文章内容爬取保存下来,保存成PDF的格式。
二、💥网页数据分析
如果想要把网页文章内容保存成PDF,首先你要下载一个软件 wkhtmltopdf 不然你是没有办法实现的。可以自行去百度搜索下载,也可以找下面的 交流群 下载。
前几篇文章已经讲了,关于文字方面的爬取方式,对于爬取文本内容还是没有难度了吧。
想要获取文章内容,首先就要爬取每篇文章的url地址。
具体分析的流程之前的文章也有分享过,这里就跳过了。
python爬取CSDN博客文章并制作成PDF文件
💥完整实现代码
import pdfkit
import req