
spider
NULL-Response
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫实战:爬取http://cffex.com.cn/网站的期货持仓信息,存入mysql库中
需要爬取http://cffex.com.cn/ccpm/?productid=IF页面上的IF、IC、IH、TS、TF、T的持仓信息,时间为[2016.1.1到2020.1.1)。 首先查看robots.txt,该网站没有robots.txt文件。 查看网页源码,发现查询选取日期种类部分使用了多次写代码,问题主要有: 1.日期部分逻辑小问题; 2.每个页面耗时渐渐增加,爬到一半甚至一个页面需要9s左右,从爬取完到存入库; 3.xml文件中的标签名大小写不一致;标签内容有空格等。 问题1经过几次实验改进。问原创 2020-09-22 21:42:10 · 1281 阅读 · 0 评论 -
python网络数据采集(笔记)
这本书写的不错,十分推荐。第二部分介绍的范围广,可以作为兴趣入门介绍。 1.本书使用标准urllib模块和非标准模块bs4模块: from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen(“http://www.pythonscraping.com/pages/page3.html”) bsObj = BeautifulSoup(html) 2.find_all()方法相关: find_all(name=N转载 2020-09-17 22:07:02 · 511 阅读 · 0 评论