爬虫批量下载科研论文（SciHub）

最新推荐文章于 2024-05-16 20:16:30 发布

原创

最新推荐文章于 2024-05-16 20:16:30 发布 · 6.9k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #数据库 #服务器 #大数据

系列文章目录

利用 eutils 实现自动下载序列文件

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

系列文章目录
前言
一、获取文献信息
二、下载文献PDF文件
参考

前言

大家好✨，这里是bio🦖。这次为大家带来自动收集文献信息、批量下载科研论文的脚本（只能批量下载公布在sci-hub上的科研论文）。平常阅读文献时只需要一篇一篇下载即可，并不需要用到批量下载的操作。但有时需要对某领域进行总结或者归纳，就可以考虑使用批量下载咯~

导师下令找文献，学生偷偷抹眼泪。
文献三千挤满屏，只下一篇可不行。
作息紊乱失双休，日夜不分忘寝食。
满腔热血搞科研，一盆冷水当头洛。
（打油诗人作）

一、获取文献信息

每个人的研究领域不一样，获取文献信息的方式不一样。这里以Pubmed¹为例，PubMed是主要用于检索MEDLINE数据库中，生命科学和生物医学引用文献及索引的免费搜索引擎。之前爬取冠状病毒核酸数据使用过eutils，本篇博客也使用eutils去获取文献信息，关于eutils的介绍可以看利用 eutils 实现自动下载序列文件。这里就不做介绍~

首先构造搜索url，其中term是你检索的关键词，year对应文献发表日期，API_KEY能够让你在一秒内的访问次数从3次提升到10次。这里将term替换为Machine learning，year替换为2022。然后使用requests库获取该url的对应的信息，在使用BeautifulSoup库将其转化为html格式。

https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&api_key={API_KEY}&term={term}+{year}[pdat]

代码如下：

import pandas as pd
import requests
from bs4 import BeautifulSoup
import math
import re
import time

API_KEY = "Your AIP KEY"
term = "Machine Learning"
year = "2022"
url_start = f'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&api_key={
     API_KEY}&term={
     term}+{
     year}[pdat]'
info_page = BeautifulSoup(requests.get(url_start, timeout=(5, 5)).text, 'html.parser')

爬取的结果如下，可以看到结果主要包括许多PMID。然后包括的信息总数<count>31236</count>、最大返回数<retmax>20</retmax>以及结果开始的序号<retstart>0</retstart>。下一步就是根据id获取文章对应的信息。

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE eSearchResult PUBLIC "-//NLM//DTD esearch 20060628//EN" "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20060628/esearch.dtd">

<esearchresult><count>31236</count><retmax>20</retmax><retstart>0</retstart><idlist>
<id>37878682</id>
<id>37873546</id>
<id>37873494</id>
... # omitting many results
<id>37786662</id>
<id>37780106</id>
<id>37776368</id>
</idlist><translationset><translation> <from>Machine Learning</from> <to>"machine learning"[MeSH Terms] OR ("machine"[All Fields] AND "learning"[All Fields]) OR "machine learning"[All Fields]</to> </translation></translationset><querytransla