一.python爬虫使用的模块
1.import requests
2.from bs4 import BeautifulSoup
3.pandas 数据分析高级接口模块
二. 爬取数据在第一个请求中时, 使用BeautifulSoup
import requests # 引用requests库 from bs4 import BeautifulSoup # 引用BeautifulSoup库 res_movies = requests.get('https://movie.douban.com/chart') # 获取数据 bs_movies = BeautifulSoup(res_movies.text,'html.parser') # 解析数据 list_movies= bs_movies.find_all('div',class_='pl2') # 查找最小父级标签 list_all = [] # 创建一个空列表,用于存储信息 for movie in list_movies: tag_a = movie.find('a') # 提取第0个父级标签中的<a>标签 name = tag_a.text.replace(' ', '').replace('\n', '') # 电影名,使用replace方法去掉多余的空格及换行符 url = tag_a['href'] # 电影详情页的链接 tag_p = movie.find('p', class_='pl') # 提取父级标签中的<p>标签 information = tag_p.text.replace(' ', '').replace('\n', '') # 电影基本信息,使用replace方法去掉多余的空格及换行符 tag_div