Python爬取数据分析

原创

于 2022-11-27 16:41:03 发布 · 2.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #数据挖掘 #数据分析 #pycharm

本文介绍了使用Python进行网页爬虫的数据获取方法，包括requests和BeautifulSoup库的运用，以及如何通过参数和headers请求不同数据。同时，文章也提到了将爬取到的数据进行分析，使用pandas作为高级接口模块。最后，讲解了如何保存爬取到的数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.python爬虫使用的模块

　　1.import requests

　　2.from bs4 import BeautifulSoup

　　3.pandas 数据分析高级接口模块

二. 爬取数据在第一个请求中时, 使用BeautifulSoup　　

import requests
# 引用requests库
from bs4 import BeautifulSoup
# 引用BeautifulSoup库
res_movies = requests.get('https://movie.douban.com/chart')
# 获取数据
bs_movies = BeautifulSoup(res_movies.text,'html.parser')
# 解析数据
list_movies= bs_movies.find_all('div',class_='pl2')
# 查找最小父级标签
list_all = []
# 创建一个空列表，用于存储信息
for movie in list_movies:
    tag_a = movie.find('a')
    # 提取第0个父级标签中的<a>标签
    name = tag_a.text.replace(' ', '').replace('\n', '')
    # 电影名，使用replace方法去掉多余的空格及换行符
    url = tag_a['href']
    # 电影详情页的链接
    tag_p = movie.find('p', class_='pl')
    # 提取父级标签中的<p>标签
    information = tag_p.text.replace(' ', '').replace('\n', '')
    # 电影基本信息，使用replace方法去掉多余的空格及换行符
    tag_div