10、数据获取：Web API与网页抓取

snow3

于 2025-06-29 13:06:47 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏： Python实战项目：从数据获取到分析建模文章标签：数据获取 Web API 网页抓取

本文链接：https://blog.csdn.net/snow3/article/details/149589377

Python实战项目：从数据获取到分析建模专栏收录该内容

33 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

数据获取：Web API与网页抓取

1. 新架构概述

处理HTML数据下载和从源数据中提取表格的新架构如下所示：

graph LR
    model --> html_extract
    html_extract --> bs4
    html_extract --> acquire
    html_extract --> kaggle_client
    html_extract --> csv_extract
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    class model,html_extract,bs4,acquire,kaggle_client,csv_extract process;

该架构图展示了新的 html_extract 模块相关的类。其中， Download 类使用 urllib.request 打开给定的URL并读取内容，还使用 bs4 （Beautiful Soup）模块解析HTML，定位带有特定标题的表格并提取表格主体。 PairBuilder 类层次结构有四种实现，分别适用于四个不同的数据集。