数据获取:Web API与网页抓取
1. 新架构概述
处理HTML数据下载和从源数据中提取表格的新架构如下所示:
graph LR
model --> html_extract
html_extract --> bs4
html_extract --> acquire
html_extract --> kaggle_client
html_extract --> csv_extract
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
class model,html_extract,bs4,acquire,kaggle_client,csv_extract process;
该架构图展示了新的 html_extract
模块相关的类。其中, Download
类使用 urllib.request
打开给定的URL并读取内容,还使用 bs4
(Beautiful Soup)模块解析HTML,定位带有特定标题的表格并提取表格主体。 PairBuilder
类层次结构有四种实现,分别适用于四个不同的数据集。
2. 发起HTML请求
使用 urllib.request
模块可以直接读取网页。 urlopen()