爬虫系列 2.2 爬虫基础2 -网页结构进阶

个人公众号 yk 坤帝
后台回复 python金融基础 获取源代码

2.2.1 HTML基础1 - 我的第一个网页

HTML(HyperText Markup Language)是一种用于写这些框架的的标准标记语言,这一小节主要就是讲如何利用它来进行网页搭建。
在这里插入图片描述

2.2.2 代码编辑器

荐一款代码编辑器:Notepad++,其作用和Pycharm类似,都是方便来编写HTML代码的,当然如果觉得麻烦的话,完全也可以不用下载,直接在txt中敲代码也是完全可以的。其下载地址为:https://notepad-plus-plus.org/,在刚刚创建的那个html文件右击,选择“Edit with Notepad++”可以打开文件进行代码编写,界面如下:
在这里插入图片描述

2.2.3 HTML基础知识2 - 基础结构

首先用notepad++打开刚刚的html文件(如果没有安装,右键点击html文件在打开方式里选择记事本打开即可),将原来的代码先补充些内容:
在这里插入图片描述
然后ctrl + s快捷键保存,在刚刚的网页上刷新,可以看到变成如下内容:
在这里插入图片描述
网页出现乱码(乱码就是中文显示成奇怪的符号),可以把charset="utf-8"中的utf-8改成gbk,这是两种不同的中文格式,各个浏览器可能各有不同。

2.2.4 HTML基础知识3 - 标题、段落、链接

标题标签:

标题是通过

-

标签来定义的,
一般格式为:

标题内容

。其中h1的字号最大,h6的字号最小
在这里插入图片描述

(2) 段落

标签:

段落是通过标签

来定义的,一般格式为:

段落内容


比如我们在刚刚的基础上略作修改:
在这里插入图片描述

(3) 链接标签:

在这里插入图片描述
在这里插入图片描述

2.2.5 HTML基础知识4 - 区块

区块最主要的表现形式就是

格式了,我们可以来看下具体实际情况中的应用。
可以看到每个新闻都被包围在一个叫做
的框里,更加学术的说法来讲,这个
*
其实起到了一个分区的作用,将百度新闻上这10条新闻分别放置了10个区域中

用F12看百度新闻的源码:
在这里插入图片描述

2.2.6 HTML基础知识5 - 类(class)与 ID

在这里插入图片描述
在这里插入图片描述
2.2.1 我的第一个网页

<!DOCTYPE html>
<html>
    <p>hello world</p>
</html>

在这里插入图片描述

2.2.3 逐渐完善的网页

<!DOCTYPE html>
<html>

<body>
	<h1>���DZ��� 1</h1>
	<p>���DZ���1�µĶ��䡣</p>
	<h2>���DZ��� 2</h2>
	<a href="https://www.baidu.com">���Ǵ����ӵ�����</a>
</body>

</html>

在这里插入图片描述

个人公众号 yk 坤帝
后台回复 python金融基础 获取源代码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yk 坤帝

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值