为什么数据库中使用索引可以提高查询效率呢-CSDN博客

本文链接：https://blog.csdn.net/weixin_45880844/article/details/146917073

使用索引可以提高查询效率，主要是因为索引本身的数据结构和查询方法非常高效。下面探讨一下索引的工作原理和优势。

1. 索引的数据结构

索引通常使用一种高效的数据结构来存储数据，最常见的索引类型是B-Tree（平衡树）。B-Tree 的特性使得查找、插入和删除操作都非常高效。在大多数现代关系型数据库管理系统（如 MySQL、PostgreSQL、Oracle 等）中，为表的某一列（如 student 表的 name 列）添加索引时，数据库通常会使用 B-Tree（平衡树）或其变种（如 B+Tree）来实现索引结构。

B-Tree 的特点

有序性：B-Tree 是一个有序的树结构，每个节点包含多个键值对，这些键值对是有序的。
平衡性：B-Tree 是平衡的，这意味着从根节点到任何叶子节点的路径长度都是相同的。这种平衡性确保了查找操作的时间复杂度为 O(log n)，其中 n 是表中的行数。
高效性：B-Tree 的每个节点可以包含多个键值对，这减少了树的高度，从而减少了磁盘 I/O 操作的次数。

2. 索引的查询方法

当数据库使用索引进行查询时，它会利用索引的有序性和平衡性来快速定位到满足条件的行。以下是索引查询的基本步骤：

索引查找过程

从根节点开始：数据库从索引的根节点开始查找。
逐级向下：根据查询条件，数据库逐级向下查找，直到找到叶子节点。
定位到表中的行：通过索引中的指针，数据库可以直接定位到表中对应的行。

时间复杂度

全表扫描：时间复杂度为 O(n)，其中 n 是表中的行数。数据库需要逐行检查表中的每一行。
索引扫描：时间复杂度为 O(log n)，其中 n 是表中的行数。数据库通过索引的有序结构快速定位到满足条件的行。

3. 索引的优势

快速查找：索引的有序性和平衡性使得查找操作非常高效，时间复杂度为 O(log n)。
减少磁盘 I/O：索引通常存储在磁盘上，但它的结构使得数据库可以更快地访问数据，减少磁盘 I/O 操作的次数。
优化查询：索引可以帮助数据库优化查询计划，选择最高效的执行路径。

4. 示例展示

假设有一个表 users，包含 100 万行数据，表结构如下：

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(50),
    email VARCHAR(100),
    created_at TIMESTAMP,
    updated_at TIMESTAMP
);

没有索引的情况

执行查询：

SELECT * FROM users WHERE email = 'john.doe@example.com';

行为：数据库会逐行扫描 100 万行数据，检查每一行的 email 字段是否等于 'john.doe@example.com'。
时间复杂度：O(n)，其中 n 是表中的行数。

有索引的情况

为 email 字段创建索引：

CREATE INDEX idx_email ON users (email);

执行相同的查询：

SELECT * FROM users WHERE email = 'john.doe@example.com';

行为：数据库会利用 idx_email 索引快速定位到满足条件的行。
时间复杂度：O(log n)，其中 n 是表中的行数。
数据库在执行查询时会自动决定是否使用索引，所以不需要在查询语句中显式指定索引名称。

5.索引的分类（常使用的）

我们来直接聚焦于数据库中最常见、最常用的索引类型，以及它们的使用场景和具体的 SQL 语句。

（1）普通索引（Index）

使用场景：适用于提高单个字段的查询性能，是最基本的索引类型。

SQL 语句：

CREATE INDEX idx_column_name ON table_name(column_name);

示例：

CREATE INDEX idx_age ON students(age);

说明：普通索引可以显著提高基于 age 字段的查询性能。

（2）唯一索引（Unique Index）

使用场景：确保某一列的值是唯一的，同时提高查询性能。

SQL 语句：

CREATE UNIQUE INDEX idx_unique_column_name ON table_name(column_name);

示例：

CREATE UNIQUE INDEX idx_email ON students(email);

说明：唯一索引不仅确保 email 字段的值是唯一的，还能提高基于 email 的查询性能。

（3）联合索引（Composite Index）

使用场景：适用于多字段查询，可以提高基于多个字段的查询性能。需要注意最左前缀原则。

SQL 语句：

CREATE INDEX idx_column1_column2 ON table_name(column1, column2);

示例：

CREATE INDEX idx_name_age ON students(name, age);

说明：联合索引可以提高基于 name 和 age 的组合查询性能。例如，查询 WHERE name = 'Alice' AND age = 20 时，这个索引会非常有效。

最左前缀原则的定义

在联合索引中，索引的列是按照定义的顺序存储的。当查询条件中使用联合索引时，必须从索引的最左边的列开始匹配，否则索引可能无法被有效利用。假设有一个联合索引：

CREATE INDEX idx_name_age ON students(name, age);

这个索引的列顺序是 name → age。根据最左前缀原则：

查询条件中必须包含最左边的列：
- 如果查询条件中包含 name，索引可以被有效利用。
- 如果查询条件中不包含 name，即使包含 age，索引也无法被有效利用。
查询条件可以包含索引的前缀列：
- 如果查询条件中包含 name 和 age，索引可以被完全利用。
- 如果查询条件中只包含 name，索引也可以被部分利用。

假设表 students 的数据如下：

id	name	age
1	Alice	20
2	Bob	17
3	Charlie	20

示例 1：有效利用索引

SELECT * FROM students WHERE name = 'Alice';

索引利用情况：索引 idx_name_age 可以被有效利用，因为查询条件中包含了索引的最左边的列 name。

示例 2：完全利用索引

SELECT * FROM students WHERE name = 'Alice' AND age = 20;

索引利用情况：索引 idx_name_age 可以被完全利用，因为查询条件中包含了索引的所有列。

示例 3：无法有效利用索引

SELECT * FROM students WHERE age = 20;

索引利用情况：索引 idx_name_age 无法被有效利用，因为查询条件中没有包含索引的最左边的列 name。数据库可能会选择全表扫描或其他索引。

最左前缀原则的注意事项

索引列的顺序很重要：
- 在创建联合索引时，需要根据查询条件中最常用的列来设计索引的顺序。
- 例如，如果查询条件中经常使用 name，那么 name 应该放在索引的最左边。
部分列的查询：
- 如果查询条件中只包含联合索引的部分列，但这些列是索引的前缀，索引仍然可以被部分利用。
- 例如，索引 idx_name_age 可以被 WHERE name = 'Alice' 部分利用。

（4）主键索引（Primary Key Index）

使用场景：用于唯一标识表中的每一行，通常在创建表时定义。

SQL 语句：

CREATE TABLE table_name (
    id INT PRIMARY KEY,
    name VARCHAR(50)
);

示例：

CREATE TABLE students (
    id INT PRIMARY KEY,
    name VARCHAR(50)
);

说明：主键索引是一种特殊的唯一索引，确保 id 字段的值是唯一的，并且自动创建索引以提高查询性能。

（5）全文索引（Full-text Index）

使用场景：适用于全文搜索，支持对文本数据进行关键字搜索。

SQL 语句：

CREATE FULLTEXT INDEX idx_fulltext_column_name ON table_name(column_name);

示例：

CREATE FULLTEXT INDEX idx_content ON articles(content);

说明：全文索引适用于文本字段（如 content），可以快速进行全文搜索。

（6）前缀索引

使用场景：适用于字符串字段，当字符串字段较长且查询条件只涉及字段的前缀时。

SQL 语句：

CREATE INDEX idx_column_name_prefix ON table_name(column_name(length));

示例：

CREATE INDEX idx_name_prefix ON students(name(10));

说明：前缀索引只索引 name 字段的前 10 个字符，适用于 name 字段较长且查询条件只涉及前缀的情况。

（7）空间索引（Spatial Index）

使用场景：适用于地理信息数据，可以加速地理位置相关的查询。

SQL 语句：

CREATE SPATIAL INDEX idx_geometry_column_name ON table_name(geometry_column_name);

示例：

CREATE SPATIAL INDEX idx_location ON locations(location);

说明：空间索引适用于处理点、线、面等几何对象类型。

总结

普通索引：适用于单字段查询。
唯一索引：确保字段值唯一，同时提高查询性能。
联合索引：适用于多字段查询，注意最左前缀原则。
主键索引：唯一标识表中的每一行。
全文索引：适用于文本字段的全文搜索。
前缀索引：适用于字符串字段的前缀查询。
空间索引：适用于地理信息数据的查询。

6. 索引的缺点

在SQL中，索引虽然可以显著提高查询效率，但也存在一些缺点，并且在某些情况下并不适合使用。

增加存储空间的开销
- 索引本身需要占用存储空间。例如，对于一个包含大量数据的表，创建多个索引会占用额外的磁盘空间。如果表的字段较多且数据量大，索引的存储空间可能会变得相当可观。例如，一个包含100万条记录的表，每条记录有多个字段，创建多个索引后，索引所占用的空间可能会达到表本身数据空间的数倍。
降低数据更新的效率
- 当对表进行插入、更新或删除操作时，数据库不仅需要修改表中的数据，还需要同步更新索引。这会增加数据操作的复杂性和时间开销。例如，向一个有索引的表中插入大量数据，每次插入操作都需要更新索引，这会使得插入速度明显下降。如果表的数据更新非常频繁，索引的维护成本会很高。
可能影响查询性能
- 虽然索引通常可以加速查询，但在某些情况下，使用索引反而会降低查询性能。例如，当查询涉及全表扫描时（如查询条件不匹配索引或者查询返回大量数据），索引可能不会被使用，甚至可能干扰数据库的优化器选择最优的查询计划。另外，如果索引过多，数据库优化器需要花费更多时间来选择合适的索引，这也可能影响查询性能。
增加系统复杂性
- 索引的管理需要一定的维护工作。例如，需要定期对索引进行重建或重新组织，以保持索引的有效性和性能。如果索引损坏或者碎片过多，可能会影响查询性能，甚至导致查询失败。此外，过多的索引也会增加数据库的复杂性，使得数据库的维护和管理更加困难。

7、什么情况不适合加索引

表数据量非常小
- 如果表中的数据量很少，例如只有几十条记录，那么创建索引可能没有意义。因为在这种情况下，全表扫描的速度可能比使用索引更快。数据库在查询时可以直接扫描整个表，而不需要花费额外的时间去维护和查找索引。
数据更新频繁的列
- 对于那些经常被更新的列，如频繁进行插入、更新或删除操作的列，创建索引可能会降低性能。因为每次数据更新都需要同步更新索引，这会增加额外的开销。例如，一个记录用户登录时间的列，每次用户登录都会更新该列的值，如果对该列创建索引，可能会导致更新操作变慢。
列的值重复率很高
- 如果列中的值重复率很高，例如一个性别列，只有“男”和“女”两种值，那么创建索引的意义不大。因为在这种情况下，索引的区分度很低，使用索引查询时，仍然需要扫描大量的数据。数据库优化器在这种情况下可能不会选择使用索引，或者即使使用索引，查询性能也不会有明显的提升。
查询条件不匹配索引
- 如果查询条件无法利用索引，那么创建索引就没有任何意义。例如，对一个字符串列创建了前缀索引，但是在查询时使用了模糊查询（如LIKE '%abc'），这种情况下索引可能不会被使用。另外，如果查询条件中没有包含索引列，或者查询条件的列顺序与索引的列顺序不一致，也可能导致索引无法发挥作用。
表的读写比例极不平衡
- 如果一个表的写操作（插入、更新、删除）远远多于读操作，那么创建索引可能会导致性能下降。因为每次写操作都需要更新索引，而查询操作又很少，索引的维护成本可能会超过其带来的查询性能提升。