C语言中散列表的构建与操作：查找、插入、删除-CSDN博客

本文链接：https://blog.csdn.net/weixin_42600128/article/details/148697691

简介：散列表是一种以键值对形式存储数据的数据结构，通过散列函数将关键字映射到固定大小的数组中，实现数据的快速查找、插入和删除。本教程将深入解析散列表的工作原理，详细说明如何用C语言实现散列表，包括初始化散列表、设计散列函数以及处理冲突的方法。通过具体代码示例，将展示如何在C语言中进行散列表的建立、查找、插入和删除操作。 c代码-散列表的建立，查找，插入，删除

1. 散列表概念与工作原理

在数据存储和检索领域，散列表（也称为哈希表）是一种极为重要的数据结构，它结合了数据的快速访问性和存储空间的有效利用。散列表通过将键（key）通过散列函数映射到存储位置来实现数据的快速检索。这种映射依赖于键的独特性质，而散列函数的设计对散列表的性能影响极大。

1.1 散列表的基本概念

散列表通过一个哈希函数，将输入（通常是字符串或数字）转化为数组的索引。索引位置对应的数据容器中存储了与输入键相关联的值。哈希函数的一个重要特性是它必须尽可能减少键之间的冲突，即不同的键被映射到同一个索引上。

1.2 工作原理

在散列表的构建中，将键通过哈希函数转换成数组索引后，相应的值就被存储在这个索引所指向的位置。在查找元素时，同样通过哈希函数获得索引，快速定位并获取数据。这种数据结构的优点在于，即使数据量很大，平均下来查找元素的时间复杂度仅为O(1)，但这也依赖于哈希函数的优化和冲突解决策略的合理设计。

理解散列表的这些基础概念和工作原理，是深入掌握其高级应用的前提。在接下来的章节中，我们将详细探讨散列函数的设计、冲突解决策略等关键要素，以及如何使用C语言实现散列表的具体应用。

2. 散列函数设计

在了解了散列表的基本概念和工作原理后，我们深入探讨散列函数的设计。散列函数在散列表操作中占据核心地位，它负责将键（Key）映射到一个较小的数值范围内，即散列值（Hash Value）。这一步骤至关重要，因为它直接决定了散列表的性能表现。

2.1 散列函数的基本概念

2.1.1 散列函数的定义和作用

散列函数是一个数学算法，它将输入（通常是字符串或者数值）映射到一个整数，也就是散列值。这个值在散列表的上下文中，表示数据在表中的位置。散列函数的作用包括：

数据定位： 将数据映射到表中的具体位置。
加速查找： 通过快速定位，加速数据的查找过程。
保持独立性： 好的散列函数设计应尽量减少不同键映射到同一个散列值的情况。

2.1.2 散列函数的分类与特点

散列函数按照不同的分类标准有不同的类型。按设计方法可以分为以下几类：

直接定址法： 其散列值直接由键计算得出。例如，如果我们使用一个整数范围作为键，那么散列函数可以是 hash(key) = key 。
除留余数法： 散列值由键除以一个常数的余数得到，这也是最常用的散列函数之一。例如， hash(key) = key mod p ，其中 p 是表大小。
平方取中法： 先对键进行平方，然后取中间的一段作为散列值。这种方法能有效地打乱键的分布。
随机数法： 使用一个随机生成的函数来映射键到散列值。该方法可以避免数据的模式化，但可能会增加计算量。

2.2 设计散列函数的原则

2.2.1 均匀分布原则

均匀分布是指散列函数应尽量确保每个位置都有相同概率的机会被映射到，这样可以降低冲突发生的概率。如果散列函数不能均匀分布，则可能会有较多的键映射到同一位置，从而导致性能下降。

2.2.2 计算效率原则

散列函数的计算效率是另一个重要考量。一个高效的散列函数应该能够在较短的时间内计算出散列值。通常，这意味着散列函数应该简单而且直接，避免进行复杂的计算。

2.3 常见散列函数介绍

2.3.1 直接定址法

直接定址法是最简单的散列函数之一。它将键值直接转换为数组下标，这适用于键值范围有限且较小的情况。例如，假设键值范围是0到m-1之间，那么散列函数可以直接定义为 hash(key) = key 。

2.3.2 除留余数法

除留余数法是一种常用且有效的方法。它将键值除以表大小，然后取余数作为散列值，即 hash(key) = key mod table_size 。这种方法的优点在于简单且易于实现，但需要注意选择合适的表大小，避免出现过多的冲突。

2.3.3 平方取中法

平方取中法适用于键值分布不均匀的情况。首先将键值平方，然后从中间选取几个数字作为散列值。例如，如果键是一个四位数，那么可以将键平方后取中间两位数字作为散列值，即 hash(key) = middle_digits(key^2) 。这种方法能将键值的分布打散，有助于降低冲突率。

2.3.4 随机数法

随机数法使用随机函数生成散列值，适用于安全性要求较高的场合。随机数法可以根据需要生成不同的散列值，但这通常需要更高的计算资源。例如， hash(key) = random_function(key) 。

在设计散列函数时，需要根据具体情况和需求来选择合适的散列函数，并且可能需要进行实验和调整以达到最佳性能。通过确保散列函数的均匀性和效率，可以极大地提升散列表的操作效率和性能。

3. 冲突解决策略

在散列表中，不同的键可能会通过散列函数映射到相同的地址，这种现象称为“冲突”。冲突是散列表研究中的一个核心问题，因为它直接影响到散列表的性能和效率。本章将详细介绍冲突的概念、产生原因以及解决策略。

3.1 冲突的概念及其产生的原因

3.1.1 冲突的定义

冲突发生在当两个或更多的元素通过散列函数计算出相同的索引值时。在理想情况下，散列函数可以为每个不同的键分配一个唯一的散列地址，但在实际应用中，由于散列地址空间有限，冲突无法完全避免。为了处理这些冲突，我们需要了解其产生原因并设计有效的解决策略。

3.1.2 冲突产生的原因分析

冲突产生的原因主要有以下几点：

散列地址空间有限：一个散列表的大小总是有限的，而要存储的数据项数量可能是无限的。因此，不同数据项映射到同一地址的情况不可避免。
散列函数设计不当：如果散列函数的映射关系过于简单或者不能均匀地分布数据项，会增加冲突的可能性。
数据项的分布特性：如果输入数据项本身就存在大量的重复或者相似性，这将增加冲突的可能性。

为了有效地管理这些冲突，必须设计出合理的冲突解决策略，接下来我们讨论几种常见的解决冲突的方法。

3.2 冲突解决的基本策略

3.2.1 开放定址法

开放定址法是一种解决散列表中冲突的策略，当发生冲突时，按照某种探查顺序在散列表中寻找下一个空闲地址。常见的探查顺序有线性探测、平方探测和双重散列。

3.2.1.1 线性探测法

线性探测法按照线性序列来查找散列表中的空闲地址。具体来说，当计算出的地址发生冲突时，就按顺序查看散列表中的下一个地址，直到找到一个空闲位置为止。

int linear_probe(int key, int hash_size) {
    int index = hash(key) % hash_size; // 计算初始索引
    while (hash_table[index] != NULL && hash_table[index]->key != key) {
        index = (index + 1) % hash_size; // 线性探测下一个地址
    }
    return index;
}

在上述代码中， hash_table 是散列表的数组， hash 是散列函数， hash_size 是散列表的大小。线性探测法的优点是实现简单，但它可能会导致“聚集”现象，即连续的存储位置被连续的占用。

3.2.1.2 平方探测法

平方探测法在探测过程中使用的是平方数序列，例如：1, 4, 9, 16...，来计算下一个探查位置。这种方法的优点是能有效减少聚集现象，但可能会导致“二次聚集”问题，即两个冲突的元素的探查序列发生重叠。

3.2.1.3 双重散列法

双重散列法使用两个散列函数，当第一个散列函数出现冲突时，用第二个散列函数计算出另一个索引值来进行探查。这种方法可以有效减少聚集和二次聚集问题，但需要设计两个好的散列函数。

3.2.2 链地址法

链地址法解决冲突的方式与开放定址法不同，它为散列表的每个槽位配备一个链表，当冲突发生时，将元素添加到对应槽位的链表中。这种方法的好处是处理冲突非常灵活，链表可以容纳任意数量的元素，而且删除操作也相对简单。

typedef struct node {
    int key;
    struct node *next;
} node;

node* hash_table[HASH_TABLE_SIZE];

// 插入函数
void insert(int key) {
    int index = hash(key) % HASH_TABLE_SIZE;
    node *new_node = malloc(sizeof(node));
    new_node->key = key;
    new_node->next = hash_table[index];
    hash_table[index] = new_node;
}

链地址法的性能优势在于其平均查找时间是O(1+N/K)，其中N是散列表中元素的总数，K是散列表的大小。但是，它也有缺点，比如增加了内存使用量和降低了缓存的效率。

3.2.3 再散列法

再散列法，也称为双重散列法，是指当发生冲突时，通过另一个散列函数再次计算散列地址。这种方法要求设计多个互质的散列函数，以保证在探测过程中可以遍历到散列表中的每一个槽位。

int hash_1(int key) {
    return key % HASH_TABLE_SIZE;
}

int hash_2(int key) {
    return 1 + (key % (HASH_TABLE_SIZE - 2));
}

int rehash(int key) {
    int index = hash_1(key);
    while (hash_table[index] != NULL && hash_table[index]->key != key) {
        index = (index + hash_2(key)) % HASH_TABLE_SIZE;
    }
    return index;
}

再散列法是一种非常有效的冲突解决策略，它可以将冲突减少到最低限度。但是，实现起来相对复杂，而且对散列函数的要求比较高。

通过上述策略，我们可以有效地解决散列表中的冲突问题，保证散列表能够高效地执行查找、插入和删除等操作。每种策略都有其适用场景和优缺点，实际应用时需要根据具体需求和环境条件来选择最合适的策略。

4. ```

第四章：C语言实现散列表的数据结构

在这一章节中，我们将详细探讨如何使用C语言来实现散列表这一核心数据结构。我们将从散列表节点和结构体的设计开始，进而讨论动态内存管理的相关技术。

4.1 散列表的数据结构定义

在开始编写代码之前，我们先要定义散列表的基本组成部分。散列表主要由节点和结构体组成，而这些组成部分需要满足散列表的基本功能需求。

4.1.1 散列表节点的定义

每一个散列表节点通常包含两部分：键（key）和值（value）。键用于散列函数计算和定位数据，而值则是数据的实际内容。

// 定义散列表节点
typedef struct HashNode {
    void *key;          // 键
    void *value;        // 值
    struct HashNode *next; // 指向下一个相同哈希值的节点
} HashNode;

4.1.2 散列表的结构体设计

散列表的结构体设计需要包含散列函数、冲突解决策略、表的容量和当前的元素数量等信息。

#define TABLE_SIZE 100 // 散列表大小，根据需要进行调整

typedef struct HashTable {
    HashNode **table;    // 指向散列表数组的指针
    int size;            // 散列表的容量
    int count;           // 散列表中的元素数量
    unsigned int (*hash)(const void *key); // 散列函数
    int (*equals)(const void *key1, const void *key2); // 键比较函数
} HashTable;

4.2 动态内存管理

在C语言中，动态内存管理是构造和维护散列表的关键技术之一。我们将详细探讨创建和销毁动态数组，以及内存分配和释放的基本方法。

4.2.1 动态数组的创建与销毁

创建动态数组需要根据散列表大小进行内存分配。而销毁动态数组时，我们需要遍历整个数组并释放每一个节点所占用的内存。

// 创建动态数组
HashTable *createHashTable(int size) {
    HashTable *table = (HashTable *)malloc(sizeof(HashTable));
    table->table = (HashNode **)calloc(size, sizeof(HashNode *));
    table->size = size;
    table->count = 0;
    return table;
}

// 销毁动态数组
void destroyHashTable(HashTable *table) {
    if (table) {
        for (int i = 0; i < table->size; ++i) {
            HashNode *node = table->table[i];
            while (node) {
                HashNode *temp = node;
                node = node->next;
                free(temp->key);
                free(temp->value);
                free(temp);
            }
        }
        free(table->table);
        free(table);
    }
}

4.2.2 内存分配与释放

在处理散列表时，内存分配与释放是频繁发生的操作，需要妥善管理以避免内存泄漏。

// 分配内存
HashNode *allocateNode(const void *key, const void *value) {
    HashNode *newNode = (HashNode *)malloc(sizeof(HashNode));
    newNode->key = malloc(sizeof(key)); // 示例，实际应根据key的类型分配内存
    newNode->value = malloc(sizeof(value)); // 示例，实际应根据value的类型分配内存
    memcpy(newNode->key, key, sizeof(key)); // 复制键值
    memcpy(newNode->value, value, sizeof(value)); // 复制键值
    newNode->next = NULL;
    return newNode;
}

// 释放内存
void freeNode(HashNode *node) {
    free(node->key);
    free(node->value);
    free(node);
}

在这一章中，我们深入探讨了散列表的数据结构定义和动态内存管理。通过定义了散列表节点和结构体，以及创建、销毁和内存管理的函数，我们为散列表的操作打下了基础。在下一章，我们将详细探讨散列表的建立流程，包括初始化和元素添加等操作。


# 5. 散列表建立的流程

## 5.1 初始化散列表

初始化散列表是建立数据结构的第一步，它涉及设置数据结构的初始参数和分配必要的内存资源。一个良好的初始化过程能够确保散列表后续操作的高效性和稳定性。

### 5.1.1 散列表的初始化函数实现

在C语言中，初始化散列表通常涉及一个特定的函数，这个函数会根据散列表的预期大小进行初始化。例如，可以有一个`initializeHashTable`函数，它接受散列表的大小作为参数，并返回一个初始化完成的散列表。

```c
HashTable initializeHashTable(int size) {
    HashTable table;
    table.size = size;
    table.count = 0;
    table.buckets = malloc(sizeof(Node*) * size);
    if (!table.buckets) {
        perror("Memory allocation failed for hash table buckets");
        exit(EXIT_FAILURE);
    }

    for(int i = 0; i < size; i++) {
        table.buckets[i] = NULL;
    }

    return table;
}

以上代码展示了如何用C语言初始化一个散列表。首先，我们定义了一个 HashTable 结构体，它包含了散列表的大小（size）、当前存储的元素数量（count）和一个指向散列表条目的指针数组（buckets）。通过 malloc 函数分配内存，并将每个桶（bucket）初始化为 NULL ，表示散列表目前是空的。

5.1.2 初始化过程中的注意事项

初始化过程中，需要注意几个关键点：

内存分配要检查是否成功，防止程序因内存不足而异常退出。
散列表的大小应当是一个质数，以减少潜在的冲突。
初始大小不宜过小，以减少后续可能的再散列操作。
应考虑在初始化时预留一部分空间，以优化性能。

5.2 向散列表中添加元素

添加元素是散列表日常操作中的一部分，它不仅涉及到更新散列表的状态，还包括应用散列函数来确定元素在散列表中的具体位置。

5.2.1 添加元素的步骤和方法

添加元素通常分为以下几个步骤：

使用散列函数计算元素的键对应的散列值。
根据散列值找到散列表中对应的桶。
在对应的桶中添加新的节点，这一步骤可能需要处理冲突。

下面是一个简单的示例，展示如何向散列表中添加一个键值对：

void insertIntoHashTable(HashTable* table, int key, int value) {
    int index = key % table->size;
    Node* newNode = malloc(sizeof(Node));
    if (!newNode) {
        perror("Memory allocation failed for new hash table node");
        exit(EXIT_FAILURE);
    }

    newNode->key = key;
    newNode->value = value;
    newNode->next = table->buckets[index];
    table->buckets[index] = newNode;
    table->count++;

    // 检查负载因子并调整散列表大小，如果需要的话
    if (table->count > LOAD_FACTOR * table->size) {
        resizeHashTable(table);
    }
}

在这段代码中，首先通过 key % table->size 计算出键对应的散列值。接着，为新的键值对分配内存并将其插入到对应的桶中。最后，计数器 count 增加，并且如果负载因子超过阈值，还需要进行散列表的调整（ resizeHashTable 函数未展示）。

5.2.2 散列函数的选择与应用

散列函数的选择对于散列表的性能至关重要。一个好的散列函数能够将键均匀分布到散列表的不同桶中，从而减少冲突的发生。

在实现中，散列函数的选择通常根据键的数据类型和散列表的使用场景而定。例如，如果键是整数类型，使用 key % size 作为散列函数通常是足够的。但对于其他类型的数据（如字符串），则可能需要更复杂的散列函数，如 FNV 或 DJB 散列函数。

unsigned int hashFunction(const char* str) {
    unsigned int hash = 2166136261u;
    while (*str) {
        hash = (hash * 16777619) ^ (unsigned char)*str++;
    }
    return hash;
}

在实际应用中，上述函数可用于字符串键的散列计算。通过逐个字符更新哈希值，该函数能够在一定范围内实现较好的分布特性。

以上各部分结合形成了散列表初始化和添加元素的完整流程。需要强调的是，散列表的建立和操作是一个动态的、需要考量多种因素的过程，开发者在设计和使用散列表时需要谨慎选择合适的策略和数据结构。

6. 散列表的查找、插入与删除操作

在本章中，我们将深入了解散列表的核心操作：查找、插入和删除。这些操作是散列表日常使用中最常见的功能，每一种操作都需要仔细处理以确保数据的完整性和效率。

6.1 查找操作的实现

6.1.1 查找过程详解

查找操作是指在散列表中找到一个特定元素的键值对应的记录。查找过程通常如下：

使用散列函数计算出待查找键值的散列地址。
访问散列地址对应的存储位置。
对于开放定址法，如果该位置上的记录键值与待查找键值相等，则查找成功。
对于链地址法，遍历该位置上的链表，比较键值，若找到相等的键值，则查找成功。

6.1.2 查找效率分析

散列表的查找效率主要取决于散列函数的质量和冲突解决策略。理想情况下，查找操作的时间复杂度是 O(1)。但在最坏情况下，可能会退化到 O(n)，特别是当散列表的负载因子过高，且采用的是开放定址法。

6.2 插入操作的实现

6.2.1 插入前的冲突检测

在插入元素前，必须先检测是否有冲突发生，确保不会有重复元素插入到散列表中。冲突检测通常通过查找操作来完成。如果待插入的键值在散列表中已存在，则不执行插入。

6.2.2 插入步骤的细节处理

插入操作需要按照以下步骤执行：

计算待插入键值的散列地址。
执行查找操作，确保该键值不在表中。
按照冲突解决策略将新元素插入散列表。

在链地址法中，这意味着将新元素添加到链表的头部、尾部或根据某种策略选择插入点。在开放定址法中，则需要通过探测序列找到一个空闲位置来存放新元素。

6.3 删除操作的实现

6.3.1 删除元素的方法和流程

删除元素首先需要定位到该元素的确切位置，这通常通过查找操作实现。一旦找到元素，执行如下步骤：

在链地址法中，删除链表中对应的节点。
在开放定址法中，仅将该位置标记为“已删除”，并不立即移动其他元素。

6.3.2 删除后的冲突解决和数据重组

在删除操作后，特别是在开放定址法中，我们可能需要对后续的元素进行处理，确保散列表的连续性和查找效率。

6.4 散列表操作的综合示例

6.4.1 实际应用场景分析

考虑一个典型的散列表使用场景：实现一个简单的缓存系统，其中的键值对代表URL和其对应的网页内容。在该系统中，查找操作用于快速检索缓存的网页，插入操作用于添加新的URL，删除操作用于清除过时的缓存条目。

6.4.2 案例演示与代码解析

下面是一个用C语言实现的简单散列表插入、查找和删除操作的代码示例：

#include <stdio.h>
#include <stdlib.h>
#include <stdbool.h>

#define TABLE_SIZE 100
#define EMPTY_KEY -1

typedef struct HashTableEntry {
    int key;
    int value;
    struct HashTableEntry *next;
} HashTableEntry;

HashTableEntry *hashTable[TABLE_SIZE];

unsigned int hash(int key) {
    return key % TABLE_SIZE;
}

HashTableEntry *find(int key) {
    int index = hash(key);
    HashTableEntry *entry = hashTable[index];
    while (entry) {
        if (entry->key == key) {
            return entry;
        }
        entry = entry->next;
    }
    return NULL;
}

void insert(int key, int value) {
    int index = hash(key);
    HashTableEntry *entry = find(key);
    if (!entry) {
        HashTableEntry *newEntry = malloc(sizeof(HashTableEntry));
        newEntry->key = key;
        newEntry->value = value;
        newEntry->next = hashTable[index];
        hashTable[index] = newEntry;
    } else {
        entry->value = value;
    }
}

void delete(int key) {
    int index = hash(key);
    HashTableEntry *entry = hashTable[index];
    HashTableEntry *prev = NULL;
    while (entry) {
        if (entry->key == key) {
            if (prev) {
                prev->next = entry->next;
            } else {
                hashTable[index] = entry->next;
            }
            free(entry);
            return;
        }
        prev = entry;
        entry = entry->next;
    }
}

int main() {
    insert(1, 100);
    insert(2, 200);
    printf("Find key 1: %d\n", find(1)->value);
    delete(1);
    printf("Find key 1 after deletion: %d\n", find(1) != NULL);
    return 0;
}

在这个示例中，我们定义了一个散列表的基本结构和操作，实现了插入、查找和删除功能。代码解析了每个步骤的逻辑，使读者能够深入理解其工作原理。

本文还有配套的精品资源，点击获取