DeepSeek小白入门：用AI助手五分钟写出你的第一个C语言爬虫

本文链接：https://blog.csdn.net/2301_76277481/article/details/147718001

在当今信息爆炸的时代，网络爬虫已成为获取和处理大量网络数据的有力工具。对于初学者而言，编写一个功能完善的C语言爬虫可能是一项具有挑战性的任务，需要了解网络编程、HTML解析、数据存储等多个方面的知识。本篇文章将介绍如何利用AI助手DeepSeek，即使是编程新手也能在短短五分钟内创建一个简单的C语言网络爬虫。我们将从零开始，详细讲解每个步骤，并提供完整的代码示例，帮助读者快速上手。

什么是网络爬虫？

网络爬虫是一种按照一定规则自动抓取互联网信息的程序。它通过访问网页、解析内容，并按照预设的规则提取所需信息，广泛应用于搜索引擎、数据采集、信息监测等领域。对于初学者而言，理解爬虫的基本工作原理是构建自己的爬虫程序的第一步。

网络爬虫通常包含以下几个核心组件：

URL队列：存储待爬取的URL
网页下载器：负责从互联网下载网页内容
网页解析器：从下载的网页中提取有用信息
数据存储：将提取的信息存储到本地或数据库中

为什么选择C语言编写爬虫？

虽然Python等高级语言在编写爬虫时提供了更简洁的语法和丰富的库支持，但选择C语言有其独特的优势：

性能优势：C语言编译后的代码运行效率高，适合处理大规模数据
资源消耗低：C语言程序占用内存少，适合在资源受限的环境中运行
底层控制：C语言提供了对底层硬件的直接控制能力
学习价值：通过C语言实现爬虫，有助于理解爬虫程序的底层运行机制

DeepSeek AI助手简介

DeepSeek是一款强大的AI助手，它能够根据用户的自然语言描述生成相应的代码片段。对于编程新手来说，DeepSeek就像一个经验丰富的编程导师，能够根据你的需求快速生成代码框架，帮助你理解代码的结构和实现原理。

DeepSeek的主要功能包括：

代码生成：根据用户指令生成相应的代码片段
代码解释：解释生成代码的功能和实现原理
代码修改：根据用户反馈修改代码实现
代码优化：提供代码优化建议

使用DeepSeek构建C语言爬虫的步骤

步骤1：安装必要的开发环境

在开始编写C语言爬虫之前，我们需要安装以下工具：

C语言编译器：如gcc或clang
文本编辑器：如VS Code、Sublime Text或vim
网络开发库：如libcurl用于HTTP请求，libxml2或expat用于XML/HTML解析

对于编程新手，我们推荐使用VS Code作为开发环境，它提供了丰富的插件支持和友好的用户界面。

步骤2：使用DeepSeek生成爬虫框架

接下来，我们使用DeepSeek生成一个简单的C语言网络爬虫框架。向DeepSeek输入以下指令：

生成一个简单的C语言网络爬虫框架，需要包含URL队列、网页下载和HTML解析功能

DeepSeek将生成如下的代码框架：

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <curl/curl.h>
#include <libxml/htmlparser.h>
#include <libxml/htmltree.h>
#include <libxml/xpath.h>
#include <libxml/xpathInternals.h>

typedef struct {
    char *url;
    char *content;
} webpage_t;

typedef struct {
    char *url;
    char *selector;
} rule_t;

typedef struct {
    char *base_url;
    char *start_url;
    rule_t *rules;
    int rule_count;
} crawler_t;

void init_crawler(crawler_t *crawler, const char *base_url, const char *start_url) {
    crawler->base_url = strdup(base_url);
    crawler->start_url = strdup(start_url);
    crawler->rules = NULL;
    crawler->rule_count = 0;
}

void add_rule(crawler_t *crawler, const char *url, const char *selector) {
    crawler->rules = realloc(crawler->rules, sizeof(rule_t) * (crawler->rule_count + 1));
    crawler->rules[crawler->rule_count].url = strdup(url);
    crawler->rules[crawler->rule_count].selector = strdup(selector);
    crawler->rule_count++;
}

void free_crawler(crawler_t *crawler) {
    free(crawler->base_url);
    free(crawler->start_url);
    for (int i = 0; i < crawler->rule_count; i++) {
        free(crawler->rules[i].url);
        free(crawler->rules[i].selector);
    }
    free(crawler->rules);
}

webpage_t *download_page(const char *url) {
    webpage_t *page = malloc(sizeof(webpage_t));
    page->url = strdup(url);
    page->content = NULL;

    CURL *curl = curl_easy_init();
    if (curl) {
        curl_easy_setopt(curl, CURLOPT_URL, url);
        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, NULL);
        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &page->content);
        CURLcode res = curl_easy_perform(curl);
        if (res == CURLE_OK) {
            page->content = malloc(strlen(curl_easy_strerror(res)) + 1);
            strcpy(page->content, curl_easy_strerror(res));
        }
        curl_easy_cleanup(curl);
    }
    return page;
}

void parse_html(webpage_t *page, const char *selector) {
    // 解析HTML的逻辑
}

void process_crawler(crawler_t *crawler) {
    // 处理爬虫逻辑
}

int main(int argc, char **argv) {
    if (argc < 3) {
        printf("Usage: %s <base_url> <start_url>\n", argv[0]);
        return EXIT_FAILURE;
    }

    crawler_t crawler;
    init_crawler(&crawler, argv[1], argv[2]);

    process_crawler(&crawler);

    free_crawler(&crawler);
    return EXIT_SUCCESS;
}

步骤3：完善网页下载功能

DeepSeek生成的代码框架中，download_page函数需要完善。我们向DeepSeek输入以下指令：

完善download_page函数，使其能够正确下载网页内容，并处理可能的错误情况

DeepSeek将修改download_page函数为：

webpage_t *download_page(const char *url) {
    webpage_t *page = malloc(sizeof(webpage_t));
    if (!page) {
        return NULL;
    }
    page->url = strdup(url);
    if (!page->url) {
        free(page);
        return NULL;
    }
    page->content = NULL;

    CURL *curl = curl_easy_init();
    if (!curl) {
        free(page->url);
        free(page);
        return NULL;
    }

    curl_easy_setopt(curl, CURLOPT_URL, url);
    curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);
    curl_easy_setopt(curl, CURLOPT_MAXREDIRS, 5);
    curl_easy_setopt(curl, CURLOPT_TIMEOUT, 10);
    curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, NULL);
    curl_easy_setopt(curl, CURLOPT_WRITEDATA, &page->content);

    CURLcode res = curl_easy_perform(curl);
    if (res != CURLE_OK) {
        printf("Download failed: %s\n", curl_easy_strerror(res));
        free(page->url);
        free(page);
        curl_easy_cleanup(curl);
        return NULL;
    }

    long http_code = 0;
    curl_easy_getinfo(curl, CURLINFO_RESPONSE_CODE, &http_code);
    if (http_code >= 400) {
        printf("HTTP error: %ld\n", http_code);
        free(page->url);
        free(page);
        curl_easy_cleanup(curl);
        return NULL;
    }

    curl_easy_cleanup(curl);
    return page;
}

步骤4：实现HTML解析功能

接下来，我们需要实现parse_html函数，用于从HTML中提取指定选择器的内容。向DeepSeek输入以下指令：

实现parse_html函数，使用libxml2库解析HTML，并提取指定选择器的内容

DeepSeek将生成parse_html函数的实现：

void parse_html(webpage_t *page, const char *selector) {
    if (!page || !page->content || !selector) {
        return;
    }

    xmlDocPtr doc = xmlReadMemory(page->content, strlen(page->content), page->url, NULL, 0);
    if (doc == NULL) {
        printf("Document not parsed successfully\n");
        return;
    }

    xmlNodePtr root_node = xmlDocGetRootElement(doc);
    xmlXPathContextPtr xpathCtx = xmlXPathNewContext(doc);
    if (xpathCtx == NULL) {
        printf("xmlXPathNewContext() failed\n");
        xmlFreeDoc(doc);
        return;
    }

    xmlXPathObjectPtr xpathObj = xmlXPathEvalExpression((xmlChar *)selector, xpathCtx);
    if (xpathObj == NULL) {
        printf("xmlXPathEvalExpression() failed\n");
        xmlFreeContext(xpathCtx);
        xmlFreeDoc(doc);
        return;
    }

    xmlNodeSetPtr nodes = xpathObj->nodesetval;
    if (nodes->nodeNr > 0) {
        for (int i = 0; i < nodes->nodeNr; i++) {
            xmlChar *content = xmlNodeGetContent(nodes->nodePtr[i]);
            if (content) {
                printf("Found content: %s\n", content);
                xmlFree(content);
            }
        }
    }

    xmlXPathFreeObject(xpathObj);
    xmlFreeContext(xpathCtx);
    xmlFreeDoc(doc);
}

步骤5：实现爬虫处理逻辑

最后，我们需要实现process_crawler函数，用于处理爬虫的总体逻辑。向DeepSeek输入以下指令：

实现process_crawler函数，实现一个简单的广度优先搜索爬虫，根据规则提取信息

DeepSeek将生成process_crawler函数的实现：

void process_crawler(crawler_t *crawler) {
    if (!crawler) {
        return;
    }

    printf("Starting crawler with base URL: %s and start URL: %s\n", crawler->base_url, crawler->start_url);

    webpage_t *start_page = download_page(crawler->start_url);
    if (!start_page) {
        printf("Failed to download start page\n");
        return;
    }

    parse_html(start_page, crawler->rules[0].selector);

    free(start_page);
}

完整代码与使用说明

完整代码

将以上所有代码整合，得到完整的C语言网络爬虫代码：

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <curl/curl.h>
#include <libxml/htmlparser.h>
#include <libxml/htmltree.h>
#include <libxml/xpath.h>
#include <libxml/xpathInternals.h>

typedef struct {
    char *url;
    char *content;
} webpage_t;

typedef struct {
    char *url;
    char *selector;
} rule_t;

typedef struct {
    char *base_url;
    char *start_url;
    rule_t *rules;
    int rule_count;
} crawler_t;

void init_crawler(crawler_t *crawler, const char *base_url, const char *start_url) {
    crawler->base_url = strdup(base_url);
    crawler->start_url = strdup(start_url);
    crawler->rules = NULL;
    crawler->rule_count = 0;
}

void add_rule(crawler_t *crawler, const char *url, const char *selector) {
    crawler->rules = realloc(crawler->rules, sizeof(rule_t) * (crawler->rule_count + 1));
    crawler->rules[crawler->rule_count].url = strdup(url);
    crawler->rules[crawler->rule_count].selector = strdup(selector);
    crawler->rule_count++;
}

void free_crawler(crawler_t *crawler) {
    free(crawler->base_url);
    free(crawler->start_url);
    for (int i = 0; i < crawler->rule_count; i++) {
        free(crawler->rules[i].url);
        free(crawler->rules[i].selector);
    }
    free(crawler->rules);
}

webpage_t *download_page(const char *url) {
    webpage_t *page = malloc(sizeof(webpage_t));
    if (!page) {
        return NULL;
    }
    page->url = strdup(url);
    if (!page->url) {
        free(page);
        return NULL;
    }
    page->content = NULL;

    CURL *curl = curl_easy_init();
    if (!curl) {
        free(page->url);
        free(page);
        return NULL;
    }

    curl_easy_setopt(curl, CURLOPT_URL, url);
    curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);
    curl_easy_setopt(curl, CURLOPT_MAXREDIRS, 5);
    curl_easy_setopt(curl, CURLOPT_TIMEOUT, 10);
    curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, NULL);
    curl_easy_setopt(curl, CURLOPT_WRITEDATA, &page->content);

    CURLcode res = curl_easy_perform(curl);
    if (res != CURLE_OK) {
        printf("Download failed: %s\n", curl_easy_strerror(res));
        free(page->url);
        free(page);
        curl_easy_cleanup(curl);
        return NULL;
    }

    long http_code = 0;
    curl_easy_getinfo(curl, CURLINFO_RESPONSE_CODE, &http_code);
    if (http_code >= 400) {
        printf("HTTP error: %ld\n", http_code);
        free(page->url);
        free(page);
        curl_easy_cleanup(curl);
        return NULL;
    }

    curl_easy_cleanup(curl);
    return page;
}

void parse_html(webpage_t *page, const char *selector) {
    if (!page || !page->content || !selector) {
        return;
    }

    xmlDocPtr doc = xmlReadMemory(page->content, strlen(page->content), page->url, NULL, 0);
    if (doc == NULL) {
        printf("Document not parsed successfully\n");
        return;
    }

    xmlNodePtr root_node = xmlDocGetRootElement(doc);
    xmlXPathContextPtr xpathCtx = xmlXPathNewContext(doc);
    if (xpathCtx == NULL) {
        printf("xmlXPathNewContext() failed\n");
        xmlFreeDoc(doc);
        return;
    }

    xmlXPathObjectPtr xpathObj = xmlXPathEvalExpression((xmlChar *)selector, xpathCtx);
    if (xpathObj == NULL) {
        printf("xmlXPathEvalExpression() failed\n");
        xmlFreeContext(xpathCtx);
        xmlFreeDoc(doc);
        return;
    }

    xmlNodeSetPtr nodes = xpathObj->nodesetval;
    if (nodes->nodeNr > 0) {
        for (int i = 0; i < nodes->nodeNr; i++) {
            xmlChar *content = xmlNodeGetContent(nodes->nodePtr[i]);
            if (content) {
                printf("Found content: %s\n", content);
                xmlFree(content);
            }
        }
    }

    xmlXPathFreeObject(xpathObj);
    xmlFreeContext(xpathCtx);
    xmlFreeDoc(doc);
}

void process_crawler(crawler_t *crawler) {
    if (!crawler) {
        return;
    }

    printf("Starting crawler with base URL: %s and start URL: %s\n", crawler->base_url, crawler->start_url);

    webpage_t *start_page = download_page(crawler->start_url);
    if (!start_page) {
        printf("Failed to download start page\n");
        return;
    }

    parse_html(start_page, crawler->rules[0].selector);

    free(start_page);
}

int main(int argc, char **argv) {
    if (argc < 3) {
        printf("Usage: %s <base_url> <start_url>\n", argv[0]);
        return EXIT_FAILURE;
    }

    crawler_t crawler;
    init_crawler(&crawler, argv[1], argv[2]);

    // 添加爬取规则
    add_rule(&crawler, "https://example.com/page", "//div[@class='content']");

    process_crawler(&crawler);

    free_crawler(&crawler);
    return EXIT_SUCCESS;
}

使用说明

安装依赖库：
- 安装libcurl：sudo apt-get install libcurl4-openssl-dev
- 安装libxml2：sudo apt-get install libxml2-dev
编译程序：
- 编译命令：gcc -o crawler crawler.c -lcurl -lxml2 -pthread
运行程序：
- 运行命令：./crawler https://example.com https://example.com/index.html