Chris的博客
用于记录日常的学习和突发奇想
博客首页
go
关注
分享
复制链接
分享到 QQ
分享到新浪微博
扫一扫
文章平均质量分 53
关注数:
0
文章数:
1
文章阅读量:
602
文章收藏量:
4
作者:
Chris_1219
一个在深圳闯荡六年的程序猿,大家一起交流学习。
展开
专栏收录文章
默认排序
最新发布
最早发布
最多阅读
最少阅读
基于Go1.19的站点模板爬虫
它接收一个URL和一个等待组指针。首先,它检查URL是否已经被访问过,如果是则直接返回。否则,它将URL标记为已访问,并获取页面内容。接着,解析HTML并提取所有链接,为每个链接启动新的goroutine来继续爬取。发送HTTP请求,并检查响应状态码是否为200(OK)。则启动了一个新的goroutine来爬取起始URL。包来解析HTML,并使用递归函数遍历节点树。函数解析给定的HTML内容并提取所有链接。属性中的链接并将其添加到链接列表中。主函数定义了一个起始URL,并使用。来跟踪并发的爬取任务。
原创
2024-07-13 11:28:21 ·
602 阅读 ·
0 评论