为了买车，我用Python把某帝给搞采集了。_采集懂车帝数字替换-CSDN博客

本文链接：https://blog.csdn.net/weixin_43881394/article/details/129164183

博主通过Python的Scrapy爬虫框架爬取了懂车帝的汽车品牌和车型评分数据，分析了各品牌评分最高的车型。在处理过程中，使用了多线程加速，应对动态加载页面时使用了Selenium。通过对数据的整理和分析，发现评分最高的车型是劳斯莱斯的“幻影”。同时，博主分享了爬取数据的具体步骤，包括如何找出品牌对应的id和设置Scrapy爬虫。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上班摸鱼看了2个星期车评，还是一头雾水，选合资还是国产？发动机cvt好还是双离合好？艾瑞泽5 GT动力足，但腰线和前脸让人吐槽，真的可靠吗。国产选长安逸动还是吉利帝豪？标志408出来了，还有艾瑞泽8很漂亮。看会视频吧，同质化严重，讲来将去就是车内车外介绍一遍。

热门视频下通常有几百条评论，我一般会翻看一遍，七个八个视频就是几千条评论，信息芜杂，没个定准，所以干脆不看了！我决定从评分入手，爬下懂车帝看到底有多少个汽车品牌。长安、吉利、奇瑞它们有多少车型，高分段的车型多不，每家热销的车子分数排在哪个段位。所以用scrapy爬了3655条数据。

比如马路上很多别克牌子，我又对它没啥印象，除了知道威朗在紧凑型轿车中排名靠前，还有其它热销车型吗？所以特意看了下别克的数据：

好家伙，居然有排名第一的！再比如韩国车企在中国没落了，落寞成什么样子呢，

可以看到，现代和起亚在小型轿车和中型MPV是有销量的，悦纳曾经也是月销过万的主流合资轿车，这里它虽然位于小型桥车销量NO.10，但8月仅销售303辆。确实有点惨淡啊，除了伊兰特，8月销量超过1千辆的只有一个库斯途，其它最多的的月销也只有1到3百辆，它们曾经非常受欢迎，不过随着汽车行业的更新换代，逐渐淡出了消费者们的视野。

评分最高的车型

再举个🌰，我想知道486个品牌中，每个品牌评分最高的车型

486个品牌的车型评分，已上传，http://ssw.fit/file/ 。由于部分品牌没有车型，如“众泰”没一款车型，所以爬的时候不会把这种写入csv文件中。一共3655条数据，也就是3655个车型。

对car.csv进行处理：

import pandas as pd
df2 = pd.read_csv("D:/桌面/car.csv",encoding='gb18030')
#取出评分大于0的（也就是去掉懂车帝上显示“暂无评分”的）
x = df2.groupby('评分').filter(lambda x:x['评分'].mean() > 0)

#取各组品牌中评分最高的
t = x.sort_values('评分',ascending=False).groupby('品牌', as_index=False).first()

t.sort_values('评分',ascending=False,inplace=True)
t.to_csv('评分榜.csv', index = True)

输出如下：

可以看到，所有品牌中，评分最高的车型是劳斯莱斯的“幻影”，4.74分，这个分数很高了。要知道国产长安最高3.88（长安UNI-K），吉利最高3.9（星越L），日产最高也没超过4分。

说明几个地方

下面开始整活。先说明几个地方：

因为品牌较多，对应不同的url，可以利用multiprocessing.dummy多线程加快速度
使用的爬虫框架是scrapy，它结构清晰，使用起来方便，比所有内容写到一个文件里好些。
有些页面是动态加载的，需要使用selenium模拟页面向下滚动加载，把滚动条拉到最下面。
大概运行过程是这样的：

好了，先从观察页面开始。

猜了个猜

观察它的url。首先来个十八连猜，猜下它尾部的18个“x”分别代表什么意思？

https://www.dongchedi.com/auto/library/x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x-x

我先猜一个，倒数第3个x代表汽车品牌，不信吗，修改数字的话，第二个红框会出现不同的品牌：

所以url的倒数第三位，数字3代表奔驰，2为奥迪，4是宝马。其它你可以试一下，能搜索到结果的数字大概在600以内。我猜汽车品牌数也在600内吧。当然不能这么一个个猜，还是赶紧干正事，找出每个品牌对应的数字，这样才好向相关品牌的页面发送请求。

找了个找

一共有6个属性为layout_label__1qfS8的span标签，我们要找的是第6个，即找到“已知条件”这个span标签。

这个时候下面脚本中的条件condition[5]才成立，BeautifulSoup才找得到：

soup = BeautifulSoup(rep.text,'html.parser')
condition = soup.find_all('span', class_='layout_label__1qfS8')
# 当num大于500时，有可能没这个品牌，condition[5]会报错
try:
    condition[5].next_sibling.a.text
except Exception as e:
    pass

因为数字大于500时，很可能没这个品牌，页面上不会出现“已知条件”，而是提示“0车系符合条件”