大一刚上一学期,学了挺多知识,先写一个清洗数据吧。
1.获取网页源代码
2.定义变量
给你复制的代码定义一个叫“text1(这里名称可以自己想)”的变量。如图所示:
3.写代码
用split方式进行切片,切取你所需要的部分。
for i in range(1,26):
text = text1.split('<li>')[i]
rank = text.split('<em class="">')[1].split('</em>')[0]#排名
title = text.split('class="title">')[1].split('</span>')[0]#名称
rate = text.split('average">')[1].split('</span>')[0]#评分
number = text.split('<span>')[1].split('评价</span>')[0]#评价人数
type = text.split('class="inq">')[1].split('</span>')[0]#类型
print("排名:{},《{}》,豆瓣评分:{},评价人数:{},类型:{}".format(rank,title,rate,number,type))
运行结果如下: