背景
本次主要对Airbnb在北京地区2020年10月的部分数据,由于数据内容较少,本次仅进行的数据探索,点击可下载数据。
数据共计16列,2万7千余条。其中字段包括房源ID,房源姓名,房主ID,房主姓名,社区组,区域,纬度,经度,房间类型,价格,最低入住时常,最近一条评论,月评论占比,可出租房数量,可出租天数。
数据清洗
导入常用库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.font_manager import FontProperties
from pylab import *
plt.rcParams['font.family']=['Heiti TC']
font = FontProperties(fname = '/System/Library/Fonts/STHeiti\ Medium.ttc')
%matplotlib inline
# 设置数据路径
path = '/Users/valkyrja/Documents/dataanalysis/taobao/aibiying.csv'
data_1 = pd.read_csv(path)
data_1.info()
经过查看社区组全部为空,考虑进行删除。
id, host_id类型转化为字符串。
last_reviews 转换为时间类型
data_1.isnull().sum()
# 存在缺失值,房主姓名和社区组的列进行删除操作
# 进行删除列
data_1.drop('host_name', axis = 1, inplace = True)
data_1.drop(<