kaggle咖啡销售分析案例侧重可视化折线图条形图扇形图柱状图

最新推荐文章于 2025-07-02 14:31:05 发布

E寻数据

最新推荐文章于 2025-07-02 14:31:05 发布

阅读量1.4k

点赞数 22

CC 4.0 BY-SA版权

分类专栏：数据资源 python 案例文章标签： python 信息可视化开发语言

本文链接：https://blog.csdn.net/qq_42452134/article/details/137956573

概述

在这个Kaggle的笔记本中，作者进行了关于咖啡店销售数据的分析。该案例提供了对数据科学和可视化技巧的全面展示，适合用作博客内容来介绍如何用Python分析实际商业数据。这个Kaggle笔记本是一个很好的例子，展示了如何利用数据科学技术来分析和解释商业数据，适合在博客中介绍数据科学在现实世界中的应用。你可以在博客中详细介绍每个步骤的技术细节和业务洞察，为读者提供实际操作的框架和灵感。

环境依赖

编程语言：
- Python：作为数据科学领域最受欢迎的编程语言之一，Python 提供了丰富的库和框架，适合进行数据处理、分析、机器学习和可视化等任务。
主要的库和工具：
- NumPy：提供高性能的多维数组对象和对这些数组的操作。它是进行科学计算的基础库，支持大量的维度数组和矩阵运算。
- Pandas：提供了DataFrame等数据结构，支持灵活的数据操作，是处理结构化数据的理想工具。
- Matplotlib：一个强大的绘图库，支持多种静态、动态和交互式的图表。
- Seaborn：基于Matplotlib，集成了更多的图表类型，专注于统计可视化，使用简单的代码就可以生成复杂的统计图表。
- Plotly：支持创建交互式图表的库，使得数据的展示更加直观和互动。
开发环境：
- Jupyter Notebook 或 JupyterLab：这是数据科学领域广泛使用的开发工具，提供了一个便捷的web界面，允许你创建和共享包含实时代码、可视化和说明文本的文档。
- IDEs（如 PyCharm, Visual Studio Code）：这些集成开发环境支持更复杂的项目管理和开发需求，提供代码编辑、调试和版本控制等功能。
安装和管理工具：
- pip：Python的包安装器，用于安装和管理上述库。
- conda：一个开源包管理系统和环境管理系统，可以用于安装、运行和升级包和依赖关系。
操作系统：
- 可以在多种操作系统上部署，如Windows、macOS和Linux等，这些系统提供了运行Python及其库的平台。

数据描述

字段名称	描述
transaction_id	代表单个交易的唯一顺序ID。
transaction_date	交易日期（格式：MM/DD/YY）。
transaction_time	交易时间戳（格式：HH:MM:SS）。
transaction_qty	销售商品的数量。
store_id	发生交易的咖啡店的唯一ID。
store_location	发生交易的咖啡店的位置。
product_id	销售产品的唯一ID。
unit_price	销售产品的零售价格。
product_category	产品类别的描述。
product_type	产品类型的描述。
product_detail	产品详细描述。

代码概述

导包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly.offline import iplot
from plotly.subplots import make_subplots

这段代码是用于导入进行数据分析和可视化所需的Python库的标准代码。各个库的功能和用途如下：

numpy (np): 提供了支持大量维度数组与矩阵运算的函数库，是科学计算的基础包。广泛用于数据处理中的各种数学运算。
pandas (pd): 是Python的一个数据分析库，提供了高效地操作大型数据集所需的工具和数据结构，如DataFrame。
matplotlib.pyplot (plt): 是一个非常流行的绘图库，提供了一种类似于MATLAB的绘图系统。用于创建静态、动态、交互式的图表。
seaborn (sns): 基于matplotlib的数据可视化库，提供了一种高级接口，专注于统计图形的绘制。它使得绘制吸引人的统计图表变得更简单。
plotly.express (px) 和 plotly.subplots:
- plotly.express: 是一个简化的接口，允许快速制作复杂的图表。Plotly Express 支持一系列图表和图形类型。
- make_subplots 和 iplot：用于创建多子图（subplot）的布局和交互式图表。make_subplots 用于构建含有多个子图的图表布局，而 iplot 是用于显示交互式图表的函数。

这些库共同为数据科学和机器学习项目提供了强大的数据探索、处理、分析及可视化能力。使用这些工具，你可以从大量数据中洞察见解并以图形的方式展示出来，非常适合进行复杂的数据分析和生成专业的报告。

数据读取

df = pd.read_excel('Coffee Shop Sales.xlsx')
df.head()

加载 Excel 文件：
- pd.read_excel('Coffee Shop Sales.xlsx')：这是 Pandas 库用来读取 Excel 文件的函数。它接受文件名作为参数，将数据加载到 DataFrame 中。这是直接处理 Excel 文件的高效方法。
查看数据：
- df.head()：此函数默认返回 DataFrame 的前五行。这是一种快速查看数据初貌的方法，可以帮助你了解数据集包含哪些列和基本的数据格式。

统计缺失值

print(df.isna().sum())
print(df.isnull().sum())
print(df.isnull().sum())

数据结构概述

print(df.info())

#################################################
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 149116 entries, 0 to 149115
Data columns (total 11 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   transaction_id    149116 non-null  int64         
 1   transaction_date  149116 non-null  datetime64[ns]
 2   transaction_time  149116 non-null  object        
 3   transaction_qty   149116 non-null  int64         
 4   store_id          149116 non-null  int64         
 5   store_location    149116 non-null  object        
 6   product_id        149116 non-null  int64         
 7   unit_price        149116 non-null  float64       
 8   product_category  149116 non-null  object        
 9   product_type      149116 non-null  object        
 10  product_detail    149116 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(4), object(5)
memory usage: 12.5+ MB

这段代码 df.info() 用于展示 Pandas DataFrame df 中的信息概览。它显示了数据框的每一列的名称、非空值的数量、数据类型以及内存的使用情况。下面是对这段输出的详细中文解释：

DataFrame 结构：该 DataFrame 共包含 149116 条记录，从索引 0 到 149115。
列总数：数据集总共有 11 个列。
列的详情：
- transaction_id：交易ID，149116 个非空值，数据类型为整数（int64）。
- transaction_date：交易日期，149116 个非空值，数据类型为日期时间（datetime64[ns]）。
- transaction_time：交易时间，149116 个非空值，数据类型为字符串（object）。
- transaction_qty：交易数量，149116 个非空值，数据类型为整数（int64）。
- store_id：商店ID，149116 个非空值，数据类型为整数（int64）。
- store_location：商店位置，149116 个非空值，数据类型为字符串（object）。
- product_id：产品ID，149116 个非空值，数据类型为整数（int64）。
- unit_price：单价，149116 个非空值，数据类型为浮点数（float64）。
- product_category：产品类别，149116 个非空值，数据类型为字符串（object）。
- produc