在我的数据科学工作中,我构建了相当多的预测算法,并编写了复杂的SQL查询来分析数据趋势。
所有这些分析都需要转化为见解,并向利益相关者解释,以便他们决定下一步要做的业务决策。
将复杂信息分解给非技术人员的最佳方式是创建易于消化的视觉效果。这可以是PowerPoint中的独立图表、Jupyter Notebook中的一系列可视化或Tableau上的交互式仪表板。
还可以创建数据可视化,以便您自己理解和解释手头的数据。您可以构建图表,帮助您一目了然地了解不同变量之间的关系。
在本教程中,您将熟悉以下概念:
- 用于可视化数值和分类数据的技术
- 单变量、双变量和多变量分析之间的差异
- 使用Seaborn创建回归图和配对图
- 可视化变量的分布。
预备知识
要继续学习本教程,您的设备上需要有一个Jupyter Notebook。如果您还没有Seaborn库,请对其进行简单的“pip”安装。
加载数据集
在本教程中,我们将使用Seaborn库中内置的数据集,因此不需要从外部数据源下载。
import seaborn as sns
df = sns.load_dataset('tips')
df.head()
上述数据框由与餐厅用餐者相关的7个变量组成:以美元计的小费、以美元计价的账单、账单支付人的性别、团队中是否有吸烟者、日期、时间和聚会规模。
借助数据可视化,我们将尝试揭示上述数据集中的潜在模式。