Pandas 基础(12) - Stack 和 Unstack

本文详细介绍了Pandas库中stack和unstack函数的使用方法,解释了如何通过这两个函数转换多级表头的数据结构,包括单层和多层表头的处理,并提供了具体的代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这节的主题是 stack 和 unstack, 我目前还不知道专业领域是怎么翻译的, 我自己理解的意思就是"组成堆"和"解除堆". 其实, 也是对数据格式的一种转变方式, 单从字面上可能比较难理解, 所以给大家下面两张图来理解一下:


上图中, 标绿色的部分, 代表一个对应关系, 就是列的级别转为行级别. 
下面来看下具体实现. 首先引入文件, 通过原表, 我们可以看到有两行表头, 所以这里要多加个参数 header=[0,1]:

df = pd.read_excel('/Users/rachel/Sites/pandas/py/pandas/12_stack/stocks.xlsx', header=[0,1])

输出:

用 stack() 方法改变一下格式, 看会是什么效果:

df_stacked = df.stack()
df_stacked

从输出可以看到, 原来的数据结构是有两行表头, 经过 stack 之后, 就变成一行了, 也就是 Facebook Google Microsoft 这一行, 从原来的列名, 变成了索引:

那我们现在再 unstack 看看:

df_stacked.unstack()

输出:


发现, unstack 之后, 整个数据结构又变回去了.

那我们现在再来重新 stack 一下, 并且加个参数 level=0, 也就是将第一行的表头堆叠成索引列:

df.stack(level=0)

输出:

下面再来看一个更复杂点的例子, 这个表格中有三行表头:

df2 = pd.read_excel('/Users/rachel/Sites/pandas/py/pandas/12_stack/stocks_3_levels.xlsx', header=[0,1,2])

输出:



首先 stack 一下:

df2.stack()

输出, 我们看到最下面一行表头被堆叠到索引列了:

再试一下将 level 参数设为 0:

df2.stack(level=0)

发现, 第一行表头被 stack 了:

再设置 level=1:

df2.stack(level=1)

输出, 这次是第二行表头被 stack 了:

再试下设置 level=2:

df2.stack(level=2)

输出, 发现是第三行表头被 stack 了:

综上, 可以总结, stack 的作用就是可以将横向的表头(列名)转成纵向的索引列展示, 对于多行表头而言, 具体要转换哪一行取决于 level 参数, 如果不指定, 则默认转换最下面一行表头. 

以上, 就是关于 stack 和 unstack 的基本操作了, enjoy!~~~

 

转载于:https://www.cnblogs.com/rachelross/p/10439704.html

<think>嗯,用户想了解Pandas里的stackunstack方法的用法区别。我先得回忆一下这两个函数的作用。记得stack是用来把列转换成行,也就是将宽格式数据变成长格式,而unstack则是相反,把行转换成列,让数据变宽。可能需要用例子来解释清楚。 首先,要确认用户的使用场景。用户可能在处理多层索引的数据,或者需要数据透视、重塑结构的时候用到这两个方法。比如,处理时间序列数据或者分组聚合后的结果。用户提供的引用里提到了多层索引数据透视,这stack/unstack的应用场景相关。 接下来,我需要解释stack的具体用法。通常,当DataFrame有列的多层索引时,stack会把某一层的列转成行,生成一个Series或DataFrame。例如,如果列有两层,stack之后,外层列会变成行索引的新层级。这时候数据会更“长”,适合进行分析或绘图。 然后是unstack,它则是把行索引的某一层转成列。比如,如果行有多层索引,unstack可以把其中一层变成列,让数据变得更“宽”,便于展示或进一步处理。比如,将月份作为行索引,unstack后变成列,每个月份的数据作为不同的列。 还要注意它们的参数,比如level,用来指定操作哪一层的索引。默认可能是最内层。另外,处理缺失值的情况,当unstack时如果某些组合不存在数据,会自动填充NaN,这时候可能需要处理缺失值。 用户提供的引用里提到了concatMultiIndex,可能用户对Pandas的其他重塑操作也有兴趣,但当前问题集中在stackunstack。需要确保回答覆盖基本用法、区别,以及实际例子。 另外,用户可能混淆这两个方法,所以需要明确对比它们的差异:stack是列转行,增加行索引层级;unstack是行转列,增加列索引层级。同时,结果的数据结构可能从DataFrame变为Series,特别是在多层索引的情况下。 最后,生成相关问题的时候,可以考虑数据重塑的其他方法,比如pivot、melt,或者多层索引的应用场景,以及如何处理操作后的缺失值。这些问题能帮助用户深入理解相关主题。</think>### Pandasstackunstack方法详解 #### 一、基本定义 1. **stack(堆叠)** 将DataFrame的列索引转换为行索引,生成具有多层索引的Series或DataFrame,公式表达为: $$ \text{宽表} \xrightarrow{\text{stack}} \text{长表} $$ 2. **unstack(解堆叠)** 将行索引的某一层级转换为列索引,公式表达为: $$ \text{长表} \xrightarrow{\text{unstack}} \text{宽表} $$ #### 二、使用示例 假设有以下多层索引DataFrame: ```python import pandas as pd arrays = [['A', 'A', 'B', 'B'], [1, 2, 1, 2]] index = pd.MultiIndex.from_arrays(arrays, names=('letters', 'numbers')) df = pd.DataFrame({'data1': [10, 20, 30, 40], 'data2': [50, 60, 70, 80]}, index=index) ``` 1. **stack操作** 将列标签转换为行索引: ```python stacked = df.stack() ``` 输出结果的行索引变为`(letters, numbers, column)`三层结构,数据从二维表变为一维序列。 2. **unstack操作** 将行索引层级展开为列: ```python unstacked = stacked.unstack(level='numbers') # 展开numbers层级 ``` 输出结果的列会包含`data1``data2`在不同`numbers`值下的组合。 #### 三、核心区别 | 特性 | stack | unstack | |--------------|--------------------------------|--------------------------------| | 数据维度变化 | 减少列维度,增加行维度(长数据) | 减少行维度,增加列维度(宽数据)| | 典型应用场景 | 数据规范化、时间序列分析 | 数据透视、交叉分析 | | 索引操作 | 列索引→行索引 | 行索引→列索引 | #### 四、注意事项 1. 缺失值处理:unstack可能产生NaN值,可配合`fill_value`参数处理 2. 层级选择:通过`level`参数指定操作层级(支持名称或位置编号) 3. 多层索引:`pd.MultiIndex`结合使用时效果更显著[^3]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值