数据分析三剑客：Pandas库入门1

最新推荐文章于 2025-05-07 16:55:44 发布

AI科技编码

最新推荐文章于 2025-05-07 16:55:44 发布

阅读量318

点赞数 5

分类专栏：数据分析文章标签：数据分析 pandas 数据挖掘

本文链接：https://blog.csdn.net/weixin_49817079/article/details/147024993

版权

数据分析专栏收录该内容

6 篇文章

订阅专栏

前言

Python在数据处理和准备方面一直做得很好，但在数据分析和建模方面就差一些。Pandas帮助填补了这一空白，使您能够在Python中执行整个数据分析工作流程，而不必切换到更特定于领域的语言，如R。

与出色的jupyter工具包和其他库相结合，Python中用于进行数据分析的环境在性能、生产率和协作能力方面都是卓越的。

Pandas是Python的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。Pandas是Python进行数据分析的必备高级工具。

Pandas的主要数据结构是Series(一维数据)与DataFrame(二维数据)，这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数案例。

处理数据一般分为几个阶段：数据整理与清洗、数据分析与建模、数据可视化与制表，Pandas是处理数据的理想工具。

数据结构

Series

用列表生成 Series时，Pandas 默认自动生成整数索引，也可以指定索引。

import numpy as np
import pandas as pd
l = [0,1,7,9,np.NAN,None,1024,512]
# 无论是numpy中的NAN还是Python中的None在pandas中都以缺失数据NaN对待
s1 = pd.Series(data = l) # pandas自动添加索引
s2 = pd.Series(data = l,index = list('abcdefhi'),dtype='float32') # 指定行索引
# 传入字典创建，key行索引
s3 = pd.Series(data = {'a':99,'b':137,'c':149},name = 'Python_score')
display(s1,s2,s3)

DataFrame

DataFrame是由多种类型的列构成的二维标签数据结构，类似于Excel、SQL表，或Series对象构成的字典。

import numpy as np
import pandas as pd
# index 作为行索引，字典中的key作为列索引，创建了3*3的DataFrame表格二维数组
df1 = pd.DataFrame(data = {'Python':[99,107,122],'Math':[111,137,88],'En':[68,108,43]},# key作为列索引
                  index = ['张三','李四','Michael']) # 行索引
df2 = pd.DataFrame(data = np.random.randint(0,151,size = (5,3)),
                   index = ['Danial','Brandon','softpo','Ella','Cindy'],# 行索引
                   columns=['Python','Math','En'])# 列索引

数据查看

查看DataFrame的常用属性和DataFrame的概览和统计信息。

import numpy as np
import pandas as pd
# 创建 shape(150,3)的二维标签数组结构DataFrame
df = pd.DataFrame(data = np.random.randint(0,151,size = (150,3)),
          index = None,# 行索引默认
          columns=['Python','Math','En'])# 列索引
# 查看其属性、概览和统计信息
df.head(10) # 显示头部10行，默认5个
df.tail(10) # 显示末尾10行，默认5个
df.shape # 查看形状，行数和列数
df.dtypes # 查看数据类型
df.index # 行索引
df.columns # 列索引
df.values # 对象值，二维ndarray数组
df.describe() # 查看数值型列的汇总统计,计数、平均值、标准差、最小值、四分位数、最大值
df.info() # 查看列索引、数据类型、非空计数和内存信息

输入输出

csv

import numpy as np
import pandas as pd
df = DataFrame(data = np.random.randint(0,50,size = [50,5]), # 薪资情况
         columns=['IT','化工','生物','教师','士兵'])
# 保存到当前路径下，文件命名是：salary.csv。csv逗号分割值文件格式
df.to_csv('./salary.csv',
         sep = ';', # 文本分隔符，默认是逗号
         header = True,# 是否保存列索引
         index = True) # 是否保存行索引，保存行索引，文件被加载时，默认行索引会作为一列
# 加载
pd.read_csv('./salary.csv',
         sep = ';',# 默认是逗号
         header = [0],#指定列索引
         index_col=0) # 指定行索引
pd.read_table('./salary.csv', # 和read_csv类似，读取限定分隔符的文本文件
         sep = ';',
         header = [0],#指定列索引
         index_col=1) # 指定行索引,IT作为行索引

Excel

import numpy as np
import pandas as pd
df1 = pd.DataFrame(data = np.random.randint(0,50,size = [50,5]), # 薪资情况
          columns=['IT','化工','生物','教师','士兵'])
df2 = pd.DataFrame(data = np.random.randint(0,50,size = [150,3]),# 计算机科目的考试成绩
          columns=['Python','Tensorflow','Keras'])
# 保存到当前路径下，文件命名是：salary.xls
df1.to_excel('./salary.xls',
         sheet_name = 'salary',# Excel中工作表的名字
         header = True,# 是否保存列索引
         index = False) # 是否保存行索引，保存行索引
pd.read_excel('./salary.xls',
         sheet_name=0,# 读取哪一个Excel中工作表，默认第一个
         header = 0,# 使用第一行数据作为列索引
         names = list('ABCDE'),# 替换行索引
         index_col=1)# 指定行索引，B作为行索引
# 一个Excel文件中保存多个工作表
with pd.ExcelWriter('./data.xlsx') as writer:
     df1.to_excel(writer,sheet_name='salary',index = False)
     df2.to_excel(writer,sheet_name='score',index = False)
pd.read_excel('./data.xlsx',sheet_name='salary') # 读取Excel中指定名字的工作表

SQL

![](https://i-blog.csdnimg.cn/img_convert/e33dac10b665881bd7e4d4b3b5905756.png

import pandas as pd
# SQLAlchemy是Python编程语言下的一款开源软件。提供了SQL工具包及对象关系映射（ORM）工具from sqlalchemy import create_engine
df = pd.DataFrame(data = np.random.randint(0,50,size = [150,3]),# 计算机科目的考试成绩
           columns=['Python','Tensorflow','Keras'])
# 数据库连接
conn = create_engine('mysql+pymysql://root:root@localhost/pandas?charset=UTF8MB4')
# 保存到数据库
df.to_sql('score',#数据库中表名
          conn,# 数据库连接
 if_exists='append')#如果表名存在，追加数据
# 从数据库中加载
pd.read_sql('select * from score limit 10', # sql查询语句
            conn, # 数据库连接
            index_col='Python') # 指定行索引名

HDF5

HDF5是一个独特的技术套件，可以管理非常大和复杂的数据收集。
HDF5，可以存储不同类型数据的文件格式，后缀通常是.h5，它的结构是层次性的。
一个HDF5文件可以被看作是一个组包含了各类不同的数据集。

对于HDF5文件中的数据存储，有两个核心概念：group和dataset。

dataset代表数据集，一个文件当中可以存放不同种类的数据集，这些数据集如何管理，就用到了group。

最直观的理解，可以参考我们的文件管理系统，不同的文件位于不同的目录下。

目录就是HDF5中的group, 描述了数据集dataset的分类信息，通过group有效的将多种dataset进行管理和区分；文件就是HDF5中的dataset, 表示的是具体的数据。

import numpy as np
import pandas as pd
df1 = pd.DataFrame(data = np.random.randint(0,50,size = [50,5]), # 薪资情况
           columns=['IT','化工','生物','教师','士兵'])
df2 = pd.DataFrame(data = np.random.randint(0,50,size = [150,3]),# 计算机科目的考试成绩
           columns=['Python','Tensorflow','Keras'])
# 保存到当前路径下，文件命名是：data.h5
df1.to_hdf('./data.h5',key='salary') # 保存数据的key，标记
df2.to_hdf('./data.h5',key = 'score')
pd.read_hdf('./data.h5',key = 'salary')#获取指定的标记、key的数据

数据选取

字段数据

import pandas as pd
import numpy as np
df = pd.DataFrame(data = np.random.randint(0,150,size = [150,3]),# 计算机科目的考试成绩
          columns=['Python','Tensorflow','Keras'])
df['Python'] # 获取单列，Series

df.Python # 获取单列，Series

df[['Python','Keras']] # 获取多列，DataFrame

df[3:15] # 行切片

标签选择

import pandas as pd
import numpy as np
df = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),# 计算机科目的考试成绩
          index = list('ABCDEFGHIJ'),# 行标签
          columns=['Python','Tensorflow','Keras'])

df.loc[['A','C','D','F']] # 选取指定行标签数据。

df.loc['A':'E',['Python','Keras']] # 根据行标签切片，选取指定列标签的数据

df.loc[:,['Keras','Tensorflow']] # :默认保留所有行

df.loc['E'::2,'Python':'Tensorflow'] # 行切片从标签E开始每2个中取一个，列标签进行切片

df.loc['A','Python'] # 选取标量值

位置选择

import pandas as pd
import numpy as np
df = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),# 计算机科目的考试成绩
          index = list('ABCDEFGHIJ'),# 行标签
          columns=['Python','Tensorflow','Keras'])
df.iloc[4] # 用整数位置选择。

df.iloc[2:8,0:2] # 用整数切片，类似NumPy

df.iloc[[1,3,5],[0,2,1]] # 整数列表按位置切片

df.iloc[1:3,:] # 行切片

df.iloc[:,:2] # 列切片

df.iloc[0,2] # 选取标量值

boolean索引

import pandas as pd
import numpy as np
df = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),# 计算机科目的考试成绩
         index = list('ABCDEFGHIJ'),# 行标签，用户
         columns=['Python','Tensorflow','Keras']) # 考试科目
cond1 = df.Python > 100 # 判断Python分数是否大于100，返回值是boolean类型的Series
df[cond1] # 返回Python分数大于100分的用户所有考试科目数据

cond2 = (df.Python > 50) & (df['Keras'] > 50) # &与运算
df[cond2] # 返回Python和Keras同时大于50分的用户的所有考试科目数据

df[df > 50]# 选择DataFrame中满足条件的值，如果满足返回值，不然返回空数据NaN

df[df.index.isin(['A','C','F'])] # isin判断是否在数组中，返回也是boolean类型值

赋值操作

import pandas as pd
import numpy as np
df = pd.DataFrame(data = np.random.randint(0,150,size = [10,3]),# 计算机科目的考试成绩
           index = list('ABCDEFGHIJ'),# 行标签，用户
           columns=['Python','Tensorflow','Keras']) # 考试科目
s = pd.Series(data = np.random.randint(0,150,size = 9),index=list('BCDEFGHIJ'),name = 'PyTorch')
df['PyTorch'] = s # 增加一列，DataFrame行索引自动对齐

df.loc['A','Python'] = 256 # 按标签赋值

df.iloc[3,2] = 512 # 按位置赋值

# 显式转换数组的数据类型为与DataFrame列相同的数据类型
arr = np.array([128] * 10, dtype=df['Python'].dtype)

df[df >= 128] = -df # 按照where条件进行赋值，大于等于128变成原来的负数，否则不变

第一部分的介绍就到这里啦，更多内容主页获取！