数据分析哪家强?选Pandas还是选SQL

本文对比了Python的Pandas库和SQL在数据分析中的应用,包括数据库创建、数据筛选、分组统计、数据合并等方面,展示了各自的操作方式和特点。适合数据分析师了解在不同场景下选择合适工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

又是新的一周,今天小编打算来讲一下PandasSQL之间语法的差异,相信对于不少数据分析师而言,无论是Pandas模块还是SQL,都是日常学习工作当中用的非常多的工具,当然我们也可以在Pandas模块当中来调用SQL语句,通过调用read_sql()方法

建立数据库

首先我们通过SQL语句新建一个数据库,基本的语法相信大家肯定都清楚,



CREATE TABLE 表名 (  
  字段名称 数据类型 ...  
)  



那么我们来看一下具体的代码



import pandas as pd  
import sqlite3  
connector = sqlite3.connect('public.db')  
my\_cursor = connector.cursor()  
my\_cursor.executescript("""  
CREATE TABLE sweets\_types  
(  
    id integer NOT NULL,  
    name character varying NOT NULL,  
    PRIMARY KEY (id)  
);  
...篇幅有限,详细参考源码...  
""")  



同时我们也往这些新建的表格当中插入数据,代码如下



my\_cursor.executescript("""  
INSERT INTO sweets\_types(name) VALUES  
    ('waffles'),  
    ('candy'),  
    ('marmalade'),  
    ('cookies'),  
    ('chocolate');  
...篇幅有限,详细参考源码...  
""")  



我们可以通过下面的代码来查看新建的表格,并且转换成DataFrame格式的数据集,代码如下

df_sweets = pd.read_sql("SELECT * FROM sweets;", connector)   

output

我们总共新建了5个数据集,主要是涉及到了甜品、甜品的种类以及加工和仓储的数据,而例如甜品的数据集当中主要包括的有甜品的重量、糖分的含量、生产的日期和过期的时间、成本等数据,以及

df_manufacturers = pd.read_sql("SELECT * FROM manufacturers", connector)   

output

加工的数据集当中则涉及到了工厂的主要负责人和联系方式,而仓储的数据集当中则涉及到了仓储的详细地址、城市所在地等等

df_storehouses = pd.read_sql("SELECT * FROM storehouses", connector)   

output

还有甜品的种类数据集,

df_sweets_types = pd.read_sql("SELECT * FROM sweets_types;", connector)   

output

</

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值