在 Python 的数据科学与机器学习领域,存在多个强大的框架和库,帮助开发者处理数据、构建模型、进行预测和分析。以下是一些最常用的 Python 数据科学与机器学习框架及其使用方法,它们涵盖了从数据处理到模型训练的各个环节。
1. NumPy
NumPy 是用于处理数值计算的基础库,专门用于高效处理大规模的数组和矩阵运算。
-
安装 NumPy:
pip install numpy
-
使用示例:
import numpy as np # 创建数组 arr = np.array([1, 2, 3, 4]) print(arr) # 创建 2D 数组 matrix = np.array([[1, 2], [3, 4]]) # 矩阵运算 matrix_transpose = np.transpose(matrix) print(matrix_transpose)
2. Pandas
Pandas 是数据处理的利器,它引入了 DataFrame
和 Series
数据结构,能够方便地进行数据清理、处理和分析。特别适合处理表格和时间序列数据。
-
安装 Pandas:
pip install pandas
-
使用示例:
import pandas as pd # 创建 DataFrame data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]} df = pd.DataFrame(data) # 读取 CSV 文件 df = pd.read_csv('data.csv') # 数据统计 print(df.describe()) # 筛选数据 filtered_df = df[df['Age'] > 30] print