pandas介绍-ChatGPT4o作答-白红宇的个人博客

pandas介绍-ChatGPT4o作答

发布日期：2025-05-01 21:10:35 浏览次数：2 分类：技术文章

本文共 2426 字，大约阅读时间需要 8 分钟。

好的，下面将更详尽地介绍Pandas库的各个方面，包括其核心数据结构、常用功能、性能优化技巧以及实际应用案例。

1. 核心数据结构

1.1 Series

定义：一维标记数组，可以存储任何数据类型（整数、浮点数、字符串等），每个元素都有一个索引。

创建：

import pandas as pds = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])

常用操作：
- 访问元素：s['a'] 或 s[0]
- 统计运算：s.mean(), s.sum()
- 过滤：s[s > 2]

1.2 DataFrame

定义：二维表格数据结构，由行和列组成。每列可以是不同的数据类型，且每列都有一个标签。

创建：

data = {
         'Name': ['Alice', 'Bob', 'Charlie'],    'Age': [25, 30, 35],    'City': ['New York', 'Los Angeles', 'Chicago']}df = pd.DataFrame(data)

常用操作：
- 查看数据：df.head(), df.tail()
- 访问列：df['Age']
- 访问行：df.loc[0]（按标签）或 df.iloc[0]（按位置）

2. 数据操作与处理

2.1 数据读取与写入

Pandas支持从多种数据源读取和写入数据：

读取：

df = pd.read_csv('data.csv')  # 从CSV文件读取df = pd.read_excel('data.xlsx')  # 从Excel文件读取

写入：

df.to_csv('output.csv', index=False)  # 写入CSV文件df.to_excel('output.xlsx', index=False)  # 写入Excel文件

2.2 数据清洗

处理缺失值：

df.dropna(inplace=True)  # 删除缺失值的行df.fillna(0, inplace=True)  # 用0填充缺失值

去重：

df.drop_duplicates(inplace=True)  # 删除重复行

数据类型转换：

df['Age'] = df['Age'].astype(int)  # 转换为整数类型

2.3 数据选择与过滤

选择特定行列：

df[['Name', 'City']]  # 选择多列df.loc[1]  # 选择第二行

条件过滤：

adults = df[df['Age'] > 18]  # 过滤出年龄大于18的行

2.4 数据聚合与分组

分组操作：

grouped = df.groupby('City').mean()  # 按城市分组并计算平均值

聚合函数：

agg_data = df.groupby('City').agg({
     'Age': ['mean', 'max'], 'Name': 'count'})

3. 时间序列处理

Pandas对时间序列数据有强大的支持：

创建时间序列：

dates = pd.date_range('2023-01-01', periods=5)ts = pd.Series(range(5), index=dates)

时间索引：

df.set_index('Date', inplace=True)  # 设置日期为索引

频率转换：

ts.resample('D').sum()  # 按天重新采样

4. 高级功能

4.1 合并与连接

合并：

df1 = pd.DataFrame({
     'key': ['A', 'B'], 'value1': [1, 2]})df2 = pd.DataFrame({
     'key': ['A', 'B'], 'value2': [3, 4]})merged = pd.merge(df1, df2, on='key')  # 根据key合并

连接：

concat_df = pd.concat([df1, df2], axis=0)  # 纵向连接

4.2 数据透视表

创建透视表：

pivot = df.pivot_table(index='City', values='Age', aggfunc='mean')

5. 性能优化

使用Categorical类型：对于重复值较多的列，可以使用category类型来节省内存。
```
df['City'] = df['City'].astype('category')
```

批量操作：避免在循环中逐行处理数据，而是使用向量化操作。

6. 实际应用案例

Pandas在数据分析、金融分析、机器学习前期数据处理等领域得到广泛应用。以下是一个简单的案例：

6.1 案例：分析销售数据

读取数据：

sales_df = pd.read_csv('sales_data.csv')

数据清洗：

sales_df.dropna(inplace=True)  # 删除缺失值

数据分析：

total_sales = sales_df['Sales'].sum()  # 计算总销售额average_sales = sales_df['Sales'].mean()  # 计算平均销售额

数据可视化：

import matplotlib.pyplot as pltsales_df['Sales'].hist()plt.title('Sales Distribution')plt.show()

7. 总结

Pandas是一个功能强大且灵活的数据分析库，适用于各种数据处理任务。它的易用性和高效性使得数据科学家和分析师能够更快地清洗、分析和可视化数据。无论是在学术研究、商业分析还是机器学习中，Pandas都是一个不可或缺的工具。

上一篇：pandas删除指定列里面内容的行

下一篇：pandas交换两列

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！