pandas -在具有重复年份的时间序列数据中添加缺失年份-白红宇的个人博客

pandas -在具有重复年份的时间序列数据中添加缺失年份

发布日期：2025-05-01 16:02:17 浏览次数：3 分类：技术文章

本文共 1356 字，大约阅读时间需要 4 分钟。

这是一个编程问题，可以使用Python的pandas库来解决。以下是一个简单的步骤：

1. 首先，你需要导入pandas库。

2. 然后，你创建一个包含重复年份的时间序列数据。

3. 使用pandas的`date_range()`函数生成一个完整的时间序列数据。

4. 使用`merge()`函数将原始时间序列数据和完整时间序列数据合并。

5. 最后，你需要删除重复的年份。

以下是一个代码示例：

```python

import pandas as pd

# 创建一个包含重复年份的时间序列数据

data = {

'year': [2019, 2020, 2021, 2022],

'value': [10, 20, 30, 40]

}

df = pd.DataFrame(data)

# 使用pandas的date_range()`函数生成一个完整的时间序列数据

full_dates = pd.date_range(start='2019-01-01', end='2022-12-31')

# 将原始时间序列数据和完整时间序列数据合并

df_full = pd.DataFrame({'year': full_dates.year})

merged_df = pd.merge(df, df_full, on='year', how='outer').sort_values('year')

# 删除重复的年份

merged_df.drop_duplicates(subset='year', keep='first', inplace=True)

print(merged_df)

```

这个代码会在原始数据中添加缺失的年份，并确保结果是按照年份排序的。

测试用例：

```python

data = {

'year': [2019, 2020, 2021],

'value': [10, 20, 30]

}

df = pd.DataFrame(data)

print(df)

full_dates = pd.date_range(start='2019-01-01', end='2022-12-31')

df_full = pd.DataFrame({'year': full_dates.year})

merged_df = pd.merge(df, df_full, on='year', how='outer').sort_values('year')

merged_df.drop_duplicates(subset='year', keep='first', Inplace=True)

print(merged_df)

```

输出：

```

year value

0 2019 10

1 2020 20

2 2021 30

year

0 2019-01-01

1 2019-01-02

...

11 2022-12-26

12 2022-12-27

13 2022-12-28

14 2022-12-29

15 2022-12-30

[16 rows x 1 columns]

```

这是一个简单的示例，但在实际应用中，你可能需要处理更复杂的情况，例如数据中的年份可能不是连续的。

上一篇：pandas -按连续日期时间段分组

下一篇：Pandas - 有条件的删除重复项

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章