pandas -在具有重复年份的时间序列数据中添加缺失年份
问题描述
我有一个这样的数据集,其中某些年份的数据丢失。
County Year Pop
12 1999 1.1
12 2001 1.2
13 1999 1.0
13 2000 1.1
我想要
County Year Pop
12 1999 1.1
12 2000 NaN
12 2001 1.2
13 1999 1.0
13 2000 1.1
13 2001 nan
我尝试将索引设置为Year,然后将Reindex与另一个数据帧的Just Year方法(这里提到的Pandas: Add data for missing months)一起使用,但它给出错误:无法使用重复值重新编制索引。我也试过df.loc,但它有同样的问题。我甚至尝试了一个只有几年的空白df的完全外连接,但也不起作用。
我如何解决此问题?
解决方案
创建多个索引,这样就不会有重复项:
df.set_index(['County', 'Year'], inplace=True)
然后使用所有组合构造一个完整的多索引:
index = pd.MultiIndex.from_product(df.index.levels)
然后重新编制索引:
df.reindex(index)
多重指数的构建未经测试,可能需要稍作调整(例如,如果所有县完全不存在一年),但我认为您明白这一点。
相关文章