为什么带两组括号的.loc赋值会在Pandas.DataFrame中生成NaN?
问题描述
我有一个DataFrame:
名称 | 年龄 | |
---|---|---|
0 | 保罗 | 25 |
1 | 约翰 | 27 |
2 | 账单 | 23 |
我知道如果我输入:
df[['name']] = df[['age']]
我会得到以下信息:
名称 | 年龄 | |
---|---|---|
0 | 25 | 25 |
1 | 27 | 27 |
2 | 23 | 23 |
但我希望命令得到相同的结果:
df.loc[:, ['name']] = df.loc[:, ['age']]
但我得到的却是这个:
名称 | 年龄 | |
---|---|---|
0 | NaN | 25 |
1 | NaN | 27 |
2 | NaN | 23 |
出于某种原因,如果我省略列名周围的方括号[]
,我将得到我所期望的结果。这就是命令:
df.loc[:, 'name'] = df.loc[:, 'age']
给出正确的结果:
名称 | 年龄 | |
---|---|---|
0 | 25 | 25 |
1 | 27 | 27 |
2 | 23 | 23 |
为什么两对括号.loc
会导致NaN?是某种错误还是有意为之的行为?我想不出这种行为的原因。
解决方案
这是因为对于loc
赋值,所有索引轴都是对齐的,包括列:由于age
和name
不匹配,因此没有要赋值的数据,因此是NAN。
您可以通过重命名列来使其工作:
df.loc[:, ["name"]] = df.loc[:, ["age"]].rename(columns={"age": "name"})
或访问NumPy数组:
df.loc[:, ["name"]] = df.loc[:, ["age"]].values
相关文章