如何将 pandas 序列中的字符串转换为Dropna的空值?

2022-04-14 00:00:00 python pandas nan

问题描述

我尝试了几种方法来清除DataFrame中特定Series中包含NaN的行,结果发现每个NaN条目都是'NaN'字符串,而不是空值。

在我的特定示例中,每一行代表一个国家/地区,因此我要从DataFrame中删除'GDP per Capita'列中没有GDP值的所有国家/地区。

我尝试了一些方法(失败):

df_noGDP = df
df_noGDP.dropna(axis=0, subset=['GDP per Capita']) 

df_noGDP = df.loc[df['GDP per Capita'] != np.nan]

当我调用df_noGDP时,我看到没有删除NaN值。我想我要么在某个地方犯了一个愚蠢的语法错误,要么我需要转换我的数据类型。


解决方案

首先将字符串转换为NaN值:

df = df.replace('NaN', np.nan)

然后分配回或指定要就地使用的方法:

df = df.dropna(subset=['GDP per Capita'])           # not in place version
df.dropna(subset=['GDP per Capita'], inplace=True)  # in place version

或者,将locnotnull一起使用,因为NaN != NaNby design:

df = df.loc[df['GDP per Capita'].notnull()]

相关文章