如何将 pandas 序列中的字符串转换为Dropna的空值?
问题描述
我尝试了几种方法来清除DataFrame中特定Series中包含NaN
的行,结果发现每个NaN
条目都是'NaN'
字符串,而不是空值。
在我的特定示例中,每一行代表一个国家/地区,因此我要从DataFrame中删除'GDP per Capita'
列中没有GDP值的所有国家/地区。
我尝试了一些方法(失败):
df_noGDP = df
df_noGDP.dropna(axis=0, subset=['GDP per Capita'])
和
df_noGDP = df.loc[df['GDP per Capita'] != np.nan]
当我调用df_noGDP
时,我看到没有删除NaN
值。我想我要么在某个地方犯了一个愚蠢的语法错误,要么我需要转换我的数据类型。
解决方案
首先将字符串转换为NaN
值:
df = df.replace('NaN', np.nan)
然后分配回或指定要就地使用的方法:
df = df.dropna(subset=['GDP per Capita']) # not in place version
df.dropna(subset=['GDP per Capita'], inplace=True) # in place version
或者,将loc
与notnull
一起使用,因为NaN != NaN
by design:
df = df.loc[df['GDP per Capita'].notnull()]
相关文章