pandas通过dropna方法删除数据中的缺省值
dropna()是Pandas中一个用于删除数据中的缺失值(NaN值)的方法。该方法可以对Series或DataFrame对象进行操作,以下是一些示例用法:
对DataFrame对象使用dropna()方法删除包含NaN值的行或列:
import pandas as pd import numpy as np # 创建一个包含NaN值的DataFrame对象 data = {'name': ['Alice', 'Bob', np.nan, 'David'], 'age': [25, 30, np.nan, 40], 'gender': ['F', 'M', 'M', np.nan]} df = pd.DataFrame(data) # 删除包含NaN值的行 print(df.dropna()) # 删除包含NaN值的列 print(df.dropna(axis=1))
在这个示例中,我们首先创建了一个包含NaN值的DataFrame对象,然后使用dropna()方法分别删除包含NaN值的行和列。
对Series对象使用dropna()方法删除包含NaN值的元素:
import pandas as pd import numpy as np # 创建一个包含NaN值的Series对象 s = pd.Series([1, 2, np.nan, 4, np.nan]) # 删除包含NaN值的元素 print(s.dropna())
在这个示例中,我们首先创建了一个包含NaN值的Series对象,然后使用dropna()方法删除包含NaN值的元素。
需要注意的是,dropna()方法默认会删除包含NaN值的行或列(取决于axis参数的值),但是该方法并不会修改原始数据,而是返回一个新的DataFrame或Series对象,因此需要将其赋值给一个新的变量或在需要时直接使用它。此外,dropna()方法还有其他一些参数,如how参数用于指定删除行或列的条件、thresh参数用于指定保留至少有多少非NaN值的行或列等等,可以根据具体需求进行使用。
相关文章