Pandas中删除重复行的代码
在 Pandas 中,可以使用 df.drop_duplicates() 方法删除重复的行。这个方法会返回一个新的 DataFrame,其中重复的行已经被删除。
df.drop_duplicates() 方法接受一些参数来控制删除重复行的方式。其中最常用的参数是 subset,用于指定哪些列用于判断重复行。例如:
import pandas as pd # 创建 DataFrame df = pd.DataFrame({ 'Name': ['Alice', 'Bob', 'Charlie', 'Alice'], 'Age': [25, 30, 35, 25], 'Gender': ['F', 'M', 'M', 'F'] }) # 删除重复行 df_deduplicated = df.drop_duplicates(subset=['Name', 'Age']) # 输出删除重复行后的 DataFrame print(df_deduplicated)
运行上述代码,输出结果为:
Name Age Gender 0 Alice 25 F 1 Bob 30 M 2 Charlie 35 M
在这个例子中,我们首先创建了一个 DataFrame,其中包含重复的行。然后使用 drop_duplicates() 方法删除重复行,并将结果赋值给了 df_deduplicated 变量。在这个方法的参数中,我们使用了 subset 参数来指定哪些列用于判断重复行。在这个例子中,我们指定了 Name 和 Age 两列用于判断重复行。
相关文章