Pandas中删除重复行的代码

2023-02-24 00:00:00 删除代码重复

在 Pandas 中，可以使用 df.drop_duplicates() 方法删除重复的行。这个方法会返回一个新的 DataFrame，其中重复的行已经被删除。

df.drop_duplicates() 方法接受一些参数来控制删除重复行的方式。其中最常用的参数是 subset，用于指定哪些列用于判断重复行。例如：

import pandas as pd

# 创建 DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice'],
    'Age': [25, 30, 35, 25],
    'Gender': ['F', 'M', 'M', 'F']
})

# 删除重复行
df_deduplicated = df.drop_duplicates(subset=['Name', 'Age'])

# 输出删除重复行后的 DataFrame
print(df_deduplicated)

运行上述代码，输出结果为：

      Name  Age Gender
0    Alice   25      F
1      Bob   30      M
2  Charlie   35      M

在这个例子中，我们首先创建了一个 DataFrame，其中包含重复的行。然后使用 drop_duplicates() 方法删除重复行，并将结果赋值给了 df_deduplicated 变量。在这个方法的参数中，我们使用了 subset 参数来指定哪些列用于判断重复行。在这个例子中，我们指定了 Name 和 Age 两列用于判断重复行。

相关文章