Pandas去重操作

2023-02-24 00:00:00 pandas 操作

在 Pandas 中，可以使用 df.drop_duplicates() 方法对 DataFrame 中的重复行进行去重操作。这个方法会返回一个新的 DataFrame，其中已经去除了重复的行。

如果只需要计算去重后的行数，可以在去重后使用 df.shape[0] 来获取行数，例如：

import pandas as pd

# 创建包含重复行的 DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Charlie'],
    'age': [25, 30, 35, 25, 35],
    'gender': ['F', 'M', 'M', 'F', 'M']
})

# 对 DataFrame 进行去重操作，并计算去重后的行数
unique_rows_count = df.drop_duplicates().shape[0]

# 输出去重后的行数
print('去重后的行数：', unique_rows_count)

运行上述代码，输出结果为：

去重后的行数： 3

在这个例子中，我们首先创建了一个包含重复行的 DataFrame，然后使用 drop_duplicates() 方法对其进行去重操作，并使用 shape[0] 获取去重后的行数。

相关文章