Pandas去重操作

2023-02-24 00:00:00 pandas 操作

在 Pandas 中,可以使用 df.drop_duplicates() 方法对 DataFrame 中的重复行进行去重操作。这个方法会返回一个新的 DataFrame,其中已经去除了重复的行。

如果只需要计算去重后的行数,可以在去重后使用 df.shape[0] 来获取行数,例如:

import pandas as pd

# 创建包含重复行的 DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Charlie'],
    'age': [25, 30, 35, 25, 35],
    'gender': ['F', 'M', 'M', 'F', 'M']
})

# 对 DataFrame 进行去重操作,并计算去重后的行数
unique_rows_count = df.drop_duplicates().shape[0]

# 输出去重后的行数
print('去重后的行数:', unique_rows_count)

运行上述代码,输出结果为:

去重后的行数: 3

在这个例子中,我们首先创建了一个包含重复行的 DataFrame,然后使用 drop_duplicates() 方法对其进行去重操作,并使用 shape[0] 获取去重后的行数。

相关文章