Pandas去重操作
在 Pandas 中,可以使用 df.drop_duplicates() 方法对 DataFrame 中的重复行进行去重操作。这个方法会返回一个新的 DataFrame,其中已经去除了重复的行。
如果只需要计算去重后的行数,可以在去重后使用 df.shape[0] 来获取行数,例如:
import pandas as pd # 创建包含重复行的 DataFrame df = pd.DataFrame({ 'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Charlie'], 'age': [25, 30, 35, 25, 35], 'gender': ['F', 'M', 'M', 'F', 'M'] }) # 对 DataFrame 进行去重操作,并计算去重后的行数 unique_rows_count = df.drop_duplicates().shape[0] # 输出去重后的行数 print('去重后的行数:', unique_rows_count)
运行上述代码,输出结果为:
去重后的行数: 3
在这个例子中,我们首先创建了一个包含重复行的 DataFrame,然后使用 drop_duplicates() 方法对其进行去重操作,并使用 shape[0] 获取去重后的行数。
相关文章