pandas对DataFrame内的数据去重

2023-02-23 00:00:00 pandas dataframe 数据

在 Pandas 中，可以使用 drop_duplicates() 方法进行去重操作。该方法返回一个新的 DataFrame，其中包含原始 DataFrame 中所有重复行的第一次出现，并删除了所有后续重复行。

假设有一个 DataFrame 对象 df，其中包含一些重复行，我们可以使用 drop_duplicates() 方法进行去重：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice'], 'Age': [20, 21, 19, 20, 20], 'Gender': ['F', 'M', 'M', 'M', 'F']}
df = pd.DataFrame(data)

df = df.drop_duplicates()

在这个例子中，我们使用 drop_duplicates() 方法删除了所有重复行，并将结果存储在原始 DataFrame 对象中。

可以根据具体需求设置一些参数。例如，可以使用 subset 参数来指定特定的列进行去重操作；可以使用 keep 参数来指定保留哪些重复行的第一次出现，例如 keep='last' 可以保留最后一次出现的重复行；还可以使用 inplace 参数来直接修改原始 DataFrame 对象，而不是返回一个新的对象。

需要注意的是，drop_duplicates() 方法默认比较所有列的值，如果要根据特定的列进行去重操作，需要设置 subset 参数。另外，该方法并不会改变原始 DataFrame 对象，而是返回一个新的对象。

相关文章