pandas对DataFrame内的数据去重
在 Pandas 中,可以使用 drop_duplicates() 方法进行去重操作。该方法返回一个新的 DataFrame,其中包含原始 DataFrame 中所有重复行的第一次出现,并删除了所有后续重复行。
假设有一个 DataFrame 对象 df,其中包含一些重复行,我们可以使用 drop_duplicates() 方法进行去重:
import pandas as pd data = {'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice'], 'Age': [20, 21, 19, 20, 20], 'Gender': ['F', 'M', 'M', 'M', 'F']} df = pd.DataFrame(data) df = df.drop_duplicates()
在这个例子中,我们使用 drop_duplicates() 方法删除了所有重复行,并将结果存储在原始 DataFrame 对象中。
可以根据具体需求设置一些参数。例如,可以使用 subset 参数来指定特定的列进行去重操作;可以使用 keep 参数来指定保留哪些重复行的第一次出现,例如 keep='last' 可以保留最后一次出现的重复行;还可以使用 inplace 参数来直接修改原始 DataFrame 对象,而不是返回一个新的对象。
需要注意的是,drop_duplicates() 方法默认比较所有列的值,如果要根据特定的列进行去重操作,需要设置 subset 参数。另外,该方法并不会改变原始 DataFrame 对象,而是返回一个新的对象。
相关文章