Pandas根据某一列去重
要根据某一列去重,可以使用 pandas 库中的 drop_duplicates() 函数,其中指定 subset 参数即可根据某一列去重。
具体步骤如下:
- 读取数据到 pandas 的 DataFrame 中,假设为 df。
- 使用 drop_duplicates() 函数,指定 subset 参数为需要根据其去重的列名,例如:subset=['column_name']。
- 如果需要保留第一个出现的重复行,可以使用 keep='first' 参数,默认为保留第一个重复行,也可以使用 keep='last' 保留最后一个重复行。
- 示例代码如下:
import pandas as pd # 读取数据到 DataFrame df = pd.read_csv('data.csv') # 根据某一列去重,保留第一个重复行 df = df.drop_duplicates(subset=['column_name'], keep='first')
其中 column_name 为需要根据其去重的列名。
相关文章