Pandas根据某一列去重

2023-02-24 00:00:00 pandas 列去重

要根据某一列去重,可以使用 pandas 库中的 drop_duplicates() 函数,其中指定 subset 参数即可根据某一列去重。

具体步骤如下:

  • 读取数据到 pandas 的 DataFrame 中,假设为 df。
  • 使用 drop_duplicates() 函数,指定 subset 参数为需要根据其去重的列名,例如:subset=['column_name']。
  • 如果需要保留第一个出现的重复行,可以使用 keep='first' 参数,默认为保留第一个重复行,也可以使用 keep='last' 保留最后一个重复行。
  • 示例代码如下:
import pandas as pd

# 读取数据到 DataFrame
df = pd.read_csv('data.csv')

# 根据某一列去重,保留第一个重复行
df = df.drop_duplicates(subset=['column_name'], keep='first')

其中 column_name 为需要根据其去重的列名。

相关文章