如何在超大DF中根据姓名有效地为具有多个条目的个人分配唯一ID

2022-02-21 00:00:00 python pandas dataframe indexing

问题描述

我想获取一个数据集,其中包含一组不同的唯一个体,每个个体都有多个条目,并为每个个体的所有条目分配一个惟一的ID。以下是df:

的示例
      FirstName LastName  id
0     Tom       Jones     1
1     Tom       Jones     1
2     David     Smith     1
3     Alex      Thompson  1
4     Alex      Thompson  1

因此,基本上我希望Tom Jones的所有条目id=1,David Smith的所有条目id=2,Alex Thompson的所有条目id=3,依此类推。

所以我已经有了一个解决方案,那就是一个非常简单的python循环,它迭代两个值(一个用于id,一个用于索引),并根据它们是否与前一个人匹配来为其分配id:

x = 1
i = 1

while i < len(df_test):
    if (df_test.LastName[i] == df_test.LastName[i-1]) & 
    (df_test.FirstName[i] == df_test.FirstName[i-1]):
        df_test.loc[i, 'id'] = x
        i = i+1
    else:
        x = x+1
        df_test.loc[i, 'id'] = x
        i = i+1

我遇到的问题是DataFrame大约有900万个条目,所以使用该循环将花费大量时间来运行。有没有人能想出一种更有效的方法来做这件事呢?我一直在考虑将Groupby和多索引作为潜在的解决方案,但还没有完全找到合适的解决方案。


解决方案

您可以连接姓氏和名字,将其转换为类别,然后获取代码。

当然,多个同名人员具有相同的id

df = df.assign(id=(df['LastName'] + '_' + df['FirstName']).astype('category').cat.codes)
>>> df
  FirstName  LastName  id
0       Tom     Jones   0
1       Tom     Jones   0
2     David     Smith   1
3      Alex  Thompson   2
4      Alex  Thompson   2

相关文章