如何在超大DF中根据姓名有效地为具有多个条目的个人分配唯一ID

2022-02-21 00:00:00 python pandas dataframe indexing

问题描述

我想获取一个数据集，其中包含一组不同的唯一个体，每个个体都有多个条目，并为每个个体的所有条目分配一个惟一的ID。以下是df：

的示例

      FirstName LastName  id
0     Tom       Jones     1
1     Tom       Jones     1
2     David     Smith     1
3     Alex      Thompson  1
4     Alex      Thompson  1

因此，基本上我希望Tom Jones的所有条目id=1，David Smith的所有条目id=2，Alex Thompson的所有条目id=3，依此类推。

所以我已经有了一个解决方案，那就是一个非常简单的python循环，它迭代两个值(一个用于id，一个用于索引)，并根据它们是否与前一个人匹配来为其分配id：

x = 1
i = 1

while i < len(df_test):
    if (df_test.LastName[i] == df_test.LastName[i-1]) & 
    (df_test.FirstName[i] == df_test.FirstName[i-1]):
        df_test.loc[i, 'id'] = x
        i = i+1
    else:
        x = x+1
        df_test.loc[i, 'id'] = x
        i = i+1

我遇到的问题是DataFrame大约有900万个条目，所以使用该循环将花费大量时间来运行。有没有人能想出一种更有效的方法来做这件事呢？我一直在考虑将Groupby和多索引作为潜在的解决方案，但还没有完全找到合适的解决方案。

解决方案

您可以连接姓氏和名字，将其转换为类别，然后获取代码。

当然，多个同名人员具有相同的id。

df = df.assign(id=(df['LastName'] + '_' + df['FirstName']).astype('category').cat.codes)
>>> df
  FirstName  LastName  id
0       Tom     Jones   0
1       Tom     Jones   0
2     David     Smith   1
3      Alex  Thompson   2
4      Alex  Thompson   2

相关文章