Pandas，来自 2 列的数据透视表，其值为其中一列的计数

2022-01-22 00:00:00 python pandas pivot

问题描述

我有一个熊猫数据框:

+---------------+-------------+
| Test_Category | Test_Result |
+---------------+-------------+
| Cat_1         | Pass        |
| Cat_1         | N/A         |
| Cat_2         | Fail        |
| Cat_2         | Fail        |
| Cat_3         | Pass        |
| Cat_3         | Pass        |
| Cat_3         | Fail        |
| Cat_3         | N/A         |
+---------------+-------------+

我需要这样的表:

+------+------+------+-----+
|      | Pass | Fail | N/A |
+------+------+------+-----+
| Cat1 |    1 |      |   1 |
| Cat2 |      |    2 |     |
| Cat3 |    2 |    1 |   1 |
+------+------+------+-----+

我尝试使用 Pivot，但不知道如何让它计算 Test_Result 列中的出现次数并将它们作为值放入数据透视结果中.

I tried using a Pivot, but can't figure out how to make it count occurrences from Test_Result column and put them as values into pivot result.

谢谢！

解决方案

这里是问题 NaN 值被排除，所以必须使用 fillna 与 crosstab:

Here is problem NaN values are exluded, so necessary use fillna with crosstab:

df1 = pd.crosstab(df['Test_Category'], df['Test_Result'].fillna('n/a')) print (df1) Test_Result Fail Pass n/a Test_Category Cat_1 0 1 1 Cat_2 2 0 0 Cat_3 1 2 1

或使用 GroupBy.size 与 unstack 用于重塑:

Or use GroupBy.size with unstack for reshape:

df['Test_Result'] = df['Test_Result'].fillna('n/a') df1 = df.groupby(['Test_Category','Test_Result']).size().unstack() print (df1) Test_Result Fail Pass n/a Test_Category Cat_1 NaN 1.0 1.0 Cat_2 2.0 NaN NaN Cat_3 1.0 2.0 1.0

<小时>

df1 = df.groupby(['Test_Category','Test_Result']).size().unstack(fill_value=0) print (df1) Test_Result Fail Pass n/a Test_Category Cat_1 0 1 1 Cat_2 2 0 0 Cat_3 1 2 1

另一种解决方案 pivot_table:

Another solution with pivot_table:

df = df.pivot_table(index='Test_Category',columns='Test_Result', aggfunc='size')

相关文章