Python Pandas，从.groupby().Apply()中的GROUP中分割行

2022-03-26 00:00:00 python pandas dataframe slice group-by

问题描述

我有以下代码设置，它们调用和分组By并应用于一个Python Pandas DataFrame。

奇怪的是，如果不完全破坏输出(如调试中所示)，我无法按行分割分组的数据(如df.loc[2:5])，如何删除行并使其提供所需的输出？

任何帮助都将不胜感激，我正在用更复杂的函数在一个更大的示例中运行此程序，但已将问题精确定位到行切片！

编码：

import pandas as pd
df = pd.DataFrame({'one' : ['AAL', 'AAL', 'AAPL', 'AAPL'], 'two' : [1, 2, 3, 4]})

def net_func(df):
    df_res = daily_func(df, True)
    df_res_valid = daily_func(df, False)
    df_merge = pd.merge(df_res, df_res_valid)
    return df_merge

def daily_func(df, bool_param):

#     df.drop(df.head(1).index, inplace=True)
#     df = df[1:1]
#     df.iloc[1:1,:]
#     df.loc[1:1,:]


    if bool_param:
        df['daily'+str(bool_param)] = 1
    else:
        df['daily'+str(bool_param)] = 0    
    return df

print df.groupby('one').apply(net_func)

当前产量：

         one  two  dailyTrue  dailyFalse
one                                     
AAL  0   AAL    1          1           0
     1   AAL    2          1           0
AAPL 0  AAPL    1          1           0
     1  AAPL    2          1           0

所需输出：

         one  two  dailyTrue  dailyFalse
one                                     
AAL  1   AAL    2          1           0
AAPL 1  AAPL    2          1           0

理想情况下，我希望能够为每个组逐行切片，例如df.loc[3:5]-这将是完美的！

我尝试评论如下：

输出df.drop(df.head(1).index, inplace=True)：

Empty DataFrame
Columns: [one, two, dailyTrue, dailyFalse]
Index: []

更新：还尝试了df = df[1:1]的输出：

Empty DataFrame
Columns: [one, two, dailyTrue, dailyFalse]
Index: []

更新还尝试了df.iloc[1:1,:]：

         one  two  dailyTrue  dailyFalse
one                                     
AAL  0   AAL    1          1           0
     1   AAL    2          1           0
AAPL 0  AAPL    1          1           0
     1  AAPL    2          1           0

和df.loc[1:1,:]：

         one  two  dailyTrue  dailyFalse
one                                     
AAL  0   AAL    1          1           0
     1   AAL    2          1           0
AAPL 0  AAPL    1          1           0
     1  AAPL    2          1           0

解决方案

考虑使用横截面切片，groupby().apply()后xs，相应地指定每个键：

print df.groupby('one').apply(net_func).xs(0, level=1)
#       one  two  dailyTrue  dailyFalse
#one                                   
#AAL    AAL    1          1           0
#AAPL  AAPL    1          1           0

print df.groupby('one').apply(net_func).xs(1, level=1)
#       one  two  dailyTrue  dailyFalse
#one                                   
#AAL    AAL    2          1           0
#AAPL  AAPL    2          1           0

或者，对元组列表使用multiple indexing：

print df.groupby('one').apply(net_func).ix[[('AAL', 1), ('AAPL', 1)]]
#         one  two  dailyTrue  dailyFalse
#one                                     
#AAL  1   AAL    2          1           0
#AAPL 1  AAPL    2          1           0

更多关于Slice(在 pandas 0.14中引入)：

print df.groupby('one').apply(net_func).loc[(slice('AAL','AAPL'),slice(1,1)),:]
#         one  two  dailyTrue  dailyFalse
#one                                     
#AAL  1   AAL    2          1           0
#AAPL 1  AAPL    2          1           0

相关文章