如何在pandas中对多级索引进行分组？

11 浏览2023年4月27日

匿名的 2023年4月27日

0 Comments

以下是我的数据框。我进行了一些转换，创建了类别列，并删除了它的原始列。现在我需要进行分组以去除重复项，例如通过groupby求和可以将"Love"和"Fashion"合并在一起。

这是我创建数据框时创建的索引。

我想要删除索引，并将日期和类别创建为多重索引，然后通过groupby对指标进行求和。我该如何在pandas数据框中实现这个？

下面是我运行以下代码时出现的错误。

Python版本是2.7，pandas版本是0.7.0，操作系统是ubuntu 12.04。

导入pandas库并打印版本号：

导入 pandas

print pandas.__version__

创建数据框：

df = pandas.DataFrame.from_dict(

{

'category': {0: 'Love', 1: 'Love', 2: 'Fashion', 3: 'Fashion', 4: 'Hair', 5: 'Movies', 6: 'Movies', 7: 'Health', 8: 'Health', 9: 'Celebs', 10: 'Celebs', 11: 'Travel', 12: 'Weightloss', 13: 'Diet', 14: 'Bags'},

'impressions': {0: 380, 1: 374242, 2: 197, 3: 13363, 4: 4, 5: 189, 6: 60632, 7: 269, 8: 40189, 9: 138, 10: 66590, 11: 2227, 12: 22668, 13: 21707, 14: 229},

'date': {0: '2013-11-04', 1: '2013-11-04', 2: '2013-11-04', 3: '2013-11-04', 4: '2013-11-04', 5: '2013-11-04', 6: '2013-11-04', 7: '2013-11-04', 8: '2013-11-04', 9: '2013-11-04', 10: '2013-11-04', 11: '2013-11-04', 12: '2013-11-04', 13: '2013-11-04', 14: '2013-11-04'}, 'cpc_cpm_revenue': {0: 0.36823, 1: 474.81522000000001, 2: 0.19434000000000001, 3: 18.264220000000002, 4: 0.00080000000000000004, 5: 0.23613000000000001, 6: 81.391139999999993, 7: 0.27171000000000001, 8: 51.258200000000002, 9: 0.11536, 10: 83.966859999999997, 11: 3.43248, 12: 31.695889999999999, 13: 28.459320000000002, 14: 0.43524000000000002}, 'clicks': {0: 0, 1: 183, 2: 0, 3: 9, 4: 0, 5: 1, 6: 20, 7: 0, 8: 21, 9: 0, 10: 32, 11: 1, 12: 12, 13: 9, 14: 2}, 'size': {0: '300x250', 1: '300x250', 2: '300x250', 3: '300x250', 4: '300x250', 5: '300x250', 6: '300x250', 7: '300x250', 8: '300x250', 9: '300x250', 10: '300x250', 11: '300x250', 12: '300x250', 13: '300x250', 14: '300x250'}

}

)

将日期和类别设置为索引：

df.set_index(['date', 'category'], inplace=True)

对索引进行分组求和：

df.groupby(level=[0,1]).sum()

以下是我运行时遇到的错误：

Index has duplicate keys: [('2013-11-04', 'Celebs'), ('2013-11-04', 'Fashion'), ('2013-11-04', 'Health'), ('2013-11-04', 'Love'), ('2013-11-04', 'Movies')]

Pandas：摆脱多级索引

使用groupby时，保留其他列的内容

Pandas - dataframe groupby - 如何获取多列的总和

Pandas DataFrame具有多级列 - 合并级别

在同一列中，列名显示了两次。

Pandas按类别进行分组，存在冗余的NaN值。

汇总具有重复列的多行数据 pandas

在Pandas的多级索引中重新采样

将一个DataFrame按照arange作为索引分组成一个新的DataFrame。

Pandas - 向groupby的结果添加列名

使用多索引的Pandas绘图

Pandas: 使用groupby重新创建pivot_tables

通过索引在Pandas dataframe中汇总两列中的重复行

如何同时按多个列对数据框进行分组

Pandas按月和年分组

如何使用Python和Pandas根据日期字段按月分组？

如何在 Pandas 中按子类别进行分组？

在具有两个分类变量的数据帧上进行分组和计数（Groupby and count() on dataframe having two categorical variables）。

统计一列中按多个其他列分组后的唯一值数量

如何根据字典进行分组并聚合Pandas数据帧

如何在pandas中对多级索引进行分组？

0 答案