使用agg&amp；联接对一列进行分组，但仅按唯一值进行分组(&A)

编程基础网 Python问题

2022-01-01

Grouping one column using agg amp; join but only on unique values(使用aggamp；联接对一列进行分组，但仅按唯一值进行分组(A))

本文介绍了使用agg&amp；联接对一列进行分组，但仅按唯一值进行分组(&A)的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我在以下数据集上使用了这段巧妙的代码

    df = pd.DataFrame({
    'contact_email': ['info@info.com', 'info@info.com', 'info@info.com'], 
    'interest': ['Math', 'Science', 'Science']
})
    print(df)
    interest contact_email
0   Math    info@info.com
1   Science info@info.com
2   Science info@info.com

df = df.groupby('Contact_Email').agg({'interest' : ' '.join}).reset_index()
print(df)

        contact_email   AOI
0   info@info.com   Math Science Science

这与我想要的非常接近，但我只需要返回唯一的利息。(我有用户/客户输入相同的表单，几乎10次输入相同的值！)

还有，有没有人知道如何删除0，1，2，3索引，这是一件好事。

谢谢！

推荐答案

使用unique删除重复项：

df = (df.groupby('contact_email')
        .agg({'interest' : lambda x: ' '.join(x.unique())})
        .reset_index())
print(df)
   contact_email      interest
0  info@info.com  Math Science

或sets，但应更改值的顺序：

df = df.groupby('contact_email').agg({'interest' : lambda x: ' '.join(set(x))}).reset_index()
print(df)
   contact_email      interest
0  info@info.com  Math Science

或drop_duplicates：

df = (df.drop_duplicates(subset=['contact_email','interest'])
       .groupby('contact_email')
       .agg({'interest' : ' '.join})
       .reset_index())
print(df)
   contact_email      interest
0  info@info.com  Math Science

这篇关于使用agg&amp；联接对一列进行分组，但仅按唯一值进行分组(&A)的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持编程学习网！

编程基础网

本文标题为：使用agg&amp；联接对一列进行分组，但仅按唯一值进行分组(&A)