其他资讯

CodeGeeX怎么写Python数据分组代码_CodeGeeX快速实现按条件分类逻辑【数据分组】

2026-04-20

阅读 871

热度 871

作者菜鸟AI编辑部

摘要

Python数据分组：五种实用方法详解在数据处理中，按条件分组是个高频需求。无论是分析

Python数据分组：五种实用方法详解

codegeex怎么写python数据分组代码_codegeex快速实现按条件分类逻辑【数据分组】

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

在数据处理中，按条件分组是个高频需求。无论是分析用户行为，还是整理业务报表，都离不开它。面对复杂的数据结构或多变的分组逻辑，借助CodeGeeX这类AI编码工具，能快速生成可运行的代码片段，确实能提升效率。那么，Python里到底有哪些好用的分组方法呢？下面这五种方案，各有各的适用场景。

一、使用pandas.groupby()配合lambda函数分组

说到结构化数据分组，pandas的groupby()绝对是主力。它的强大之处在于，可以配合lambda函数，实现极其灵活的动态条件判断。这种方法特别适合处理表格型数据（DataFrame）。

具体怎么操作？第一步，自然是导入库并准备数据：import pandas as pd; df = pd.DataFrame({'score': [85, 92, 73, 60, 45, 88], 'name': ['A', 'B', 'C', 'D', 'E', 'F']})。

接下来，定义分组规则。比如，想把分数按等级划分，一个lambda函数就能搞定：grade_func = lambda x: '优秀' if x >= 90 else '良好' if x >= 70 else '及格' if x >= 60 else '不及格'。

立即学习“Python免费学习笔记（深入）”；

然后，执行核心的分组操作：grouped = df.groupby(df['score'].map(grade_func))。这里用map方法将分数列映射为等级标签，再按标签分组。

最后，遍历查看结果就一目了然了：for name, group in grouped: print(f'分组名称：{name}'); print(group)。整个过程清晰流畅，是处理DataFrame的首选。

二、使用itertools.groupby()配合sorted预处理

如果数据不在表格里，而是内存中的序列，并且对内存比较敏感，那么itertools.groupby()就派上用场了。不过，这个方法有个关键前提：输入序列必须事先按照分组键排序。所以，它常常和sorted预处理搭配使用，非常适合流式数据或迭代器场景。

来看个例子。先导入模块并准备数据：from itertools import groupby; data = [('math', 85), ('english', 92), ('math', 73), ('english', 88)]。

接着，必须按分组键（这里是科目）排序：sorted_data = sorted(data, key=lambda x: x[0])。

准备工作做完，分组就简单了：for key, group_iter in groupby(sorted_data, key=lambda x: x[0]): print(f'科目：{key}'); print(list(group_iter))。记住，groupby返回的是迭代器，需要转换成列表查看。

三、使用字典推导式构建分组映射

不想引入任何外部库？没问题，用最基础的字典也能优雅地完成分组。思路很简单：把字典的键作为分组类别，值作为该类别下的数据列表。这种方法代码直观，特别适合数据量不大、且分组类别明确固定的情况。

动手实现一下。首先，准备好原始数据：scores = [85, 92, 73, 60, 45, 88]。

然后，初始化一个字典，把可能的分组键都列出来：groups = {'优秀': [], '良好': [], '及格': [], '不及格': []}。

核心逻辑就是遍历并分配：for s in scores: if s >= 90: groups['优秀'].append(s); elif s >= 70: groups['良好'].append(s); elif s >= 60: groups['及格'].append(s); else: groups['不及格'].append(s)。

结果一目了然：for k, v in groups.items(): print(f'{k}: {v}')。这种方法胜在简单直接，一目了然。

四、使用collections.defaultdict实现动态键分组

用普通字典有个小麻烦：每次遇到新分组键，都得先判断键是否存在，否则可能报错。而collections.defaultdict完美解决了这个问题。它会自动为不存在的键创建一个默认值（比如空列表），让代码更简洁，容错性也更强。这在分组条件复杂、键名无法提前预知时尤其好用。

来看看如何实现。导入模块并准备数据：from collections import defaultdict; data = [85, 92, 73, 60, 45, 88]。

创建defaultdict，指定默认工厂为list：group_dict = defaultdict(list)。

接下来，可以放心地按条件追加数据了，完全不用担心键不存在：for x in data: if x >= 90: group_dict['优秀'].append(x); elif x >= 70: group_dict['良好'].append(x); elif x >= 60: group_dict['及格'].append(x); else: group_dict['不及格'].append(x)。

访问结果和普通字典一样：for category, items in group_dict.items(): print(f'{category}组：{items}')。代码是不是清爽多了？

五、使用filter()配合多个条件生成独立子集

最后这种方法思路不太一样。它不追求构建一个统一的分组容器，而是针对每个条件，用filter()函数分别过滤出独立的子集。这适合那种只需要关注某几类数据，并且各类数据后续处理逻辑完全不同的场景。

具体操作如下。设定原始数据：numbers = [85, 92, 73, 60, 45, 88]。

然后，为每个条件独立过滤。比如，先筛出“优秀”：excellent = list(filter(lambda x: x >= 90, numbers))；再筛出“良好”：good = list(filter(lambda x: 70 <= x < 90, numbers))。

其他类别依此类推：passing = list(filter(lambda x: 60 <= x < 70, numbers))。

最终，得到的是几个独立的列表，可以直接使用：print(f'优秀名单：{excellent}'); print(f'良好名单：{good}')。这种方法各子集互不干扰，处理起来非常灵活。

来源：互联网

上一篇 htc手机怎么样教程：常见用法与操作步骤 下一篇 独立开发者如何完成app制作与推广全流程

免责声明

本文内容整理自公开资料与网络信息，仅供学习和参考使用。正式发布或转载前，请结合原始来源、发布时间和实际场景进一步核验。