Python数据清洗之利用pandas筛选数据详解

发布日期：2025-01-04 11:10 点击次数：230

利用pandas筛选数据在Pandas中，最常用的数据结构是Series和DataFrame。 Series是一维的数组-like对象，用于存储任意类型的数据。 DataFrame是二维的表格型数据结构，可以存储多种类型的数据，并且可以进行灵活的数据操作和分析。直接筛选比较运算符(==、<、>、>=、<=、!=)逻辑运算符 &（与）、|（或）、~（非），使用比较运算符时，请将每个条件括在括号内。运算符的优先级是NOT（〜），AND（＆），OR（|）。读取数据查看数据类型筛选出frand_flag为0的数据筛选出frand_flag不为1的数据筛选cdr_duration>=15的数据筛选cdr_duration<15的数据筛选cdr_duration<=15且frand_flag=0的数据筛选cdr_duration<=15或cdr_duration>60的数据函数筛选比较函数(eq, ne, le, lt, ge, gt) 筛选出frand_flag为0的数据筛选出frand_flag不为1的数据筛选cdr_duration>=15的数据筛选cdr_duration<=15的数据筛选cdr_duration<=15且frand_flag=0的数据范围运算 between(left,right) 筛选cdr_duration>=15或cdr_duration<=60的数据筛选start_date>=20220701且start_date<=20221031的数据字符筛选 Series.str.contains(pattern或字符串,na=False) 测试pattern或regex是否包含在Series或Index的字符串中。 Series列要为字符数据类型。最终返回：布尔值的系列或索引。布尔值的Series或Index，指示给定模式是否包含在Series或Index的每个元素的字符串中。函数语法：参数说明如下：参数描述patstr类型。字符序列或正则表达式。casebool，默认为True。如果为True，区分大小写。flagsint，默认为0（无标志）。标志传递到re模块，例如re.IGNORECASE。na默认NaN，填写缺失值的值。regexbool，默认为True。如果为True，则假定pat是正则表达式。如果为False，则将pat视为文字字符串。所以针对特殊符号，默认情况下我们必须使用转义符，或者设置 regex=False。筛选billing_nbr为移动号码，移动号码用正则表达式模糊查询，筛选某列中包含某个字符，比如“筛选start_date为202207的数据” 筛选channel_type_desc为实体渠道的数据，na=False的意思就是，遇到非字符串的情况，直接忽略。你也可以写na=True，意思就是遇到非字符串的情况，计为筛选有效。如果遇到非字符串没有标明na参数会报错。 apply()函数筛选出frand_flag为0的数据截取billing_nbr前7位数筛选billing_nbr为移动号码，移动号码用正则表达式筛选某一列并替换其他字符：筛选channel_type_desc列，将”含有实体渠道的“全部替换”实体渠道”，将“含有电子渠道的”全部替换成“电子渠道”，将“含有直销渠道的”全部替换成“直销渠道”，其他替换为未知。未修改前，数据详情：数据替代后，数据详情： isin()函数，支持多值筛选，用列表表示筛选出frand_flag为0的数据筛选出called_nbr包含10086、10010、10016、114的数据 ~isin() 筛选called_nbr不包含10086、10010、10016、114的数据到此这篇关于Python数据清洗之利用pandas筛选数据详解的文章就介绍到这了,更多相关pandas筛选数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

RunesBridge中文网

FRONT中文网

你的位置：RunesBridge中文网 > FRONT中文网 >

Python数据清洗之利用pandas筛选数据详解

相关资讯Related Articles

币圈重磅利好来了？！特朗普或将宣布战略性比特币储备政策、比特币强

BitPay的Copay钱包遭黑客入侵 比特币私

加密货币市场情绪再次上扬，比特币和以太币均处于积极区域