pandas多列的str.contains

pandas的数据筛选之isin和str.contains函数

筛选是在平时的工作中使用非常频繁的功能,前文介绍了loc和iloc的筛选方法,现在继续介绍一些筛选的方法. DataFrame列表以>,<,==,>=,<=来进行选择("等于"一定是用'==',如果用'='就不是判断大小了): 选择quantity>25的所有行选择数量大于20或单价大于100的所有行使用 &(且) 和 |(或) 时每个条件都要用小括号括起来. 选取多列一定是两个方括号,其中内侧方括号代表是一个list: 使用

【跟着stackoverflow学Pandas】 - Adding new column to existing DataFrame in Python pandas - Pandas 添加列

最近做一个系列博客,跟着stackoverflow学Pandas. 以 pandas作为关键词,在stackoverflow中进行搜索,随后安照 votes 数目进行排序: https://stackoverflow.com/questions/tagged/pandas?sort=votes&pageSize=15 Adding new column to existing DataFrame in Python pandas - Pandas 添加列 https://stackoverflo

pandas 按照列A分组，将同一组的列B求和,生成新的Dataframe

对于pandas中的Dataframe,如果需要按照列A进行分组,将同一组的列B求和,可以通过下述操作完成: df = df.groupby(by=['column_A'])['column_B'].sum() 生成的数据类型是Series,如果进一步需要将其转换为dataframe,可以调用Series中的to_frame()方法. df = df.to_frame() #index column_A #column_B ->column_B values 可以取出上述dataframe中的i

Pandas截取列部分字符，并据此修改另一列的数据

#截取'股票代码'第一个字符 df['首字符'] = df['股票代码'].str[0:1] ' # 根据'首字符'列的值,修改'市场'的值. 1表示上海截取字符串的部分字符: date=today[4:8] #截取日期字符串的后4位.(日期格式:20190406)

pandas 选择列或者添加列生成新的DataFrame

选择某些列 import pandas as pd # 从Excel中读取数据,生成DataFrame数据 # 导入Excel路径和sheet name df = pd.read_excel(excelName, sheet_name=sheetName) # 读取某些列,生成新的DataFrame newDf = pd.DataFrame(df, columns=[column1, column2, column3]) 选择某些列和行 # 读取某些列,并根据某个列的值筛选行 newDf = p

pandas 多列排序

import pandas as pd df = pd.DataFrame({'AAA' : [1,2,1,3], 'BBB' : [1,1,2,2], 'CCC' : [2,1,3,1]}) source_cols = df.columns new_cols = [str(x) + "_cat" for x in source_cols] categories = {1 : 'Alpha', 2 : 'Beta', 3 : 'Charlie' } df[new_cols] = df[

pandas对列求和

了解更多,请关注公众号"轻松学编程" 一行代码实现对列求和使用pandas把列表中的字典元素转成二维数组,然后使用pandas函数实现对每一列求和. 代码: import pandas as pd datas = [ {'学生': '小红', '语文': None, '数学': 89.5, '英语': 99, '物理':70, 'active': False}, {'学生': '小明', '语文': 88, '数学': 89.5, '英语': 99, '物理':70, 'active

pandas 移动列的方法

import pandas as pd df = pd.DataFrame(np.random.randn(3,4),columns=['a','b','c','d']) k = df.pop("b") df.insert(df.shape[1],"label",k) #将b列移到了最后一列去 df 将第一列移动到最后一列,并且重命名列 df = pd.DataFrame(np.random.randn(3,4),columns=range(4)) k = df.p

更改pandas dataframe 列的顺序

摘自 stackoverflow 这是我的df: Net Upper Lower Mid Zsore Answer option More than once a day 0% 0.22% -0.12% 2 65 Once a day 0% 0.32% -0.19% 3 45 Several times a week 2% 2.45% 1.10% 4 78 Once a week 1% 1.63% -0.40% 6 65 怎样将mid这一列移动到第一列? Mid Upper Lower Net

Pandas截取列的一部分

以股票代码为例: 型式为:6位数字+"."+交易所代码,如600028.SH 如只需保留前6位: pattern = '(\w+)(?:.SZ|.SH)$' df['股票代码'] = df['股票代码'].str.extract(pattern) 另外一种方式: df['股票代码'] = df['股票代码'].str[0:6]

pandas修改列的顺序

http://www.cnblogs.com/zhoudayang/p/5414020.html cols = list(ret)cols.insert(0,cols.pop(cols.index('STKCODE')))ret = ret.ix[:,cols]

pandas列操作集锦

列操作 pandas的列操作数据准备: 增将两张表合并到一起 pd.concat([page_001,page_002]).reset_index(drop=True) 默认从上到下合,如果想从左往右,可以将axis=1加上将Age=25这一列加到后面 students = pd.concat([page_001,page_002]).reset_index(drop=True) students['Age']=25 students 等同于上面的那种增加列操作 students['A']

pandas取dataframe特定行/列

1. 按列取.按索引/行取.按特定行列取 import numpy as np from pandas import DataFrame import pandas as pd df=DataFrame(np.arange(12).reshape((3,4)),index=['one','two','thr'],columns=list('abcd')) df['a']#取a列 df[['a','b']]#取a.b列 #ix可以用数字索引,也可以用index和column索引 df.ix[0]#

使用Pandas: str.replace() 进行文本清洗

前段时间参加了Kaggle上的Mercari Price Suggestion Challenge比赛,收获良多,过些时候准备进行一些全面的总结,本篇文章先谈一个比赛中用到的小技巧. 这个比赛数据中有一个特征叫做 "item_description",大致是一些商品描述,比如什么时候买的.新旧程度如何.什么牌子的等等.因为大部分都是Mercari这个网站(这个类似于国内的二手商品交易网站)上的用户自己填的商品描述,所以是极尽杂乱之能事,会出现很多夸张的符号,比如这样: 另外的一大问题是

pandas数据类型（二）与numpy的str和object类型之间的区别

现象: Numpy区分了str和object类型,其中dtype(‘S’)和dtype(‘O’)分别对应于str和object. 然而,pandas缺乏这种区别 str和object类型都对应dtype(‘O’)类型,即使强制类型为dtype(‘S’)也无济于事 >>> import pandas as pd >>> import numpy as np >>> >>> >>> np.dtype(str) dtype

[数据清洗]-使用 Pandas 清洗“脏”数据

概要准备工作检查数据处理缺失数据添加默认值删除不完整的行删除不完整的列规范化数据类型必要的转换重命名列名保存结果更多资源 Pandas 是 Python 中很流行的类库,使用它可以进行数据科学计算和数据分.他可以联合其他数据科学计算工具一块儿使用,比如,SciPy,NumPy 和 Matplotlib,建模工程师可以通过创建端到端的分析工作流来解决业务问题. 虽然我们可以 Python 和数据分析做很多强大的事情,但是我们的分析结果的好坏依赖于数据的好坏.很多数据集存在数据

pandas中遍历dataframe的每一个元素

假如有一个需求场景需要遍历一个csv或excel中的每一个元素,判断这个元素是否含有某个关键字那么可以用python的pandas库来实现. 方法一: pandas的dataframe有一个很好用的函数applymap,它可以把某个函数应用到dataframe的每一个元素上,而且比常规的for循环去遍历每个元素要快很多.如下是相关代码: import pandas as pd data = [["str","ewt","earw"],[&quo

[数据清洗]-Pandas 清洗“脏”数据（一）

概要准备工作检查数据处理缺失数据添加默认值删除不完整的行删除不完整的列规范化数据类型必要的转换重命名列名保存结果更多资源 Pandas 是 Python 中很流行的类库,使用它可以进行数据科学计算和数据分.他可以联合其他数据科学计算工具一块儿使用,比如,SciPy,NumPy 和 Matplotlib,建模工程师可以通过创建端到端的分析工作流来解决业务问题. 虽然我们可以 Python 和数据分析做很多强大的事情,但是我们的分析结果的好坏依赖于数据的好坏.很多数据集存在数据

pandas 读写sql数据库

如何从数据库中读取数据到DataFrame中? 使用pandas.io.sql模块中的sql.read_sql_query(sql_str,conn)和sql.read_sql_table(table_name,conn)就好了. 第一个是使用sql语句,第二个是直接将一个table转到dataframe中. pandas提供这这样的接口完成此工作——read_sql().下面我们用离子来说明这个方法. 我们要从sqlite数据库中读取数据,引入相关模块 read_sql接受两个参数,一个是sq

Pandas 学习第9篇：DataFrame - 数据的输入输出

常用的数据存储介质是数据库和csv文件,pandas模块包含了相应的API对数据进行输入和输出: 对于格式化的平面文件:read_table() 对于csv文件:read_csv().to_csv() 对于SQL查询:read_sql.to_sql() 一,平面文件把按照界定符分割的格式化文件读取到DataFrame中,使用read_table()函数来实现: pandas.read_table( filepath_or_buffer: Union[str, pathlib.Path], se

Series.str方法

1 对dataframe的某一列用str处理后,其类型是<class 'pandas.core.strings.StringMethods'>.可以对df.['列名'].str直接进行切片操作. 如下实现了将df中某列的字符串分割,后生成新的df.用apply函数也可以实现如下功能,但非常慢. 参考:https://blog.csdn.net/yueyao121107/article/details/79730934 df = pd.DataFrame({'appid':['a00140327

pandas多列的str.contains

热门专题