pandas 处理文本数据
import pandas as pd
import numpy as np
常规的字符串操作
s = pd.Series(['A',"B","C","AaBa","Baca",np.nan,'dog','cat'])
s
0 A
1 B
2 C
3 AaBa
4 Baca
5 NaN
6 dog
7 cat
dtype: object
s.str.lower()
0 a
1 b
2 c
3 aaba
4 baca
5 NaN
6 dog
7 cat
dtype: object
s.str.upper()
0 A
1 B
2 C
3 AABA
4 BACA
5 NaN
6 DOG
7 CAT
dtype: object
s.str.len()
0 1.0
1 1.0
2 1.0
3 4.0
4 4.0
5 NaN
6 3.0
7 3.0
dtype: float64
idx = pd.Index([' jack','jill ',' jesse','frank'])
idx.str.strip() # 去掉左右两边的空白符
Index(['jack', 'jill', 'jesse', 'frank'], dtype='object')
idx.str.lstrip() # 左去掉空白字符
Index(['jack', 'jill ', 'jesse', 'frank'], dtype='object')
idx.str.rstrip() # 去掉右边的空白符
Index([' jack', 'jill', ' jesse', 'frank'], dtype='object')
df = pd.DataFrame(np.random.randn(3,2),columns=[' Column A ',' Column B '],index=range(3))
df
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| Column A | Column B | |
|---|---|---|
| 0 | 0.048811 | -1.097950 |
| 1 | -1.099516 | -0.514286 |
| 2 | 0.984136 | -1.027790 |
df.columns.str.strip()
Index(['Column A', 'Column B'], dtype='object')
df.columns.str.lower()
Index([' column a ', ' column b '], dtype='object')
df.columns = df.columns.str.strip().str.lower().str.replace(' ',"_")
df
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| column_a | column_b | |
|---|---|---|
| 0 | 0.048811 | -1.097950 |
| 1 | -1.099516 | -0.514286 |
| 2 | 0.984136 | -1.027790 |
分割与替换字符
str.split 操作
s2 = pd.Series(['a_b_c',"c_D_e",np.nan,'f_g_H'])
s2.str.split("_")
0 [a, b, c]
1 [c, D, e]
2 NaN
3 [f, g, H]
dtype: object
s2.str.split('_')[1]
['c', 'D', 'e']
s2.str.split('_').str[1] # 切割之后的Series,通过str方法可以得到新的数据
0 b
1 D
2 NaN
3 g
dtype: object
s2.str.split('_').str.get(1)
0 b
1 D
2 NaN
3 g
dtype: object
s2.str.split('_',expand=True,n=1) # expand 参数,通过可以通过n确定延伸的次数
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| 0 | 1 | |
|---|---|---|
| 0 | a | b_c |
| 1 | c | D_e |
| 2 | NaN | NaN |
| 3 | f | g_H |
s2.str.rsplit('_',expand=True,n=1) # rsplit 方法
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| 0 | 1 | |
|---|---|---|
| 0 | a_b | c |
| 1 | c_D | e |
| 2 | NaN | NaN |
| 3 | f_g | H |
str.replace操作
s3 = pd.Series(['A',"B","C","AaBa","Baca",np.nan,"CABA","dog","cat"])
s3
0 A
1 B
2 C
3 AaBa
4 Baca
5 NaN
6 CABA
7 dog
8 cat
dtype: object
s3.str.replace('^.a|dog','XX_XX',case=False) # 替换第二个字符是a或者dog的字符串,忽略大小写,关于正则表达式的内容篇幅很大
0 A
1 B
2 C
3 XX_XXBa
4 XX_XXca
5 NaN
6 XX_XXBA
7 XX_XX
8 XX_XXt
dtype: object
dollars = pd.Series(['12', '-$10', '$10,000'])
dollars.str.replace('$', '') # replace $ to ''
0 12
1 -10
2 10,000
dtype: object
dollars.str.replace("-$",'-') # doesn't work
0 12
1 -$10
2 $10,000
dtype: object
dollars.str.replace(r'-\$','-')
# 转义 原字符-\$ 替换成'-'
0 12
1 -10
2 $10,000
dtype: object
dollars.str.replace('-\$', '-')
0 12
1 -10
2 $10,000
dtype: object
str.cat操作
s = pd.Series(['A',"B","C","D"])
s.str.cat(sep=',')
'A,B,C,D'
s.str.cat()
'ABCD'
t = pd.Series(['a', 'b', np.nan, 'd'])
t.str.cat(sep=',',na_rep='_')
'a,b,_,d'
s.str.cat(['a',"b","c","d"])
0 Aa
1 Bb
2 Cc
3 Dd
dtype: object
pd.Series(['a1', 'b2', 'c3']).str.extract('(?P<letter>[ab])(?P<digit>\d)', expand=False)# 组命名?P
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
| letter | digit | |
|---|---|---|
| 0 | a | 1 |
| 1 | b | 2 |
| 2 | NaN | NaN |
match or contain操作
pattern = r'[0-9][a-z]'
pd.Series(['1','2','3a','3b','03c']).str.contains(pattern)# 包含数字字母的文本
0 False
1 False
2 True
3 True
4 True
dtype: bool
pd.Series(['1','2','3a','3b','03c']).str.match(pattern)# 匹配数字字母的文本
0 False
1 False
2 True
3 True
4 False
dtype: bool
其他的方法,可以参考官方文档中的方法函数

pandas 处理文本数据的更多相关文章
- Python文本数据互相转换(pandas and win32com)
(工作之后,就让自己的身心都去休息吧) 今天介绍一下文本数据的提取和转换,这里主要实例的转换为excel文件(.xlsx)转换world文件(.doc/docx),同时需要使用win32api,同py ...
- pandas处理大文本数据
当数据文件是百万级数据时,设置chunksize来分批次处理数据 案例:美国总统竞选时的数据分析 读取数据 import numpy as np import pandas as pdfrom pan ...
- 如何使用 scikit-learn 为机器学习准备文本数据
欢迎大家前往云+社区,获取更多腾讯海量技术实践干货哦~ 文本数据需要特殊处理,然后才能开始将其用于预测建模. 我们需要解析文本,以删除被称为标记化的单词.然后,这些词还需要被编码为整型或浮点型,以用作 ...
- 机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)
函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号 参数说明:r'[^a-zA-Z0- ...
- 【tensorflow2.0】处理文本数据
一,准备数据 imdb数据集的目标是根据电影评论的文本内容预测评论的情感标签. 训练集有20000条电影评论文本,测试集有5000条电影评论文本,其中正面评论和负面评论都各占一半. 文本数据预处理较为 ...
- Bulk Insert:将文本数据(csv和txt)导入到数据库中
将文本数据导入到数据库中的方法有很多,将文本格式(csv和txt)导入到SQL Server中,bulk insert是最简单的实现方法 1,bulk insert命令,经过简化如下 BULK INS ...
- JAVASE02-Unit08: 文本数据IO操作 、 异常处理
Unit08: 文本数据IO操作 . 异常处理 * java.io.ObjectOutputStream * 对象输出流,作用是进行对象序列化 package day08; import java.i ...
- JAVASE02-Unit07: 基本IO操作 、 文本数据IO操作
基本IO操作 . 文本数据IO操作 java标准IO(input/output)操作 package day07; import java.io.FileOutputStream; import ja ...
- 10、NFC技术:读写NFC标签中的文本数据
代码实现过程如下: 读写NFC标签的纯文本数据.java import java.nio.charset.Charset; import java.util.Locale; import androi ...
随机推荐
- 【组合&取补集】数三角形 @CQOI2014/BZOJ3505/upcexam3843
http://exam.upc.edu.cn/problem.php?id=3843&csrf=8oK86t2oHSgi3Q4SX3qOJGeENe6pfXri 时间限制: 1 Sec 内存限 ...
- 安装bootcamp时提示“找不到$winpedriver$文件夹,请验证该文件夹是否和bootcamp处于同一文件夹内?”
问题:我苹果系统是10.8.3的 装的win7 64位的! 这个bootcamp是我在别人那里拷贝的,我装的时候就这样了,但是别人装是好好的,还有我在MAC系统下载bootcamp的时候我的U盘格式是 ...
- 9款国内外垂直领域的在线作图工具:那些可以替代Visio的应用!【转】
http://www.csdn.net/article/2015-02-12/2823939 摘要:现在越来越多的创业公司都希望提升办公的效率,今天介绍的几款也能提升办公效率,不过它们都属于垂直领域的 ...
- 《Python数据分析与挖掘实战》读书笔记
大致扫了一遍,具体的代码基本都没看了,毕竟我还不懂python,并且在手机端的排版,这些代码没法看. 有收获,至少了解到以下几点: 一. Python的语法挺有意思的 有一些类似于JavaSc ...
- ESP-EYE V2.1 开发板 WINDOWS 10 开发入门
准备工作 1 × ESP-EYE V2.1 开发板 1 × Micro USB B 电缆 1 × PC(Windows10) 简介 ESP-EYE 是一款面向人脸识别和语音识别市场的开发板,搭载 ES ...
- angualrjs 配置超时时间
timeout 1 本想通过$httpProvider的defaults属性配置timeout时间, defaults中没有这个属性. https://docs.angularjs.org/api/n ...
- 一步步教你轻松学朴素贝叶斯模型算法Sklearn深度篇3
一步步教你轻松学朴素贝叶斯深度篇3(白宁超 2018年9月4日14:18:14) 导读:朴素贝叶斯模型是机器学习常用的模型算法之一,其在文本分类方面简单易行,且取得不错的分类效果.所以很受欢迎,对 ...
- kafka创建topic异常
问题描述: kafak运行在weblogic账户下,jdk1.8,当在root账户下创建topic(当前账户下的jdk1.6)导致创建topic失败 ./bin/kafka-topics.sh --c ...
- Linux Crontab及使用salt进行管理
一.引言: 最近无意之间看到salt有一个cron的模块,今天就在这里介绍linux crontab以及通过salt的cron对crontab的管理. 二.Linux crontab的介绍: cron ...
- Android触摸事件(一)-TouchEventHelper
文件夹 文件夹 概述 关于更新 2016-08-31 2016-06-20 关于单点触摸事件singleTouch 单击的两种方式 关于双击事件 双击事件的检測逻辑 双击事件触发的时机 关于多点触摸事 ...