Python拆分列中文和字符

需求描述：我们日常实际的工作中经常需要把一列数据按中文和数字或者字母单独拆分出来

导入所需的库：

import pandas as pd

定义函数 extract_characters，该函数接受三个参数：file_path（Excel文件路径）、sheet_name（工作表名称）和 column_name（列名）。

def extract_characters(file_path, sheet_name, column_name):

读取Excel文件并将其存储到DataFrame中：

df = pd.read_excel(file_path, sheet_name=sheet_name)

创建两个新的列 '中文' 和 '其他字符'，并将它们添加到DataFrame中：

df['中文'] = ''

df['其他字符'] = ''

遍历DataFrame的每一行数据：

for index, row in df.iterrows():

获取指定列的值，并将其转换为字符串：

text = str(row[column_name])

初始化两个空字符串变量 chinese 和 other，用于存储中文字符和其他字符：

chinese = ''

other = ''

遍历每个字符：

for char in text:

判断当前字符是否为中文字符（Unicode范围为\u4e00到\u9fff）：

if '\u4e00' <= char <= '\u9fff':

如果是中文字符，则将其添加到 chinese 字符串中：

chinese += char

如果不是中文字符，则将其添加到 other 字符串中：

other += char

将中文字符集合添加到新的 '中文' 列中：

df.at[index, '中文'] = chinese

将其他字符集合添加到新的 '其他字符' 列中：

df.at[index, '其他字符'] = other

返回处理后的DataFrame对象：

return df

定义测试示例的文件路径、工作表名称和列名：

file_path = r'测试.xlsx'

sheet_name = 'Sheet1'

column_name = '店铺销售sku'

调用 extract_characters 函数，并将结果存储在 result_df 中：

result_df = extract_characters(file_path, sheet_name, column_name)

将处理后的DataFrame保存为Excel文件：

result_df.to_excel('result.xlsx', index=False)

完整代码：

Python拆分列中文和字符的更多相关文章

Excel 中如何快速统计一列中相同字符的个数（函数法）
https://jingyan.baidu.com/article/6d704a132ea17328da51ca78.html 通过excel快速统计一列中相同字符的个数,如果很少,你可以一个一个数. ...
python 统计字符串中指定字符出现次数的方法
python 统计字符串中指定字符出现次数的方法: strs = "They look good and stick good!" count_set = ['look','goo ...
ArcMap - 使用python更新列中的值
概述:在外文网上,很多人都问在ArcMap中如何通过SQL修改属性字段的值,我见回答的人都说通过"Field Calculator",貌似不能直接通过SQL语句. 虽然学gis开发 ...
bash python获取文本中每个字符出现的次数
bash: grep -o . myfile | sort |uniq -c python: 使用collections模块 import pprint import collections f = ...
python在字符串中查找字符
两类函数: find(),rfind() index(),rindex() 找到了都返回下标. find找不到返回-1,index找不到抛出ValueError. 带r的表示从右向左找. 都可以使用第 ...
python去掉字符串中重复字符的方法
If order does not matter, you can use foo = "mppmt" "".join(set(foo)) set() ...
Pandas: 如何将一列中的文本拆分为多行？ | Python
Pandas: 如何将一列中的文本拆分为多行? 在数据处理过程中,经常会遇到以下类型的数据: 在同一列中,本该分别填入多行中的数据,被填在一行里了,然而在分析的时候,需要拆分成为多行. 在上图中,列名 ...
拆分Sql列中内容的拆分
拆分Sql列中内容的拆分. /*按照符号分割字符串*/ create function [dbo].[m_split](@c varchar(2000),@split varchar(2)) retu ...
《Python CookBook2》第一章文本 - 检查字符串中是否包含某字符集合中的字符 && 简化字符串的translate方法的使用
检查字符串中是否包含某字符集合中的字符任务: 检查字符串中是否出现了某个字符集合中的字符解决方案: 方案一: import itertools def containAny(seq,aset): ...
SQL判断某列中是否包含中文字符或者英文字符
SQL判断某列中是否包含中文字符或者英文字符 [sql] select * from 表名 where 某列 like '%[吖-座]%' select * from 表名 where ...

随机推荐

TreeMap运行错误
Exception in thread "main" java.lang.ClassCastException: Day16_TreeMap.Star cannot be cast ...
Git 环境配置（详解版）
前言 Git下载官网:https://git-scm.com/downloads 本次使用Github为配置前提(Gitee步骤类似) 环境搭建 1.git安装好去GitHub上注册一个账号,注册好后 ...
quarkus实战之二：应用的创建、构建、部署
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览本文是<quarkus实战>系列 ...
通过Maxwell同步mariadb数据至kafka
实验环境本地虚拟机 maraidb 10.8.8 kafka 2.12-3.3.1 maxwell由容器部署 1 mariadb 1.1 配置log_bin 配置文件中加入如下内容 server-i ...
EntityCleanFramework
EF几乎是按照领域的概念诞生,它可以和Clean结合(ECF是我新想出的名字).ECF 是为了统一业务架构开发方式,也可以说成在微服务架构中服务的通用开发方式.当有了统一开发方式后,协作将更上一层 ...
pandas：字典转dataframe的注意事项
推荐写法参考链接 https://blog.csdn.net/u013061183/article/details/79497254
python分割多个分隔符
想一次指定多个分隔符,可以用re模块 import retext='3.14:15'result = re.split('[.:]', text)print(result) 输出结果如下: ['3', ...
Avalonia 列表拖拽替换
实现目标,在一个ListBox中选择一个子项进行拖拽到另一个ListBox中,拖拽到某一子项区域进行替换下面是axaml代码 1 <ListBox 2 Name="consumabl ...
文心一言 VS 讯飞星火 VS chatgpt （74）-- 算法导论7.2 2题
二.如果用go语言,当数组A的所有元素都具有相同值时,QUICKSORT的时间复杂度是什么? 文心一言: 在Go语言中,对一个所有元素都相等的数组进行快速排序(QuickSort)的时间复杂度是O(n ...
[HDCTF2019]Maze 反汇编-花指令处理
这是一道迷宫花指令加upx脱壳处理的题先介绍花指令一. 概述花指令是对抗反汇编的有效手段之一,正常代码添加了花指令之后,可以破坏静态反汇编的过程,使反汇编的结果出现错误.错误的反汇编结果会造成破 ...

Python拆分列中文和 字符

需求描述：我们日常实际的工作中经常需要把一列数据按中文和 数字或者字母单独拆分出来

Python拆分列中文和 字符的更多相关文章

随机推荐

热门专题

Python拆分列中文和字符

需求描述：我们日常实际的工作中经常需要把一列数据按中文和数字或者字母单独拆分出来

Python拆分列中文和字符的更多相关文章