Python只读取文本中文字符

#coding=utf-8

import re

with open('aaa.txt','r',encoding="utf-8") as f:

    #data = f.read().decode('gbk').encode('utf-8')

    data = f.read()

    print(data)

    #str = re.sub(r'(\\u\d+)',"",data)

    #data = re.sub("[A-Za-z0-9\!\%\[\]\,\。]", "", data)

    #data = re.sub('[\W_+]', "", data)

    data = re.sub('[\u4E00-\u9FA5]',"", data)

    print(data)

#过滤掉除了中文以外的字符

import re

"""

python 3.5版本

正则匹配中文，固定形式：\u4E00-\u9FA5

"""

text = "aqweded***中国***xsa***日本***韩国"

regStr = ".*?([\u4E00-\u9FA5]+).*?"

aa = re.findall(regStr, text)

if aa:

    print(aa)

#提取字符串里的中文，返回数组

#coding=utf-8

import re

with open('aaa.txt','r',encoding="utf-8") as f:

    #data = f.read().decode('gbk').encode('utf-8')

    data = f.read()

    print(data)

    data = re.sub("[A-Za-z0-9\!\%\[\]\,\。\ ]", "", data)

    #data = re.sub('[\u4E00-\u9FA5]',"", data)

    print(data)

# -*- coding: utf-8 -*-

import re

#过滤掉除了中文以外的字符

str = "hello,world!!%[545]你好234世界。。。"

str = re.sub("[A-Za-z0-9\!\%\[\]\,\。]", "", str)

print(str)

 

#提取字符串里的中文，返回数组

pattern="[\u4e00-\u9fa5]+" 

regex = re.compile(pattern)

results =  regex.findall("adf中文adf发京东方")

print(results)

Python只读取文本中文字符的更多相关文章

python匹配某个中文字符
python2.7对中文的支持不好是众所周知的,现在遇到这样一个需求,要匹配某个中文字符.查了一个资料,思路就是转化为unicode进行比较,记录如下: line = '参考答案: A' # gbk ...
python json.dumps 中文字符乱码
场景:微信公众号推送消息,中文乱码. Date:2017-05-11 10:58:40.033000,\u4f60\u597d 解决方法: python dumps默认使用的ascii编码 ...
python正则匹配——中文字符的匹配
# -*- coding:utf-8 -*- import re '''python 3.5版本正则匹配中文,固定形式:\u4E00-\u9FA5 ''' words = 'study in 山海大 ...
python随机生成中文字符
第一种方法:Unicode码在unicode码中,汉字的范围是(0x4E00, 9FBF) import random def Unicode(): val = random.randint(0x4 ...
Python中文字符问题
Python中对中文字符的操作时常会使程序出现乱码不全然管用的处理方法: 读取数据时使用encode编码为Bytes以保护数据使用时转化为string并使用decode解码如: title = ...
Python: 在CSV文件中写入中文字符
0.2 2016.09.26 11:28* 字数 216 阅读 8053评论 2喜欢 5 最近一段时间的学习中发现,Python基本和中文字符杠上了.如果能把各种编码问题解决了,基本上也算对Pytho ...
python中文字符乱码（GB2312，GBK，GB18030相关的问题）
转自博主 crifan http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ 在玩wordpress的一个博客搬 ...
Python中文字符的理解：str()、repr()、print
Python中文字符的理解:str().repr().print 字数1384 阅读4 评论0 喜欢0 都说Python人不把文字编码这块从头到尾.从古至今全研究通透的话是完全玩不转的.我终于深刻的理 ...
python 连接数据库-设置oracle ，mysql 中文字符问题
import cx_Oracle import MySQLdb def conn_oracle(): cnn = cx_Oracle.connect('用户名','密码','ip:端口号/数据库') ...

随机推荐

C#线程学习笔记九：async & await入门二
一.异步方法返回类型只能返回3种类型(void.Task和Task<T>). 1.1.void返回类型:调用方法执行异步方法,但又不需要做进一步的交互. class Program { ...
git版本控制入门--码云
1.下载git:https://git-scm.com/download 2.安装过程一直点下一步即可. 3.进入刚创建的文件夹 4.在此时登录码云,创建项目.项目名称最好与文件夹名称 ...
Linux 按 Ctrl + S 卡死的解决办法
ctrl + s 的作用是暂停屏幕输出 ctrl + q 恢复屏幕输出即可恢复之后会出现在暂停期间输入的字符
Castle DynamicProxy基本用法（AOP）
本文介绍AOP编程的基本概念.Castle DynamicProxy(DP)的基本用法,使用第三方扩展实现对异步(async)的支持,结合Autofac演示如何实现AOP编程. AOP 百科中关于AO ...
浅析ketamahash和murmurhash
说来赶巧,之前我有16个redis集群,然后我要将某个key根据路由规则存到16个集群中的某一个上面,正巧用到了这两种哈希算法,改造完毕上线后,整体带来的效果也十分理想. 说道ketamahash,它 ...
C# ThreadPool 线程池
Thread与ThreadPool Thread: .NetFramework1.0 对线程对象的一个封装 Thread方法很多很强大,但是太过强大,而且没有限制功能繁多,反而用不好--就像给4岁 ...
IT兄弟连 HTML5教程 CSS3属性特效小结及习题
本章小结 CSS3新增了许多属性,CSS3样式新增了一种颜色模式rgba用来制作透明色,比CSS的颜色模式多了一个透明度的设置.文字的CSS3特效有文字阴影.文字描边.文字排版和文字省略等.另外,CS ...
less 学习笔记
一.介绍 Less (Leaner Style Sheets 简洁的样式表) 是一门向后兼容的 CSS 预处理语言,它扩展了CSS 语言. less is more. 好处: 1.具有部分编程语言的功 ...
关于c# winform 键盘响应右边键盘消息响应事件的上下左右方向键没有反应
原文作者:aircraft 原文链接:https://www.cnblogs.com/DOMLX/p/11835642.html 记录一下这个小坑,c# winform 键盘响应右边键盘的上下左右方向 ...
Java学习 1.1——（JVM介绍）Java为什么能够跨平台？
首先介绍一下Java的各个层级,先放一张图: 硬件,操作系统和操作系统接口:这三级不说大家都知道,操作系统有很多种,比如Windows,Linux.Windows又分为win7,win10,win x ...

Python只读取文本中文字符

Python只读取文本中文字符的更多相关文章

随机推荐

热门专题