python文本过滤
#encoding:UTF-8 import re
temp = "想做/ 兼_职/学生_/ 的 、加,我Q: 8 8. 8 8. !!?? 8 8 。8. 8。 8 有,惊,喜,哦"
temp = temp.decode("utf8")
string = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+".decode("utf8"), "".decode("utf8"),temp)
print string # def is_chinese(uchar):
# """判断一个unicode是否是汉字"""
# if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
# return True
# else:
# return False # def is_number(uchar):
# """判断一个unicode是否是数字"""
# if uchar >= u'\u0030' and uchar<=u'\u0039':
# return True
# else:
# return False # def is_alphabet(uchar):
# """判断一个unicode是否是英文字母"""
# if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
# return True
# else:
# return False # def is_other(uchar):
# """判断是否非汉字,数字和英文字符"""
# if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):
# return True
# else:
# return False # def B2Q(uchar):
# """半角转全角"""
# inside_code=ord(uchar)
# if inside_code<0x0020 or inside_code>0x7e: #不是半角字符就返回原来的字符
# return uchar
# if inside_code==0x0020: #除了空格其他的全角半角的公式为:半角=全角-0xfee0
# inside_code=0x3000
# else:
# inside_code+=0xfee0
# return unichr(inside_code) # def Q2B(uchar):
# """全角转半角"""
# inside_code=ord(uchar)
# if inside_code==0x3000:
# inside_code=0x0020
# else:
# inside_code-=0xfee0
# if inside_code<0x0020 or inside_code>0x7e: #转完之后不是半角字符返回原来的字符
# return uchar
# return unichr(inside_code) # def stringQ2B(ustring):
# """把字符串全角转半角"""
# return "".join([Q2B(uchar) for uchar in ustring]) # def uniform(ustring):
# """格式化字符串,完成全角转半角,大写转小写的工作"""
# return stringQ2B(ustring).lower() # def string2List(ustring):
# """将ustring按照中文,字母,数字分开"""
# retList=[]
# utmp=[]
# for uchar in ustring:
# if is_other(uchar):
# if len(utmp)==0:
# continue
# else:
# retList.append("".join(utmp))
# utmp=[]
# else:
# utmp.append(uchar)
# if len(utmp)!=0:
# retList.append("".join(utmp))
# return retList # if __name__=="__main__":
# #test Q2B and B2Q
# for i in range(0x0020,0x007F):
# print Q2B(B2Q(unichr(i))),B2Q(unichr(i)) # #test uniform
# ustring=u'中国 人名a高频A'
# ustring=uniform(ustring)
# ret=string2List(ustring)
# raw_input()
python文本过滤的更多相关文章
- 【python cookbook】【字符串与文本】12.文本过滤和清理
问题:例如清除在web页面表单中填入了pýtĥöñis这样的文本 解决方法:str.translate()方法 s = 'p\xfdt\u0125\xf6\xf1\x0cis\tawesome\r\n ...
- 改写《python基础教程》中的一个例子
一.前言 初学python,看<python基础教程>,第20章实现了将文本转化成html的功能.由于本人之前有DIY一个markdown转html的算法,所以对这个例子有兴趣.可仔细一看 ...
- 产品经理学Python:参数传递方式
这是关于Python的第5篇文章,主要介绍下参数传递方式和如何设计自己的函数. (一) 本篇主要介绍2种参数传递方式. 位置参数 调用函数时,根据函数定义的参数位置来传递参数. def right_t ...
- python书籍推荐:Python Cookbook第三版中文
所属网站分类: 资源下载 > python电子书 作者:熊猫烧香 链接:http://www.pythonheidong.com/blog/article/44/ 来源:python黑洞网 内容 ...
- 值得Python小白学习的书 简单推荐几本吧
于我个人而言,我很喜欢Python,当然我也有很多的理由推荐你去学python.我只说两点.一是简单,二是写python薪资高.我觉得这俩理由就够了,对不对.买本书,装上pycharm,把书上面的例子 ...
- 【Python】统计个人新浪微博词频并给出相应的柱状图
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
- python学习笔记——提取网页中的信息正则表达式re
被用来检索\替换那些符合某个模式(规则)的文本,对于文本过滤或规则匹配,最强大的就是正则表达式,是python爬虫里必不可少的神兵利器. 1 正则表达式re基本规则 [0-9] 任意一个数字,等价\d ...
- 朴素贝叶斯文本分类实现 python cherry分类器
贝叶斯模型在机器学习以及人工智能中都有出现,cherry分类器使用了朴素贝叶斯模型算法,经过简单的优化,使用1000个训练数据就能得到97.5%的准确率.虽然现在主流的框架都带有朴素贝叶斯模型算法,大 ...
- Python入门:参数传递方式
这是关于Python的第5篇文章,主要介绍下参数传递方式和如何设计自己的函数. (一) 本篇主要介绍2种参数传递方式. 位置参数 调用函数时,根据函数定义的参数位置来传递参数. def right_t ...
随机推荐
- Java Web之会话管理一: 使用Cookie进行会话管理
一.Cookie的概念 Cookie(会话)可以简单的理解为:用户开一个浏览器,点击多个链接,访问服务器多个web资源,然后关闭浏览器,整个过程称为一个会话. 二.会话过程中解决的问题 用户在使用浏览 ...
- 百度-official
1.请描述html5新增的一些标签,描述这些标签的用法和语义 2.css属性position的属性值有哪些,描述它们的作用 3.常见的浏览器端的存储技术有哪些,以及它们的优缺点 4.程序定义如下: v ...
- Unity3D之随心所欲的获取对象
ps 1 建立一个cube 建立一个scripts 2 scripts 赋给cube 3 在script里面直接 gameObject.SetActive (false); 就是操作当前脚本绑定 ...
- 1007. Maximum Subsequence Sum (25)
Given a sequence of K integers { N1, N2, ..., NK }. A continuous subsequence is defined to be { Ni, ...
- js获取当前日期
var myDate = new Date();myDate.getYear(); //获取当前年份(2位)myDate.getFullYear(); //获取完整的年份(4位,1 ...
- Scope 安装和使用
Scope 安装和使用 一.安装 1. 软件下载 https://sourceforge.net/projects/cscope/files/ 2. 解压 3. 安装 ./configure --pr ...
- myeclipse 没有任何问题,可偏偏还报这错。
Windows–>Preferences–>Java–>Compiler–>Building–>Output folder–> ”Rebuild class fil ...
- settings.php rwx
440/400 https://www.drupal.org/node/137702 You must understand the meaning of XYZ chmod from file at ...
- centos 安装mongodb
原文引用:http://blog.chinaunix.net/uid-24250828-id-3770298.html 官方网站: http://www.mongodb.org/ MongoDB 安裝 ...
- Sprint1(第二天11.15)
Sprint1(第二天11.15) Sprint1第一阶段 1.类名:软件工程-第一阶段 2.时间:11.14-11.23 3.选题内容:web版-餐厅到店点餐系统 4.团队博客地址: http:// ...