python文本过滤
#encoding:UTF-8 import re
temp = "想做/ 兼_职/学生_/ 的 、加,我Q: 8 8. 8 8. !!?? 8 8 。8. 8。 8 有,惊,喜,哦"
temp = temp.decode("utf8")
string = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+".decode("utf8"), "".decode("utf8"),temp)
print string # def is_chinese(uchar):
# """判断一个unicode是否是汉字"""
# if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
# return True
# else:
# return False # def is_number(uchar):
# """判断一个unicode是否是数字"""
# if uchar >= u'\u0030' and uchar<=u'\u0039':
# return True
# else:
# return False # def is_alphabet(uchar):
# """判断一个unicode是否是英文字母"""
# if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
# return True
# else:
# return False # def is_other(uchar):
# """判断是否非汉字,数字和英文字符"""
# if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):
# return True
# else:
# return False # def B2Q(uchar):
# """半角转全角"""
# inside_code=ord(uchar)
# if inside_code<0x0020 or inside_code>0x7e: #不是半角字符就返回原来的字符
# return uchar
# if inside_code==0x0020: #除了空格其他的全角半角的公式为:半角=全角-0xfee0
# inside_code=0x3000
# else:
# inside_code+=0xfee0
# return unichr(inside_code) # def Q2B(uchar):
# """全角转半角"""
# inside_code=ord(uchar)
# if inside_code==0x3000:
# inside_code=0x0020
# else:
# inside_code-=0xfee0
# if inside_code<0x0020 or inside_code>0x7e: #转完之后不是半角字符返回原来的字符
# return uchar
# return unichr(inside_code) # def stringQ2B(ustring):
# """把字符串全角转半角"""
# return "".join([Q2B(uchar) for uchar in ustring]) # def uniform(ustring):
# """格式化字符串,完成全角转半角,大写转小写的工作"""
# return stringQ2B(ustring).lower() # def string2List(ustring):
# """将ustring按照中文,字母,数字分开"""
# retList=[]
# utmp=[]
# for uchar in ustring:
# if is_other(uchar):
# if len(utmp)==0:
# continue
# else:
# retList.append("".join(utmp))
# utmp=[]
# else:
# utmp.append(uchar)
# if len(utmp)!=0:
# retList.append("".join(utmp))
# return retList # if __name__=="__main__":
# #test Q2B and B2Q
# for i in range(0x0020,0x007F):
# print Q2B(B2Q(unichr(i))),B2Q(unichr(i)) # #test uniform
# ustring=u'中国 人名a高频A'
# ustring=uniform(ustring)
# ret=string2List(ustring)
# raw_input()
python文本过滤的更多相关文章
- 【python cookbook】【字符串与文本】12.文本过滤和清理
问题:例如清除在web页面表单中填入了pýtĥöñis这样的文本 解决方法:str.translate()方法 s = 'p\xfdt\u0125\xf6\xf1\x0cis\tawesome\r\n ...
- 改写《python基础教程》中的一个例子
一.前言 初学python,看<python基础教程>,第20章实现了将文本转化成html的功能.由于本人之前有DIY一个markdown转html的算法,所以对这个例子有兴趣.可仔细一看 ...
- 产品经理学Python:参数传递方式
这是关于Python的第5篇文章,主要介绍下参数传递方式和如何设计自己的函数. (一) 本篇主要介绍2种参数传递方式. 位置参数 调用函数时,根据函数定义的参数位置来传递参数. def right_t ...
- python书籍推荐:Python Cookbook第三版中文
所属网站分类: 资源下载 > python电子书 作者:熊猫烧香 链接:http://www.pythonheidong.com/blog/article/44/ 来源:python黑洞网 内容 ...
- 值得Python小白学习的书 简单推荐几本吧
于我个人而言,我很喜欢Python,当然我也有很多的理由推荐你去学python.我只说两点.一是简单,二是写python薪资高.我觉得这俩理由就够了,对不对.买本书,装上pycharm,把书上面的例子 ...
- 【Python】统计个人新浪微博词频并给出相应的柱状图
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
- python学习笔记——提取网页中的信息正则表达式re
被用来检索\替换那些符合某个模式(规则)的文本,对于文本过滤或规则匹配,最强大的就是正则表达式,是python爬虫里必不可少的神兵利器. 1 正则表达式re基本规则 [0-9] 任意一个数字,等价\d ...
- 朴素贝叶斯文本分类实现 python cherry分类器
贝叶斯模型在机器学习以及人工智能中都有出现,cherry分类器使用了朴素贝叶斯模型算法,经过简单的优化,使用1000个训练数据就能得到97.5%的准确率.虽然现在主流的框架都带有朴素贝叶斯模型算法,大 ...
- Python入门:参数传递方式
这是关于Python的第5篇文章,主要介绍下参数传递方式和如何设计自己的函数. (一) 本篇主要介绍2种参数传递方式. 位置参数 调用函数时,根据函数定义的参数位置来传递参数. def right_t ...
随机推荐
- myeclipse10 优化设置
http://it.oyksoft.com/post/5898/ 一.Myeclipse10修改字体MyEclipse10是基于Eclipse3.7内核,但在Eclipse的Preferences-〉 ...
- 系统hosts文件的作用
host是一个没有扩展名的系统文件,可以用记事本等工具打开,其作用就是将一些常用的网址域名与其对应的IP地址建立一个关联"数据库",当用户在浏览器中输入一个需要登录的网址时,系统会 ...
- destoon系统中get_maincat的用法及解释
get_maincat函数的用法, 如get_maincat(0, $mid, 1),其中第一.二.三个参数分别表示什么? 第一个参数代表parentid 第二个参数代表所有的分类 第三个参数 代表 ...
- linux实用命令语句
du -sh ./* 作用:检索当前目录下的所有文件及文件夹的大小,或者"du -sh 文件名/*","du -sh 文件夹名/*"查看某个文件或文件夹的大小 ...
- what is difference in (int)a,(int&)a,&a,int(&a) ?
This interview question come from a famous communication firm of china. : ) #include <iostream> ...
- Java 源码解析之局部变量检查
package com.tang; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream ...
- Java开发基础
天数 课程 01 Java基础回顾 集合 泛型 IO流 多线程 Junit Properties HTML JavaScript JavaScript BOM编程 XML基础 ...
- mysql mybatis-generator plugin 有page实体类的分页
page实体类 package cn.zsmy.tmp; import java.io.Serializable; /** * 分页对象. * */public final class Page im ...
- 【积累】validate验证框架的使用
validate验证框架的使用:用验证框架可以很方便的验证前端页面输入的内容可以自定义验证方法 内容:0:环境搭建 1:基础用法 2:自定义用法 0:基本环境的搭建 0.1:下载js文件 0.2:引入 ...
- Jquery实现账单全部选中和部分选中管理
在做购物车系统是我们往往会遇到这样一个需求,在点击全选框时我们要将全部的单个账单都选中;在单个选中账单时,如果账单全部被选中则需要全选框处于选中状态,若没有全部被选中则全选框处于没选中状态; 以下是在 ...