Python数据分析8-----网页文本处理

1、去除网页的标签，如<br/>

from bs4 import BeautifulrSoup

preData=BeautifulSoup(data,'html.parser').get_text()

2、将标点符号等去掉，用正则表达式。

import re
#表示将data中的除了大小写字母之外的符号换成空格

preData=re.sub(r'[^a-zA-Z]',' ',data)

　　去除特殊符号：

#two commom ways to clean data

def cleaner(word):

    word = re.sub(r'\#\.', '', word)

    word = re.sub(r'\n', '', word)

    word = re.sub(r',', '', word)

    word = re.sub(r'\-', ' ', word)

    word = re.sub(r'\.', '', word)

    word = re.sub(r'\\', ' ', word)

    word = re.sub(r'\\x\.+', '', word)

    word = re.sub(r'\d', '', word)

    word = re.sub(r'^_.', '', word)

    word = re.sub(r'_', ' ', word)

    word = re.sub(r'^ ', '', word)

    word = re.sub(r' $', '', word)

    word = re.sub(r'\?', '', word)

    word = re.sub(r'é', '', word)

    word = re.sub(r'§', '', word)

    word = re.sub(r'¦', '', word)

    word = re.sub(r'æ', '', word)

    word = re.sub(r'\d+', '', word)

    word = re.sub('(.*?)\d+(.*?)', '', word)

    return word.lower()

def hashing(word):

    word = re.sub(r'ain$', r'ein', word)

    word = re.sub(r'ai', r'ae', word)

    word = re.sub(r'ay$', r'e', word)

    word = re.sub(r'ey$', r'e', word)

    word = re.sub(r'ie$', r'y', word)

    word = re.sub(r'^es', r'is', word)

    word = re.sub(r'a+', r'a', word)

    word = re.sub(r'j+', r'j', word)

    word = re.sub(r'd+', r'd', word)

    word = re.sub(r'u', r'o', word)

    word = re.sub(r'o+', r'o', word)

    word = re.sub(r'ee+', r'i', word)

    if not re.match(r'ar', word):

        word = re.sub(r'ar', r'r', word)

    word = re.sub(r'iy+', r'i', word)

    word = re.sub(r'ih+', r'eh', word)

    word = re.sub(r's+', r's', word)

    if re.search(r'[rst]y', 'word') and word[-1] != 'y':

        word = re.sub(r'y', r'i', word)

    if re.search(r'[bcdefghijklmnopqrtuvwxyz]i', word):

        word = re.sub(r'i$', r'y', word)

    if re.search(r'[acefghijlmnoqrstuvwxyz]h', word):

        word = re.sub(r'h', '', word)

    word = re.sub(r'k', r'q', word)

    return word

def array_cleaner(array):

    X = []

    for sentence in array:

        clean_sentence = ''

        words = sentence.split(' ')

        for word in words:

            clean_sentence = clean_sentence +' '+ cleaner(word)

        X.append(clean_sentence)

    return X

X_train = array_cleaner(X_train)

3、将文本中的单词小写化，并将data用空格分开

words=data.lower().split()

4、去掉停用词

#可以自己下载停用词

#nltk.download()

words_notstop=[w for w in words if w not in stopwords]

5、将所有的词连接成一个句子

sentence=' '.join(words)

6、把空格前缀去除

train_data['review'] = train_data['review'].str.strip()

7、删除短词，删除句子中词语长度小于3的词，如haa，hi等无意义的词

##删除短单词

train_data['review'] = train_data['review'].apply(lambda x:' '.join([w for w in x.split() if len(w) > 3]))

8、分词

##分词

train_data['review'] = train_data['review'].str.split()

9、提取词干

##提取词干，即基于规则从单词中去除后缀的过程。例如，play，player，played，plays，playing都是play的变种。

from nltk.stem.porter import *

stemmer =PorterStemmer()

train_data['review'] = train_data['review'].apply(lambda x: [stemmer.stem(i) for i in x])

Python数据分析8-----网页文本处理的更多相关文章

python爬取网页文本、图片
从网页爬取文本信息: eg:从http://computer.swu.edu.cn/s/computer/kxyj2xsky/中爬取讲座信息(讲座时间和讲座名称) 注:如果要爬取的内容是多页的话,网址 ...
python数据分析&挖掘，机器学习环境配置
目录一.什么是数据分析 1.这里引用网上的定义: 2.数据分析发展与组成 3.特点二.python数据分析环境及各类常用分析包配置 1.处理的数据类型 2.为什么选择python 三.python ...
Python爬虫解析网页的4种方式值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存 ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...
【Python数据分析】Python3操作Excel(二) 一些问题的解决与优化
继上一篇[Python数据分析]Python3操作Excel-以豆瓣图书Top250为例对豆瓣图书Top250进行爬取以后,鉴于还有一些问题没有解决,所以进行了进一步的交流讨论,这期间得到了一只尼玛 ...
【读书笔记与思考】《python数据分析与挖掘实战》-张良均
[读书笔记与思考]<python数据分析与挖掘实战>-张良均最近看一些机器学习相关书籍,主要是为了拓宽视野.在阅读这本书前最吸引我的地方是实战篇,我通读全书后给我印象最深的还是实战篇.基 ...
[Python数据挖掘]第2章、Python数据分析简介
<Python数据分析与挖掘实战>的数据和代码,可从“泰迪杯”竞赛网站(http://www.tipdm.org/tj/661.jhtml)下载获得 1.Python数据结构 2.Nump ...
《Python数据分析与挖掘实战》读书笔记
大致扫了一遍,具体的代码基本都没看了,毕竟我还不懂python,并且在手机端的排版,这些代码没法看. 有收获,至少了解到以下几点: 一. Python的语法挺有意思的有一些类似于JavaSc ...
（python数据分析）第03章 Python的数据结构、函数和文件
本章讨论Python的内置功能,这些功能本书会用到很多.虽然扩展库,比如pandas和Numpy,使处理大数据集很方便,但它们是和Python的内置数据处理工具一同使用的. 我们会从Python最基础 ...

随机推荐

jQuery中cookie使用方法
<script type="text/javascript"> $(function () { var content=$.cookie('text'); //得到c ...
FreeMarker 语法 list
一.java 代码 @Test public void testFreeMarker() throws Exception { //1.创建一个模板文件 //2.创建一个Configuration对象 ...
Tensorflow MNIST 数据集测试代码入门
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50614444 测试代码已上传至GitH ...
servlet3.0理解
1.servlet是用Java编写的服务器端程序,服务器端程序,服务器端程序. 2.Servlet运行于支持Java的应用服务器中.spring mvc有自己的实现servlet 从原理上讲,Serv ...
用Python实现简单的服务器
socket接口是实际上是操作系统提供的系统调用.socket的使用并不局限于Python语言,你可以用C或者JAVA来写出同样的socket服务器,而所有语言使用socket的方式都类似(Apach ...
ubuntu12.04安装翻译软件stardict及卸载
下载: 1.打开软件中心.搜索stardict,星际译王,即ubuntu下的翻译软件. 点击下载就可以. 2.打开终端,输入 $sudo apt-get install stardict 按提示就可以 ...
linux下jenkins安装
在安装jenkins之前.首先确认jdk和tomcat,maven已经配置好详细配置方法,请看的我博客. jdk:jdk的安装与配置 tomcat:tomcat的安装与配置 maven:maven的 ...
NYOJ_94 cigarettes 递归VS迭代
题目地址分析: 英文题事实上看懂意思和正常的也都差点儿相同.就算有几个单词不认识也无伤大雅. 一共同拥有n支烟,每天抽k支. 每抽完k支,会得到一仅仅. a组数据. 输入n k的个数.输出一共抽了 ...
@Autowired 凝视遇到的问题,@Qualifier 帮助解决这个问题
当候选 Bean 数目不为 1 时的应对方法在默认情况下使用 @Autowired 凝视进行自己主动注入时,Spring 容器中匹配的候选 Bean 数目必须有且仅有一个. 当找不到一个匹配的 Be ...
四、基于HTTPS协议的12306抢票软件设计与实现--水平DNS并发查询分享
一.基于HTTPS协议的12306抢票软件设计与实现--实现效果二.基于HTTPS协议的12306抢票软件设计与实现--相关接口以及数据格式三.基于HTTPS协议的12306抢票软件设计与实现-- ...

Python数据分析8-----网页文本处理

1、去除网页的标签，如<br/>

2、将标点符号等去掉，用正则表达式。

去除特殊符号：

3、将文本中的单词小写化，并将data用空格分开

4、去掉停用词

5、将所有的词连接成一个句子

6、把空格前缀去除

7、删除短词，删除句子中词语长度小于3的词，如haa，hi等无意义的词

8、分词

9、提取词干

Python数据分析8-----网页文本处理的更多相关文章

随机推荐

热门专题

　　去除特殊符号：