文本预处理

timemachine.txt数据下载地址

链接：https://pan.baidu.com/s/1RO2OLyTRQZ90HJUW7V7BCQ

提取码：bjox

NLTK数据集下载

链接：https://pan.baidu.com/s/1IvRhPOU2hUsQejQVunt5mQ

提取码：z2eh

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：

读入文本
分词
建立字典，将每个词映射到一个唯一的索引（index）
将文本从词的序列转换为索引的序列，方便输入模型

读入文本

我们用一部英文小说，即H. G. Well的Time Machine，作为示例，展示文本预处理的具体过程。

import collections

import re

def read_time_machine():

    with open('/home/kesci/input/timemachine7163/timemachine.txt', 'r') as f:

        lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f]

    return lines

lines = read_time_machine()

print('# sentences %d' % len(lines))

# sentences 3221

分词

我们对每个句子进行分词，也就是将一个句子划分成若干个词（token），转换为一个词的序列。

def tokenize(sentences, token='word'):

    """Split sentences into word or char tokens"""

    if token == 'word':

        return [sentence.split(' ') for sentence in sentences]

    elif token == 'char':

        return [list(sentence) for sentence in sentences]

    else:

        print('ERROR: unkown token type '+token)

tokens = tokenize(lines)

tokens[0:2]

[['the', 'time', 'machine', 'by', 'h', 'g', 'wells', ''], ['']]

建立字典

为了方便模型处理，我们需要将字符串转换为数字。因此我们需要先构建一个字典（vocabulary），将每个词映射到一个唯一的索引编号。

class Vocab(object):

    def __init__(self, tokens, min_freq=0, use_special_tokens=False):

        counter = count_corpus(tokens)  # :

        self.token_freqs = list(counter.items())

        self.idx_to_token = []

        if use_special_tokens:

            # padding, begin of sentence, end of sentence, unknown

            self.pad, self.bos, self.eos, self.unk = (0, 1, 2, 3)

            self.idx_to_token += ['', '', '', '']

        else:

            self.unk = 0

            self.idx_to_token += ['']

        self.idx_to_token += [token for token, freq in self.token_freqs

                        if freq >= min_freq and token not in self.idx_to_token]

        self.token_to_idx = dict()

        for idx, token in enumerate(self.idx_to_token):

            self.token_to_idx[token] = idx

    def __len__(self):

        return len(self.idx_to_token)

    def __getitem__(self, tokens):

        if not isinstance(tokens, (list, tuple)):

            return self.token_to_idx.get(tokens, self.unk)

        return [self.__getitem__(token) for token in tokens]

    def to_tokens(self, indices):

        if not isinstance(indices, (list, tuple)):

            return self.idx_to_token[indices]

        return [self.idx_to_token[index] for index in indices]

def count_corpus(sentences):

    tokens = [tk for st in sentences for tk in st]

    return collections.Counter(tokens)  # 返回一个字典，记录每个词的出现次数

我们看一个例子，这里我们尝试用Time Machine作为语料构建字典

vocab = Vocab(tokens)

print(list(vocab.token_to_idx.items())[0:10])

[('', 0), ('the', 1), ('time', 2), ('machine', 3), ('by', 4), ('h', 5), ('g', 6), ('wells', 7), ('i', 8), ('traveller', 9)]

将词转为索引

使用字典，我们可以将原文本中的句子从单词序列转换为索引序列

for i in range(8, 10):

    print('words:', tokens[i])

    print('indices:', vocab[tokens[i]])

words: ['the', 'time', 'traveller', 'for', 'so', 'it', 'will', 'be', 'convenient', 'to', 'speak', 'of', 'him', '']

indices: [1, 2, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 0]

words: ['was', 'expounding', 'a', 'recondite', 'matter', 'to', 'us', 'his', 'grey', 'eyes', 'shone', 'and']

indices: [20, 21, 22, 23, 24, 16, 25, 26, 27, 28, 29, 30]

用现有工具进行分词

我们前面介绍的分词方式非常简单，它至少有以下几个缺点:

标点符号通常可以提供语义信息，但是我们的方法直接将其丢弃了
类似“shouldn’t", "doesn’t"这样的词会被错误地处理
类似"Mr.", "Dr."这样的词会被错误地处理

我们可以通过引入更复杂的规则来解决这些问题，但是事实上，有一些现有的工具可以很好地进行分词，我们在这里简单介绍其中的两个：spaCy和NLTK。

下面是一个简单的例子：

text = "Mr. Chen doesn't agree with my suggestion."

spaCy:

import spacy

nlp = spacy.load('en_core_web_sm')

doc = nlp(text)

print([token.text for token in doc])

['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']

NLTK:

from nltk.tokenize import word_tokenize

from nltk import data

data.path.append('/home/kesci/input/nltk_data3784/nltk_data')

print(word_tokenize(text))

['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']

L4文本预处理的更多相关文章

【NLP】Tika 文本预处理：抽取各种格式文件内容
Tika常见格式文件抽取内容并做预处理作者白宁超 2016年3月30日18:57:08 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理.首先我们要意识到预处理的重 ...
Keras文本预处理
学习了Keras文档里的文本预处理部分,参考网上代码写了个例子 import keras.preprocessing.text as T from keras.preprocessing.text i ...
[ DLPytorch ] 文本预处理&语言模型&循环神经网络基础
文本预处理实现步骤(处理语言模型数据集距离) 文本预处理的实现步骤读入文本:读入zip / txt 等数据集 with zipfile.ZipFile('./jaychou_lyrics.txt. ...
NLP自然语言处理入门-- 文本预处理Pre-processing
引言自然语言处理NLP(nature language processing),顾名思义,就是使用计算机对语言文字进行处理的相关技术以及应用.在对文本做数据分析时,我们一大半的时间都会花在文本预处理 ...
浅谈NLP 文本分类/情感分析任务中的文本预处理工作
目录浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言 NLP相关的文本预处理浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言之所以心血来潮想写这篇博客,是因为最近在关注N ...
学习笔记--python中使用多进程、多线程加速文本预处理
一.任务描述最近尝试自行构建skip-gram模型训练word2vec词向量表.其中有一步需要统计各词汇的出现频率,截取出现频率最高的10000个词汇进行保留,形成常用词词典.对于这个问题,我建立了 ...
NLP 文本预处理
1.不同类别文本量统计,类别不平衡差异 2.文本长度统计 3.文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度.因此,他们对数据进行繁体转简体的处理. 同时,过滤掉了对分类没有任何作用的 ...
Python3实现文本预处理
1.数据集准备测试数据集下载:https://github.com/Asia-Lee/Vulnerability_classify/blob/master/testdata.xls 停用词过滤表下载 ...
python 参议院文本预处理的一维数组的间隔空间
#!/usr/bin/python import re def pre_process_msg ( msgIn ): if msgIn=="": retur ...

随机推荐

自定义实现 PyQt5 下拉复选框 ComboCheckBox
一.前言由于最近的项目需要具有复选功能,但过多的复选框会影响界面布局和美观,因而想到把 PyQt5 的下拉列表和复选框结合起来,但在 PyQt5 中并没有这样的组件供我们使用,所以想要自己实现一个下 ...
Spring优雅整合Redis缓存
“小明,多系统的session共享,怎么处理?”“Redis缓存啊!” “小明,我想实现一个简单的消息队列?”“Redis缓存啊!” “小明,分布式锁这玩意有什么方案?”“Redis缓存啊!” “小明 ...
IP协议的助手 —— ICMP 协议
IP协议的助手 —— ICMP 协议 IP协议的助手 —— ICMP 协议 ping 是基于 ICMP 协议工作的,所以要明白 ping 的工作,首先我们先来熟悉 ICMP 协议. ICMP 是什么? ...
微信内置浏览器对于html5的支持
微信内置浏览器对于html5的支持来源: 作者: 热度:102 日期:14-06-10, 09:10 AM 我在做针对微信的HTML5应用, 目前遇到的几个问题是一. 安卓版微信直接调用系统浏览器 ...
STM32CubeMx——串口使用DMA收发
用到的是DMA发送数据,接收还是普通的串口接收. 一.代码生成 1.按以前的方法设置好时钟和调试方式,这里就不多说了. 2.设置串口1. 3.在DMA Setting里点击Add添加USART1_TX ...
GAN的五大有趣应用
引言你能看出这张照片中面部的共同点吗? 这些人都不是真实存在的!这些面部图像都是由GAN技术生成的. "GAN"这个词是由Ian Goodfellow在2014年提出的,但相关概 ...
HDU - 1999 不可摸数，快速求因子和
题意:定义s[m]为m内的因子的和,给定一个n,判断是否有s[m]==n,若没有,则是不可摸数. 思路:首先要打表求出s[m]的值,标记这些出现过的值. 打表求因子和: for(int i=1;i&l ...
Swagger2 初始用
1.结合Spring-Boot 引入 pom 依赖 <dependency> <groupId>io.springfox</groupId> <artifa ...
Python python 五种数据类型--元组
# 定义一个元组 var1 = ('Hello','Python') var2 = tuple() print(type(var1)) #<class 'tuple'> print(typ ...
JSP学习笔记（四）
Java Servlet servlet的部署.创建与运行 servlet的工作原理重定向与转发使用session 1.servlet的部署.创建与运行 [1].创建Servlet 创建一个Ser ...

L4文本预处理