Keras文本预处理

学习了Keras文档里的文本预处理部分，参考网上代码写了个例子

 import keras.preprocessing.text as T

 from keras.preprocessing.text import Tokenizer

 text1='some thing to eat'

 text2='some thing to drink'

 texts=[text1,text2]

 #文本到文本列表

 print (T.text_to_word_sequence(text1))  #以空格区分，中文也不例外 ['some', 'thing', 'to', 'eat']

 #文本的ont-hot编码

 print (T.one_hot(text1,10))  #[7, 9, 3, 4] -- （10表示数字化向量为10以内的数字）

 print (T.one_hot(text2,10))  #[7, 9, 3, 1]

 tokenizer = Tokenizer(num_words=None) #num_words:None或整数,处理的最大单词数量。少于此数的单词丢掉

 tokenizer.fit_on_texts(texts)

 #word_counts:字典，将单词（字符串）映射为它们在训练期间出现的次数。仅在调用fit_on_texts之后设置。

 print( tokenizer.word_counts) #[('some', 2), ('thing', 2), ('to', 2), ('eat', 1), ('drink', 1)]

 #word_index: 字典，将单词（字符串）映射为它们的排名或者索引。仅在调用fit_on_texts之后设置

 print( tokenizer.word_index) #{'some': 1, 'thing': 2,'to': 3 ','eat': 4, drink': 5}

 #word_docs: 字典，将单词（字符串）映射为它们在训练期间所出现的文档或文本的数量。仅在调用fit_on_texts之后设置。

 print( tokenizer.word_docs) #{'some': 2, 'thing': 2, 'to': 2, 'drink': 1,  'eat': 1}

 print( tokenizer.index_docs) #{1: 2, 2: 2, 3: 2, 4: 1, 5: 1}

 # num_words=多少会影响下面的结果，行数=num_words

 #序列的列表，列表中每个序列对应于一段输入文本

 print( tokenizer.texts_to_sequences(texts)) #得到词索引[[1, 2, 3, 4], [1, 2, 3, 5]]

 #形如(len(sequences), nb_words)的numpy array

 print( tokenizer.texts_to_matrix(texts))  # 矩阵化=one_hot

 '''

 [[ 0.,  1.,  1.,  1.,  1.,  0.,  0.,  0.,  0.,  0.],

  [ 0.,  1.,  1.,  1.,  0.,  1.,  0.,  0.,  0.,  0.]]

  '''

Keras文本预处理的更多相关文章

keras 文本分类 LSTM
首先,对需要导入的库进行导入,读入数据后,用jieba来进行中文分词 # encoding: utf-8 #载入接下来分析用的库 import pandas as pd import numpy as ...
浅谈NLP 文本分类/情感分析任务中的文本预处理工作
目录浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言 NLP相关的文本预处理浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言之所以心血来潮想写这篇博客,是因为最近在关注N ...
【NLP】Tika 文本预处理：抽取各种格式文件内容
Tika常见格式文件抽取内容并做预处理作者白宁超 2016年3月30日18:57:08 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理.首先我们要意识到预处理的重 ...
[ DLPytorch ] 文本预处理&语言模型&循环神经网络基础
文本预处理实现步骤(处理语言模型数据集距离) 文本预处理的实现步骤读入文本:读入zip / txt 等数据集 with zipfile.ZipFile('./jaychou_lyrics.txt. ...
NLP自然语言处理入门-- 文本预处理Pre-processing
引言自然语言处理NLP(nature language processing),顾名思义,就是使用计算机对语言文字进行处理的相关技术以及应用.在对文本做数据分析时,我们一大半的时间都会花在文本预处理 ...
L4文本预处理
文本预处理 timemachine.txt数据下载地址链接:https://pan.baidu.com/s/1RO2OLyTRQZ90HJUW7V7BCQ 提取码:bjox NLTK数据集下载链接 ...
学习笔记--python中使用多进程、多线程加速文本预处理
一.任务描述最近尝试自行构建skip-gram模型训练word2vec词向量表.其中有一步需要统计各词汇的出现频率,截取出现频率最高的10000个词汇进行保留,形成常用词词典.对于这个问题,我建立了 ...
NLP 文本预处理
1.不同类别文本量统计,类别不平衡差异 2.文本长度统计 3.文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度.因此,他们对数据进行繁体转简体的处理. 同时,过滤掉了对分类没有任何作用的 ...
Python3实现文本预处理
1.数据集准备测试数据集下载:https://github.com/Asia-Lee/Vulnerability_classify/blob/master/testdata.xls 停用词过滤表下载 ...

随机推荐

Idea创建maven项目标签： idea 2016-12-28 21:51 605人阅读评论(27) 收藏
很久之前就听说了idea,界面也的确比eclipse好看,不过一直没有机会使用,这两天试用了一下,代码提示方面的确很好用,不过使用习惯跟eclipse还是有一些差距的,下面介绍一下如何用idea创建一 ...
1 项目里面如何打印log日志
1 首先写一个logging.py文件 import logging from conf import setting #配置文件,里面有日志存放路径 def mylog(): logger = l ...
uda 4.C++面向对象编程
Python vs C++ 对比课在本课中,你将学习如何用 C++ 编写类.像以前的课程一样,你需要比较 Python 的编程方式和 C++ 中编程方式的不同. 我们直接看例子.下面是一个名为 ...
学习canvas画布
我们可以用画布(Canvas)绘制各种图形,下面代码是绘制的一个圆形: <!DOCTYPE html> <html> <head> <title>Can ...
day1-初识Python之变量
1.python安装与环境配置 1.1.Windows下的python解释器安装打开官网 https://www.python.org/downloads/windows/ 下载中心测试安装是否成 ...
Porject Euler Problem 6-Sum square difference
我的做法就是暴力,1+...+n 用前n项和公式就行 1^2+2^2+....+n^2就暴力了做完后在讨论版发现两个有趣的东西. 一个是 (1+2+3+...+n)^2=(1^3)+(2^3)+(3 ...
Python 函数参数有冒号声明后有-> 箭头返回值注释参数类型注释
在python3.7 环境下函数声明时能在参数后加冒号,如图: 1 def f(ham: str, eggs: str = 'eggs') -> str : 2 print("Ann ...
Python学习--not语句
布尔型True和False,not True为False,not False为True,以下是几个常用的not的用法: (1) not与逻辑判断句if连用,代表not后面的表达式为False的时候,执 ...
最全Pycharm教程（43）——Pycharm扩展功能之UML类图使用代码结构
版权声明:本文为博主原创文章,转载时麻烦注明源文章链接,谢谢合作 https://blog.csdn.net/u013088062/article/details/50353202 1.什么是UML ...
P1113 同颜色询问
题目描述现在有一个包含 \(n\) 个元素的数组,它的元素的编号从 \(1\) 到 \(n\) . 每一个元素都有一个初始的颜色 \(C_i\) 以及数值 \(W_i\) . 这个数组支持 \(4\ ...

Keras文本预处理

Keras文本预处理的更多相关文章

随机推荐

热门专题