1、数据集准备

测试数据集下载:https://github.com/Asia-Lee/Vulnerability_classify/blob/master/testdata.xls

停用词过滤表下载:https://github.com/Asia-Lee/Vulnerability_classify/blob/master/stopwords.txt

2、数据预处理

(1)简单分词

# -*- coding: utf-8 -*-

import pandas as pd
import jieba
"""
函数说明:简单分词
Parameters:
filename:数据文件
Returns:
list_word_split:分词后的数据集列表
category_labels: 文本标签列表
"""
def word_split(filename):
read_data=pd.read_excel(filename)
list_word_split=[]
category_labels=[]
for i in range(len(read_data)):
row_data = read_data.iloc[i, 1] # 读取单个漏洞描述文本
list_row_data = list(jieba.cut(row_data)) # 对单个漏洞进行分词
list_row_data=[x for x in list_row_data if x!=' '] #去除列表中的空格字符
list_word_split.append(list_row_data) row_data_label=read_data.iloc[i,2] #读取单个漏洞的类别标签
category_labels.append(row_data_label) #将单个漏洞的类别标签加入列表
return list_word_split, category_labels if __name__=='__main__':
list_word_split, category_labels=word_split('testdata.xls') #获得每条文本的分词列表和标签列表
print(list_word_split)
print(category_labels)
print('分词成功')

  分词结果:

(2)词性还原

# -*- coding: utf-8 -*-

import pandas as pd
import jieba
from nltk.stem import WordNetLemmatizer """
函数说明:词性还原
Parameters:
list_words:数据列表
Returns:
list_words_lemmatizer:词性还原后的数据集列表
"""
def word_lemmatizer(list_words):
wordnet_lemmatizer = WordNetLemmatizer()
list_words_lemmatizer = []
for word_list in list_words:
lemmatizer_word = []
for i in word_list:
lemmatizer_word.append(wordnet_lemmatizer.lemmatize(i))
list_words_lemmatizer.append(lemmatizer_word)
return list_words_lemmatizer if __name__=='__main__':
list_word_split, category_labels=word_split('testdata.xls') #获得每条文本的分词列表和标签列表
print('分词成功')
list_words_lemmatizer=word_lemmatizer(list_word_split) #词性还原
print('词性还原成功')

  

(3)停用词过滤

# -*- coding: utf-8 -*-

import pandas as pd
import jieba
from nltk.stem import WordNetLemmatizer """
函数说明:停用词过滤
Parameters:
filename:停用词文件
list_words_lemmatizer:词列表
Returns:
list_filter_stopwords:停用词过滤后的词列表
"""
def stopwords_filter(filename,list_words_lemmatizer):
list_filter_stopwords=[] #声明一个停用词过滤后的词列表
with open(filename,'r') as fr:
stop_words=list(fr.read().split('\n')) #将停用词读取到列表里
for i in range(len(list_words_lemmatizer)):
word_list = []
for j in list_words_lemmatizer[i]:
if j not in stop_words:
word_list.append(j.lower()) #将词变为小写加入词列表
list_filter_stopwords.append(word_list)
return list_filter_stopwords if __name__=='__main__':
list_word_split, category_labels=word_split('testdata.xls') #获得每条文本的分词列表和标签列表
print('分词成功')
list_words_lemmatizer=word_lemmatizer(list_word_split) #词性还原
print('词性还原成功')
list_filter_stopwords=stopwords_filter('stopwords.txt',list_words_lemmatizer) #获得停用词过滤后的列表
print("停用词过滤成功")

  

(4)特征选择

对于处理这类文本数据,常用的特征选择方法有: TF-IDF(词频-逆向文档频率),信息增益卡方检验互信息N-Gram

(5)文本标签向量化

"""
函数说明:文本向量化,标签向量化 one-hot编码
Parameters:
feature_words:特征词集
doc_words:文本列表
doc_category_labels:文本类别标签
Returns:
docvec_list:文本向量列表
labelvec_list:标签向量列表
"""
def words2vec(feature_words,doc_words,doc_category_labels):
#文本列表转向量列表
docvec_list=[]
for words in doc_words:
docvec = [0] * len(feature_words)
for j in words:
if j in feature_words:
docvec[feature_words.index(j)]=1
docvec_list.append(docvec)
#标签列表转向量列表
labelvec_list = []
labelset=list(set(doc_category_labels))
for label in doc_category_labels:
doclabel = [0] * len(labelset)
doclabel[labelset.index(label)]=1
labelvec_list.append(doclabel)
return docvec_list,labelvec_list

  

(6)选择算法模型进行训练(机器学习、深度学习)

        

Python3实现文本预处理的更多相关文章

  1. 浅谈NLP 文本分类/情感分析 任务中的文本预处理工作

    目录 浅谈NLP 文本分类/情感分析 任务中的文本预处理工作 前言 NLP相关的文本预处理 浅谈NLP 文本分类/情感分析 任务中的文本预处理工作 前言 之所以心血来潮想写这篇博客,是因为最近在关注N ...

  2. 【NLP】Tika 文本预处理:抽取各种格式文件内容

    Tika常见格式文件抽取内容并做预处理 作者 白宁超 2016年3月30日18:57:08 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理.首先我们要意识到预处理的重 ...

  3. Keras文本预处理

    学习了Keras文档里的文本预处理部分,参考网上代码写了个例子 import keras.preprocessing.text as T from keras.preprocessing.text i ...

  4. [ DLPytorch ] 文本预处理&语言模型&循环神经网络基础

    文本预处理 实现步骤(处理语言模型数据集距离) 文本预处理的实现步骤 读入文本:读入zip / txt 等数据集 with zipfile.ZipFile('./jaychou_lyrics.txt. ...

  5. NLP自然语言处理入门-- 文本预处理Pre-processing

    引言 自然语言处理NLP(nature language processing),顾名思义,就是使用计算机对语言文字进行处理的相关技术以及应用.在对文本做数据分析时,我们一大半的时间都会花在文本预处理 ...

  6. L4文本预处理

    文本预处理 timemachine.txt数据下载地址 链接:https://pan.baidu.com/s/1RO2OLyTRQZ90HJUW7V7BCQ 提取码:bjox NLTK数据集下载 链接 ...

  7. 学习笔记--python中使用多进程、多线程加速文本预处理

    一.任务描述 最近尝试自行构建skip-gram模型训练word2vec词向量表.其中有一步需要统计各词汇的出现频率,截取出现频率最高的10000个词汇进行保留,形成常用词词典.对于这个问题,我建立了 ...

  8. NLP 文本预处理

    1.不同类别文本量统计,类别不平衡差异 2.文本长度统计 3.文本处理,比如文本语料中简体与繁体共存,这会加大模型的学习难度.因此,他们对数据进行繁体转简体的处理. 同时,过滤掉了对分类没有任何作用的 ...

  9. Python3之文本操作

    文件操作示例分析: 文件操作一般要经历三个步骤: 打开文件 操作文件 关闭文件 读取操作示例: >>>f = open('test.txt', 'r') # 打开文件test.txt ...

随机推荐

  1. 【Java】JavaMail使用网易企业邮箱发邮件

    邮件发送器 /** * 邮件发送器 * * @author Zebe */ public class MailSender implements Runnable { /** * 收件人 */ pri ...

  2. [CSP-S模拟测试]:木板(数学)

    题目传送门(内部题68) 输入格式 输入有若干行,每行一个整数$N$,以$0$结束 输出格式 每行一个整数表示方案数,方案不同当且仅当$E$.$F$.$G$的坐标不同 样例 样例输入: 1020100 ...

  3. SpringBoot:初识SpringBoot

    西部开源-秦疆老师:基于SpringBoot 2.1.6 的博客教程 秦老师交流Q群号: 664386224 未授权禁止转载!编辑不易 , 转发请注明出处!防君子不防小人,共勉! 1.SpringBo ...

  4. tree 命令

    LMXMN117:Mac Driver will.wei$ tree -N >/tmp/savs.txt       (1)tree -a 显示所有文件和目录   (2)tree -d 显示目录 ...

  5. PHP 设计模式总结

    回想了一下php的设计模式,好像记得不完全了.此处对php设计模式重新做一下复习总结. 单例模式 单例模式的核心只包括一个特殊的类,保证系统中只能有一个实例,即一个类中只能有一个实例化对象,避免系统中 ...

  6. linux中表示系统信息如cpu mem disk等内容都在 /proc

    linux中表示系统信息的 内容都在 /proc 要查看系统的任何信息, 如cpu mem 磁盘等等, 都在 /proc下, 如: cpuinfo ,meminfo diskstatus 等等

  7. css练习-容器内多元素水平居中-flexbox布局应用

    想要实现这样一个父元素中的子元素都是居中的 只需在父元素上加样式 {display: flex;flex-direction: column;align-items:center;} 设置为flexb ...

  8. python2.7打印中文乱码的问题解决

    一. import sys reload(sys) sys.setdefaultencoding('utf-8') print('测试中文') 二. print(‘我是中国人’) >>&g ...

  9. Linux中如何将系统调优

    Linux高可用服务器集群解决方案让IT系统管理员可以从容应对许多常见的硬件和软件故障,允许多台计算机一起工作,为关键服务正常运行提供保障,系统管理员可以不中断服务执行维护和升级.Linux服务器有各 ...

  10. 使用SSI框架写的简单Demo(查询模块)

    在网上看到好多个版本,自己有时间索性就写个Demo记录下整个框架的逻辑流程: 1.首先拷贝整个框架所需要的jar包到WEB-INF/lib包下(这个网上都可以搜到的) 2.配置文件的配置, 2.1.在 ...