文本挖掘与NLP笔记——代码向：分词

分词：jieba.cut

words = jieba.cut("我来到北京大学",cut_all=True)

print('全模式：'+'/'.join([w for w in words])) #全模式

words = jieba.cut("我来到北京大学",cut_all=False)

print('精确模式：'+'/'.join([w for w in words])) #精确模式,默认

words = jieba.cut_for_search("小明毕业于北京大学，后在美国哈佛大学深造")

print('/'.join([w for w in words])) #搜索引擎模式,在精确模式的基础上，对长词在此划分

全模式：我/来到/北京/北京大学/大学

精确模式：我/来到/北京大学

请练习添加自定义词典

词性：jieba.posseg

import jieba.posseg as pg

for word, flag in pg.cut("你想去学校填写学生寒暑假住校申请表吗？"):

    print('%s %s' % (word, flag))

'你/学校/填写/学生/寒暑假/住校/申请表'

分词引入停用词

import jieba

import pandas as pd

import numpy as np

paths = '中英文停用词.xlsx'

dfs = pd.read_excel(paths,dtype=str)

stopwords = ['想','去','吗','？']

words = jieba.cut("你想去学校填写学生寒暑假住校申请表吗？")

'/'.join([w for w in words if (w not in stopwords)])#此处’/'表示换行

'你/学校/填写/学生/寒暑假/住校/申请表'

txt转dataframe函数

import random

import jieba.posseg as pg

import pandas as pd

import numpy as np

def generatorInfo(file_name):

    # 读取文本文件

    with open(file_name, encoding='utf-8') as file:

        line_list = [k.strip() for k in file.readlines()]

        data = []

        for k in random.sample(line_list,1000):

            t = k.split(maxsplit=1)

            #data_label_list.append(t[0])

            #data_content_list.append(t[1])

            data.append([t[0],' '.join([w for w,flag in pg.cut(t[1]) if (w not in dfs['stopwords']) and (w !=' ') and (len(w)>=2)])])

    return data

file_name = 'cnews.train.txt'

df = pd.DataFrame(np.array(generatorInfo(file_name)),columns=['类别','分词'])

path = '训练集分词结果(随机选取1000个样本).xlsx'

df.to_excel(path,index=False)

df

词云图：wordcloud

%pylab inline

import matplotlib.pyplot as plt

from wordcloud import WordCloud

text = ' '.join(list(df['分词']))

wcloud = WordCloud(

    font_path='simsun.ttc', #字体路径

    background_color='white', #指定背景颜色

    max_words=500,   #词云显示最大词数

    max_font_size=150,  #指定最大字号

    #mask = mask #背景图片

) 

wcloud = wcloud.generate(text)  #生成词云

plt.imshow(wcloud)

plt.axis('off')

plt.show()

提取关键词：jieba.analyse.extract_tags

import jieba.analyse

import pandas as pd

import numpy as np

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

s = ' '.join(list(df['分词']))

for w,x in jieba.analyse.extract_tags(s,withWeight=True):

    print('%s %s' % (w,x))

请练习基于TextRank算法抽取关键词

import jieba.analyse

import pandas as pd

import numpy as np

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

tag = list(set(list(df['类别'])))

for t in tag:

    s = ' '.join(list(df[df['类别']==t]['分词']))

    print(t)

    for w,x in jieba.analyse.extract_tags(s,withWeight=True):

        print('%s %s' % (x,w))

构建词向量

构建词向量简单的有两种分别是TfidfTransformer和 CountVectorizer

#CountVectorizer会将文本中的词语转换为词频矩阵

from sklearn.feature_extraction.text import CountVectorizer

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

corpus = df['分词']

#vectorizer = CountVectorizer(max_features=5000)

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus)

print(X)

from sklearn.feature_extraction.text import TfidfTransformer

import datetime

starttime = datetime.datetime.now()

transformer = TfidfTransformer()

tfidf = transformer.fit_transform(X)

word = vectorizer.get_feature_names()

weight = tfidf.toarray()

print(weight)

词语分类：人工vsKmeans

from sklearn.cluster import KMeans

starttime = datetime.datetime.now()

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

corpus = df['分词']

kmeans=KMeans(n_clusters=10)   #n_clusters:number of cluster

kmeans.fit(weight)

res = [list(df['类别']),list(kmeans.labels_)]

df_res = pd.DataFrame(np.array(res).T,columns=['人工分类','Kmeans分类'])

path_res = 'Kmeans自动分类结果.xlsx'

df_res.to_excel(path_res,index=False)

df_res

path = 'Kmeans自动分类结果.xlsx'

df = pd.read_excel(path,dtype=str)

df['计数'] = [1 for m in range(len(df['人工分类']))]

df1 = pd.pivot_table(df, index=['人工分类'], columns=['Kmeans分类'], values=['计数'], aggfunc=np.sum, fill_value=0)

co = ['人工分类']

co.extend(list(df1['计数'].columns))

df1 = df1.reset_index()

df2 = pd.DataFrame((np.array(df1)),columns=co)

path_res = '人工与Kmeans分类结果对照.xlsx'

df2.to_excel(path_res,index=False)

df2

import random

def is_contain_chinese(check_str):

    for ch in check_str:

        if u'\u4e00' <= ch <= u'\u9fff':

            return 1

    return 0

def generatorInfo(file_name):

    """

    batch_size：生成数据的batch size

    seq_length：输入文字序列长度

    num_classes：文本的类别数

    file_name：读取文件的路径

    """

    # 读取文本文件

    with open(file_name, encoding='utf-8') as file:

        line_list = [k.strip() for k in file.readlines()]

        #data_label_list = []   # 创建数据标签文件

        #data_content_list = []   # 创建数据文本文件

        data = []

        for k in random.sample(line_list,1000):

            t = k.split(maxsplit=1)

            #data_label_list.append(t[0])

            #data_content_list.append(t[1])

            data.append([t[0],' '.join([w for w,flag in jieba.posseg.cut(t[1]) if (w not in dfs['stopwords']) and (w !=' ') and (flag not in ["nr","ns","nt","nz","m","f","ul","l","r","t"]) and (len(w)>=2)])])

    return data

#导入中文停用词表

paths = '中英文停用词.xlsx'

dfs = pd.read_excel(paths,dtype=str)

file_name = 'cnews.train.txt'

df = pd.DataFrame(np.array(generatorInfo(file_name)),columns=['类别','分词'])

df

汇总

import random

import jieba

import pandas as pd

import numpy as np

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.cluster import KMeans

from sklearn.feature_extraction.text import TfidfTransformer

def is_contain_chinese(check_str):

    for ch in check_str:

        if u'\u4e00' <= ch <= u'\u9fff':

            return 1

    return 0

def generatorInfo(file_name):

    """

    batch_size：生成数据的batch size

    seq_length：输入文字序列长度

    num_classes：文本的类别数

    file_name：读取文件的路径

    """

    # 读取文本文件

    with open(file_name, encoding='utf-8') as file:

        line_list = [k.strip() for k in file.readlines()]

        #data_label_list = []   # 创建数据标签文件

        #data_content_list = []   # 创建数据文本文件

        data = []

        for k in random.sample(line_list,1000):

            t = k.split(maxsplit=1)

            #data_label_list.append(t[0])

            #data_content_list.append(t[1])

            data.append([t[0],' '.join([w for w,flag in jieba.posseg.cut(t[1]) if (w not in dfs['stopwords']) and (w !=' ') and (flag not in ["nr","ns","nt","nz","m","f","ul","l","r","t"]) and (len(w)>=2)])])

    return data

#导入中文停用词表

paths = '中英文停用词.xlsx'

dfs = pd.read_excel(paths,dtype=str)

file_name = 'cnews.train.txt'

df = pd.DataFrame(np.array(generatorInfo(file_name)),columns=['类别','分词'])

#统计词频

corpus = df['分词'] #语料中的单词以空格隔开

#vectorizer = CountVectorizer(max_features=5000)

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus)

#文本向量化

transformer = TfidfTransformer()

tfidf = transformer.fit_transform(X)

word = vectorizer.get_feature_names()

weight = tfidf.toarray()

kmeans=KMeans(n_clusters=10)   #n_clusters:number of cluster

kmeans.fit(weight)

res = [list(df['类别']),list(kmeans.labels_)]

df_res = pd.DataFrame(np.array(res).T,columns=['人工分类','Kmeans分类'])

df_res['计数'] = [1 for m in range(len(df_res['人工分类']))]

df1 = pd.pivot_table(df_res, index=['人工分类'], columns=['Kmeans分类'], values=['计数'], aggfunc=np.sum, fill_value=0)

co = ['人工分类']

co.extend(list(df1['计数'].columns))

df1 = df1.reset_index()

df2 = pd.DataFrame((np.array(df1)),columns=co)

df2

df['Kmeans分类'] = df_res['Kmeans分类']

df

文本挖掘与NLP笔记——代码向：分词的更多相关文章

seg:NLP之正向最大匹配分词
已迁移到我新博客,阅读体验更佳seg:NLP之正向最大匹配分词完整代码实现放在我的github上:click me 一.任务要求实现一个基于词典与规则的汉语自动分词系统. 二.技术路线采用正向最 ...
NLP自然语言处理中英文分词工具集锦与基本使用介绍
一.中文分词工具 (1)Jieba (2)snowNLP分词工具 (3)thulac分词工具 (4)pynlpir 分词工具 (5)StanfordCoreNLP分词工具 1.from stanfor ...
CTR学习笔记&代码实现2-深度ctr模型 MLP->Wide&Deep
背景这一篇我们从基础的深度ctr模型谈起.我很喜欢Wide&Deep的框架感觉之后很多改进都可以纳入这个框架中.Wide负责样本中出现的频繁项挖掘,Deep负责样本中未出现的特征泛化.而后续 ...
CTR学习笔记&代码实现3-深度ctr模型 FNN->PNN->DeepFM
这一节我们总结FM三兄弟FNN/PNN/DeepFM,由远及近,从最初把FM得到的隐向量和权重作为神经网络输入的FNN,到把向量内/外积从预训练直接迁移到神经网络中的PNN,再到参考wide& ...
CTR学习笔记&代码实现4-深度ctr模型 NFM/AFM
这一节我们总结FM另外两个远亲NFM,AFM.NFM和AFM都是针对Wide&Deep 中Deep部分的改造.上一章PNN用到了向量内积外积来提取特征交互信息,总共向量乘积就这几种,这不NFM ...
CTR学习笔记&代码实现5-深度ctr模型 DeepCrossing -> DCN
之前总结了PNN,NFM,AFM这类两两向量乘积的方式,这一节我们换新的思路来看特征交互.DeepCrossing是最早在CTR模型中使用ResNet的前辈,DCN在ResNet上进一步创新,为高阶特 ...
CTR学习笔记&代码实现6-深度ctr模型后浪 xDeepFM/FiBiNET
xDeepFM用改良的DCN替代了DeepFM的FM部分来学习组合特征信息,而FiBiNET则是应用SENET加入了特征权重比NFM,AFM更进了一步.在看两个model前建议对DeepFM, Dee ...
哈工大 NLP 实验一汉语分词系统
NLP实验代码可见github:NLP实验代码整理本实验会查重,而且写起来难度比较大,建议早一些开始.实验报告要用顶会论文形式呈现,建议使用overleaf里的ACL论文latex模板比较方便一点.
HanLP《自然语言处理入门》笔记--2.词典分词
2. 词典分词中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本. 中文分词算法大致分为基于词典规则与基于机器学习这两大派. 2.1 什么是词在基于词典的中文分词中,词 ...

随机推荐

Taurus.MVC 微服务框架入门开发教程：项目部署：1、微服务应用程序常规部署实现多开，节点扩容。
系列目录: 本系列分为项目集成.项目部署.架构演进三个方向,后续会根据情况调整文章目录. 本系列第一篇:Taurus.MVC V3.0.3 微服务开源框架发布:让.NET 架构在大并发的演进过程更简单 ...
大家都能看得懂的源码 - ahooks useSet 和 useMap
本文是深入浅出 ahooks 源码系列文章的第十篇,该系列已整理成文档-地址.觉得还不错,给个 star 支持一下哈,Thanks. 今天我们来聊聊 ahooks 中对 Map 和 Set 类型进行状 ...
02_Linux基础-文件系统层次结构-提示符-进程-命令格式-隐藏文件-通配符-绝对相对路径-{1..100}-ls-mkdir-其他基础命令
02_Linux基础-ls-mkdir-cd-pwd-man-useradd-su-rm-tree-tab-passwd-w-ssh-touch-date-stat-cp-mv-du-文件系统层次结构 ...
ESP8266 RTOS SDK开发
ESP8266 RTOS SDK开发目录 ESP8266 RTOS SDK开发一.源码RTOS SDK包的下载和编译二.固件烧录 1.管脚定义三.程序例程 ## 1.PWM设置连接MQTT ...
KingbaseES V8R6C5B041手工创建集群测试案例
案例说明: KingbaseES V8R6C5B041版本和以前的KingbaseES R6有一定的区别,增加了"securecmdd"的工具,并且在install.conf配 ...
OpenDataV低代码平台新增组件流程
OpenDataV计划采用子库的方式添加子组件,即每一个组件都当做一个子库,子库有自己的依赖,而项目本身的依赖只针对框架,因此每一个组件我们都当做一个子库来开发.下面我带着大家一步步详细的开发一个数字 ...
新增一个Redis 从节点为什么与主节点的key数量不一样呢？
在日常的 Redis 运维过程中,经常会发生重载 RDB 文件操作,主要情形有: 主从架构如果主库宕机做高可用切换,原从库会挂载新主库重新获取数据主库 QPS 超过10万,需要做读写分离,重新添加从 ...
【HMS Core】集成地图服务不显示地图问题
[问题描述] 关于华为HMS-地图服务不显示地图的问题. 背景:集成华为地图服务运行后页面不显示地图,运行app后不展示地图报错MapsInitializer is not initialized. ...
redis cluster 6.2集群
redis最新版本:redis-6.2.1.tar.gz 安装的版本是redis-6.0.3 采用的主机: djz-server-001 192.168.2.163 7001,7002,Admin@1 ...
Jenkins 中使用 Git Parameter 插件动态获取 Git 的分支

文本挖掘与NLP笔记——代码向：分词

请练习添加自定义词典

请练习基于TextRank算法抽取关键词

文本挖掘与NLP笔记——代码向：分词的更多相关文章

随机推荐

热门专题