文本挖掘与NLP笔记——代码向：分词

分词：jieba.cut

words = jieba.cut("我来到北京大学",cut_all=True)

print('全模式：'+'/'.join([w for w in words])) #全模式

words = jieba.cut("我来到北京大学",cut_all=False)

print('精确模式：'+'/'.join([w for w in words])) #精确模式,默认

words = jieba.cut_for_search("小明毕业于北京大学，后在美国哈佛大学深造")

print('/'.join([w for w in words])) #搜索引擎模式,在精确模式的基础上，对长词在此划分

全模式：我/来到/北京/北京大学/大学

精确模式：我/来到/北京大学

请练习添加自定义词典

词性：jieba.posseg

import jieba.posseg as pg

for word, flag in pg.cut("你想去学校填写学生寒暑假住校申请表吗？"):

    print('%s %s' % (word, flag))

'你/学校/填写/学生/寒暑假/住校/申请表'

分词引入停用词

import jieba

import pandas as pd

import numpy as np

paths = '中英文停用词.xlsx'

dfs = pd.read_excel(paths,dtype=str)

stopwords = ['想','去','吗','？']

words = jieba.cut("你想去学校填写学生寒暑假住校申请表吗？")

'/'.join([w for w in words if (w not in stopwords)])#此处’/'表示换行

'你/学校/填写/学生/寒暑假/住校/申请表'

txt转dataframe函数

import random

import jieba.posseg as pg

import pandas as pd

import numpy as np

def generatorInfo(file_name):

    # 读取文本文件

    with open(file_name, encoding='utf-8') as file:

        line_list = [k.strip() for k in file.readlines()]

        data = []

        for k in random.sample(line_list,1000):

            t = k.split(maxsplit=1)

            #data_label_list.append(t[0])

            #data_content_list.append(t[1])

            data.append([t[0],' '.join([w for w,flag in pg.cut(t[1]) if (w not in dfs['stopwords']) and (w !=' ') and (len(w)>=2)])])

    return data

file_name = 'cnews.train.txt'

df = pd.DataFrame(np.array(generatorInfo(file_name)),columns=['类别','分词'])

path = '训练集分词结果(随机选取1000个样本).xlsx'

df.to_excel(path,index=False)

df

词云图：wordcloud

%pylab inline

import matplotlib.pyplot as plt

from wordcloud import WordCloud

text = ' '.join(list(df['分词']))

wcloud = WordCloud(

    font_path='simsun.ttc', #字体路径

    background_color='white', #指定背景颜色

    max_words=500,   #词云显示最大词数

    max_font_size=150,  #指定最大字号

    #mask = mask #背景图片

) 

wcloud = wcloud.generate(text)  #生成词云

plt.imshow(wcloud)

plt.axis('off')

plt.show()

提取关键词：jieba.analyse.extract_tags

import jieba.analyse

import pandas as pd

import numpy as np

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

s = ' '.join(list(df['分词']))

for w,x in jieba.analyse.extract_tags(s,withWeight=True):

    print('%s %s' % (w,x))

请练习基于TextRank算法抽取关键词

import jieba.analyse

import pandas as pd

import numpy as np

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

tag = list(set(list(df['类别'])))

for t in tag:

    s = ' '.join(list(df[df['类别']==t]['分词']))

    print(t)

    for w,x in jieba.analyse.extract_tags(s,withWeight=True):

        print('%s %s' % (x,w))

构建词向量

构建词向量简单的有两种分别是TfidfTransformer和 CountVectorizer

#CountVectorizer会将文本中的词语转换为词频矩阵

from sklearn.feature_extraction.text import CountVectorizer

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

corpus = df['分词']

#vectorizer = CountVectorizer(max_features=5000)

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus)

print(X)

from sklearn.feature_extraction.text import TfidfTransformer

import datetime

starttime = datetime.datetime.now()

transformer = TfidfTransformer()

tfidf = transformer.fit_transform(X)

word = vectorizer.get_feature_names()

weight = tfidf.toarray()

print(weight)

词语分类：人工vsKmeans

from sklearn.cluster import KMeans

starttime = datetime.datetime.now()

path = '训练集分词结果(随机选取1000个样本).xlsx'

df = pd.read_excel(path,dtype=str)

corpus = df['分词']

kmeans=KMeans(n_clusters=10)   #n_clusters:number of cluster

kmeans.fit(weight)

res = [list(df['类别']),list(kmeans.labels_)]

df_res = pd.DataFrame(np.array(res).T,columns=['人工分类','Kmeans分类'])

path_res = 'Kmeans自动分类结果.xlsx'

df_res.to_excel(path_res,index=False)

df_res

path = 'Kmeans自动分类结果.xlsx'

df = pd.read_excel(path,dtype=str)

df['计数'] = [1 for m in range(len(df['人工分类']))]

df1 = pd.pivot_table(df, index=['人工分类'], columns=['Kmeans分类'], values=['计数'], aggfunc=np.sum, fill_value=0)

co = ['人工分类']

co.extend(list(df1['计数'].columns))

df1 = df1.reset_index()

df2 = pd.DataFrame((np.array(df1)),columns=co)

path_res = '人工与Kmeans分类结果对照.xlsx'

df2.to_excel(path_res,index=False)

df2

import random

def is_contain_chinese(check_str):

    for ch in check_str:

        if u'\u4e00' <= ch <= u'\u9fff':

            return 1

    return 0

def generatorInfo(file_name):

    """

    batch_size：生成数据的batch size

    seq_length：输入文字序列长度

    num_classes：文本的类别数

    file_name：读取文件的路径

    """

    # 读取文本文件

    with open(file_name, encoding='utf-8') as file:

        line_list = [k.strip() for k in file.readlines()]

        #data_label_list = []   # 创建数据标签文件

        #data_content_list = []   # 创建数据文本文件

        data = []

        for k in random.sample(line_list,1000):

            t = k.split(maxsplit=1)

            #data_label_list.append(t[0])

            #data_content_list.append(t[1])

            data.append([t[0],' '.join([w for w,flag in jieba.posseg.cut(t[1]) if (w not in dfs['stopwords']) and (w !=' ') and (flag not in ["nr","ns","nt","nz","m","f","ul","l","r","t"]) and (len(w)>=2)])])

    return data

#导入中文停用词表

paths = '中英文停用词.xlsx'

dfs = pd.read_excel(paths,dtype=str)

file_name = 'cnews.train.txt'

df = pd.DataFrame(np.array(generatorInfo(file_name)),columns=['类别','分词'])

df

汇总

import random

import jieba

import pandas as pd

import numpy as np

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.cluster import KMeans

from sklearn.feature_extraction.text import TfidfTransformer

def is_contain_chinese(check_str):

    for ch in check_str:

        if u'\u4e00' <= ch <= u'\u9fff':

            return 1

    return 0

def generatorInfo(file_name):

    """

    batch_size：生成数据的batch size

    seq_length：输入文字序列长度

    num_classes：文本的类别数

    file_name：读取文件的路径

    """

    # 读取文本文件

    with open(file_name, encoding='utf-8') as file:

        line_list = [k.strip() for k in file.readlines()]

        #data_label_list = []   # 创建数据标签文件

        #data_content_list = []   # 创建数据文本文件

        data = []

        for k in random.sample(line_list,1000):

            t = k.split(maxsplit=1)

            #data_label_list.append(t[0])

            #data_content_list.append(t[1])

            data.append([t[0],' '.join([w for w,flag in jieba.posseg.cut(t[1]) if (w not in dfs['stopwords']) and (w !=' ') and (flag not in ["nr","ns","nt","nz","m","f","ul","l","r","t"]) and (len(w)>=2)])])

    return data

#导入中文停用词表

paths = '中英文停用词.xlsx'

dfs = pd.read_excel(paths,dtype=str)

file_name = 'cnews.train.txt'

df = pd.DataFrame(np.array(generatorInfo(file_name)),columns=['类别','分词'])

#统计词频

corpus = df['分词'] #语料中的单词以空格隔开

#vectorizer = CountVectorizer(max_features=5000)

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus)

#文本向量化

transformer = TfidfTransformer()

tfidf = transformer.fit_transform(X)

word = vectorizer.get_feature_names()

weight = tfidf.toarray()

kmeans=KMeans(n_clusters=10)   #n_clusters:number of cluster

kmeans.fit(weight)

res = [list(df['类别']),list(kmeans.labels_)]

df_res = pd.DataFrame(np.array(res).T,columns=['人工分类','Kmeans分类'])

df_res['计数'] = [1 for m in range(len(df_res['人工分类']))]

df1 = pd.pivot_table(df_res, index=['人工分类'], columns=['Kmeans分类'], values=['计数'], aggfunc=np.sum, fill_value=0)

co = ['人工分类']

co.extend(list(df1['计数'].columns))

df1 = df1.reset_index()

df2 = pd.DataFrame((np.array(df1)),columns=co)

df2

df['Kmeans分类'] = df_res['Kmeans分类']

df

文本挖掘与NLP笔记——代码向：分词的更多相关文章

seg:NLP之正向最大匹配分词
已迁移到我新博客,阅读体验更佳seg:NLP之正向最大匹配分词完整代码实现放在我的github上:click me 一.任务要求实现一个基于词典与规则的汉语自动分词系统. 二.技术路线采用正向最 ...
NLP自然语言处理中英文分词工具集锦与基本使用介绍
一.中文分词工具 (1)Jieba (2)snowNLP分词工具 (3)thulac分词工具 (4)pynlpir 分词工具 (5)StanfordCoreNLP分词工具 1.from stanfor ...
CTR学习笔记&代码实现2-深度ctr模型 MLP->Wide&Deep
背景这一篇我们从基础的深度ctr模型谈起.我很喜欢Wide&Deep的框架感觉之后很多改进都可以纳入这个框架中.Wide负责样本中出现的频繁项挖掘,Deep负责样本中未出现的特征泛化.而后续 ...
CTR学习笔记&代码实现3-深度ctr模型 FNN->PNN->DeepFM
这一节我们总结FM三兄弟FNN/PNN/DeepFM,由远及近,从最初把FM得到的隐向量和权重作为神经网络输入的FNN,到把向量内/外积从预训练直接迁移到神经网络中的PNN,再到参考wide& ...
CTR学习笔记&代码实现4-深度ctr模型 NFM/AFM
这一节我们总结FM另外两个远亲NFM,AFM.NFM和AFM都是针对Wide&Deep 中Deep部分的改造.上一章PNN用到了向量内积外积来提取特征交互信息,总共向量乘积就这几种,这不NFM ...
CTR学习笔记&代码实现5-深度ctr模型 DeepCrossing -> DCN
之前总结了PNN,NFM,AFM这类两两向量乘积的方式,这一节我们换新的思路来看特征交互.DeepCrossing是最早在CTR模型中使用ResNet的前辈,DCN在ResNet上进一步创新,为高阶特 ...
CTR学习笔记&代码实现6-深度ctr模型后浪 xDeepFM/FiBiNET
xDeepFM用改良的DCN替代了DeepFM的FM部分来学习组合特征信息,而FiBiNET则是应用SENET加入了特征权重比NFM,AFM更进了一步.在看两个model前建议对DeepFM, Dee ...
哈工大 NLP 实验一汉语分词系统
NLP实验代码可见github:NLP实验代码整理本实验会查重,而且写起来难度比较大,建议早一些开始.实验报告要用顶会论文形式呈现,建议使用overleaf里的ACL论文latex模板比较方便一点.
HanLP《自然语言处理入门》笔记--2.词典分词
2. 词典分词中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本. 中文分词算法大致分为基于词典规则与基于机器学习这两大派. 2.1 什么是词在基于词典的中文分词中,词 ...

随机推荐

POJ3903Stock Exchange （LIS）
学了下BIT,炸了... #include <iostream> #include <cstdio> #include <cstring> #include < ...
Luogu2420 让我们异或吧（熟练剖分）
\(dis[u] \bigoplus dis[v] = dis[u] \bigoplus dis[v] \bigoplus dis[lca\{x,y\}] \bigoplus dis[lca\{x,y ...
host,nslookup,dig 工具安装
DNS-测试工具在centos7.9 中安装bind后发现缺少,检测工具工具包安装: 1 [root@server]# yum install -y bind-utils 安装后再次查询,发现已 ...
python包合集-shutil
一.简介 shutil是 python 中的高级文件操作模块,与os模块形成互补的关系,os主要提供了文件或文件夹的新建.删除.查看等方法,还提供了对文件以及目录的路径操作.shutil模块提供了移动 ...
js运算符和逻辑分支
运算符 1.拼接运算符:+,加号两边只要有一边出现字符串就是拼接 2.算术运算符如:2+3: 3.赋值运算符+=,-=,/=,*= 4.关系运算符>,<,==,=== != !== ! ...
day23--Java集合06
Java集合06 13.Map接口02 13.2Map接口常用方法 put():添加 remove():根据键键删除映射关系 get():根据键获取值 size():获取元素个数 isEnpty(): ...
CF1450E 资本主义Capitalism（差分约束）
题面点此看题没有永远的朋友,只有永远的利益在这个黑漆漆的社会上,有 n n n 个布衣百姓,他们在利益驱使下成为金钱的奴隶,看不到属于生活的阳光.在茫茫奔途中,他们相互扶持,结交了有 m m m ...
UIView Animation 动画学习总结
目录一.前言二.UIView Animation 2.1 简单动画 2.2 关键帧动画 2.3 View 的转换三.CALayer Animation 3.1 基本动画(CABasicAnima ...
CodeForces - 1629C
Problem - 1629C - Codeforces 题意: 一个序列,每次可以从开头选择一个长度为K的序列,然后得到这个序列的MEX(最小的未出现的数),问最后可以求得的字典大小最大的序列是多少 ...
【Android 逆向】手动构造dex文件
public class Hello { public static void main(String[] args) { System.out.println("hello android ...

文本挖掘与NLP笔记——代码向：分词

请练习添加自定义词典

请练习基于TextRank算法抽取关键词

文本挖掘与NLP笔记——代码向：分词的更多相关文章

随机推荐

热门专题