jieba分词及词频统计小项目

import pandas as pd

import jieba

import jieba.analyse

from collections import Counter,OrderedDict

jieba.load_userdict('./userdict.txt')  # 加载外部 用户词典

def stopwordslist(filepath):

    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

    return stopwords

def text_cut(text1):

    stopwords = stopwordslist('./stop_words.txt')  # 这里加载停用词的路径

    words = jieba.analyse.extract_tags(text1, topK=6, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v', 'm', 'q'))

    santi_words = [x for x in words if len(x) > 1 and x not in stopwords]

    return ','.join(santi_words)

def cut_term():

    data = pd.read_excel('./xxx.xlsx', sheet_name='Sheet3')

    data['term'] = data['合并'].apply(text_cut)

    print(data.head())

    data.to_excel('./Q2-xxxx_new2.xlsx', index=False)

def make_count(data):

    writer = pd.ExcelWriter('./Q2分行业分词结果11.xlsx', engine='xlsxwriter')

    all_industry = ['xxxx]

    for industry in all_industry:

        cut = data[data['一xxx']==industry]['term'].tolist()

        l = []

        for i in cut:

            l.extend(i.split(','))

        print(len(l))

        term_dic = dict(Counter(l))

        d = dict(sorted(term_dic.items(), key=lambda x: x[1], reverse=True))

        k = list(d.keys())

        v = list(d.values())

        df = pd.DataFrame({f'{industry}-词': k,'频率':v }, columns=[f'{industry}-词', '频率'])

        df.to_excel(writer,sheet_name=industry,index=False)

    writer.close()

data = pd.read_excel('./xxxxxx.xlsx', sheet_name='Sheet1')

make_count(data)

jieba分词及词频统计小项目的更多相关文章

jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
py库: jieba (中文词频统计) .collections (字频统计).WordCloud (词云) 先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, ...
Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）
解决问题的方案 Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-c ...
Python大数据：jieba 中文分词，词频统计
# -*- coding: UTF-8 -*- import sys import numpy as np import pandas as pd import jieba import jieba. ...
【python】利用jieba中文分词进行词频统计
以下代码对鲁迅的<祝福>进行了词频统计: import io import jieba txt = io.open("zhufu.txt", "r" ...
py库： jieba （中文词频统计）、collections （字频统计）、WordCloud （词云）
先来个最简单的: # 查找列表中出现次数最多的值 ls = [1, 2, 3, 4, 5, 6, 1, 2, 1, 2, 1, 1] ls = ["呵呵", "呵呵&qu ...
Python之利用jieba库做词频统计且制作词云图
一.环境以及注意事项 1.windows10家庭版 python 3.7.1 2.需要使用到的库 wordcloud(词云),jieba(中文分词库),安装过程不展示 3.注意事项:由于wordclo ...
词频统计小程序-WordCount.exe
一. 背景最近顶哥为了完成学历提升学业中的小作业,做了一个词频统计的.exe小程序.因为当时做的时候网上的比较少,因此顶哥决定把自己拙略的作品发出来给需要的人提供一种思路,希望各位看官不要dis ...
jieba和文本词频统计
---恢复内容开始--- 一.结巴中文分词涉及到的算法包括: (1) 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG): (2) 采用了动态规划查找最大 ...
Hadoop之词频统计小实验
声明: 1)本文由我原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0. 3)统计词频工作在单节点的伪分布上,至于真正实 ...

随机推荐

ACE在Ubuntu下的安装和编译
之前写了很多linux下的底层网络API的demo,这些demo可用于了解底层的网络通信过程,但是想做出好的服务器用于实际业务还是非常困难的,需要大量的代码实现,移植性也非常差,想要写出高性能架构的服 ...
填坑 bzoj3337
算是个板子题吧,就是不知道啥时候能写出来. #include<cstring> #include<iostream> #include<cctype> #inclu ...
Spring注解和标签的比较说明
待完善.... xml标签注解说明 xml的Spring约束头 @Configuration xml约束头表明这是用于spring的的配置文件 @Configuration注解表情这是用于Spri ...
ES6-Generator使用与改写
用Generator封装Symbol中的iterator方法: 注意:Generator的function后必须写* config:分别有3个txt文件,两个文件写路径,一个文件写要输出的内容前置写 ...
zookeeper shell
1.启动zk客户端 ./zkCli.sh -server 192.168.67.35:2182,192.168.67.36:2182,192.168.67.37:2182 2.创建zk节点 cre ...
【Gamma阶段】第八次Scrum Meeting
冰多多团队-Gamma阶段第八次Scrum会议工作情况团队成员已完成任务待完成任务卓培锦编辑器风格切换(添加夜间模式) UI界面手势切换牛雅哲添加pytorch训练dict和ssh工具 ...
Nginx通过geo模式实现限速白名单和全局负载均衡 - 运维笔记
Nginx的geo模块不仅可以有限速白名单的作用,还可以做全局负载均衡,可以要根据客户端ip访问到不同的server.比如,可以将电信的用户访问定向到电信服务器,网通的用户重定向到网通服务器”,从而 ...
prometheus添加自定义监控与告警（etcd为例）
一.步骤及注意事项(前提,部署参考部署篇) 一般etcd集群会开启HTTPS认证,因此访问etcd需要对应的证书使用证书创建etcd的secret 将etcd的secret挂在到prometheus ...
NET Core3前后端分离开发框架
NET Core前后端分离快速开发框架 https://www.cnblogs.com/coldairarrow/p/11870993.html 引言时间真快,转眼今年又要过去了.回想今年,依次开源 ...
Centos修改swap分区大小
1. 查看当前分区情况 free -m 2. 增加swap大小 dd if=/dev/zero of=/var/swap bs=1024 count=12288000 #增加12G空间 3. 设置交换 ...

jieba分词及词频统计小项目

jieba分词及词频统计小项目的更多相关文章

随机推荐

热门专题