Python使用jieba分词

# -*- coding: utf-8 -*-

# Spyder (python 3.7)

import pandas as pd

import jieba

import jieba.analyse as anls

if __name__ == '__main__':

    data = pd.read_excel(r'空气指数评论.xlsx')

    # content为excel的列名

    opinion_content = data['content'].dropna().values

    all_word = ''

    for i in opinion_content: #形成整个字符串

        all_word = all_word +','+ str(i)

    all_word = all_word.strip()  #去掉字符串的空格

    all_word_upper = all_word.upper() #大写

　　#加载词典 #jieba.load_userdict(r"D:\Python_workspace\aaaa.txt")

　　#如果有不想被切分开的词，例如王者荣耀，和平精英等，可以进行参数设置：tune=True

　　# jieba.analyse 是基于tf-idf算法的关键词抽取

    segment=['王者荣耀','和平精英']

    for ii in segment:

        jieba.suggest_freq(ii, tune=True)

    anls.set_stop_words("111.txt")  #加载停用词文档，网上可以下载或者自己创建

    tags = anls.extract_tags(all_word_upper, topK=None, withWeight=True)

    for x, w in tags:

        print('%s %s' % (x, w))

    for v, n in tags:

        #权重n是小数，乘了十万成为整数，可以按需求设置不同值

        out_words= v + '\t' + str(int(n * 100000))

        #注意'a+'为追加写入，因此如果重新运行程序，则需要先删除上次生成的文件，结果保存在当前目录下，可以更改目录

        with open('.\cut_words_content.txt','a+',encoding='utf-8')as f:

            f.write(out_words+'\n')

附加：另一种jieba分词写法：

 sentence_seged = [seg for seg in jieba.cut(all_word) if len(seg) >= char_len]

# all_word为整个要分词的字符串，该方式没有利用到权重，是单纯的分词

# 返回的是分词后的列表

# 分词长度最少大于char_len

参考jieba中文分词：https://github.com/fxsjy/jieba

##欢迎讨论

Python使用jieba分词的更多相关文章

python结巴(jieba)分词
python结巴(jieba)分词一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...
python环境jieba分词的安装
我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明======= 代码对 Python 2/3 均兼容 * 全自动安装:`ea ...
python bottle + jieba分词服务
2019-12-16 19:46:34 星期一最近接触到结巴分词项目, 就试试用python的bottle库来当服务器监听localhost:8080 把请求的数据转给jieba来分词, 并返回分 ...
Python之jieba分词
jieba,很有意思的一个模块,专门用来分词. import jieba # sentence:分割的中文字符串 # cut_all:是否采用全模式,默认为False表示精确模式 # HMM:表示是否 ...
python的jieba分词
# 官方例程 # encoding=utf-8 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print ...
python安装Jieba中文分词组件并测试
python安装Jieba中文分词组件 1.下载http://pypi.python.org/pypi/jieba/ 2.解压到解压到python目录下: 3.“win+R”进入cmd:依次输入如下代 ...
[python] 使用Jieba工具中文分词及文本聚类概念
声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台. 前面讲述了很多关于Python爬取本体Ontology.消息盒Inf ...
Python自然语言处理学习——jieba分词
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目. 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的 ...
$好玩的分词——python jieba分词模块的基本用法
jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法结巴分词分为三种模式:精确模式(默认).全模式和 ...

随机推荐

Nginx 504响应超时
1.问题分析 nginx访问出现504 Gateway Time-out,一般是由于程序执行时间过长导致响应超时,例如程序需要执行90秒,而nginx最大响应等待时间为30秒,这样就会出现超时. ...
【mysql】添加删除权限
https://www.cnblogs.com/wuxunyan/p/9095016.html
ubuntu 18.04使用sysbench测试MySQL性能
首先下载安装sysbench: sudo apt-get install sysbench -y 查看一下sysbench版本是多少: zifeiy@zifeiy-S1-Series:~$ sysbe ...
单元测试-测试技术(Unit Test)
1.1白盒测试和单元测试的区别的论述: 1) 单元测试和白盒测试是不同的,虽然单元测试和白盒测试都是关注功能,虽然他们都需要代码支持,但是级别不同, 白盒测试关注的是类中一个方法的功能是更小的单位,但 ...
详解consul的安装和配置
Consul 简化了分布式环境中的服务的注册和发现流程,通过 HTTP 或者 DNS 接口发现.支持外部 SaaS 提供者等. consul提供的一些关键特性: service discovery:c ...
pycharm设置开发模板/字体大小/背景颜色（3）
一.pycharm设置字体大小/风格选择 File –> setting –> Editor –> Font ,可以看到如上界面,可以根据自己的喜好随意调整字体大小,字体风格,文字 ...
转录组组装软件stringtie
StringTie是約翰·霍普金斯大學计算机生物中心开发的一款转录组组装软件,在组装转录本的完整度,精度和速度方面都较以往的cufflinks 有很大的提升,也是目前有参考基因组转录组主流的组装软件. ...
English Learning -- 0611--When Burnout Is a Sign You Should Leave Your Job
I like the following article from Harvard Business Review, as I ever experienced burnout at work. Ve ...
ServiceStack.Redis 连接有密码的Redis问题解决
在ip:port前面加上@用来表示密码,比如password@ip:port <add key="RedisServer" value="123456@127.0. ...
在CentOS7上安装OpenJDK1.8 & OracleJDK1.8
安装OpenJDK1.8 : 1.检查当前机器是否有自带的JDK rpm -qa |grep java rpm -qa |grep jdk rpm -qa |grep gcj 2.如果没有则跳至安装 ...

Python使用jieba分词

Python使用jieba分词的更多相关文章

随机推荐

热门专题