python 多进程jieba分词，高效分词，multiprocessing

自然语言任务经常使用jieba分词，数据量大时怎么加速，jieba分词不支持使用asyncio异步加速，使用multiprocessing还是可以的

import jieba

import jieba.analyse

import multiprocessing

# 加载自定义词典

jieba.load_userdict("user_dic.txt")

jieba.load_userdict("cate_group.txt")

jieba.analyse.set_stop_words('stopwords_v1.txt')

def process_text(text):

    # 分词

    words = jieba.cut(text, cut_all=True)

    # 过滤长度小于2或大于10的词和纯数字的词

    filtered_words = [w for w in words if len(w) >= 2 and len(w) <= 10 and not w.isdigit()]

    # 返回分词结果

    return filtered_words

# 创建进程池

pool = multiprocessing.Pool()

# 处理文本列表

# texts = ["这是一段测试文本", "这是另一段测试文本"]

texts = data["new_text"]

results = pool.map(process_text, texts)

# 输出结果

results

结果：

[['估值', '有待', '修复', '煤炭', '平均', '市盈率', '美元'],

 ['国产',

  '医疗',

  '医疗器械',

  '器械',

  '行业',

  '发展',

  '迅速',

  '作为',

  '国内',

  '最大',

  '医疗',

  '医疗器械',

  '器械',

  '企业',

  '基本',

  '一枝',

  '一枝独秀',

  '独秀'],

 ['今日', '上海', '现货'],

 ['消息', '准备'],

python 多进程jieba分词，高效分词，multiprocessing的更多相关文章

python利用jieba进行中文分词去停用词
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词. 分词模块jieba,它是python比较好用的分词模块.待分词的字符串可以是 unicod ...
[Python] 基于 jieba 的中文分词总结
目录模块安装开源代码基本用法启用Paddle 词性标注调整词典智能识别新词搜索引擎模式分词使用自定义词典关键词提取停用词过滤模块安装 pip install jieba jieb ...
[python] 使用Jieba工具中文分词及文本聚类概念
声明:由于担心CSDN博客丢失,在博客园简单对其进行备份,以后两个地方都会写文章的~感谢CSDN和博客园提供的平台. 前面讲述了很多关于Python爬取本体Ontology.消息盒Inf ...
python多进程那点事儿【multiprocessing库】
前言:项目中有个需求需要对产品的日志处理,按照产品中日志的某些字段,对日志进行再次划分.比如产品的日志中含有字段id,tag=1,现在需要把tag是基数的放到一个文件中,tag是偶数的放入一个文件中. ...
Python 多进程multiprocessing
一.python多线程其实在底层来说只是单线程,因此python多线程也称为假线程,之所以用多线程的意义是因为线程不停的切换这样比串行还是要快很多.python多线程中只要涉及到io或者sleep就会 ...
一篇文章搞定Python多进程(全)
1.Python多进程模块 Python中的多进程是通过multiprocessing包来实现的,和多线程的threading.Thread差不多,它可以利用multiprocessing.Proce ...
python环境jieba分词的安装
我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明======= 代码对 Python 2/3 均兼容 * 全自动安装:`ea ...
python结巴(jieba)分词
python结巴(jieba)分词一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...
python第三方库------jieba库(中文分词)
jieba“结巴”中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点支持三种分词模式: 精确模式,试图将句子最精确地切开, ...
Python第三方库jieba（中文分词）入门与进阶（官方文档）
jieba "结巴"中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点支持三种分词模式: 精确模式, ...

随机推荐

linux 前端 jenkins打包失败 permission 权限安装 root 安装nodejs，没有权限，另一个账号，需要chmod将文件权限打开
linux 前端 jenkins打包失败 permission 权限安装 root 安装nodejs,没有权限,另一个账号,需要chmod将文件权限打开开始以为nodejs版本问题最后发现是安装n ...
vue中setTimeout之前一定要 clearTimeout 否则将失效
window.clearTimeout(this.singleClick) // 这句很重要,否则不起作用 this.singleClick = window.setTimeout(() => ...
Ubuntu18.04声卡配置问题解决
一问题对于经常做音频的工程师来说,经常需要使用linux下的声卡切换,期间遇到了各种问题,自使用了pavucontrol,问题没有了.真是瞬间感觉赏心悦目啊. 二安装使用方法安装pavucon ...
dotNet8 全局异常处理
前言异常的处理在我们应用程序中是至关重要的,在 dotNet 中有很多异常处理的机制,比如MVC的异常筛选器, 管道中间件定义try catch捕获异常处理亦或者第三方的解决方案Hellang.Mi ...
记录-JavaScript常规加密技术
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助当今Web开发中,数据安全是一个至关重要的问题,为了确保数据的安全性,我们需要使用加密技术.JavaScript作为一种客户端编程语言,可 ...
记录--uni-app在不同平台下拨打电话
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助场景在App中拨打电话是一个比较常见的应用场景,但是我们通过搜索文章,发现,大部分的博文都是uni-app官网的copy, copy u ...
cmake：针对某些依赖 openssl-1.0 而机器上还有其他版本的 openssl
指定下列变量: -DOPENSSL_INCLUDE_DIR:指向 openssl-1.0 的 include 目录 -DOPENSSL_SSL_LIBRARIES:指向 openssl-1.0 的 l ...
绘制三元图、颜色空间图：R语言代码
本文介绍基于R语言中的Ternary包,绘制三元图(Ternary Plot)的详细方法:其中,我们就以RGB三色分布图为例来具体介绍. 三元图可以从三个不同的角度反映数据的特征,因此在很多领 ...
并发CPU伪共享及优化
伪共享缓存系统中是以缓存行(cache line)为单位存储的.缓存行是2的整数幂个连续字节,一般为32-256个字节.最常见的缓存行大小是64个字节.当多线程修改互相独立的变量时,如果这些变量共享 ...
KingbaseES 的角色和权限管理
KingbaseES使用角色的概念管理数据库访问权限.为了方便权限管理,用户可以建立多个角色,对角色进行授权和权限回收,并把角色授予其他用户. 数据库初始化时,会创建一个超级用户的角色:system( ...

python 多进程jieba分词，高效分词，multiprocessing

python 多进程jieba分词，高效分词，multiprocessing的更多相关文章

随机推荐

热门专题