python flashtext字符串快速替换，自然语言处理加速

在自然语言处理当中，经常对数据集进行一些数据字符的替换，表情的替换，以便在tokenizer的时候不被识别成[unk],造成信息的缺失

常规方法使用python自带的replace方法实现，但数据量很大时，效率显得低了

比如下面的代码，处理60000条数据需要3+小时

from tqdm.notebook import tqdm

emoji_dict = {}

with open('/Users/xinyuuliu/Desktop/data/emoji/emoji_map_full.txt') as f_emoji:

    emojilist = f_emoji.readlines()

    for em in emojilist:

        emoji,emoji_str = em.split(maxsplit=1)

        emoji_dict[emoji] = emoji_str.strip()

#     print(emoji_dict)

bar = tqdm(enumerate(data['text']),total=len(data['text']))

for idx,text in bar:

    for em in emoji_dict:

        text = text.replace(em,emoji_dict[em])

    data['text'][idx] = text

#     if idx == 10:

#         break

　data

可以看到处理6%的数据已经14分钟了

如何加速，使用flashtext模块，如果会异步就更快了，这里我还没有实现异步

pip install flashtext

from flashtext import KeywordProcessor

# 1. 初始化关键字处理器

keyword_processor = KeywordProcessor()

# 2. 添加关键词

for em in emoji_dict:

    keyword_processor.add_keyword(em, emoji_dict[em])

# 3. 替换关键词

bar = tqdm(enumerate(data['text']),total=len(data['text']))

for idx,text in bar:

    data['text'][idx] = keyword_processor.replace_keywords(text)

# 4. 结果

data

可以看到处理7%的数据用了7分钟，明显比replace快了一倍

看下替换效果：

替换完后的数据：

asyncio+flashtext异步替换字符串，这老快了

import asyncio

import flashtext

async def replace_text(text, keyword_processor):

    """

    异步替换文本函数

    """

    replaced_text = keyword_processor.replace_keywords(text)

    return replaced_text

async def replace_text_in_list(text_list, keyword_processor):

    """

    对列表中的文本进行异步替换

    """

    tasks = []

    for text in text_list:

        task = asyncio.create_task(replace_text(text, keyword_processor))

        tasks.append(task)

    replaced_text_list = await asyncio.gather(*tasks)

    return replaced_text_list

if __name__ == '__main__':

    text_list = ['hello world', 'this is a test', 'python is awesome']

    keyword_processor = flashtext.KeywordProcessor()

    keyword_processor.add_keyword('python', 'Java')

    keyword_processor.add_keyword('world', 'universe')

    loop = asyncio.get_event_loop()

    replaced_text_list = loop.run_until_complete(replace_text_in_list(text_list, keyword_processor))

    print(replaced_text_list)

python flashtext字符串快速替换，自然语言处理加速的更多相关文章

python 快速替换csv数据集字符串列表中的表情符号为空，asyncio，re，pandas
传统的字符串列表替换字符串使用遍历非常慢比如下面这段代码,如果处理几十万或上百万的数据集时,会非常的慢,几小时几天都可能 import re p = re.compile(u'['u'\U0001F ...
python字符串内容替换的方法(转载)
python字符串内容替换的方法时间:2016-03-10 06:30:46来源:网络导读:python字符串内容替换的方法,包括单个字符替换,使用re正则匹配进行字符串模式查找与替换的方法. ...
Python - 字符串的替换(interpolation) 具体解释
字符串的插值(interpolation) 具体解释本文地址: http://blog.csdn.net/caroline_wendy/article/details/27054263 字符串的替换 ...
Python replace() 和 re.sub() 字符串字符替换
Python replace() 和 re.sub() 字符串字符替换 replace() testStr = 'aa:bb[cc' testStr.replace(':','_') 每次只能替换一个 ...
python中字符串操作--截取，查找，替换
python中,对字符串的操作是最常见的,python对字符串操作有自己特殊的处理方式. 字符串的截取 python中对于字符串的索引是比较特别的,来感受一下: s = '123456789' #截取 ...
Python 的字符串格式化和颜色控制
(部分内容源自武神博客和网络收集.) Python的字符串格式化有两种方式: 百分号方式.format方式百分号的方式相对来说比较老,而format方式则是比较先进的方式,企图替换古老的方式,目前两 ...
python之字符串类型的格式化
python之字符串类型的格式化要点:python字符串通过format()方法进行格式化处理.(Python语言同时支持两种字符串格式化方法,一种类似C语言中printf()函数的格式化方法,支持 ...
Python格式化字符串~转
Python格式化字符串在编写程序的过程中,经常需要进行格式化输出,每次用每次查.干脆就在这里整理一下,以便索引. 格式化操作符(%) "%"是Python风格的字符串格式化操作 ...
Python基础-字符串格式化_百分号方式_format方式
Python的字符串格式化有两种方式: 百分号方式.format方式百分号的方式相对来说比较老,而format方式则是比较先进的方式,企图替换古老的方式,目前两者并存.[PEP-3101] This ...
Python格式化字符串
在编写程序的过程中,经常需要进行格式化输出,每次用每次查.干脆就在这里整理一下,以便索引. 格式化操作符(%) "%"是Python风格的字符串格式化操作符,非常类似C语言里的pr ...

随机推荐

immutable 不可改变的 mut ≈ to move = to change - 单词学习
immutable im-不,非 + mut-改变 + -able. im 通 in able 有能力的重点是 mut 的含义是 to change t 就是to mu 就是 change (*拉丁 ...
附件表单验证：指针抖动+延迟验证 a={...a} $nextTick(() => { a.validate })
附件表单验证:指针抖动+延迟验证 a={...a} $nextTick(() => { a.validate })
关于hashCode和equals重写
规则只要重写equals,就必须重写hashCode. 用Set存储对象或者用对象作为Map的键时,必须重写hashCode.也就是说,当需要用对象的哈希值来判断对象是否相等时必须重写hashCod ...
Dashboard、Rancher与KubeSphere对比
在容器技术和微服务架构日益盛行的今天,对于容器编排和管理平台的选择显得尤为重要.Kubernetes(K8s)作为容器编排的事实标准,其生态系统中涌现出了许多管理和监控工具.其中,Dashboard. ...
enum class 用法
enum的主要缺点 1.类型不明确首先,无法指定数据类型,导致我们无法明确枚举类型所占的内存大小.这种麻烦在结构体当中尤为突出,特别是当我们需要内存对齐和填充处理的时候. #include < ...
【atcoder begin 302】【e题 Isolation 】JAVA的快速输入输出
import java.io.*; import java.util.HashSet; import java.util.Set; /** * @author fishcanfly */ public ...
django(视图层）
更详细的视图层讲解,看下面链接 https://www.cnblogs.com/xiaoyuanqujing/articles/11643459.html 一. 三板斧 ''' HttpRespons ...
在 .NET 中使用 OPC UA 协议
目录什么是 OPC UA UaExpert 的使用下载 UaExpert 首次启动添加 OPC UA 服务器连接 OPC UA 服务器查看 PLC 数据使用 C# 读写 OPC UA 数据 ...
基于logisim-D触发器设计四人抢答电路
实验1:设计一个简易4人知识竞赛抢答电路,要求是: 裁判掌握一个按钮,作用是给电路复位和发出抢答开始命令;4名竞赛者各掌握一个按钮,每人对应一个指示灯,在主持人发出开始抢答命令后,哪位参赛者先按钮其对 ...
FineReport报表绕过预览直接打印
常规情况下,打印报表的一版操作是: 1.点击相关报表查询页面,展示查询结果,即即将打印的页面 2.点击打印按钮,进入浏览器的打印预览界面 3.点击打印但是某些时候我们可能会希望不需要点开某张报表即可 ...

python flashtext字符串快速替换，自然语言处理加速

python flashtext字符串快速替换，自然语言处理加速的更多相关文章

随机推荐

热门专题