python 利用已有Ner模型进行数据清洗合并

# -*- coding: utf-8 -*-

from kashgari.corpus import DataReader

import re

from tqdm import tqdm

def cut_text(text, lenth):

    textArr = re.findall('.{' + str(lenth) + '}', text)

    textArr.append(text[(len(textArr) * lenth):])

    return textArr

def clean_data(source_file, target_file, ner_model):

    data_x, data_y = DataReader().read_conll_format_file(source_file)

    with tqdm(total=len(data_x)) as pbar:

        for idx, text_array in enumerate(data_x):

            if len(text_array) <= 100:

                ners = ner_model.predict([text_array])

                ner = ners[0]

            else:

                texts = cut_text(''.join(text_array), 100)

                ners = []

                for text in texts:

                    ner = ner_model.predict([[char for char in text]])

                    ners = ners + ner[0]

                ner = ners

            # print('[-----------------------', idx, len(data_x))

            # print(data_y[idx])

            # print(ner)

            for jdx, t in enumerate(text_array):

                if ner[jdx].startswith('B') or ner[jdx].startswith('I') :

                    if data_y[idx][jdx] == 'O':

                        data_y[idx][jdx] = ner[jdx]

            # print(data_y[idx])

            # print('-----------------------]')

            pbar.update(1)

    f = open(target_file, 'a', encoding="utf-8")

    for idx, text_array in enumerate(data_x):

        if idx != 0:

            f.writelines(['\n'])

        for jdx, t in enumerate(text_array):

            text = t + ' ' + data_y[idx][jdx]

            if idx == 0 and jdx == 0:

                text = text

            else:

                text = '\n' + text

            f.writelines([text])   

    f.close()   

    data_x2, data_y2 = DataReader().read_conll_format_file(source_file)

    print(data_x == data_x2, len(data_y) == len(data_y2), '数据清洗完成')

# -*- coding: utf-8 -*-

import kashgari

from data_tools import clean_data

time_ner = kashgari.utils.load_model('time_ner.h5')

clean_data('./data/example.dev', 'example.dev', time_ner)

python 利用已有Ner模型进行数据清洗合并的更多相关文章

基于Python的信用评分卡模型分析（二）
上一篇文章基于Python的信用评分卡模型分析(一)已经介绍了信用评分卡模型的数据预处理.探索性数据分析.变量分箱和变量选择等.接下来我们将继续讨论信用评分卡的模型实现和分析,信用评分的方法和自动评分 ...
NLP（十七）利用tensorflow-serving部署kashgari模型
在文章NLP(十五)让模型来告诉你文本中的时间中,我们已经学会了如何利用kashgari模块来完成序列标注模型的训练与预测,在本文中,我们将会了解如何tensorflow-serving来部署模型 ...
[Python] 利用Django进行Web开发系列（二）
1 编写第一个静态页面——Hello world页面在上一篇博客<[Python] 利用Django进行Web开发系列(一)>中,我们创建了自己的目录mysite. Step1:创建视图 ...
python利用Trie(前缀树)实现搜索引擎中关键字输入提示（学习Hash Trie和Double-array Trie）
python利用Trie(前缀树)实现搜索引擎中关键字输入提示(学习Hash Trie和Double-array Trie) 主要包括两部分内容:(1)利用python中的dict实现Trie:(2) ...
利用tensorboard可视化checkpoint模型文件参数分布
写在前面: 上周微调一个文本检测模型seglink,将特征提取层进行冻结,只训练分类回归层,然而查看tensorboard发现里面有histogram显示模型各个参数分布,看了目前这个训练模型参数分布 ...
python利用or在列表解析中调用多个函数.py
python利用or在列表解析中调用多个函数.py """ python利用or在列表解析中调用多个函数.py 2016年3月15日 05:08:42 codegay & ...
python 利用 ogr 写入shp文件，数据格式
python 利用 ogr 写入 shp 文件, 定义shp文件中的属性字段(field)的数据格式为: OFTInteger # 整型 OFTIntegerList # 整型list OFTReal ...
Python利用pandas处理Excel数据的应用
Python利用pandas处理Excel数据的应用最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做 ...
python 利用 setup.py 手动安装第三方类库
python 利用 setup.py 手动安装第三方类库由于我在mac使用时,装了python3,默认有python2的环境,使用 pip 安装第三方类库时,老是安装到 python2的环境上: 在 ...

随机推荐

python 构建自己的log系统
python的logging模块提供了记录程序运行情况的日志功能,类似于Apache的log4j,很好很强大,这里我们就来看一下Python中内置的日志模块logging用法详解 logging模块简 ...
mysql知识点汇集
1.将两个表字段类型一致的数据合并到一个新表的命令. INSERT into new_table(user_name,password,age) SELECT user_name,password,a ...
整型，长整型，无符号整型等大端和小端（Big endian and Little endian）
一.大端和小端的问题对于整型.长整型.无符号整型等数据类型,Big endian 认为第一个字节是最高位字节(按照从低地址到高地址的顺序存放数据的高位字节到低位字节):而 Little endian ...
Prism框架如何在主程序中合理的弹出子窗体
说起子窗体,大家都会想到ChildWindow,多熟悉的一个控件.不错,Sliverlight中已经提供了子窗体的具体实现,而在WPF中却没有这么好的事情(有的第三方控件商已经提供此控件).最常见的实 ...
【汇总】数据库提权（mysql、mssql）
日期:2018-04-03 11:46:45 作者:Bay0net 介绍:利用 mssql 的 sa 账号提权.利用 MySQL 的 UDF 提权 0x01.mssql 提权恢复 xp_cmdshe ...
12@365 java上传文件（word、图片等）至服务器
这种方法是servlet,编写好在web.xml里配置servlet-class和servlet-mapping即可使用后台(服务端)java服务代码:(上传至ROOT/lqxcPics文件夹下) ...
golang(09) golang 接口内部实现
原文链接 http://www.limerence2017.com/2019/09/24/golang14/#more 前文介绍过golang interface用法,本文详细剖析interface内 ...
【ABAP系列】SAP ABAP 带有参数的AMDP的创建
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[ABAP系列]SAP ABAP 带有参数的AM ...
在vue中后台返回的文本包含标签时候解析为html代码
1.数据格式: str=‘<p>11111</p>' 解析方式一: <p v-html="str">{{str}}</p> 解析方式 ...
python基础之字典dict
不可变数据类型:tuple.bool.int.str --可哈希类型可变数据类型:list.dict.set --不可哈希类型dict-key 必须是不可变数据类型,可哈希dict-value 任意数 ...

python 利用已有Ner模型进行数据清洗合并

python 利用已有Ner模型进行数据清洗合并的更多相关文章

随机推荐

热门专题