推荐使用 Label Studio

准备待标注数据

创建 raw_data.txt 待标注数据

如何预防高血压?高血压的防治高血压的防治
我是小三阳,有糖尿病,高血脂,我该怎么吃药?糖尿病患者能吃减肥药吗.
糖尿病的的危害,糖尿病怎样治疗呢
医院糖尿病肾病治疗怎么样,糖尿病如何防治?
糖尿病人能吃蜂王浆吗,高血糖可以喝蜂蜜吗
乳腺癌术后淋巴结转移怎么办,乳腺癌脾脏转移怎么办?
糖尿病肾病三期能治愈吗,糖尿病可怕些还是慢性肾炎可怕些?
吃多含糖食物会得糖尿病吗?什么人容易的糖尿病

将待标数据生成文件

generate_ann_data.py

import os

raw_data_path = './data/raw_data.txt'

save_folder = './data/biaozhushuju'
if not os.path.exists(save_folder):
os.makedirs(save_folder) with open(raw_data_path,'r',encoding='utf8') as f:
for i,line in enumerate(f.readlines()):
line = line.strip() #strip()表示删除掉数据中的换行符 # 每行数据,保存成一个文件,
with open(os.path.join(save_folder,'%s.txt' % str(10000+i)),'w',encoding='utf8') as fo:
fo.write(line)

数据标注

下载标注软件

精灵标注助手:http://www.jinglingbiaozhu.com/

创建项目

标注数据



将后面的数据全部标注

导出数据





ANN 转 BIO

ann2bio.py

import glob

def bratann_to_bio_format(text, ann_str, fstream):
# 将每一行的元素变为list,strip()删除的字符,按照split()中的符号进行每行元素分割为list的元素
ann_list = ann_str.strip().split('\n') label = ['O' for _ in range(len(text))] # 对所有的文字赋值为标签"O"
for i, line in enumerate(ann_list): # enumerate函数用于遍历序列中的元素以及它们的下标
try:
# line:T1 疾病 4 7 高血压
T, typ, word = line.strip().split('\t')
t, s, e = typ.split() # 分别t=疾病 s=起始位置下标 e=结束位置
s, e = int(s), int(e)
label[s] = 'B-' + t
while s < e - 1:
s += 1
label[s] = 'I-' + t
except:
continue for t, l in zip(list(text), label): # list() 构造函数在 Python 中返回一个列表,将文本以字切分为列表
# str.join(item1,itemm2),join函数是一个字符串操作函数,使用str符号将item1和item2串联起来
line = ' '.join([t, l]) # 使用空格连接文字和BIO标注,如果需要 tab形式间隔,可以换成 \t
print(line)
fstream.write(line)
fstream.write('\n') # 每一个文本(一行)写完,然后进行换行
fstream.write('\n') # 使用换行符,将每一个文本用一个空行分开,在train.txt文档中可以很清晰的看到句与句的切分 def gen_ner_training_data():
# 设置标注文件所在文件夹目录
root_dir = './data/outputs'
# 设置训练样本输出文件路径
stream = open('./data/train.txt', 'a+', encoding='utf8')
# ann:E:\工作空间\NER-data-process\data\biaozhushuju\outputs\10000.ann
# txt:E:\工作空间\NER-data-process\data\biaozhushuju\10000.txt
file_list = glob.glob(root_dir + '/*.ann') # glob.glob() 函数的作用:在一个文件中,要遍历所有的文件内容 for ann_path in file_list:
# 转换路径:转换前:'./data/outputs\\10000.ann'
# 转换为:'./data/outputs/10000.ann'
ann_path = ann_path.replace('\\', '/')
# 获得txt路径
txt_path = ann_path.replace('/outputs', '').replace('ann', 'txt') # 然后使用txt替换掉ann try:
ft = open(txt_path, 'r', encoding='utf8')
text = ft.read().strip()
ft.close()
fa = open(ann_path, 'r', encoding='utf8')
ann = fa.read().strip()
fa.close()
if ann == '':
continue
bratann_to_bio_format(text, ann, stream)
except Exception as e:
print(ann_path, e) stream.close() if __name__ == '__main__':
gen_ner_training_data()

通过上面代码,将 精灵标注助手 标的 ann 文件转在 NLP 算法需要的 BIO 形式

来源:https://www.bilibili.com/video/BV1ft4y1g7s7/?spm_id_from=333.337.search-card.all.click

标注BIO-精灵标注助手的更多相关文章

  1. 使用 GMap.NET 实现添加标注、移动标注功能。(WPF版)

    前言 在WPF嵌入地图,有两种方式: 浏览器方式:控件方式. 1)浏览器方式就是使用浏览器控件WebBrowser,设置好网址就行了.这种方式与地图的交互不太直接,需要懂html.javascript ...

  2. 百度地图api,点击标注,改变标注marker图标的链接地址

    改变选中的图标样式 // 选中高亮标注图片 let mapIcon = ‘./icon.png’; //标注点 let markerArrs = [{},{},....]; // 点击标注点 mark ...

  3. 百度地图Api进阶教程-创建标注和自定义标注3.html

    <!DOCTYPE html> <html> <head> <meta name="viewport" content="ini ...

  4. 深度学习标注工具 LabelMe 的使用教程(Windows 版本)

    深度学习标注工具 LabelMe 的使用教程(Windows 版本) 2018-11-21 20:12:53 精灵标注助手:http://www.jinglingbiaozhu.com/ LabelM ...

  5. AI-数据标注类型

        随着数据的暴增和计算机硬件技术的发展,也催生了AI技术在各行各业的应用渗透.而想将AI技术应用到各行各业,数据是必需品.因为数据直接影响到AI最终训练出来的模型好坏.AI建模没有太大门槛,但数 ...

  6. 序列标注(HMM/CRF)

    目录 简介 隐马尔可夫模型(HMM) 条件随机场(CRF) 马尔可夫随机场 条件随机场 条件随机场的特征函数 CRF与HMM的对比 维特比算法(Viterbi) 简介 序列标注(Sequence Ta ...

  7. ArcMap 标注、注记、图形文本

    标注.注记.图形文本 2016年8月10日10:29 ArcMap中怎样向地图添加文本,其中标注与注记是重点内容,此处对此进行总结. 参考链接: ①地图文本基本词汇: 什么是文本? ArcGIS 提供 ...

  8. 百度地图Api详解之地图标注

    标注概述 标注(Marker)是用来表示一个点位置的可见元素,每个标注自身都包含地理信息.比如你在西单商场位置添加了一个标注,不论地图移动.缩放,标注都会跟随一起移动,保证其始终指向正确的地理位置. ...

  9. 【 D3.js 高级系列 — 7.0 】 标注地点

    有时需要告诉用户地图上的一些目标,如果该目标是只需要一个坐标就能表示的,称其为"标注". 1. 标注是什么 标注,是指地图上只需要一个坐标即可表示的元素.例如,在经纬度(116, ...

  10. 【百度地图API】建立全国银行位置查询系统(三)——如何在地图上添加银行标注

    原文:[百度地图API]建立全国银行位置查询系统(三)--如何在地图上添加银行标注 <摘要>你将在第三章中学会以下知识: 如何在地图上添加带银行logo的标注?(你也可以换成商场logo, ...

随机推荐

  1. 什么是PIO

    PIO,最早是我在raspberry pi pico的介绍中偶然看到的一个新词 转载来在[https://zhuanlan.zhihu.com/p/347948344] 关于PIO的介绍如下: MCU ...

  2. (Good topic)圆圈中最后剩下的数字(leetcode 3.30每日打卡)

    著名的约瑟夫问题: 0,1,,n-1这n个数字排成一个圆圈,从数字0开始,每次从这个圆圈里删除第m个数字.求出这个圆圈里剩下的最后一个数字. 例如,0.1.2.3.4这5个数字组成一个圆圈,从数字0开 ...

  3. MySQL-防止误删除的方案就是删除,看不见岂不就是删除了吗,所以就是把它隐藏起来。

    版权声明:原创作品,谢绝转载!否则将追究法律责任. ----- 作者:kirin 伪删除: 用update替代delete 1.添加状态列 ALTER TABLE student2 ADD state ...

  4. windows server 2019 2012 server 2022 无线网卡驱动安装报错,无线网卡驱动不能安装, inf服务安装段落无效

    windows server 2019 无线网络 服务安装段落无效 windows server 2019 无线网卡驱动安装报错,无线网卡驱动不能安装, inf服务安装段落无效 indows serv ...

  5. 详细一些的vue生命周期

    如果你和我一样,以前对vue生命周期的理解仅限于生命周期钩子,那么本文可以让我们更深入一层,理解vue在生命周期各个阶段所做的事,对我们对vue的理解和使用很有好处. (1)通过new Vue()创建 ...

  6. STM32外设:串行通信 USART、I2C、SPI

    USART:Universal Synchronous Asynchronous Receiver Transmitter 通用同步异步接收发送器 UART:异步中断 主要功能:接收指定长度的帧 数据 ...

  7. MySQL笔记01: MySQL入门_1.2 MySQL下载安装与配置

    2.2 MySQL下载安装与配置 2.2.1 MySQL下载 MySQL中文官网:https://www.mysql.com/cn/ MySQL英文官网:https://www.mysql.com/ ...

  8. [ABC278G] Generalized Subtraction Game

    Problem Statement This is an interactive task (where your program interacts with the judge's program ...

  9. 文心一言 VS 讯飞星火 VS chatgpt (161)-- 算法导论13.1 1题

    一.用go语言,按照图 13-1(a)的方式,画出在关键字集合(1,2,-,15)上高度为 3 的完全二叉搜索树.以三种不同方式向图中加入 NIL 叶结点并对各结点着色,使所得的红黑树的黑高分别为2. ...

  10. django+drf开发一些个人的标准化

    最近在改造一下个人的开发风格.特分享一下. 子应用我一般放在apps中,每个不同模块的子应用起不同的名字.startapp后自己移动一下,记得修改一下Appconfig中的name即可. 子应用中创建 ...