使用doccano标注NER数据详细教程
使用doccano标注NER数据详细教程
说明:
- 首次发表日期:2024-10-12
- 参考资料:
部署doccano
https://github.com/doccano/doccano 有说明如何部署。比如使用Docker部署:
docker run --name doccano \
-d --restart always \
-e "ADMIN_USERNAME=admin" \
-e "ADMIN_EMAIL=admin@example.com" \
-e "ADMIN_PASSWORD=password" \
-v doccano-db:/data \
-p 8001:8000 doccano/doccano
创建用户
默认只有一个用户,我们需要打开ADMIN管理页面添加新的用户。
在主网址后加/admin/然后打开ADMIN管理页面(注意后边的斜杠是必须的),点击Add:

添加用户名和密码信息后,点击SAVE以保存:

如何进行NER标注
创建项目
默认的界面是英语的,不习惯英语的话,可以切换为中文:

然后点击登录,输入用户名和密码登录,登录之后:

点击创建,会跳转到以下页面:

点击以选择序列标注(Sequence Labeling),然后输入名称等必要信息,根据需要配置其他属性:

点击创建,跳转到以下页面:

导入数据集
单击左侧的数据集按钮:

移动鼠标到操作按钮:

点击导入数据集:

doccano支持多种格式的文本,它们的区别如下:
Textfile:上传的文件为txt格式,打标时一整个txt文件显示为一页内容;Textline:上传的文件为txt格式,打标时txt文件的一行文字显示为一页内容;JSONL:JSON Lines的简写,每行是一个有效的JSON值;CoNLL:CoNLL格式的文件,每行均带有一系列制表符分隔的单词;
上传一个TXT文件:

点击导入后:

定义标签
点击左侧的标签,然后移动鼠标到操作菜单后点击创建标签:

创建3个常见的标签,PER, LOC, ORG,实际应用中需要根据需求确定有哪些标签。以下以创建PER标签为例:

创建完后:

添加成员
点击左侧的成员按钮,然后点击增加:

选择需要添加到项目的用户和角色,其中有3种角色(项目管理员 ,标注员,审查员)。选择好后保存:

保存后可以看到:

分配标注任务
首先,选中需要分配的数据:

然后,点击操作菜单下的Assign to member:

选择分配方案,然后点击右侧的Assign按钮

以上分配方案将15%的任务分配给admin用户,85%的任务分配给user1用户。
查看分配结果:

标注
点击左侧数据集,然后选择一条数据,点击最右边的标注按钮开始标注。
举例来说,点击右侧的PER标签,然后鼠标分别选择文本中的对应文字:

标注完成后,点击文本左上角的X按钮表示已标注完成:

导出数据
点击左侧数据集按钮,移动鼠标到操作菜单,点击导出数据集:

选择JSONL格式,勾选Export only approved documents(仅导出已审核过的数据),然后点击导出:

使用doccano标注NER数据详细教程的更多相关文章
- Java读取Excel指定列的数据详细教程和注意事项
本文使用jxl.jar工具类库实现读取Excel中指定列的数据. jxl.jar是通过java操作excel表格的工具类库,是由java语言开发而成的.这套API是纯Java的,并不依赖Windows ...
- Mysql统计每年每个月的数据——详细教程
Mysql统计每年每个月的数据(前端页面统计图实现) 最终想实现的效果图,在这里就不多废话了,直接上效果图,由于测试数据有几个月是为0的,所以数据图看着会有点怪怪. 接下来是数据库的两个表,这里直接给 ...
- git详细教程
Table of Contents 1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? 1.1.2 重要的术语 1.1.3 索引 1.2 Git安装 1.3 Git配置 1.3.1 ...
- GitHub详细教程(转载)
1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? 1.1.2 重要的术语 1.1.3 索引 1.2 Git安装 1.3 Git配置 1.3.1 用户信息 1.3.2 高亮显示 1 ...
- GitHub详细教程
GitHub详细教程 Table of Contents 1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? 1.1.2 重要的术语 1.1.3 索引 1.2 Git安装 1.3 ...
- iptables详细教程:基础、架构、清空规则、追加规则、应用实例(转)
iptables防火墙可以用于创建过滤(filter)与NAT规则.所有Linux发行版都能使用iptables,因此理解如何配置iptables将会帮助你更有效地管理Linux防火墙.如果你是第一次 ...
- 【转载】GitHub详细教程
1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? Git是用C语言开发的分布版本控制系统.版本控制系统可以保留一个文件集合的历史记录,并能回滚文件集合到另一个状态(历 ...
- Gradio入门到进阶全网最详细教程[一]:快速搭建AI算法可视化部署演示(侧重项目搭建和案例分享)
Gradio入门到进阶全网最详细教程[一]:快速搭建AI算法可视化部署演示(侧重项目搭建和案例分享) 常用的两款AI可视化交互应用比较: Gradio Gradio的优势在于易用性,代码结构相比Str ...
- jQuery插件开发详细教程
这篇文章主要介绍了jQuery插件开发详细教程,将概述jQuery插件开发的基本知识,最佳做法和常见的陷阱,需要的朋友可以参考下 扩展jQuery插件和方法的作用是非常强大的,它可以节省大量开发时间. ...
- WebRTC VideoEngine超详细教程(三)——集成X264编码和ffmpeg解码
转自:http://blog.csdn.net/nonmarking/article/details/47958395 本系列目前共三篇文章,后续还会更新 WebRTC VideoEngine超详细教 ...
随机推荐
- 国产AI训练卡,对标美国NVIDIA公司的A100,华为昇腾Atlas 300T A2(Ascend 910B4)高性能GPU/NPU/AI推理/国产计算/信创训练卡 —— 电商平台已开售
China has successfully achieved the localization of AI chips, breaking through the technological res ...
- ubuntu20.04/22.04 系统环境下源码编译Python3.10
2022年10月3日更新 在Ubuntu22.04系统上源码编译python,所依赖环境的安装命令为: sudo apt install gcc g++ libffi-dev build-essent ...
- mysql数据库主从同步读写分离(二)读写分离实现
步骤: a.解压文件 b.添加如下配置文件 c.mysql-proxy.conf配置内容如下: 1 [mysql-proxy] 2 admin-username=proxy 3 admin-passw ...
- Mybatis-Plus系统化学习之环境准备与简单使用
1.背景 平时在开发中会经常用到单表的CRUD操作 其实,这些单表的CRUD,完全不需要我们写sql,可以使用mybatis-plus自动生成,不但高效而且不容用出错! 2.mybatis-plus的 ...
- 7月30日CSP-S模拟赛赛后总结
7月30日模拟赛赛后总结 \[7月30日 \ \ 模拟赛 \ \ 赛后总结 \\ 2024年7月30日 \\ by \ \ \ hcy \] 洛谷同步:点我 一.做题情况 第一题比赛 \(100pts ...
- Grafana的仪表盘URL参数设置
转载请注明出处: 在调试grafana时,需要对grafana进行share的url图表进行一些自定义设置,总结下常用的参数 参考网站:https://grafana.com/docs/grafana ...
- windows中好用的工具
windows中好用的工具和浏览器插件 一.geek卸载软件 软件介绍 geek一款非常简洁的卸载软件,并且非常强大,强大到可以清理注册表,用过的都说好. 下载地址: https://geekunin ...
- 2024九省联考 数学 T19
寒假有朋友打电话吐槽九省联考,看了眼数学卷子感觉非常刺激.刚开学没事干,试着做一下 \(19\). (\(17\) 分) 离散对数在密码学中有重要的应用.设 \(p\) 是素数,集合 \(X=\{1, ...
- [SHOI2009] 会场预约 题解
LG2161 显然: 任意时刻每个点最多被一条线段覆盖 暴力删每条线段的复杂度是对的 插入 \([l,r]\) 时需要删除的线段要么被 \([l,r]\) 包含,要么覆盖 \(l\) 或 \(r\) ...
- ArgoWorkflow教程(二)---快速构建流水线:Workflow & Template 概念
上一篇我们部署了 ArgoWorkflow,并创建了一个简单的流水线做了个 Demo.本篇主要分析 ArgoWorkflow 中流水线相关的概念,了解概念后才能更好使用 ArgoWorkflow. 本 ...