使用doccano标注NER数据详细教程

说明:

部署doccano

https://github.com/doccano/doccano 有说明如何部署。比如使用Docker部署:

docker run --name doccano \
-d --restart always \
-e "ADMIN_USERNAME=admin" \
-e "ADMIN_EMAIL=admin@example.com" \
-e "ADMIN_PASSWORD=password" \
-v doccano-db:/data \
-p 8001:8000 doccano/doccano

创建用户

默认只有一个用户,我们需要打开ADMIN管理页面添加新的用户。

在主网址后加/admin/然后打开ADMIN管理页面(注意后边的斜杠是必须的),点击Add

添加用户名和密码信息后,点击SAVE以保存:

如何进行NER标注

创建项目

默认的界面是英语的,不习惯英语的话,可以切换为中文:

然后点击登录,输入用户名和密码登录,登录之后:

点击创建,会跳转到以下页面:

点击以选择序列标注(Sequence Labeling),然后输入名称等必要信息,根据需要配置其他属性:

点击创建,跳转到以下页面:

导入数据集

单击左侧的数据集按钮:

移动鼠标到操作按钮:

点击导入数据集:

doccano支持多种格式的文本,它们的区别如下:

  • Textfile:上传的文件为txt格式,打标时一整个txt文件显示为一页内容;
  • Textline:上传的文件为txt格式,打标时txt文件的一行文字显示为一页内容;
  • JSONLJSON Lines的简写,每行是一个有效的JSON值;
  • CoNLLCoNLL格式的文件,每行均带有一系列制表符分隔的单词;

上传一个TXT文件:

点击导入后:

定义标签

点击左侧的标签,然后移动鼠标到操作菜单后点击创建标签

创建3个常见的标签,PER, LOC, ORG,实际应用中需要根据需求确定有哪些标签。以下以创建PER标签为例:

创建完后:

添加成员

点击左侧的成员按钮,然后点击增加

选择需要添加到项目的用户和角色,其中有3种角色(项目管理员 ,标注员,审查员)。选择好后保存:

保存后可以看到:

分配标注任务

首先,选中需要分配的数据:

然后,点击操作菜单下的Assign to member

选择分配方案,然后点击右侧的Assign按钮

以上分配方案将15%的任务分配给admin用户,85%的任务分配给user1用户。

查看分配结果:

标注

点击左侧数据集,然后选择一条数据,点击最右边的标注按钮开始标注。

举例来说,点击右侧的PER标签,然后鼠标分别选择文本中的对应文字:

标注完成后,点击文本左上角的X按钮表示已标注完成:

导出数据

点击左侧数据集按钮,移动鼠标到操作菜单,点击导出数据集

选择JSONL格式,勾选Export only approved documents(仅导出已审核过的数据),然后点击导出:

使用doccano标注NER数据详细教程的更多相关文章

  1. Java读取Excel指定列的数据详细教程和注意事项

    本文使用jxl.jar工具类库实现读取Excel中指定列的数据. jxl.jar是通过java操作excel表格的工具类库,是由java语言开发而成的.这套API是纯Java的,并不依赖Windows ...

  2. Mysql统计每年每个月的数据——详细教程

    Mysql统计每年每个月的数据(前端页面统计图实现) 最终想实现的效果图,在这里就不多废话了,直接上效果图,由于测试数据有几个月是为0的,所以数据图看着会有点怪怪. 接下来是数据库的两个表,这里直接给 ...

  3. git详细教程

    Table of Contents 1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? 1.1.2 重要的术语 1.1.3 索引 1.2 Git安装 1.3 Git配置 1.3.1 ...

  4. GitHub详细教程(转载)

    1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? 1.1.2 重要的术语 1.1.3 索引 1.2 Git安装 1.3 Git配置 1.3.1 用户信息 1.3.2 高亮显示 1 ...

  5. GitHub详细教程

    GitHub详细教程 Table of Contents 1 Git详细教程 1.1 Git简介 1.1.1 Git是何方神圣? 1.1.2 重要的术语 1.1.3 索引 1.2 Git安装 1.3 ...

  6. iptables详细教程:基础、架构、清空规则、追加规则、应用实例(转)

    iptables防火墙可以用于创建过滤(filter)与NAT规则.所有Linux发行版都能使用iptables,因此理解如何配置iptables将会帮助你更有效地管理Linux防火墙.如果你是第一次 ...

  7. 【转载】GitHub详细教程

    1 Git详细教程   1.1 Git简介   1.1.1 Git是何方神圣?   Git是用C语言开发的分布版本控制系统.版本控制系统可以保留一个文件集合的历史记录,并能回滚文件集合到另一个状态(历 ...

  8. Gradio入门到进阶全网最详细教程[一]:快速搭建AI算法可视化部署演示(侧重项目搭建和案例分享)

    Gradio入门到进阶全网最详细教程[一]:快速搭建AI算法可视化部署演示(侧重项目搭建和案例分享) 常用的两款AI可视化交互应用比较: Gradio Gradio的优势在于易用性,代码结构相比Str ...

  9. jQuery插件开发详细教程

    这篇文章主要介绍了jQuery插件开发详细教程,将概述jQuery插件开发的基本知识,最佳做法和常见的陷阱,需要的朋友可以参考下 扩展jQuery插件和方法的作用是非常强大的,它可以节省大量开发时间. ...

  10. WebRTC VideoEngine超详细教程(三)——集成X264编码和ffmpeg解码

    转自:http://blog.csdn.net/nonmarking/article/details/47958395 本系列目前共三篇文章,后续还会更新 WebRTC VideoEngine超详细教 ...

随机推荐

  1. 【Linux】Re03

    一.软连接 语法用法 ln -s 源文件或者目录位置 链接名称 [root@localhost ~]# mkdir -p aa/bb/cc/dd [root@localhost ~]# ln -s a ...

  2. 位段 -- 内存布局详解C语言

    目录 位段的介绍 位段使用示例: 位段的内存分配 Example 内存分配解析: ## 位段 位段的介绍 位段(二进制位):就是按位存储 位段(bit-field)是C语言中的一种特殊数据类型,它允许 ...

  3. 【转载】 linux中umask命令介绍

    版权声明:本文为CSDN博主「立二拆四i」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明.原文链接:https://blog.csdn.net/weixin_4408 ...

  4. PHP 红包功能代码

    前段时间被问这个问题,最近有空就写写啦,还是挺有趣的 首先做下抢红包方法分类: 对于发红包的人来说,一共有大致3类(其他的我暂时没想到,有想到可以联系我呀~) 一.拼手气红包个数不定(完全看运气) 二 ...

  5. 从论文到图谱,或许只差一个html

    书接上回,在文章<论文图谱当如是:Awesome-Graphs用200篇图系统论文打个样>中,我向大家讲述了如何用图的方式思考图计算系统的演进历史,并在后续的系列文中结合Awesome-G ...

  6. NCP1207A笔记

    uc3844d8 NCP1207A实现一个标准的电流模式结构,关断时间由峰值电流设置决定:铁芯复位检测则触发开启事件. 变压器铁芯检测:无论什么操作都会保证临界操作.因此,几乎没有一次开关接通损耗和二 ...

  7. linux中级——libcurl库访问百度

    libcurl简介: libcurl是一个跨平台的网络协议库,支持http, https, ftp, gopher, telnet, dict, file, 和ldap 协议.libcurl同样支持H ...

  8. Linux C基础——” Makefile “ 文件管理大师你拜访过嘛?

    Make简介: 工程管理器,顾名思义,是指管理较多的文件 Make工程管理器也就是个"自动编译管理器",这里的"自动"是指它能够根据文件时间戳自动发现更新过的文 ...

  9. 9k star 监控系统,100% 国产,推荐了解

    前言 监控系统的重要性不言而喻,国内用的最多的应该是 Zabbix 和 Prometheus,其优缺点: Zabbix 是资产管理式,监控数据存在数据库中,擅长设备监控,不擅长微服务和云原生环境的监控 ...

  10. LuCI Themes

    Bootstrap Bootstrap Light Bootstrap Light 就是 Bootstrap Bootstrap Dark Material OpenWrt OpenWrt 2020