文档抽取任务Label Studio使用指南

1. 安装

以下标注示例用到的环境配置：

Python 3.8+
label-studio == 1.7.1
paddleocr >= 2.6.0.1

在终端(terminal)使用pip安装label-studio：

pip install label-studio==1.7.1

安装完成后，运行以下命令行：

label-studio start

在浏览器打开http://localhost:8080/，输入用户名和密码登录，开始使用label-studio进行标注。

2. 文档抽取任务标注

2.1 项目创建

点击创建（Create）开始创建一个新的项目，填写项目名称、描述，然后选择Object Detection with Bounding Boxes。

填写项目名称、描述

命名实体识别、关系抽取、事件抽取、实体/评价维度分类任务选择Object Detection with Bounding Boxes`

文档分类任务选择Image Classification`
添加标签(也可跳过后续在Setting/Labeling Interface中添加)

图中展示了Span实体类型标签的构建，其他类型标签的构建可参考2.3标签构建

2.2 数据上传

先从本地或HTTP链接上传图片，然后选择导入本项目。

2.3 标签构建

Span实体类型标签

Relation关系类型标签

Relation XML模板：

  <Relations>

    <Relation value="单位"/>

    <Relation value="数量"/>

    <Relation value="金额"/>

  </Relations>

分类类别标签

2.4 任务标注

实体抽取
标注示例：

该标注示例对应的schema为：

schema = ['开票日期', '名称', '纳税人识别号', '地址、电话', '开户行及账号', '金   额', '税额', '价税合计', 'No', '税率']

关系抽取
Step 1. 标注主体（Subject）及客体（Object）

Step 2. 关系连线，箭头方向由主体（Subject）指向客体（Object）

Step 3. 添加对应关系类型标签

Step 4. 完成标注

该标注示例对应的schema为：

schema = {

    '名称及规格': [

        '金额',

        '单位',

        '数量'

    ]

}

文档分类
标注示例

该标注示例对应的schema为：

schema = '文档类别[发票，报关单]'

2.5 数据导出

勾选已标注图片ID，选择导出的文件类型为JSON，导出数据：

2.6 数据转换

将导出的文件重命名为label_studio.json后，放入./document/data目录下，并将对应的标注图片放入./document/data/images目录下（图片的文件名需与上传到label studio时的命名一致）。通过label_studio.py脚本可转为UIE的数据格式。

路径示例

./document/data/

├── images # 图片目录

│   ├── b0.jpg # 原始图片（文件名需与上传到label studio时的命名一致）

│   └── b1.jpg

└── label_studio.json # 从label studio导出的标注文件

抽取式任务

python label_studio.py \

    --label_studio_file ./document/data/label_studio.json \

    --save_dir ./document/data \

    --splits 0.8 0.1 0.1\

    --task_type ext

文档分类任务

python label_studio.py \

    --label_studio_file ./document/data/label_studio.json \

    --save_dir ./document/data \

    --splits 0.8 0.1 0.1 \

    --task_type cls \

    --prompt_prefix "文档类别" \

    --options "发票" "报关单"

2.7 更多配置

label_studio_file: 从label studio导出的数据标注文件。
save_dir: 训练数据的保存目录，默认存储在data目录下。
negative_ratio: 最大负例比例，该参数只对抽取类型任务有效，适当构造负例可提升模型效果。负例数量和实际的标签数量有关，最大负例数量 = negative_ratio * 正例数量。该参数只对训练集有效，默认为5。为了保证评估指标的准确性，验证集和测试集默认构造全负例。
splits: 划分数据集时训练集、验证集所占的比例。默认为0.8, 0.1, 0.1表示按照8:1:1的比例将数据划分为训练集、验证集和测试集。
task_type: 选择任务类型，可选有抽取和分类两种类型的任务。
options: 指定分类任务的类别标签，该参数只对分类类型任务有效。默认为"正向", "负向"。
prompt_prefix: 声明分类任务的prompt前缀信息，该参数只对分类类型任务有效。默认为"情感倾向"。
is_shuffle: 是否对数据集进行随机打散，默认为True。
seed: 随机种子，默认为1000.
separator: 实体类别/评价维度与分类标签的分隔符，该参数只对实体/评价维度分类任务有效。默认为"##"。
schema_lang：选择schema的语言，将会应该训练数据prompt的构造方式，可选有ch和en。默认为ch。
ocr_lang：选择OCR的语言，可选有ch和en。默认为ch。
layout_analysis：是否使用PPStructure对文档进行布局分析，该参数只对文档类型标注任务有效。默认为False。

备注：

默认情况下 label_studio.py 脚本会按照比例将数据划分为 train/dev/test 数据集
每次执行 label_studio.py 脚本，将会覆盖已有的同名数据文件
在模型训练阶段我们推荐构造一些负例以提升模型效果，在数据转换阶段我们内置了这一功能。可通过negative_ratio控制自动构造的负样本比例；负样本数量 = negative_ratio * 正样本数量。
对于从label_studio导出的文件，默认文件中的每条数据都是经过人工正确标注的。

References

Label Studio

2.基于Label studio的训练数据标注指南：（智能文档）文档抽取任务、PDF、表格、图片抽取标注等的更多相关文章

3.基于Label studio的训练数据标注指南：文本分类任务
文本分类任务Label Studio使用指南 1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取).文本分类等 2.基于Label studio的训练数据标注指南:(智能文档) ...
基于Label studio实现UIE信息抽取智能标注方案，提升标注效率！
基于Label studio实现UIE信息抽取智能标注方案,提升标注效率! 项目链接见文末人工标注的缺点主要有以下几点: 产能低:人工标注需要大量的人力物力投入,且标注速度慢,产能低,无法满足大规模 ...
label studio 结合 MMDetection 实现数据集自动标记、模型迭代训练的闭环
前言一个 AI 方向的朋友因为标数据集发了篇 SCI 论文,看着他标了两个多月的数据集这么辛苦,就想着人工智能都能站在围棋巅峰了,难道不能动动小手为自己标数据吗?查了一下还真有一些能够满足此需求的框 ...
基于MaxCompute的数仓数据质量管理
声明本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路——阿里巴巴大数据实践>——阿里巴巴数据技术及产品部著. 背景及目的数据对一个企业来说已 ...
谷歌BERT预训练源码解析（一）：训练数据生成
目录预训练源码结构简介输入输出源码解析参数主函数创建训练实例下一句预测&实例生成随机遮蔽输出结果一览预训练源码结构简介关于BERT,简单来说,它是一个基于Transformer架构,结合遮蔽词 ...
[入门级] 基于 visual studio 2010 mvc4 的图书管理系统开发初步（二）
[入门级] 基于 visual studio 2010 mvc4 的图书管理系统开发初步 (二) Date 周六 10 一月 2015 By 钟谢伟 Category website develop ...
代码备份：处理　SUN397 的代码，将其分为　80% 训练数据　以及　20% 的测试数据
处理SUN397 的代码,将其分为80% 训练数据以及20% 的测试数据 2016-07-27 1 %% Code for Process SUN397 Scene Classification 2 ...
一款基于jQuery的图片场景标注提示弹窗特效
今天给大家分享一款基于jQuery的图片场景标注提示弹窗特效,这款实例适合在图片上标注某个物件,单击弹出详情说明,兼容360.FireFox.Chrome.Safari.Opera.傲游.搜狗.世界之 ...
tesnorflow实现N个epoch训练数据读取的办法
https://blog.csdn.net/lujiandong1/article/details/53991373 方式一:不显示设置读取N个epoch的数据,而是使用循环,每次从训练的文件中随机读 ...
tensorflow读取训练数据方法
1. 预加载数据 Preloaded data # coding: utf-8 import tensorflow as tf # 设计Graph x1 = tf.constant([2, 3, 4] ...

随机推荐

vim-修改键盘Tab键为四个空格
在 /etc/vimrc 文件后添加一行 set ts=4
PS 项目报工与取消
1.项目报工 1.1.CN25 1.2.BAPI:BAPI_NETWORK_CONF_ADD "-----------------------------@斌将军-------------- ...
CPP-移动语义
"Move semantics allows us to optimize the copying of objects, where we no longer need the value ...
<vue 路由 1、路由的基本使用>
一. 项目创建参考如下博客地址创建一个vue的项目 https://www.cnblogs.com/yclh/p/15356171.html vue学习笔记二.环境搭建+项目创建二. ...
【Qt】开源一键代码开光神器，一行代码给你的项目施加祝福，减少Bug
年底啦,没什么项目,想摸鱼划水没见到什么好玩的东西,看到有人分享这个,直接做个库来玩下,之后说不定会嵌到公司的项目里面去.... 效果如下,佛光普照! 输入也只需要一行命令 magic_spells: ...
citespace 文献计量工具初探
先放几个教程: 知乎 - CiteSpace 使用教程 - 312 赞同知乎 - CiteSpace 入门教程 - 949 赞同简书 - 研究方法 | 用 CiteSpace 进行科学文献可视化分 ...
Nacos源码 (2) 核心模块
整体架构服务管理:实现服务CRUD,域名CRUD,服务健康状态检查,服务权重管理等功能配置管理:实现配置管CRUD,版本管理,灰度管理,监听管理,推送轨迹,聚合数据等功能元数据管理:提供元数据C ...
274. H 指数
1.题目介绍给你一个整数数组 citations ,其中 citations[i] 表示研究者的第 i 篇论文被引用的次数.计算并返回该研究者的 h 指数. 根据维基百科上 h 指数的定义:h 代表 ...
云服务器搭建自己的GitServer！
云服务器搭建自己的GitServer! 如果你有一台云服务器并想在上面搭建自己的 Git 服务器,你可以使用 Git 自带的 git-shell ,也可以使用像 Gitea.GitLab.Gogs 这 ...
Go-数组-实现队列
package main import ( "errors" "fmt" ) // 队列 // 特征: // 1. 按照元素的添加顺序排序,并且容量固定 // ...

2.基于Label studio的训练数据标注指南：（智能文档）文档抽取任务、PDF、表格、图片抽取标注等