情感分析任务Label Studio使用指南

1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等

2.基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等

3.基于Label studio的训练数据标注指南:文本分类任务

4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取

目录

1. label-studio 安装

本内容在以下环境进行测试安装:

  • python == 3.9.12
  • label-studio == 1.6.0

在终端(terminal)使用pip安装label-studio:

pip install label-studio==1.6.0

安装完成后,运行以下命令行:

label-studio start

在浏览器打开http://localhost:8080/,输入用户名和密码登录,开始使用label-studio进行标注。

2. label-studio 项目创建

创建项目之前,需要先确定标注的任务类型以及需要标注哪些内容,然后点击创建(Create)开始创建一个新的项目,填写项目名称、描述。

如果数据已经准备好,可以在此进行导入数据。

接下来,根据需要标注的任务类型,选择适合的任务。在本项目中,默认会包含两种类型的任务:语句级情感分类任务和属性级情感分析任务。由于这两者都属于自然语言处理(NLP)任务,因此可以点击 Natural Language Processing 选项,在该选项下面进行选择相应的子项任务。

  • 如果标注语句级情感分类任务,请选择Text Classification

  • 如果标注属性级情感分析任务,比如属性-观点词-情感极性三元组的信息抽取,请选择Relation Extraction

最后点击保存即可。

3. 情感分析任务标注

3.1 语句级情感分类任务

这里对应的任务类型为Text Classification,在标注之前,需要设定正向负向的标签,然后保存即可。

设定好标签后,即可开始进行标注,选择正向或负向,最后点击提交,便标注好一条数据。

3.2 属性级情感分析任务

在本项目中,属性级的情感分析需要配置的标注任务类型为Relation Extraction,包括属性抽取、观点抽取、属性-观点抽取、属性-情感极性抽取、属性-情感极性-观点词三元组抽取等任务。其中属性-情感极-观点词(A-S-O)三元组抽取是最常见的任务之一,下面优先讲解该任务的标注规则。

3.2.1 属性-情感极性-观点词抽取

属性-情感极性-观点词(A-S-O)三元组抽取标注内容涉及两类标签:Span 类型标签和 Relation 类型标签。其中Span标签用于定位文本批评中属性、观点词和情感极性三类信息,Relation类型标签用于设置评价维度和观点词、情感倾向之间的关系。

(1)Span类型标签

这里需要定位属性、情感极性、观点词三类信息,在标注时,需要将属性和情感极性进行组合,形成复合标签。具体来讲,设定评价维度##正向用于定位情感倾向为正向的属性,评价维度##负向用于定位情感倾向为负向的属性。另外,利用标注标签观点词定位语句中的观点词。

(2)Relation类型标签

这里只涉及到1中Relation类型标签,即评价维度观点词的映射关系。这里可以设置一下两者关系的名称,即点击Code,然后配置关系名称(这里将两者关系设置为观点词),最后点击保存即可。

在设置好Span类型和Relation标签之后,便可以开始进行标注数据了。

3.2.2 属性-情感极性抽取

如3.2.1所述,本项目中针对属性-情感极性(A-S)抽取任务,采用Span的形式进行标注。设定评价维度##正向用于定位情感倾向为正向的属性,评价维度##负向用于定位情感倾向为负向的属性。下图展示了关于属性-情感极性抽取任务的标注示例。

3.2.3 属性-观点词抽取

针对属性-观点词(A-O)抽取任务,采用Relation的形式进行标注。这需要将属性对应标注标签设定为评价维度,观点词设定为观点词。下图展示了关于属性-观点词抽取任务的标注示例。

3.2.4 属性抽取

针对属性(A)抽取任务,采用Span的形式进行标注。 这需要将属性对应的标注标签设定为评价维度。下图展示了关于属性抽取任务的标注示例。

3.2.4 观点词抽取

针对观点词(O)抽取任务,采用Span的形式进行标注。 这需要将观点词对应的标注标签设定为观点词。下图展示了关于观点词抽取任务的标注示例。

4. 导出标注数据

勾选已标注文本ID,点击Export按钮,选择导出的文件类型为JSON,导出数据:

5. References

4.基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取的更多相关文章

  1. 3.基于Label studio的训练数据标注指南:文本分类任务

    文本分类任务Label Studio使用指南 1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取).文本分类等 2.基于Label studio的训练数据标注指南:(智能文档) ...

  2. 基于Label studio实现UIE信息抽取智能标注方案,提升标注效率!

    基于Label studio实现UIE信息抽取智能标注方案,提升标注效率! 项目链接见文末 人工标注的缺点主要有以下几点: 产能低:人工标注需要大量的人力物力投入,且标注速度慢,产能低,无法满足大规模 ...

  3. kesci---2019大数据挑战赛预选赛---情感分析

    一.预选赛题------文本情感分类模型 本预选赛要求选手建立文本情感分类模型,选手用训练好的模型对测试集中的文本情感进行预测,判断其情感为「Negative」或者「Positive」.所提交的结果按 ...

  4. 零样本文本分类应用:基于UTC的医疗意图多分类,打通数据标注-模型训练-模型调优-预测部署全流程。

    零样本文本分类应用:基于UTC的医疗意图多分类,打通数据标注-模型训练-模型调优-预测部署全流程. 1.通用文本分类技术UTC介绍 本项目提供基于通用文本分类 UTC(Universal Text C ...

  5. label studio 结合 MMDetection 实现数据集自动标记、模型迭代训练的闭环

    前言 一个 AI 方向的朋友因为标数据集发了篇 SCI 论文,看着他标了两个多月的数据集这么辛苦,就想着人工智能都能站在围棋巅峰了,难道不能动动小手为自己标数据吗?查了一下还真有一些能够满足此需求的框 ...

  6. 谷歌BERT预训练源码解析(一):训练数据生成

    目录预训练源码结构简介输入输出源码解析参数主函数创建训练实例下一句预测&实例生成随机遮蔽输出结果一览预训练源码结构简介关于BERT,简单来说,它是一个基于Transformer架构,结合遮蔽词 ...

  7. 曼孚科技:数据标注,AI背后的百亿市场

    ​ 1. 两年前,来自山东农村的王磊成为了一位数据标注员.彼时的他,工作内容非常简单且枯燥:识别图片中人的性别. 然而,一段时间之后,他注意到分配给他的任务开始变得越来越复杂:从识别性别到年龄,从框选 ...

  8. [入门级] 基于 visual studio 2010 mvc4 的图书管理系统开发初步 (二)

    [入门级] 基于 visual studio 2010 mvc4 的图书管理系统开发初步 (二) Date  周六 10 一月 2015 By 钟谢伟 Category website develop ...

  9. 代码备份:处理 SUN397 的代码,将其分为 80% 训练数据 以及 20% 的测试数据

    处理SUN397 的代码,将其分为80% 训练数据以及20% 的测试数据 2016-07-27 1 %% Code for Process SUN397 Scene Classification 2 ...

  10. tesnorflow实现N个epoch训练数据读取的办法

    https://blog.csdn.net/lujiandong1/article/details/53991373 方式一:不显示设置读取N个epoch的数据,而是使用循环,每次从训练的文件中随机读 ...

随机推荐

  1. Java 剑指offer(16) 打印1到最大的n位数

    题目 输入数字n,按顺序打印出从1最大的n位十进制数.比如输入3,则打印出1.2.3一直到最大的3位数即999. 思路 陷阱: n过大时是大数问题,不能简单用int或者long数据输出,需要采用字符串 ...

  2. POJ2965 The Pilots Brothers' refrigerator (精妙方法秒杀DFS BFS)

    这道题和算法进阶指南的一道题解法一样,必须另操作为奇数.见证明过程 证明:要使一个为'+'的符号变为'-',必须其相应的行和列的操作数为奇数;可以证明,如果'+'位置对应的行和列上每一个位置都进行一次 ...

  3. Codeforces Round #667 (Div. 3) A - D题题解

    Codeforces Round #667 (Div. 3) A - D Problem A - Yet Another Two Integers Problem https://codeforces ...

  4. 图扑 Web SCADA 智慧钢厂能源监控 HMI

    前言 钢铁行业作为我国的支柱产业,也是我国能源消耗的重点行业之一,随着国家节能减排政策的推进,有效实施能源管控是企业提高能源绩效.降低能源成本和提高核心竞争力的重要途径. 通过对钢铁企业能耗现状和能源 ...

  5. TapTap 算法平台的 Serverless 探索之路

    分享人:陈欣昊,TapTap/IEM/AI平台负责人 摘要:本文主要介绍心动网络算法平台在Serverless上的实践. <TapTap算法平台的 Serverless 探索之路> Ser ...

  6. vue tabBar导航栏设计实现3-进一步抽取tab-item

    系列导航 一.vue tabBar导航栏设计实现1-初步设计 二.vue tabBar导航栏设计实现2-抽取tab-bar 三.vue tabBar导航栏设计实现3-进一步抽取tab-item 四.v ...

  7. C#爬虫知识介绍

    爬虫 爬虫(Web Crawler)是指使用程序自动获取互联网上的信息和数据的一种技术手段.它通常从一个起始网址出发,按照一定的规则递归地遍历网页,并将有用的信息提取出来,然后存储到本地或者数据库中, ...

  8. ORA-00947:Not enough values (没有足够的值)

    1.问题 2.解决方式 大概率是关系表实际列数大于你所填的元素个数,请检查是否有疏漏的列即可. 我这里是以为代理键直接忽略不写即可,没有标明具体插入列,但是还是得标明才行 --创建图书目录表TITLE ...

  9. QT5.9移植到海思HI3520设备上运行

    前言: 在海思HI3520DV300上调试QT5.9.0有一小段时间了,这里将遇到的比较典型的问题做一个记录,以备后续查询,也可给同行一个参考.本人只使用过QT5.9.0这一个版本,如有描述错误欢迎指 ...

  10. [转帖]深度硬核文:Nginx的301重定向处理过程分析

    https://zhuanlan.zhihu.com/p/84539204 本文首发于公众号:js-mindmap 一,序言 "晚上九点,办公室里烟雾缭绕,工作进度依然没有什么进展.王二胖打 ...