一、Brat标注工具安装

1.安装条件:

(1)运行于Linux系统(window系统下虚拟机内linux系统安装也可以)

(2)目前brat最新版本(v1.3p1)仅支持python2版本运行使用(我用的是python2.7版本)

2.建议到github网站下载最新release版本:https://github.com/nlplab/brat/release

3.下载方式

(1)windows系统点击zip文件下载解压

(2)在linux系统的/var/www/html/目录下wget下载解压

wget https://github.com/nlplab/brat/archive/refs/tags/v1.3p1.zip
unzip brat-1.3p1.zip # 下载后zip文件名为brat-1.3p1.zip
mv brat-1.3p1.zip brat # 修改文件名为brat

4.安装

(1)在/var/www/html/brat目录下执行

./install.sh

(2)启动apache2

service apache2 start

(3)运行服务

python2.7 standalone.py

 如果出现了以下错误:

File "standalone.py", line 257
except SystemExit, sts:
^
SyntaxError: invalid syntax

 说明需要将python3版本改为python2.7版本

(4)原始brat配置文件没有针对中文文本的标注,需要安装后自行修改/var/www/html/brat/server/src/projectconfig.py配置文件162行,将其注释更改为如下所示:

# n  = re.sub(r'[^a-zA-Z0-9_-]', '_', n) 

n = re.sub(u'[^a-zA-Z\u4e00-\u9fa5<>\u2014-\uff1b,0-9_-]', '_', n)

(5)打开浏览器,输入http://127.0.0.0:brat即可见到欢迎页面!

点击ok开始进入使用。

5.使用

(1)/var/www/html/brat/目录下的data目录是供我们自己做标注时存放项目的文件夹,可以在data内mkdir一个project目录,再根据具体项目创建对应目录。

例如我现在需要标注10份txt文件,那么我需要在project内创建项目目录后label-test将这10份txt文件放进去,但是需要注意的是,brat并不会在标注的同时帮助我们创建每个txt对应的标注结果文件,

所以在标注之前,我们需要先一一对应创建这10份txt对应的ann文件(空的)。下面这条命令意思是找到当前目录下的txt文件并复制其名称创建一个空白的ann文件。

find ./ -name '*.txt' | sed -e 's|\.txt|.ann|g' | xargs touch

 利用上述的命令后,我们目录下将会有10个txt文件,10个ann文件。

(2)标注需要配置文件,因此我们要到/var/www/html/brat/目录下找到annotation.conf以及visual.conf,复制到/var/www/html/brat/data/project/label-test/目录下

annotation.conf是可以对标注的实体、关系、事件、属性等内容。

visual.conf可以修改标注的颜色等。

示例:

annotation.conf内容:

[entities]
# Definition of entities.
# Format is a simple list with one type per line.
时间
地点
人名
组织名
公司名
产品名 [relations] [events] [attributes]

 注意:即使没有relations、events、attributes等内容,也不能把这几个去掉,去掉会一直报错!!

visual.conf内容:

[labels]

[drawing]
时间 bgColor:yellow
地点 bgColor:blue, fgColor:white
人名 bgColor:deepskyblue
组织名 bgColor:green, fgColor:white
公司名 bgColor:purple, fgColor:white
产品名 bgColor:pink

 注意:同理,即使没有labels内容,也不要去掉[labels]。

mayun.txt内容:

1964年9月10日,马云出生在杭州。
幼年的马云在人们的眼中是典型的坏孩子:叛逆、倔强、爱打架、逞强、顽皮淘气。
马云的父亲虽然是典型的江南人,但脾气却很火暴,马云从小在父亲拳脚下长大。
马云是看金庸的武侠小说长大的,行侠仗义、打抱不平的“侠义”情结在少年马云的内心深处早已生根、萌芽。

 mayun.ann内容为空,现在可以开始标注了,打开浏览器http://127.0.0.0:8001,登录后才可以进行标注。打开我们创建的目录,鼠标选中需要标注的实体,马上就会自动显示让我们标注该内容对应的类别:

接着打开mayun.ann,可以看到标注的内容已经记录好了。


若无apache2,则对其进行安装并修改配置文件

sudo apt-get install apache2  # 安装apache2
sudo vim /etc/apache2/apache2.conf # 修改apache2配置

 将下列内容添加至配置文件中:

<Directory /home/*/public_html>
AllowOverride Options Indexes FileInfo Limit
AddType application/xhtml+xml .xhtml
AddType font/ttf .ttf
# For CGI support
AddHandler cgi-script .cgi
# Comment out the line above and uncomment the line below for FastCGI
#AddHandler fastcgi-script fcgi
</Directory>

对userdir赋权:

sudo a2enmod userdir

 继续执行:

sudo apt-get install libapache2-mod-fastcgi
sudo a2enmod fastcgi
sudo a2enmod rewrite

 重新加载apache2配置:

sudo /etc/init.d/apache2 reload

 可能会遇到如下问题:

[....] Reloading apache2 configuration (via systemctl): apache2.serviceapache2.service is not active, cannot reload.
failed!

 解决方法:

sudo apachectl stop
/etc/init.d/apache2 start

 此时操作无误后,打开http://127.0.0.1即可看到apache默认页面。

备注:此处针对apache2的安装配置可能有欠缺,仅供参考。

参考链接:https://www.moshangxingzou.com/index.php/2019/11/27/%E6%96%87%E6%9C%AC%E6%A0%87%E6%B3%A8%E5%B7%A5%E5%85%B7brat%E9%83%A8%E7%BD%B2%E7%AC%94%E8%AE%B0/

https://www.cnblogs.com/anai/p/11474460.html

 

自然语言处理标注工具——Brat(安装、测试、使用)的更多相关文章

  1. 用深度学习做命名实体识别(二):文本标注工具brat

    本篇文章,将带你一步步的安装文本标注工具brat. brat是一个文本标注工具,可以标注实体,事件.关系.属性等,只支持在linux下安装,其使用需要webserver,官方给出的教程使用的是Apac ...

  2. 目标检测标注工具labelImg安装及使用

    目标检测中,原始图片的标注过程是非常重要的,它的作用是在原始图像中标注目标物体位置并对每张图片生成相应的xml文件表示目标标准框的位置.本文介绍一款使用方便且能够标注多类别并能直接生成xml文件的标注 ...

  3. win10 标注工具LabelImg 安装使用

    安装步骤(默认已经安装了Python3.X ): pip 安装PyQt5 进入cmd(Win键 + R键,输入cmd,enter键入),输入: >>pip install PyQt5 如果 ...

  4. NLP标注工具brat 配置文件说明

    快速搭建brat 通过docker: docker run --name=brat -d -p 38080:80 -e BRAT_USERNAME=brat -e BRAT_PASSWORD=brat ...

  5. 图像标注工具labelImg安装记录

    这里仅记载下labelImg的安装过程,因为有坑. 我的安装方式是从源码编译,环境ubuntu16.04,一开始是使用python2安装,从github上下载好源码,然后执行安装命令 sudo apt ...

  6. NLP+VS︱深度学习数据集标注工具、方法摘录,欢迎补充~~

    ~~因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具. . . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的 ...

  7. Linux压力测试工具Tsung安装、使用和图形报表生成

    简介 Tsung 是一个压力测试工具,可以测试包括HTTP, WebDAV, PostgreSQL, MySQL, LDAP, and XMPP/Jabber等服务器.针对 HTTP 测试,Tsung ...

  8. 开源图像标注工具labelme的安装使用及汉化

    一 LabelMe简介 labelme是麻省理工(MIT)的计算机科学和人工智能实验室(CSAIL)研发的图像标注工具,人们可以使用该工具创建定制化标注任务或执行图像标注,项目源代码已经开源. 项目开 ...

  9. CentOS压力测试工具Tsung安装和图形报表生成Tsung安装配置

    Tsung 是一个压力测试工具,可以测试包括HTTP, WebDAV, PostgreSQL, MySQL, LDAP, and XMPP/Jabber等服务器.针对 HTTP 测试,Tsung 支持 ...

随机推荐

  1. 【springcloud】Eureka服务注册中心搭建

    转自:https://blog.csdn.net/pengjunlee/article/details/86538997 Spring Cloud是一系列框架的集合,它利用Spring Boot的开发 ...

  2. 新东方APP技术团队建设

    作者:张建鑫, 曾任IBM高级软件架构师, 滴滴高级技术专家, 现任新东方集团高级技术总监 2019年注定是不平凡的一年,在俞敏洪老师对科技条线的密切关注下, 吴强老师亲自操盘了对产品技术条线的改革, ...

  3. MySQL 慢 SQL & 优化方案

    1. 慢 SQL 的危害 2. 数据库架构 & SQL 执行过程 3. 存储引擎和索引的那些事儿 3.1 存储引擎 3.2 索引 4. 慢 SQL 解决之道 4.1 优化分析流程 4.2 执行 ...

  4. MFC中L, _T(),TEXT,_TEXT区别以及含义

    字符串前面加L表示该字符串是Unicode字符串. _T是一个宏,如果项目使用了Unicode字符集(定义了UNICODE宏),则自动在字符串前面加上L,否则字符串不变.因此,Visual C++里边 ...

  5. openresty 自动 deploy github repository

    配置 deploy key 配置 webhooks https://gist.github.com/hangj/ce6aabac77e96b010e3b361e18422013

  6. Java HashMap工作原理:不仅仅是HashMap

    前言: 几乎所有java程序员都用过hashMap,但会用不一定会说. 近年来hashMap是非常常见的面试题,如何为自己的回答加分?需要从理解开始. "你用过hashMap吗?" ...

  7. Sentry Web 性能监控 - Trends

    系列 1 分钟快速使用 Docker 上手最新版 Sentry-CLI - 创建版本 快速使用 Docker 上手 Sentry-CLI - 30 秒上手 Source Maps Sentry For ...

  8. ABP 极简入门教程(二 MVC方式显示数据)

    增加显示菜单 Sample.Web.MVC项目中找到startup目录打开SampleNavigationProvider.cs,根据现有内容添加以下内容 .AddItem( new MenuItem ...

  9. 浅谈VMware的NAT模式

    什么是NAT模式?理论化的措辞我就不说了,我将结合本人平时的经验来简单的说明一下NAT模式,以及配置NAT模式时遇到的问题. 大家都知道,我们的电脑要想联网,需要与交换机连接,假设交换机的网关为192 ...

  10. vue项目实现文件下载进度条

    平时业务中下载文件方式常见的有俩种: 第一种,直接访问服务器的文件地址,自动下载文件: 第二种 ,服务器返回blob文件流,再对文件流进行处理和下载. 一般小文件适用于第一种下载方案,不占用过多服务器 ...