NLP(十五)让模型来告诉你文本中的时间
背景介绍
在文章NLP入门(十一)从文本中提取时间 中,笔者演示了如何利用分词、词性标注的方法从文本中获取时间。当时的想法比较简单快捷,只是利用了词性标注这个功能而已,因此,在某些地方,时间的识别效果并不太好。比如以下的两个例子:
原文1:
苏北大量农村住房建于上世纪80年代之前。去年9月,江苏省决定全面改善苏北农民住房条件,计划3年内改善30万户,作为决胜全面建成小康社会补短板的重要举措。
用笔者之前的代码,提取的时间结果为:
提取时间: ['去年9月']
但实际上,我们提取的时间应该是:
上世纪80年代之前, 去年9月,3年内
原文2:
南宋绍兴十年,金分兵两路向陕西和河南大举进攻,在很快夺回了河南、陕西之后,又率大军向淮南大举进攻。
用笔者之前的代码,提取的时间结果为:
提取时间: ['南宋']
但实际上,我们提取的时间应该是:
南宋绍兴十年
因此,利用简单的词性标注功能来提取文本中的时间会存在漏提、错提的情况,鉴于此,笔者想到能否用深度学习模型来实现文本中的时间提取呢?
该功能类似于命名实体识别(NER)功能,只不过NER是识别文本中的人名、地名、组织机构名,而我们这次需要识别文本中的时间。但是,它们背后的算法原理都是一样的,即采用序列标注模型来解决。
项目
在文章NLP(十四)自制序列标注平台中,笔者提出了一种自制的序列标注平台,利用该标注平台,笔者从新闻网站中标注了大约2000份语料,标注出文本中的时间,其中75%作为训练集(time.train文件),10%作为验证集(time.dev文件),15%作为测试集(time.test文件)。
虽然我们现在已经有了深度学习框架方便我们来训练模型,比如TensorFlow, Keras, PyTorch等,但目前已有某大神开源了一个序列标注和文本分类的模块,名称为kashgari-tf,它能够方便快速地用几行命令就可以训练一个序列标注或文本分类的模型,容易上手,而且集中了多种模型(BiGRU,CNN, BiLSTM,CRF)以及多种预训练模型(BERT,ERNIE,wwm-ext),对于用户来说算是十分友好了。该模块的参考网址为:https://kashgari.bmio.net/ 。
笔者自己花了几天的时间来标注数据,目前已累计标注2000+数据 ,后续将放到Github供大家参考。我们训练的数据,比如time.train的前几行如下:(每一行中间用空格隔开)
1 B-TIME
6 I-TIME
0 I-TIME
9 I-TIME
年 I-TIME
, O
日 O
本 O
萨 O
摩 O
藩 O
入 O
侵 O
琉 O
球 O
国 O
, O
并 O
在 O
一 O
个 O
时 O
期 O
内 O
控 O
制 O
琉 O
球 O
国 O
...
接着是模型这块,我们采用经典的BERT+Bi-LSTM+CRF模型,训练1个epoch,batch_size为16,代码如下:
# -*- coding: utf-8 -*-
# time: 2019-08-09 16:47
# place: Zhichunlu Beijing
import kashgari
from kashgari.corpus import DataReader
from kashgari.embeddings import BERTEmbedding
from kashgari.tasks.labeling import BiLSTM_CRF_Model
train_x, train_y = DataReader().read_conll_format_file('./data/time.train')
valid_x, valid_y = DataReader().read_conll_format_file('./data/time.dev')
test_x, test_y = DataReader().read_conll_format_file('./data/time.test')
bert_embedding = BERTEmbedding('chinese_L-12_H-768_A-12',
task=kashgari.LABELING,
sequence_length=128)
model = BiLSTM_CRF_Model(bert_embedding)
model.fit(train_x, train_y, valid_x, valid_y, batch_size=16, epochs=1)
model.save('time_ner.h5')
model.evaluate(test_x, test_y)
模型训练完后,得到的效果如下:
| 数据集 | accuracy | loss |
|---|---|---|
| 训练集 | 0.9814 | 6.7295 |
| 验证集 | 0.6868 | 150.8513 |
在测试集上的结果如下:
| 数据集 | precision | recall | f1 |
|---|---|---|---|
| 测试集 | 0.8547 | 0.8934 | 0.8736 |
由于是小标注量,因此我们选择了用BERT预训练模型。如果不采用BERT预训练模型,在同样的数据集上,即使训练100个epoch,虽然在训练集上的准确率超过95%,但是在测试集上却只有大约50%的准确率,效果不行,因此,需要采用预训练模型。
测试效果
在训练完模型后,会在当前目录下生成time_ner.h5模型文件,接着我们需要该模型文件来对新的文件进行预测,提取出文本中的时间。模型预测的代码如下:
# Load saved model
import kashgari
loaded_model = kashgari.utils.load_model('time_ner.h5')
while True:
text = input('sentence: ')
t = loaded_model.predict([[char for char in text]])
print(t)
接着我们在几条新的数据上进行预测,看看该模型的表现效果:
"原文": "继香港市民10日到“乱港头目”黎智英住所外抗议后,13日,“祸港四人帮”中的另一人李柱铭位于半山的住所外,也有香港市民自发组织前来抗议。",
"预测时间": [
"10日",
"13日"
]
"原文": "绿地控股2018年年度年报显示,截至2018年12月31日,万科金域中央项目的经营状态为“住宅、办公、商业”,项目用地面积18.90万平方米,规划计容建筑面积79.38万平方米,总建筑面积为105.78万平方米,已竣工面积32.90万平方米,总投资额95亿元,报告期实际投资额为10.18亿元。",
"预测时间": [
"2018年年度",
"2018年12月31日"
]
"原文": "经过工作人员两天的反复验证、严密测算,记者昨天从上海中心大厦得到确认:被誉为上海中心大厦“定楼神器”的阻尼器,在8月10日出现自2016年正式启用以来的最大摆幅。",
"预测时间": [
"两天",
"昨天",
"8月10日",
"2016年"
]
"原文": "不幸的是,在升任内史的同年九月,狄仁杰就在洛阳私宅离世。",
"预测时间": [
"同年九月"
]
"原文": "早上9点25分到达北京火车站,火车站在北京市区哦,地铁很方便到达酒店,我们定了王府井大街的锦江之星,409元一晚,有点小贵。下午去了天坛公园,傍晚去了天安门广场。",
"预测时间": [
"早上9点25分",
"下午",
"傍晚"
],
总结
利用深度学习模型,在小标注量数据上,我们对时间识别取得了不错的效果。后续如果我们想要提高时间识别的准确率,可以再多增加标注数据,目前还只有2000+数据~
本项目已经开源,Github的地址为:https://github.com/percent4/Chinese_Time_Recogniztion 。
另外,强烈推荐kashgari-tf模块,它能够让你在几分钟内搭建一个序列标注模型,而且方便加载各种预训练模型。
注意:不妨了解下笔者的微信公众号: Python爬虫与算法(微信号为:easy_web_scrape), 欢迎大家关注~
NLP(十五)让模型来告诉你文本中的时间的更多相关文章
- 解剖SQLSERVER 第十五篇 SQLSERVER存储过程的源文本存放在哪里?(译)
解剖SQLSERVER 第十五篇 SQLSERVER存储过程的源文本存放在哪里?(译) http://improve.dk/where-does-sql-server-store-the-sourc ...
- “全栈2019”Java多线程第三十五章:如何获取线程被等待的时间?
难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java多 ...
- NLP入门(十一)从文本中提取时间
在我们的日常生活和工作中,从文本中提取时间是一项非常基础却重要的工作,因此,本文将介绍如何从文本中有效地提取时间. 举个简单的例子,我们需要从下面的文本中提取时间: 6月28日,杭州市统计局权 ...
- 读书笔记_Effective_C++_条款十五:在资源类管理类中提供对原始资源的访问
void f(int* a) { cout <<* a << endl; } int main() { shared_ptr<int> p(new int(3)); ...
- Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十五)Structured Streaming:同一个topic中包含一组数据的多个部分,按照key它们拼接为一条记录(以及遇到的问题)。
需求: 目前kafka的topic上有一批数据,这些数据被分配到9个不同的partition中(就是发布时key:{m1,m2,m3,m4...m9},value:{records items}),m ...
- 第十五篇:关于TCP通信程序中数据的传递格式
前言 在之前的回射程序中,实现了字符串的传递与回射.幸运的是,字符串的传递不用担心不同计算机类型的大小端匹配问题,然而,如果传递二进制数据,这就是一个要好好考虑的问题.在客户端和服务器使用不同的字节序 ...
- 十五 web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式 urllib库中使用xpath表 ...
- NeHe OpenGL教程 第三十五课:播放AVI
转自[翻译]NeHe OpenGL 教程 前言 声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...
- 刘志梅201771010115.《面向对象程序设计(java)》第十五周学习总结
实验十五 GUI编程练习与应用程序部署 实验时间 2018-12-6 1.实验目的与要求 (1)一个JAR文件既可以包含类文件,也可以包含诸如图像和声音这些其他类型的文件. 创建一个新的JAR文件应 ...
随机推荐
- django项目中遇到要实现定时任务
django项目中遇到要实现定时任务,所以选用了简单易用的django-crontab插件. 1.安装 django-crontab pip install django-crontab 2.定时要执 ...
- SpringBoot项目构建成jar运行后,如何正确读取resource下的文件
SpringBoot项目构建成jar运行后,如何正确读取resource下的文件 不管你使用的是SpringBoot 1.x还是SpringBoot2.x,在开Dev环境中使用eclipse.IEAD ...
- [Haoi2016]字符合并 题解
tijie 时间限制: 2 Sec 内存限制: 256 MB 题目描述 有一个长度为 n 的 01 串,你可以每次将相邻的 k 个字符合并,得到一个新的字符并获得一定分数.得到的新字 符和分数由这 ...
- [原创]自动化部署K8S(v1.10.11)集群
标准运维实现自动化部署K8S集群主要分两步,第一步是部署gse-agent,拱第二步执行部署. 第一步:部署gse-agent.如下: 第二步:部署k8s集群.主要通过作业平台分为5小步执 ...
- 个人永久性免费-Excel催化剂功能第100波-透视多行数据为多列数据结构
在数据处理过程中,大量的非预期格式结构需要作转换,有大家熟知的多维转一维(准确来说应该是交叉表结构的数据转二维表标准数据表结构),也同样有一些需要透视操作的数据源,此篇同样提供更便捷的方法实现此类数据 ...
- Android/AndroidStudio/idea使用教程之git使用(详细)(码云)
已经安装好了AndroidStudio,安装教程 本教程是作者自己摸索出来的,有不足之处还请大家海涵.多多拍砖,互相学习. 第一步:下载git,安装git客户端 直接百度git,下载git 安装g ...
- Y服务-你真的懂 Yaml 吗
目录 一.什么是 Yaml 二.Yaml 的语法 三.操作 Yaml A. 引入框架 B. 代码片段 C. 完整案例 参考文档 在Java 的世界里,配置的事情都交给了 Properties,要追溯起 ...
- C#3.0新增功能09 LINQ 标准查询运算符 02 查询表达式语法
连载目录 [已更新最新开发文章,点击查看详细] 某些使用更频繁的标准查询运算符具有专用的 C# 语言关键字语法,使用这些语法可以在查询表达式中调用这些运算符. 查询表达式是比基于方法的等效项更具 ...
- C#3.0新增功能09 LINQ 标准查询运算符 03 按执行方式的分类
连载目录 [已更新最新开发文章,点击查看详细] 标准查询运算符方法的 LINQ to Objects 实现主要通过两种方法之一执行:立即执行和延迟执行.使用延迟执行的查询运算符可以进一步分为两种 ...
- 科密指纹考勤机B329采集
昨天项目用到了科密指纹考勤机B329. 暂记录下碰到的问题,及其解决办法,以备查询. 1.下载科密的二次开发包SDK“10079” .地址:( http://pan.baidu.com/s/1i39m ...