NLP入门（十一）从文本中提取时间

在我们的日常生活和工作中，从文本中提取时间是一项非常基础却重要的工作，因此，本文将介绍如何从文本中有效地提取时间。

举个简单的例子，我们需要从下面的文本中提取时间：

6月28日，杭州市统计局权威公布《2019年5月月报》，杭州市医保参保人数达到1006万，相比于2月份的989万，三个月暴涨16万人参保，傲视新一线城市。

我们可以从文本有提取6月28日，2019年5月， 2月份这三个有效时间。

通常情况下，较好的解决思路是利用深度学习模型来识别文本中的时间，通过一定数量的标记文本和合适的模型。本文尝试利用现有的NLP工具来解决如何从文本中提取时间。

本文使用的工具为哈工大的pyltp，可以在Python的第三方模块中找到，实现下载好分词模型cws.model和词性标注pos.model这两个模型文件。

话不多说，我们直接上Python代码，如下：

# -*- coding: utf-8 -*-

import os

from pyltp import Segmentor

from pyltp import Postagger

class LTP(object):

    def __init__(self):

        cws_model_path = os.path.join(os.path.dirname(__file__), 'cws.model')  # 分词模型路径，模型名称为`cws.model`

        pos_model_path = os.path.join(os.path.dirname(__file__), 'pos.model')  # 词性标注模型路径，模型名称为`pos.model`

        self.segmentor = Segmentor()  # 初始化实例

        self.segmentor.load(cws_model_path) # 加载模型

        self.postagger = Postagger()  # 初始化实例

        self.postagger.load(pos_model_path)  # 加载模型

    # 分词

    def segment(self, text):

        words = list(self.segmentor.segment(text))

        return words

    # 词性标注

    def postag(self, words):

        postags = list(self.postagger.postag(words))

        return postags

    # 获取文本中的时间

    def get_time(self, text):

        # 开始分词及词性标注

        words = self.segment(text)

        postags = self.postag(words)

        time_lst = []

        i = 0

        for tag, word in zip(postags, words):

            if tag == 'nt':

                j = i

                while postags[j] == 'nt' or words[j] in ['至', '到']:

                    j += 1

                time_lst.append(''.join(words[i:j]))

            i += 1

        # 去重子字符串的情形

        remove_lst = []

        for i in time_lst:

            for j in time_lst:

                if i != j and i in j:

                    remove_lst.append(i)

        text_time_lst = []

        for item in time_lst:

            if item not in remove_lst:

                text_time_lst.append(item)

        # print(text_time_lst)

        return text_time_lst

    # 释放模型

    def free_ltp(self):

        self.segmentor.release()

        self.postagger.release()

if __name__ == '__main__':

    ltp = LTP()

    # 输入文本

    sent = '6月28日，杭州市统计局权威公布《2019年5月月报》，杭州市医保参保人数达到1006万，相比于2月份的989万，三个月暴涨16万人参保，傲视新一线城市。'

    time_lst = ltp.get_time(sent)

    ltp.free_ltp()

    # 输出文本中提取的时间

    print('提取时间： %s' % str(time_lst))

接着，我们测试几个例子。

输入文本为：

今天，央行举行了2019年6月份金融统计数据解读吹风会，发布了2019年6月份金融统计数据并就当前的一些热点问题进行了解读和回应。

文本中提取的时间为：

提取时间： ['今天', '2019年6月份', '2019年6月份', '当前']

输入文本为：

2006年，上海的国内生产总值达到10296.97亿元，是中国内地第一个GDP突破万亿元的城市。2008年，北京GDP破万亿。两年后，广州GDP超过万亿。2011年，深圳、天津、苏州、重庆4城的GDP也进入了万亿行列。武汉、成都在2014年跻身“万亿俱乐部”，杭州、南京和青岛、无锡和长沙的GDP依次在2015年、2016年和2017年过万亿。宁波和郑州则成为2018年万亿俱乐部的新成员。

文本中提取的时间为：

提取时间： ['2006年', '2008年', '2011年', '2014年', '2015年', '2016年', '2018年']

输入文本为：

此后，6月28日、7月9日和7月11日下午，武威市政协、市人大、市政府分别召开坚决全面彻底肃清火荣贵流毒和影响专题民主生活会。

文本中提取的时间为：

提取时间： ['此后', '6月28日', '7月9日', '7月11日下午']

输入文本为：

姜保红出生于1974年4月，她于2016年11月至2018年9月任武威市副市长，履新时，武威市的一把手正是火荣贵。

文本中提取的时间为：

提取时间： ['1974年4月', '2016年11月至2018年9月']

本次分享到此结束，欢迎大家批评指正。

注意：不妨了解下笔者的微信公众号： Python爬虫与算法（微信号为：easy_web_scrape），欢迎大家关注~

NLP入门（十一）从文本中提取时间的更多相关文章

NLP（十五）让模型来告诉你文本中的时间
背景介绍在文章NLP入门(十一)从文本中提取时间中,笔者演示了如何利用分词.词性标注的方法从文本中获取时间.当时的想法比较简单快捷,只是利用了词性标注这个功能而已,因此,在某些地方,时间的识别 ...
PHP正则表达式-从文本中提取URL
1.从文本中提取URL的正则表达式 '/https?:\/\/[\w-.%#?\/\\\]+/i'
从html富文本中提取纯文本
其实从html富文本中提取纯文本很简单,富文本基本上是使用html标签给文本加上丰富多彩的样式. 所以只需要将富文本字符串中的“<.....>”标签剔除,即可得到纯文本.我们可以使用正则表 ...
python从文本中提取某酒店机顶盒号和智能卡号
1.某项目中经常遇到需要关闭一些机顶盒消费权限.但是给过来的不是纯字符串,需要自己提取. 有400多个机顶盒和智能卡.nodepad++的列块模式也可以提取,但是还是稍微麻烦,因为列不对等先复制到文 ...
[SQL] 从文本中提取数值
现需求从上方测试数据的“备注”列中提取出金额目前有两个方法比较容易实现: 1.首先比较容易想到的就是利用函数stuff删除掉所有的非数值字符. STUFF ( character_expressio ...
从文本中提取图片路径（java 解析富文本处理 img 标签）
很多项目都需要到富文本来添加内容,就好比新闻啊,旅游景点之类的,都需要使用富文本去添加数据,然而怎么我这边就发现了两个问题怎样将富文本的图片的 src 获取出来? 方法一: 利用正则表达式: pub ...
cut 从文本中提取一段文字并输出
1.命令功能 cut 从每个文件中截取选定部分并输出. 2.语法格式 cut option file 参数说明参数参数说明 -b (–bytes) 字节 -c (--characters) 字 ...
Python数据清洗：提取爬虫文本中的电话号码
步骤索引效果展示注意事项代码很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识. ...
cmd提取时间格式（小时）问题以及Windows系统语言判断
你在这里看到了我的现在的时间是01:15,没错正在做个开发,本来好好的,结果一运行,直接报错: 这里就是时间中的获取小时出了问题,之前23点那会已经调试通过了,过那时是没有问题的,那么这时发生了什么? ...

随机推荐

《Windows内核安全与驱动开发》 3.2 内存与链表
<Windows内核安全与驱动开发>阅读笔记 -- 索引目录 <Windows内核安全与驱动开发> 3.2 内存与链表 1. 尝试生成一个链表头并将其初始化. 2. 尝试向内存 ...
《手把手教你》系列练习篇之8-python+ selenium自动化测试 -压台篇（详细教程）
1. 简介本文是练习篇的最后一篇文章,虽然练习篇的文章到此就要和大家说拜拜了,但是我们的学习之路才刚刚开始.不要停下你的脚步,大步朝前走吧!比你优秀的人还在走着,我们有什么理由停下自己的脚步了,生命 ...
使用PaintCode便捷地实现动画效果
// // ViewController.m // paintCodeTestOC //gif // Created by LongMa on 2019/7/25. // #import " ...
pringBoot-MongoDB 索引冲突分析及解决【华为云技术分享】
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...
人人学IoT 助学思维导图
原来学IoT记录的学习笔记,学完之后,对考试和工作都有些帮助,特分享给大家笔记分享链接 https://share.mindmanager.com/#publish/s6TqusKeSG6aflXL ...
链接脚本（Linker Script）用法解析（一）关键字SECTIONS与MEMORY
1.MEMORY关键字用于描述一个MCU ROM和RAM的内存地址分布(Memory Map),MEMORY中所做的内存描述主要用于SECTIONS中LMA和VMA的定义. 2.SECTIONS关键字 ...
Node.js 中 __dirname 和 ./ 的区别
概要 __dirname 总是指向被执行 js 文件的绝对路径在 /d1/d2/myscript.js 文件中写了 __dirname, 它的值就是 /d1/d2 . ./ 会返回你执行 node ...
NIM游戏，NIM游戏变形，威佐夫博弈以及巴什博奕总结
NIM游戏,NIM游戏变形,威佐夫博弈以及巴什博奕总结经典NIM游戏: 一共有N堆石子,编号1..n,第i堆中有个a[i]个石子. 每一次操作Alice和Bob可以从任意一堆石子中取出任意数量的石子 ...
摄像头CMOS和CCD的比较
转载自网络,在此做一下总结,仅供参考: 1.CCD每曝光一次,在快门关闭后进行像素转移处理,将每一行中每一个像素(pixel)的电荷信号依序传入“缓冲器”中,由底端的线路引导输出至 CCD 旁的放大器 ...
几个非常适合练手的python爬虫项目，总有一个能搞定！
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:Python玩家注意:如果你平时学Python有问题找不到人解答,可以 ...

NLP入门（十一）从文本中提取时间

NLP入门（十一）从文本中提取时间的更多相关文章

随机推荐

热门专题