NLP（十一）提取文本摘要

原文链接：http://www.one2know.cn/nlp11/

gensim.summarization库的函数

gensim.summarization.summarize(text, ratio=0.2, word_count=None, split=False)

Parameters（参数）：

text : str

Given text.

ratio : float, optional

Number between 0 and 1 that determines the proportion of the number of

sentences of the original text to be chosen for the summary.

word_count : int or None, optional

Determines how many words will the output contain.

If both parameters are provided, the ratio will be ignored.

split : bool, optional

If True, list of sentences will be returned. Otherwise joined

strings will bwe returned.
代码

from gensim.summarization import summarize # 基于文本排序的摘要算法

from bs4 import BeautifulSoup # 用于解析HTML文档的BeautifulSoup库

import requests # 用于下载HTTP资源的库

urls = { # 题目:网站 字典

    'Deconstructing Voice-over-IP':

    'http://scigen.csail.mit.edu/scicache/269/scimakelatex.25977.A.+G.+Hassan.html',

    'Exploration of the Location-Identity Split':

    'http://scigen.csail.mit.edu/scicache/270/scimakelatex.26087.Ali+Veli.Veli+Ali.Vel+Al.html',

}

# 摘要(真实的)：

# 1.The implications of ambimorphic archetypes have been far-reaching and pervasive. After years of natural research into consistent hashing, we argue the simulation of public-private key pairs, which embodies the confirmed principles of theory. Such a hypothesis might seem perverse but is derived from known results. Our focus in this paper is not on whether the well-known knowledge-based algorithm for the emulation of checksums by Herbert Simon runs in Θ( n ) time, but rather on exploring a semantic tool for harnessing telephony (Swale).

# 2.Superblocks must work. Given the current status of homogeneous configurations, security experts particularly desire the simulation of 802.11b. we consider how the Internet can be applied to the refinement of Scheme.

for key in urls.keys():

    url = urls[key]

    r = requests.get(url)

    soup = BeautifulSoup(r.text,'html.parser')

    data = soup.get_text() # HTML去标签后的文本

    pos1 = data.find('1 Introduction') + len('1 Introduction')

    pos2 = data.find('Related Work')

    text = data[pos1:pos2].strip() # 提取pos1与pos2之间的引言部分

    print('PAPER URL: {}'.format(url))

    print('TITLE: {}'.format(key))

    print('GENERATED SUMMARY: {}'.format(summarize(text)))

    print()

输出：

PAPER URL: http://scigen.csail.mit.edu/scicache/269/scimakelatex.25977.A.+G.+Hassan.html

TITLE: Deconstructing Voice-over-IP

GENERATED SUMMARY: 。。。。。。

PAPER URL: http://scigen.csail.mit.edu/scicache/270/scimakelatex.26087.Ali+Veli.Veli+Ali.Vel+Al.html

TITLE: Exploration of the Location-Identity Split

GENERATED SUMMARY: 。。。。。。

NLP（十一）提取文本摘要的更多相关文章

SnowNLP：•中文分词•词性标准•提取文本摘要,•提取文本关键词,•转换成拼音•繁体转简体的处理中文文本的Python3 类库
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和Te ...
【NLP】Tika 文本预处理：抽取各种格式文件内容
Tika常见格式文件抽取内容并做预处理作者白宁超 2016年3月30日18:57:08 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理.首先我们要意识到预处理的重 ...
[转]【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理阅读目录
[NLP]干货!Python NLTK结合stanford NLP工具包进行文本处理原贴: https://www.cnblogs.com/baiboy/p/nltk1.html 阅读目录目 ...
基于TextRank算法的文本摘要
本文介绍TextRank算法及其在多篇单领域文本数据中抽取句子组成摘要中的应用. TextRank 算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之 ...
TextRank算法及生产文本摘要方法介绍
TextRank 算法是一种用于文本的基于图的排序算法,其基本思想来源于谷歌的 PageRank算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代 ...
Python实践：提取文章摘要
一.概述二.纯文本摘要三.HTML摘要一.概述在博客系统的文章列表中,为了更有效地呈现文章内容,从而让读者更有针对性地选择阅读,通常会同时提供文章的标题和摘要. 一篇文章的内容可以是纯文本格式 ...
实现自动文本摘要（python，java）
参考资料:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html http://joshbohde.com/blog/d ...
如何使用免费PDF控件从PDF文档中提取文本和图片
如何使用免费PDF控件从PDF文档中提取文本和图片概要现在手头的项目有一个需求是从PDF文档中提取文本和图片,我以前也使用过像iTextSharp, PDFBox 这些免费的PD ...
Jsoup提取文本时保留标签
使用Jsoup来对html进行处理比较方便,你可能会用它来提取文本或清理html标签.如果你想提取文本时保留标签,可以使用Jsoup.clean方法,参数为html及标签白名单: Jsoup.clea ...

随机推荐

IBM RAD中集成Websphere启动后无法debug解决办法
问题描述: IBM Rational Application Developer for WebSphere软件在启动WebSphere的时候无法以debug模式启动,debug启动后显示为start ...
【Python】Django【邮箱验证】后端验证如何生成 token加密验证码与如何解码！！！！
1.生成token验证码方案 ,使用itsdangerous 大宝剑, 可以序列化出验证码,并能设置过期时间安装 itsdangerous pip install itsdangerous ...
modbus-tcp协议讲解
MODBUS功能码简介代码中文名称位操作/字操作操作数量 01h 读线圈状态位操作单个或多个 02h 读离散输入状态(只能读到0或1) 位操作单个或多个 03h 读保持寄存器(保持寄存器 ...
ssm 搭建项目各项配置
首先配置 pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns=&quo ...
基于opencv，开发摄像头播放程序
前言 Windows下实现摄像视频捕捉有多种实现方式:各种方式的优劣,本文不做对比.但是,opencv是一款老牌开发库,在图像处理领域声名显赫.采用opencv来处理摄像视频,在性能和稳定性上,是有保 ...
springboot整合websocket高级版
目录 sockjs介绍产生的原因环境搭建 springboot整合sockjs 使用场景聊天室开发点对点通信群聊效果总结加入战队微信公众号上一章节我们说了websocket的优缺点 ...
web面试
什么是面向对象? 程序中的事物都是用对象结构来描述的,所有的程序都是用面向对象的思想,管理数据和功能的. 面向对象三大特点:封装继承多态什么是封装? 创建一个对象结构,用来保存一个事物的属性和方 ...
SQLServer数据库处于恢复挂起状态的解决办法
一.总结如果数据库处于一个恢复挂起的状态,并且对数据库做脱机和分离的操作,报出数据库文件不可访问的错误,可能是因为数据库的数据文件和日志文件在数据库正常连接的情况下,文件所在的磁盘脱机了,导致数据库 ...
django在启动时抛出Error: [WinError 10013] 以一种访问权限不允许的方式做了一个访问套接字的尝试解决办法
1.适用场景在启动某个服务的时候,比如python中django启动的时候8000端口被占用,导致无法启动服务. 2.解决办法通过命令行找出端口对应的PID进程 C:\Users\micha> ...
阿里巴巴JAVA开发规范学习笔记
一.编程规约 (一)命名规约 1.类名驼峰.领域模型除外VO.BO.DTO.DO统称POJO 4.数组String[] args 8.枚举类 Enum ,其实就是特殊的常量类,构造方法强制私有 ( 二 ...

NLP（十一） 提取文本摘要

NLP（十一） 提取文本摘要的更多相关文章

随机推荐

热门专题

NLP（十一）提取文本摘要

NLP（十一）提取文本摘要的更多相关文章