python实现的一个中文文本摘要程序

文本摘要方法有很多，主要分为抽取式和生成式，应用比较多的是抽取式，也比较简单，就是从文本中抽取重要的句子或段落。本方法主要是利用句子中的关键词的距离，主要思想和参考来自阮一峰的网络日志http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html
#!/user/bin/python

# coding:utf-8

__author__ = 'yan.shi'

import nltk

import numpy

import jieba

import codecs

N=100#单词数量

CLUSTER_THRESHOLD=5#单词间的距离

TOP_SENTENCES=5#返回的top n句子

#分句

def sent_tokenizer(texts):

    start=0

    i=0#每个字符的位置

    sentences=[]

    punt_list='.!?。！？'.decode('utf8') #',.!?:;~，。！？：；～'.decode('utf8')

    for text in texts:

        if text in punt_list and token not in punt_list: #检查标点符号下一个字符是否还是标点

            sentences.append(texts[start:i+1])#当前标点符号位置

            start=i+1#start标记到下一句的开头

            i+=1

        else:

            i+=1#若不是标点符号，则字符位置继续前移

            token=list(texts[start:i+2]).pop()#取下一个字符

    if start<len(texts):

        sentences.append(texts[start:])#这是为了处理文本末尾没有标点符号的情况

    return sentences

#停用词

def load_stopwordslist(path):

    print('load stopwords...')

    stoplist=[line.strip() for line in codecs.open(path,'r',encoding='utf8').readlines()]

    stopwrods={}.fromkeys(stoplist)

    return stopwrods

#摘要

def summarize(text):

    stopwords=load_stopwordslist('E:\stopwords.txt')

    sentences=sent_tokenizer(text)

    words=[w for sentence in sentences for w in jieba.cut(sentence) if w not in stopwords if len(w)>1 and w!='\t']

    wordfre=nltk.FreqDist(words)

    topn_words=[w[0] for w in sorted(wordfre.items(),key=lambda d:d[1],reverse=True)][:N]

    scored_sentences=_score_sentences(sentences,topn_words)

    #approach 1,利用均值和标准差过滤非重要句子

    avg=numpy.mean([s[1] for s in scored_sentences])#均值

    std=numpy.std([s[1] for s in scored_sentences])#标准差

    mean_scored=[(sent_idx,score) for (sent_idx,score) in scored_sentences if score>(avg+0.5*std)]

    #approach 2，返回top n句子

    top_n_scored=sorted(scored_sentences,key=lambda s:s[1])[-TOP_SENTENCES:]

    top_n_scored=sorted(top_n_scored,key=lambda s:s[0])

    return dict(top_n_summary=[sentences[idx] for (idx,score) in top_n_scored],mean_scored_summary=[sentences[idx] for (idx,score) in mean_scored])

 #句子得分

def _score_sentences(sentences,topn_words):

    scores=[]

    sentence_idx=-1

    for s in [list(jieba.cut(s)) for s in sentences]:

        sentence_idx+=1

        word_idx=[]

        for w in topn_words:

            try:

                word_idx.append(s.index(w))#关键词出现在该句子中的索引位置

            except ValueError:#w不在句子中

                pass

        word_idx.sort()

        if len(word_idx)==0:

            continue

        #对于两个连续的单词，利用单词位置索引，通过距离阀值计算族

        clusters=[]

        cluster=[word_idx[0]]

        i=1

        while i<len(word_idx):

            if word_idx[i]-word_idx[i-1]<CLUSTER_THRESHOLD:

                cluster.append(word_idx[i])

            else:

                clusters.append(cluster[:])

                cluster=[word_idx[i]]

            i+=1

        clusters.append(cluster)

        #对每个族打分，每个族类的最大分数是对句子的打分

        max_cluster_score=0

        for c in clusters:

            significant_words_in_cluster=len(c)

            total_words_in_cluster=c[-1]-c[0]+1

            score=1.0*significant_words_in_cluster*significant_words_in_cluster/total_words_in_cluster

            if score>max_cluster_score:

                max_cluster_score=score

        scores.append((sentence_idx,max_cluster_score))

    return scores;

if __name__=='__main__':

    dict=summarize(u'腾讯科技讯（刘亚澜）10月22日消息，'

        u'前优酷土豆技术副总裁黄冬已于日前正式加盟芒果TV，出任CTO一职。'

        u'资料显示，黄冬历任土豆网技术副总裁、优酷土豆集团产品技术副总裁等职务，'

        u'曾主持设计、运营过优酷土豆多个大型高容量产品和系统。'

        u'此番加入芒果TV或与芒果TV计划自主研发智能硬件OS有关。'

        u'今年3月，芒果TV对外公布其全平台日均独立用户突破3000万，日均VV突破1亿，'

        u'但挥之不去的是业内对其技术能力能否匹配发展速度的质疑，'

        u'亟须招揽技术人才提升整体技术能力。'

        u'芒果TV是国内互联网电视七大牌照方之一，之前采取的是“封闭模式”与硬件厂商预装合作，'

        u'而现在是“开放下载”+“厂商预装”。'

        u'黄冬在加盟土豆网之前曾是国内FreeBSD（开源OS）社区发起者之一，'

        u'是研究并使用开源OS的技术专家，离开优酷土豆集团后其加盟果壳电子，'

        u'涉足智能硬件行业，将开源OS与硬件结合，创办魔豆智能路由器。'

        u'未来黄冬可能会整合其在开源OS、智能硬件上的经验，结合芒果的牌照及资源优势，'

        u'在智能硬件或OS领域发力。'

        u'公开信息显示，芒果TV在今年6月对外宣布完成A轮5亿人民币融资，估值70亿。'

        u'据芒果TV控股方芒果传媒的消息人士透露，芒果TV即将启动B轮融资。')

    print('-----------approach 1-------------')

    for sent in dict['top_n_summary']:

        print(sent)

    print('-----------approach 2-------------')

    for sent in dict['mean_scored_summary']:

        print(sent)

下面是测试结果：

python实现的一个中文文本摘要程序的更多相关文章

用Python写的一个多线程机器人聊天程序
本人是从事php开发的, 近来想通过php实现即时通讯(兼容windows).后来发现实现起来特别麻烦, 就想到python.听说这家伙在什么地方都能发挥作用.所以想用python来做通讯模块...所 ...
如何用java完成一个中文词频统计程序
要想完成一个中文词频统计功能,首先必须使用一个中文分词器,这里使用的是中科院的.下载地址是http://ictclas.nlpir.org/downloads,由于本人电脑系统是win32位的,因此下 ...
python 模拟实现一个ATM + 购物商城程序
思路:ATM是一个单独程序,提供给消费的是一个接口core下的settlement.py,只做了个人的,没写管理的模块 Shopping也是一个单独的,只做了一个购物的消费模块,没写商家模块,偷懒用了 ...
Python中判断一个中文是否中文数字的方法
Python内置功能非常强大,在字符串内置函数中提供了一个判断字符串是否全数字的方法,而且这个方法不只是简单判断阿拉伯数字,包括中文数字和全角的阿拉伯数字都认识,这个函数就是字符串的isnumeric ...
初学python类编的一个求矩形小程序
简单的程序不简单,里面包含类定义类,传参,初始化,方法调用,创建实例,格式输出.主要在python中随时定义变量随时用,我这道题题想好久就是我初识类,传参,不是所有参数都的加单引号.简单的东西,复杂话 ...
基于Text-CNN模型的中文文本分类实战流川枫发表于AI星球订阅
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
基于Text-CNN模型的中文文本分类实战
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
推荐 | 中文文本标注工具Chinese-Annotator（转载）
自然语言处理的大部分任务是监督学习问题.序列标注问题如中文分词.命名实体识别,分类问题如关系识别.情感分析.意图分析等,均需要标注数据进行模型训练.深度学习大行其道的今天,基于深度学习的 NLP 模型 ...
SnowNLP：一个处理中文文本的 Python 类库[转]
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和Te ...

随机推荐

opencv学习之读取图像-imread函数
序想要完整全面地学习opencv,仅凭阅读samples的示例源码是不够的.毕竟opencv是一个拥有非常多函数的程序库,所以在每学习一个函数时,芒果觉得有必要记录下来,分享给有需要的同学.于是,就 ...
(转)当margin-top、padding-top的值为百分比时是如何计算的？
本文链接:https://blog.csdn.net/qq_27437967/article/details/72625900问题:当margin-top.padding-top的值是百分比时,分别是 ...
GitHub从小白到熟悉<六>
复制或克隆项目
split、paste命令
一.split分割文件语法 split [OPTION] ... [INPUT [PREFIX]] 描述将固定大小的INPUT输出到PREFIXaa,PREFIXab,.. ...
idea 设置自动生成注释
idea新建类注释规则 /** @ProjectName: ${PROJECT_NAME} @Package: ${PACKAGE_NAME} @ClassName: ${NAME} @Descrip ...
牛客 2B 树 (组合计数)
传送门大意: 给定n节点树, 求划分为不超过$k$个连通块的方案数. n,k<=300. 核心观察是每个连通块深度最低的点固定以后染色方案就固定了. 所以答案为$\sum\limits_{i= ...
C++ 友元（friend关键字）、类中的重载、操作符重载（operator关键字）
C++ 中友元的用法: 1.在类中使用friend关键字声明 2.类的友元可以是其它类或者具体函数 3.友元不是类的一部分 4.友元不受类中访问级别的限制 5.友元可以直接访问具体类中的所有成员. 友 ...
Cocoapods私有库
http://www.jianshu.com/p/d6a592d6fced 1.创建两个什么都不选的远程仓库:(私有公有都可,ReadMe\ignore都不选),一个放代码,一个放源(*.podspe ...
关于IDEA的application.properties读取乱码,以及显示乱码问题
设置编码如果设置之后还是不成功,就重启IDEA 再不行就删除application.properties重新编辑, 我采用的是注释掉要读取的中文部分,再下面再写一行
前端开发 | 尝试用Markdown写一下近几个月的总结
近期总结回顾半年前半年前,接触了前端一年多(工作半年)的我了解的东西只有下面这些.因为在公司里的工作就是切静态页,捣鼓CMS. HTML (比较简洁的编写HTML) CSS/CSS3 (PC兼容 ...

python实现的一个中文文本摘要程序

python实现的一个中文文本摘要程序的更多相关文章

随机推荐

热门专题