自动提取文章摘要AutoSummary

　　在文本搜索引擎项目中，需要对已排序的文章进行摘要提取，然后与标题，路径一起封装成Json数据返回客户端。因此这里我自己写一个自动摘要，来大概完成这个任务。在自动摘要提取过程中，使用了一个分词库：CppJieba分词库。因此在头文件中包含了头文件 “Application.hpp”。

思路：

　　1、对文章提取关键字。通常，关键字能够代表这篇文章的所描述的内容。因此使用CppJieba分词库中“Application.hpp”中api extract()进行关键字提取。我提取的是前50个，若文章关键字不够50个则取实际个数。关键字的结果已经按照权重的顺序排序好。

　　2、把文章拆分成句子。这里是只对中文进行处理（英文道理也一样），当遇到句号‘ 。’，问号‘ ？ ’，感叹号‘ ！ ’，算一句话。把每一句话按顺序保存到vector<string>类型的数组sentences中。

　　3、遍历关键字数组，对每一个关键字在每一个句子中查找包含该关键字的第一个句子，并把该句子加入到vector<string>类型的数组summary中。

　　4、若遍历到达关键字上限或者句子数量到达上限，跳出循环。

　　5、将数组summary中的句子按顺序拼接从摘要。

代码如下：

 #ifndef _AUTOSUMMERY_HPP

 #define _AUTOSUMMERY_HPP

 #include"../src/Statistics/src/Application.hpp"

 #include <string>

 #include<set>

 #include <utility>

 #include<vector>

 #include<iostream>

 #include<functional>

 using namespace std;

 using namespace CppJieba;

 class AutoSummary

 {

     public:

         AutoSummary(Application &app,int maxSentenceNum=)//初始化一个自动摘要对象

             :maxSentenceNum_(maxSentenceNum),

             app_(app)

         {}

         //自动提取摘要

         string summarizer(string & originTxt,int KEYNUM=)

         {

             vector<pair<string,double> > keywords;

             app_.extract(originTxt,keywords,KEYNUM);    //取文章的前50个关键词，按权重排序

             vector<string> sentences;            //装载句子的数组

             getSentences(originTxt,sentences);        //把文章拆分成句子

             int sentencesNum = sentences.size();        //句子的数量

             vector<string> summaryRet;                    //装包含关键字的句子

             set<int> summarySet;                        //句子去重

             set<int>::iterator it;

             KEYNUM = keywords.size();//如果关键字数量小于50则取实际的数量

             for(int i = ;i<KEYNUM;i++)

             {

                 for(int j = ;j<sentencesNum;j++)

                 {

                     int pos = sentences[j].find(keywords[i].first,);

                     if(pos!=string::npos)

                     {

                         it = summarySet.find(pos);

                         if(it==summarySet.end())

                         {

                             summaryRet.push_back(sentences[j]);//向数组添加句子

                             summarySet.insert(j);

                             break;    //跳出循环，找下一个关键字

                         }

                     }

                 }

                 //跳出循环的条件

                 if(summaryRet.size()>maxSentenceNum_||summaryRet.size()>=sentencesNum)

                     break;

             }

             string summaryStr;

             int i = ;

             int num  = summaryRet.size();

             while(i<num)

             {

                 summaryStr = summaryStr + sentences[i]+"……";

                 i++;

             }

             return summaryStr;

         }

     private:

         //将文章拆分成句子，私有成员函数，在summarizer()中调用

         void getSentences(const string &originTxt,vector<string> &sentenceVec)

         {

             int beg=,end=,pos=,pos1=;

             int txtSize = originTxt.size();

             while(beg<txtSize&&pos!=string::npos)

             {

                 if((pos=originTxt.find("。",beg))!=string::npos)

                 {

                     if((pos1=originTxt.find("？",beg))!=string::npos)

                     {

                         pos=((pos<pos1)?pos:pos1);

                         if((pos1=originTxt.find("！",beg))!=string::npos)

                         {

                             pos=((pos<pos1)?pos:pos1);

                         }

                     }

                     else if((pos1=originTxt.find("！",beg))!=string::npos)

                     {

                         pos=((pos<pos1)?pos:pos1);

                     }

                 }

                 else if((pos=originTxt.find("？",beg))!=string::npos)

                 {

                     if((pos1=originTxt.find("！",beg))!=string::npos)

                     {

                         pos=((pos<pos1)?pos:pos1);

                     }

                 }

                 else if((pos1=originTxt.find("！",beg))!=string::npos)

                 {

                     pos = pos1;

                 }

                 else

                 {

                     break;

                 }

                 if(pos!=-)

                 {

                     int len = pos-beg;

                     string sentence(originTxt.substr(beg,len));

                     sentenceVec.push_back(sentence);

                     beg = pos+;

                 }

             }

         }

     private:

         Application & app_;//分词库的引用

         int maxSentenceNum_;//摘要中的句子数目，由外部传进。

 };

 #endif

参考：http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html

自动提取文章摘要AutoSummary的更多相关文章

Django HTML 显示文章摘要
在用Django写个人博客,发现一般都是标题加上文章摘要,然后点击标题可以看详细内容.这样主页就可以多显示几篇文章. 那么就要用到文章摘要功能. 比如要100个字的文章摘要,就可以这样写: {{art ...
wordpress自动截取文章摘要代码
想要实现 wordpress 首页显示摘要有几种方法: 第一种,可以在写文章的时侯在需要分割的地方加入<!–more–>标签,但在输出首页摘要的同时,也会使feed只显示摘要,不方便读者阅 ...
dedecms首页调用的简介一直修改不了是自动文章摘要在作怪
一位美女问:dedecms首页调用的简介一直修改不了,ytkah让她到具体的文章修改,然后再重新生成一下首页.她说还是不行.那就奇了怪了,点击到具体的文章页面是显示已经修改好了,为什么首页还是原来的呢 ...
dede文章摘要字数的设置方法
本文转自:http://blog.csdn.net/yxwmzouzou/article/details/17491991 在织梦系统中(针对5.7版本),文章摘要(可以通过以下四种相关标签调用)被设 ...
WordPress批量修改文章内容、URL链接、文章摘要
通过SQL语句来批量修改wordpress博客内容,文章中所有语句都使用默认的wp_表前缀,如果您的数据表前缀不是wp_则需要在语句中作相应更改. 方法/步骤批量修改文章内容如果您想替换之前写 ...
DEDECMS织梦文章摘要批量更改方法
我们建站有时候需要直接把数据库导入,只要修改一下基本的名称信息就可以直接用,但是遇用到一些问题.比如文章摘要不会随着文章内容的更新而更新.织梦(dede)在添加文章的时候会自动生成文章摘要,如果重新修 ...
【Common】NO.81.Note.1.Common.1.002-【文章摘要】
1.0.0 Summary Tittle:[Common]NO.81.Note.1.Common.1.002-[文章摘要] Style:Common Series:Common Since:2018- ...
django 使用内建过滤器实现文章摘要效果
django 使用内建过滤器实现文章摘要效果前端html代码 <div class="list-group"> {% if articles %} {% for ar ...
wordpress调用文章摘要,若无摘要则自动截取文章内容字数做为摘要
以下是调用指定分类文章列表的一个方法,作者如果有填写文章摘要则直接调用摘要:如果文章摘要忘记写了则自动截取文章内容字数做为摘要.这个方法也适用于调用description标签 <ul> & ...

随机推荐

Node.js在任意目录下使用express命令‘不是内部或外部命令’解决方法
1.一开始我只能在nodejs全局目录下使用express命令建一个新的项目,建在其他任意一个目录命令行都会提示"不是内部或外部命令",导致目录会乱,目录如下. 2.尝试了一会,发 ...
Windows下Nginx实现负载均衡
Apache,Nginx Apache和Nginx都属于属于静态页面服务器,都有插件支持动态编程语言处理,但Nginx的IO模比Apache更适合跑代理.所以一般都作为前端缓冲代理(Nginx的反向 ...
python selenium 鼠标悬停
#鼠标悬停 chain = ActionChains(driver) implement = driver.find_element_by_link_text() chain.move_to_elem ...
Linux 系统监控常用命令
简介列举操作系统级监控常用的几个方法,建议收藏使用 CPU top 命令可用于监控系统整体负载,包括cpu.内存使用等,能够实时显示系统中各个进程的资源占用状况输出样例 top - 19:37:4 ...
AppScan扫描结果分析及工具栏使用
Appscan的窗口大概分三个模块,Application Links(应用链接), Security Issues(安全问题), and Analysis(分析) Application Links ...
@Controller注解
Spring从2.5版本后开始引入注解,用户可以使用@Controller,@RequestMapping,@RequestParam,@ModelAttribute等类似这样的注解. @Contro ...
IntelliJ IDEA使用心得之插件篇
今天和大家分享下插件的安装方法,顺便推荐几个非常好用的插件. 1.安装插件在工具栏中,点击进入IDE设置界面. 插件仓库界面: 值得注意的是,每次安装/卸载插件后,需要重启IDE. 2.好用的插件 ...
[Python Study Notes]with的使用
在 Python 2.5 中, with 关键字被加入.它将常用的 try ... except ... finally ... 模式很方便的被复用.看一个最经典的例子: with open('fil ...
Git hook实现自动部署
Git Hook 是 Git 提供的一个钩子,能被特定的事件触发后调用.其实,更通俗的讲,当你设置了 Git Hook 后,只要你的远程仓库收到一次 push 之后,Git Hook 就能帮你执行一次 ...
git添加本地仓库与远程仓库连接
在本地建立一个文件夹,需要与远程git仓库进行连接,具体方法: <1>首先进入所在文件目录执行: git init 初始化git,紧接着 git add . git commit -m ...

自动提取文章摘要AutoSummary

自动提取文章摘要AutoSummary的更多相关文章

随机推荐

热门专题