在文本搜索引擎项目中,需要对已排序的文章进行摘要提取,然后与标题,路径一起封装成Json数据返回客户端。因此这里我自己写一个自动摘要,来大概完成这个任务。在自动摘要提取过程中,使用了一个分词库:CppJieba分词库。因此在头文件中包含了头文件 “Application.hpp”。

思路:

  1、对文章提取关键字。通常,关键字能够代表这篇文章的所描述的内容。因此使用CppJieba分词库中“Application.hpp”中api  extract()进行关键字提取。我提取的是前50个,若文章关键字不够50个则取实际个数。关键字的结果已经按照权重的顺序排序好。

  2、把文章拆分成句子。这里是只对中文进行处理(英文道理也一样),当遇到句号‘  。’,问号‘ ? ’,感叹号‘ ! ’,算一句话。把每一句话按顺序保存到vector<string>类型的数组sentences中。

  3、遍历关键字数组,对每一个关键字在每一个句子中查找包含该关键字的第一个句子,并把该句子加入到vector<string>类型的数组summary中。

  4、若遍历到达关键字上限或者句子数量到达上限,跳出循环。

  5、将数组summary中的句子按顺序拼接从摘要。

代码如下:

 #ifndef _AUTOSUMMERY_HPP
#define _AUTOSUMMERY_HPP
#include"../src/Statistics/src/Application.hpp"
#include <string>
#include<set>
#include <utility>
#include<vector>
#include<iostream>
#include<functional>
using namespace std;
using namespace CppJieba;
class AutoSummary
{
public:
AutoSummary(Application &app,int maxSentenceNum=)//初始化一个自动摘要对象
:maxSentenceNum_(maxSentenceNum),
app_(app)
{} //自动提取摘要
string summarizer(string & originTxt,int KEYNUM=)
{
vector<pair<string,double> > keywords;
app_.extract(originTxt,keywords,KEYNUM); //取文章的前50个关键词,按权重排序
vector<string> sentences; //装载句子的数组
getSentences(originTxt,sentences); //把文章拆分成句子
int sentencesNum = sentences.size(); //句子的数量
vector<string> summaryRet; //装包含关键字的句子
set<int> summarySet; //句子去重
set<int>::iterator it;
KEYNUM = keywords.size();//如果关键字数量小于50则取实际的数量
for(int i = ;i<KEYNUM;i++)
{
for(int j = ;j<sentencesNum;j++)
{
int pos = sentences[j].find(keywords[i].first,);
if(pos!=string::npos)
{
it = summarySet.find(pos);
if(it==summarySet.end())
{
summaryRet.push_back(sentences[j]);//向数组添加句子
summarySet.insert(j);
break; //跳出循环,找下一个关键字
}
}
}
//跳出循环的条件
if(summaryRet.size()>maxSentenceNum_||summaryRet.size()>=sentencesNum)
break;
}
string summaryStr;
int i = ;
int num = summaryRet.size();
while(i<num)
{
summaryStr = summaryStr + sentences[i]+"……";
i++;
} return summaryStr;
} private:
//将文章拆分成句子,私有成员函数,在summarizer()中调用
void getSentences(const string &originTxt,vector<string> &sentenceVec)
{
int beg=,end=,pos=,pos1=;
int txtSize = originTxt.size();
while(beg<txtSize&&pos!=string::npos)
{
if((pos=originTxt.find("。",beg))!=string::npos)
{
if((pos1=originTxt.find("?",beg))!=string::npos)
{
pos=((pos<pos1)?pos:pos1);
if((pos1=originTxt.find("!",beg))!=string::npos)
{
pos=((pos<pos1)?pos:pos1);
} }
else if((pos1=originTxt.find("!",beg))!=string::npos)
{
pos=((pos<pos1)?pos:pos1);
}
}
else if((pos=originTxt.find("?",beg))!=string::npos)
{
if((pos1=originTxt.find("!",beg))!=string::npos)
{
pos=((pos<pos1)?pos:pos1);
} }
else if((pos1=originTxt.find("!",beg))!=string::npos)
{
pos = pos1;
}
else
{
break;
}
if(pos!=-)
{
int len = pos-beg;
string sentence(originTxt.substr(beg,len));
sentenceVec.push_back(sentence);
beg = pos+;
}
}
} private:
Application & app_;//分词库的引用
int maxSentenceNum_;//摘要中的句子数目,由外部传进。
};
#endif

参考:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html

自动提取文章摘要AutoSummary的更多相关文章

  1. Django HTML 显示文章摘要

    在用Django写个人博客,发现一般都是标题加上文章摘要,然后点击标题可以看详细内容.这样主页就可以多显示几篇文章. 那么就要用到文章摘要功能. 比如要100个字的文章摘要,就可以这样写: {{art ...

  2. wordpress自动截取文章摘要代码

    想要实现 wordpress 首页显示摘要有几种方法: 第一种,可以在写文章的时侯在需要分割的地方加入<!–more–>标签,但在输出首页摘要的同时,也会使feed只显示摘要,不方便读者阅 ...

  3. dedecms首页调用的简介一直修改不了是自动文章摘要在作怪

    一位美女问:dedecms首页调用的简介一直修改不了,ytkah让她到具体的文章修改,然后再重新生成一下首页.她说还是不行.那就奇了怪了,点击到具体的文章页面是显示已经修改好了,为什么首页还是原来的呢 ...

  4. dede文章摘要字数的设置方法

    本文转自:http://blog.csdn.net/yxwmzouzou/article/details/17491991 在织梦系统中(针对5.7版本),文章摘要(可以通过以下四种相关标签调用)被设 ...

  5. WordPress批量修改文章内容、URL链接、文章摘要

    通过SQL语句来批量修改wordpress博客内容,文章中所有语句都使用默认的wp_表前缀,如果您的数据表前缀不是wp_则需要在语句中作相应更改. 方法/步骤   批量修改文章内容 如果您想替换之前写 ...

  6. DEDECMS织梦文章摘要批量更改方法

    我们建站有时候需要直接把数据库导入,只要修改一下基本的名称信息就可以直接用,但是遇用到一些问题.比如文章摘要不会随着文章内容的更新而更新.织梦(dede)在添加文章的时候会自动生成文章摘要,如果重新修 ...

  7. 【Common】NO.81.Note.1.Common.1.002-【文章摘要】

    1.0.0 Summary Tittle:[Common]NO.81.Note.1.Common.1.002-[文章摘要] Style:Common Series:Common Since:2018- ...

  8. django 使用内建过滤器实现文章摘要效果

    django 使用内建过滤器实现文章摘要效果 前端html代码 <div class="list-group"> {% if articles %} {% for ar ...

  9. wordpress调用文章摘要,若无摘要则自动截取文章内容字数做为摘要

    以下是调用指定分类文章列表的一个方法,作者如果有填写文章摘要则直接调用摘要:如果文章摘要忘记写了则自动截取文章内容字数做为摘要.这个方法也适用于调用description标签 <ul> & ...

随机推荐

  1. 换行符\n和回车符\r

    问题始于社区的一个帖子,楼主的问题如下: “在c语言中,对一个不知道大小的文件进行读操作,我用fread()将文件的内容先放到一个缓存区,然后将缓存区中的内容打印出来, 缓存区中的内容和文件中的内容不 ...

  2. PHP使用file_get_contents或curl请求https的域名内容为空或Http 505错误的问题排查方法

    前段日子,突然接到用户的反馈,说系统中原来的QQ登录.微博登录通通都不能用,跟踪代码进去后发现,是在 file_get_contents这个函数请求QQ登录的地方报错,在用该函数file_get_co ...

  3. 不干胶打印机 www.bgjdyj.com

    不干胶打印机如何保养 不干胶打印机专卖网根据多年的维修经验总结了以下几种保养不干胶打印机的方法: 1.不干胶打印机打印机标签纸不能搁置太长时间,第一容易起静电.第二容易起灰尘2.不干胶打印机的打印头最 ...

  4. Go笔记-继承

    [Go中继承的实现]     当一个匿名类型被内嵌在结构体中时,匿名类型的可见方法也同样被内嵌,这在效果上等同于外层类型 继承 了这些方法:将父类型放在子类型中来实现亚型 package main i ...

  5. 使Eclipse下支持编写HTML/JS/CSS/JSP页面的自动提示

    1.打开eclipse→Windows→Preferences→Java→Editor→Content Assist 修改Auto Activation triggers for java的值为:zj ...

  6. 洛谷 [P1154] 奶牛分厩

    类似筛法的思想 本题实际上就是反推hash的模数, 首先想到枚举k,但显然会超时. $a mod k==b mod k <==> k|(a-b) $ 由同余的定义可以知道 所以我们的任务就 ...

  7. BZOJ 4259: 残缺的字符串 [FFT]

    4259: 残缺的字符串 题意:s,t,星号任意字符,匹配方案数 和上题一样 多乘上一个\(a_{j+i}\)就行了 #include <iostream> #include <cs ...

  8. 一、爬虫的基本体系和urllib的基本使用

    爬虫 网络是一爬虫种自动获取网页内容的程序,是搜索引擎的重要组成部分.网络爬虫为搜索引擎从万维网下载网页.一般分为传统爬虫和聚焦爬虫. 爬虫的分类 传统爬虫从一个或若干初始网页的URL开始,获得初始网 ...

  9. 制作U盘Win10 PE

    1.安装Windows ADK 下载地址 http://go.microsoft.com/fwlink/p/?LinkID=232339 2. 已管理员身份启动“部署和映像工具环境” 3.创建WinP ...

  10. dedecms调用文章内容

    使用织梦建站时,有时候需要调用某一文档的内容,但织梦默认没有相应的标签,这时就需要我们使用sql语句去抓取了. {dede:sql sql="SELECT aid,typeid,body F ...