找出此产品描述中包含N个关键字的长度最短的子串
阿里巴巴笔试题:给定一段产品的英文描述,包含M个英文字母,每个英文单词以空格分隔,无其他标点符号;再给定N个英文关键词,请说明思路并变成实现方法。
String extractSummary(String description , String[] keyWords)
目标:找出此产品描述中包含N个关键字的长度最短的子串(20分)
W0 W1 W2 W3 Q0 W4 W5 Q1 W6 W7 W8 Q0 W9 Q1
P335 《编程之美》上的参考代码:
int nTarget = N + 1;
int pBegin = 0;
int pEnd = 0;
int nLen = N;
int nAbstractBegin = 0;
int nAbstractEnd = 0;
while(true)
{
while(!isAllExisted() && pEnd < nLen)
pEnd++;
while(isAllExisted())
{
if(pEnd - pBegin < nTargetLen)
{
nTarget = pEnd - pBegin;
nAbstractBegin = pBegin;
nAbstractEnd = pEnd - 1;
}
pBegin++;
}
if(pEnd >= N)
break;
}
1.将传入的keyWords[]生成哈希表,以便字符串比较 P337
struct keyWords{
int cnt;
char key[];
int hash;
}
2.struct keyWord{当前扫描到的一个关键词
int start;
KeyHash* key;
KeyWord* next;
KeyWord* prev;
}
3.全局变量
KeyWord* head;
KeyWord* tail;
int minLen;
int minStartPos;
int needKeyCnt;
4.扫描文章,每扫描到一个关键字时,就建立一个KeyWord,并连入双向链表中。
更新head,tail
对应KeyHash结构中的cnt+1
若cnt 0 - 1,则needKeyCnt - 1;
5.needKeyCnt = 0时,扫描到了全部关键字
链表头优化
若cnt大于1,说明摘要中还有相同;
跳过,cnt-1
直至某个链表头对应KeyHash中的cnt为1,此事该结构不能少了。
6.如果找到更短的minLength,更新minLength和minStartPos;
7.开始新一轮搜索
摘除链表第一个节点
needKeyCnt + 1;
下一节点 - 链表头,开始优化。
*搜索从上一次搜索结束处开始,不用回溯,一直沿文章向下。
7.实际意义:摘要应该包含完整的句子
struct Sentence
{
int start;
int end;
KeyWord* StartKey;
KeyWord* endKey;
Sentence* prev;
Sentence* next;
}
扫描到一个完整句子的结束
Sentence头结点优化
句子全部key的cnt-1;才去掉句子
更新HashKey
直至句子包含只出现一次的关键字
扩展问题:
如何判断两个页面相似。
找出此产品描述中包含N个关键字的长度最短的子串的更多相关文章
- FCC JS基础算法题(5):Return Largest Numbers in Arrays(找出多个数组中的最大数)
题目描述: 找出多个数组中的最大数右边大数组中包含了4个小数组,分别找到每个小数组中的最大值,然后把它们串联起来,形成一个新数组.提示:你可以用for循环来迭代数组,并通过arr[i]的方式来访问数组 ...
- Java - Collection 高效的找出两个List中的不同元素
如题:有List<String> list1和List<String> list2,两个集合各有上万个元素,怎样取出两个集合中不同的元素? 方法1:遍历两个集合 public ...
- NLP任务:给定一句话,找出这句话中你想要的关键词,包括起始结束索引
在实际的nlp实际任务中,你有一大堆的人工标注的关键词,来新的一句话,找出这句话中的关键词,以便你以后使用,那如何来做呢? 1)用到正则的 finditer()方法,返回你匹配的关键词的迭代对象,包含 ...
- Java Collection - 003 高效的找出两个List中的不同元素
如题:有List<String> list1和List<String> list2,两个集合各有上万个元素,怎样取出两个集合中不同的元素? 方法1:遍历两个集合 public ...
- [Python3 练习] 010 找出藏在字符串中的“密码”
题目:找出藏在字符串中的"密码" (1) 描述 1) 题源 1 Python Challenge, level 3 2) 题源 2 小甲鱼老师的 Python 课程,第 20 讲课 ...
- 使用python找出nginx访问日志中访问次数最多的10个ip排序生成网页
使用python找出nginx访问日志中访问次数最多的10个ip排序生成网页 方法1:linux下使用awk命令 # cat access1.log | awk '{print $1" &q ...
- Class 找出一个整形数组中的元素的最大值
目的:找出一个整形数组中的元素的最大值 以下,我们用类和对象的方法来做. #include<iostream> using namespace std; class Array_m ...
- [MSSQL]找出一天数据中从第一条数据开始每累加1小时的数据
用Sql Server找出一天数据中从第一条数据开始每累加1小时的数据 -- ============================================= -- Author: Alle ...
- 算法 - 给出一个字符串str,输出包含两个字符串str的最短字符串,如str为abca时,输出则为abcabca
今天碰到一个算法题觉得比较有意思,研究后自己实现了出来,代码比较简单,如发现什么问题请指正.思路和代码如下: 基本思路:从左开始取str的最大子字符串,判断子字符串是否为str的后缀,如果是则返回st ...
随机推荐
- Logstash Reference Getting started with Logstash
进阶功能_Logstash_数据采集_用户指南_日志服务-阿里云 https://help.aliyun.com/document_detail/49025.html Logstash Referen ...
- 使用from __future__ import unicode_literals时要注意的问题
add by zhj: 在Python中有些库的接口要求参数必须是str类型字符串,有些接口要求参数必须是unicode类型字符串.对于str类型的字符串,调用len()和遍历时,其实都是以字节为单位 ...
- Python获取指定目录下所有子目录、所有文件名
需求 给出制定目录,通过Python获取指定目录下的所有子目录,所有(子目录下)文件名: 实现 import os def file_name(file_dir): for root, dirs, f ...
- Flask(1)- 主流web框架、初识flask
一.Python 现阶段三大主流Web框架 Django.Tornado.Flask 对比 Django 主要特点是大而全,集成了很多组件(例如Models.Admin.Form等等), 不管你用得到 ...
- node.js---sails项目开发(6)--- 实现分页功能
只需要添加一个文件即可 api/blueprints/find.js 代码如下 /** * Module dependencies */ var util = require('util') ...
- MSSQL获取昨天,本周,本月。。。
特别说明下:以下统计本周数据时,星期天是作为下周的第一天,而不是本周最后一天,因此你把星期天作为本周最后一天时,你需要在getDate()的基础上减一天,如dateadd('day', -1, get ...
- linux基础命令(2)
1 nohup命令 如果你正在运行一个进程,而且你想在退出帐户/关闭终端之后继续运行相应的进程,可以使用这个命令,nohup就是不挂起的意思no hang up. 用法: nohup command ...
- Linux常用命令(更新)
- 在python中有多少种运算符?解释一下算术运算符
在python中,我们有7种运算符:算术运算符.关系运算符.赋值运算符.逻辑运算符.位运算符.成员运算符.身份运算符 我们有7个算术运算符,能让我们对数值进行算术计算 1.加号(+),将两个值相加 2 ...
- INFO hdfs.DFSClient: Exception in createBlockOutputStream java.net解决办法
自己安装好Hadoop2.7.x之后,发现dfs中的/bin/hadoop fs -put命令不能够使用,报错如下: [hadoop@master bin]$ ./hadoop fs -put ../ ...