阿里巴巴笔试题:给定一段产品的英文描述,包含M个英文字母,每个英文单词以空格分隔,无其他标点符号;再给定N个英文关键词,请说明思路并变成实现方法。

String extractSummary(String description , String[] keyWords)

目标:找出此产品描述中包含N个关键字的长度最短的子串(20分)

W0 W1 W2 W3  Q0 W4 W5 Q1 W6 W7 W8 Q0 W9 Q1

P335 《编程之美》上的参考代码:

int nTarget = N + 1;

int pBegin = 0;

int pEnd = 0;

int nLen = N;

int nAbstractBegin = 0;

int nAbstractEnd = 0;

while(true)

{

while(!isAllExisted() && pEnd < nLen)

pEnd++;

while(isAllExisted())

{

if(pEnd - pBegin < nTargetLen)

{

nTarget = pEnd - pBegin;

nAbstractBegin = pBegin;

nAbstractEnd = pEnd - 1;

}

pBegin++;

}

if(pEnd >= N)

break;

}

1.将传入的keyWords[]生成哈希表,以便字符串比较 P337

struct keyWords{

int cnt;

char key[];

int hash;

}

2.struct keyWord{当前扫描到的一个关键词

int start;

KeyHash* key;

KeyWord* next;

KeyWord* prev;

}

3.全局变量

KeyWord* head;

KeyWord* tail;

int minLen;

int minStartPos;

int needKeyCnt;

4.扫描文章,每扫描到一个关键字时,就建立一个KeyWord,并连入双向链表中。

更新head,tail

对应KeyHash结构中的cnt+1

若cnt 0 - 1,则needKeyCnt - 1;

5.needKeyCnt = 0时,扫描到了全部关键字

链表头优化

若cnt大于1,说明摘要中还有相同;

跳过,cnt-1

直至某个链表头对应KeyHash中的cnt为1,此事该结构不能少了。

6.如果找到更短的minLength,更新minLength和minStartPos;

7.开始新一轮搜索

摘除链表第一个节点

needKeyCnt + 1;

下一节点 - 链表头,开始优化。

*搜索从上一次搜索结束处开始,不用回溯,一直沿文章向下。

7.实际意义:摘要应该包含完整的句子

struct Sentence

{

int start;

int end;

KeyWord* StartKey;

KeyWord* endKey;

Sentence* prev;

Sentence* next;

}

扫描到一个完整句子的结束

Sentence头结点优化

句子全部key的cnt-1;才去掉句子

更新HashKey

直至句子包含只出现一次的关键字

扩展问题:

如何判断两个页面相似。

找出此产品描述中包含N个关键字的长度最短的子串的更多相关文章

  1. FCC JS基础算法题(5):Return Largest Numbers in Arrays(找出多个数组中的最大数)

    题目描述: 找出多个数组中的最大数右边大数组中包含了4个小数组,分别找到每个小数组中的最大值,然后把它们串联起来,形成一个新数组.提示:你可以用for循环来迭代数组,并通过arr[i]的方式来访问数组 ...

  2. Java - Collection 高效的找出两个List中的不同元素

    如题:有List<String> list1和List<String> list2,两个集合各有上万个元素,怎样取出两个集合中不同的元素? 方法1:遍历两个集合 public ...

  3. NLP任务:给定一句话,找出这句话中你想要的关键词,包括起始结束索引

    在实际的nlp实际任务中,你有一大堆的人工标注的关键词,来新的一句话,找出这句话中的关键词,以便你以后使用,那如何来做呢? 1)用到正则的 finditer()方法,返回你匹配的关键词的迭代对象,包含 ...

  4. Java Collection - 003 高效的找出两个List中的不同元素

    如题:有List<String> list1和List<String> list2,两个集合各有上万个元素,怎样取出两个集合中不同的元素? 方法1:遍历两个集合 public ...

  5. [Python3 练习] 010 找出藏在字符串中的“密码”

    题目:找出藏在字符串中的"密码" (1) 描述 1) 题源 1 Python Challenge, level 3 2) 题源 2 小甲鱼老师的 Python 课程,第 20 讲课 ...

  6. 使用python找出nginx访问日志中访问次数最多的10个ip排序生成网页

    使用python找出nginx访问日志中访问次数最多的10个ip排序生成网页 方法1:linux下使用awk命令 # cat access1.log | awk '{print $1" &q ...

  7. Class 找出一个整形数组中的元素的最大值

    目的:找出一个整形数组中的元素的最大值   以下,我们用类和对象的方法来做.   #include<iostream> using namespace std; class Array_m ...

  8. [MSSQL]找出一天数据中从第一条数据开始每累加1小时的数据

    用Sql Server找出一天数据中从第一条数据开始每累加1小时的数据 -- ============================================= -- Author: Alle ...

  9. 算法 - 给出一个字符串str,输出包含两个字符串str的最短字符串,如str为abca时,输出则为abcabca

    今天碰到一个算法题觉得比较有意思,研究后自己实现了出来,代码比较简单,如发现什么问题请指正.思路和代码如下: 基本思路:从左开始取str的最大子字符串,判断子字符串是否为str的后缀,如果是则返回st ...

随机推荐

  1. IE11上登陆oracle OEM时报:“证书错误,导航已阻止”且无继续浏览此网站(不推荐)的错误

    问题原因:oracle oem证书的密钥小于1024 解决方案:在cmd中执行命令:certutil -setreg chain\EnableWeakSignatureFlags 8 出现以下提示: ...

  2. IO流入门-第十三章-File相关

    /* java.io.File 1.File和流无关,不能通过该类完成文件的读写 2.File是文件和目录路径名的抽象变现形式. */ import java.io.*; public class F ...

  3. winrar命令行参数说明

    用法:     rar <命令> -<开关 1> -<开关 N> <压缩文件> <文件...> <@列表文件...> <解 ...

  4. 【我的Android进阶之旅】解决错误:No enum constant com.android.build.gradle.OptionalCompilationStep.FULL_APK

    今天在分支编译代码并允许之后,接着同步主干代码之后,再继续点击[Run]按钮允许程序的时候报错了,错误描述日志如下所示: 一.错误描述 Error:(1, 1) A problem occurred ...

  5. 我的Android进阶之旅------>Java字符串格式化方法String.format()格式化float型时小数点变成逗号问题

    今天接到一个波兰的客户说有个APP在英文状态下一切运行正常,但是当系统语言切换到波兰语言的时候,程序奔溃了.好吧,又是我来维护. 好吧,先把系统语言切换到波兰语,切换到波兰语的方法查看文章 我的And ...

  6. Android 屏幕切换动画

    public void overridePendingTransition (int enterAnim, int exitAnim) Call immediately after one of th ...

  7. Spring的IoC模式

    1.依赖 依赖就是有联系,有地方使用到它就是有依赖它,一个系统不可能完全避免依赖.如果你的一个类或者模块在项目中没有用到它,恭喜你,可以从项目中剔除它或者排除它了,因为没有一个地方会依赖它.下面看一个 ...

  8. Django web 框架

    目录 与Django的第一次见面 安装.文件解释与基本命令 Settings Models Views 路由系统 模板 Form表单 Cookie与Session CSRF防护

  9. Flash本地共享对象 SharedObject

    以下内容是对网上一些资料的总结 Flex SharedObject 介绍(转自http://www.eb163.com/club/thread-3235-1-1.html): Flash的本地共享对象 ...

  10. SQL联接 外联接 内联接 完全联接 交叉联接

    联接分为: 内联接                        [inner join] 外联接        (左外联接,右外联接)        [left join/left outer jo ...