一:


搜索引擎的历史

萌芽:Archie、Gopher

Archie:搜索FTP服务器上的文件

Gopher:索引网页


起步:Robot(网络机器人)的出现与spider(网络爬虫)

Robot基于网络的,可以执行特定任务的程序

Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自动下载程序

3
  发展阶段:excite,galaxy,yahoo这些公司做搜索

4
  繁荣:infoseek,AltaVista,Google和百度

5  
搜索引擎的原理:

有三步


爬取资源


建立索引


用户索引

二 
搜索技术能用来做什么?

案例:


使用word中Ctrl+F进行检索:原理:从文档自上而下搜索


从windows的资源管理器中看搜索:搜索每个文件夹,检索需要的文件

C MyEclipse中的help contents:原理:站内搜索

D Baidu和Google提供互联网中各种资源的搜索:原理:垂直搜索

三:信息检索的过程


构建文本库


建立索引


进行搜索


对结果进行排序

四:倒排索引

倒排搜索区别于传统查找,传统线性查找,按照信息从前到后,依次查找(效率),倒排搜索,记录信息出现的位置,通过索引内容快速找到关键信息,类似书记的目录!

五:什么是Lucene(全文检索框架,apache提供)


Lucene是一套用于全文检索和搜寻的开源程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟的免费开发源代码工具

B Lucene是提供了一个简单却强大的应用程式接口,能够做全文检索索引和搜寻,在Java开发环境里Lucene是一个成熟的免费的开放源代码工具。

全文检索:对数据建立全文索引,根据全文索引搜索信息

solr
是高性能搜索服务器,基于Lucene

Lucene并不是现成的搜索引擎产品,但可以用来制作搜索引擎产品

Lucene是搜索引擎的开发技术,Lucene并不是一个现成的产品

官网:http://lucene.apache.org

六 
什么是全文件检索

全文检索:对需要查找数据的每一个单词建立索引

七:Lucene快速入门(5个步骤)

A
下载Lucene的卡发包,Lucene-3.6.2.zip

B
导入jar包到工程Lucene-core-3.6.2.jar

C
将数据转换成为文档对象Document

D
建立索引Index

E
查询索引获取数据

1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门的更多相关文章

  1. 百度谷歌雅虎三大搜索引擎比较和如何配置谷歌访问助手访问Google搜索服务

    引言: 由于近期网上盛传”百度搜索引擎已死“的消息,引发个人对于搜索引擎的思考.百度作为最大的中文搜索引擎,确实有着很大声誉,再加上本地化的优势,正成为国人们的首选,但是作为一名技术开发人员,使用搜索 ...

  2. SSO单点登录的发展由来以及实现原理【转】

    单点登录以及权限,在很早之前都有写过,不过都比较简单,今天就具体说一下,以及下一步要做的 1.web单系统应用 早期我们开发web应用都是所有的包放在一起打成一个war包放入tomcat容器来运行的, ...

  3. 无人驾驶汽车发展需要激光雷达和V2X技术

    无人驾驶汽车发展需要激光雷达和V2X技术

  4. Java开发学习(三十五)----SpringBoot快速入门及起步依赖解析

    一.SpringBoot简介 SpringBoot 是由 Pivotal 团队提供的全新框架,其设计目的是用来简化 Spring 应用的初始搭建以及开发过程. 使用了 Spring 框架后已经简化了我 ...

  5. JavaScript 、ECMAScript、commonJS 发展历史 与标准化发展

    本文介绍下JavaScript和 ECMAScript的诞生及发展历史,以及标准化过程. 一.JavaScript诞生 1994年,网景公司(Netscape)发布了Navigator浏览器0.9版. ...

  6. 【搜索引擎】 PostgreSQL 10 实时全文检索和分词、相似搜索、模糊匹配实现类似Google搜索自动提示

    需求分析 要通过PostgreSQL实现类似Google搜索自动提示的功能,例如要实现一个查询海量数据中的商品名字,每次输入就提示用户各种相关搜索选项,例如淘宝.京东等电商查询 思路 这个功能可以用 ...

  7. Elasticsearch由浅入深(九)搜索引擎:query DSL、filter与query、query搜索实战

    search api的基本语法 语法概要: GET /_search {} GET /index1,index2/type1,type2/_search {} GET /_search { , } h ...

  8. web技术发展历程--读《大型网站技术架构_核心原理与案例分析》

    1 早期的web服务 2 CGI程序的出现.发展.凋零到MVC的兴起 CGI:通用网关接口技术. 随着CGI技术的出现,web服务端可以通过不同的用户请求产生动态页面内容. web服务器将请求数据交给 ...

  9. SSO单点登录的发展由来以及实现原理

    单点登录以及权限,在很早之前都有写过,不过都比较简单,今天就具体说一下,以及下一步要做的 1.web单系统应用 早期我们开发web应用都是所有的包放在一起打成一个war包放入tomcat容器来运行的, ...

随机推荐

  1. [PA 2014]Lustra

    Description Byteasar公司专门外包生产带有镜子的衣柜.刚刚举行的招标会上,有n个工厂参加竞标.所有镜子都是长方形的,每个工厂能够制造的镜子都有其各自的最大.最小宽度和最大.最小高度. ...

  2. APIO 2015

    老师让我们打这套题练练手.感觉这套题还是挺有意思的,比国内某些比赛不知道高到哪里去.最后我拿了284/300,貌似比赛是IOI赛制啊,强行被当成OI赛制做了,不然我T3可能还能多骗点. T1.scul ...

  3. ●HDU 2871 Memory Control(Splay)

    ●赘述题目 四种操作: ○Reset:将整个内存序列清空. ○New a:在尽量靠左的位置新建一个长度为a的内存块,并输出改内存块起始位置.(各个内存块即使相邻也不会合并..) ○Free a:将a点 ...

  4. ●BOZJ 3144 [Hnoi2013]切糕

    题链: http://www.lydsy.com/JudgeOnline/problem.php?id=3144 题解: "这是一个经典的最小割模型" ---引用自别人的博客 .. ...

  5. poj 1811 随机素数和大数分解(模板)

    Sample Input 2 5 10 Sample Output Prime 2 模板学习: 判断是否是素数,数据很大,所以用miller,不是的话再用pollard rho分解 miller : ...

  6. python raise和assert的区别

    python中raise和assert的区别 一.使用raise抛出异常 python可以自动触发异常,raise(内置函数)的定义为显示的抛出异常,用户可以使用raise进行判断,显式的引发异常,r ...

  7. 从 vCenter Server 使用的数据库中清除旧数据 (2075138)(转)

    Document Id 2075138 Symptoms 免责声明: 本文为 Purging old data from the database used by VMware vCenter Ser ...

  8. 位运算n & (n-1)的妙用

    本文转自:http://blog.csdn.net/zheng0518/article/details/8882394 按位与的知识 n&(n-1)作用:将n的二进制表示中的最低位为1的改为0 ...

  9. 关于ES7中的async/await在客户端和服务端上的实践

    一.前言 在项目中经常遇到处理异步请求的情况,面对层层的嵌套,回调显示那么苍白无力: async / await是ES7的重要特性之一,也是目前社区里公认的优秀异步解决方案,既然这样就用上吧. 二.配 ...

  10. thinkphp零碎小知识

    在使用thinkphp搭建后台的时候,有很多的参数需要去配置,有的记不住还要去查找,这里把一些基本的参数整理一下,还有些零碎的知识点,与大家共勉,希望能方便大家. 友情提示:这些配置是 thinkph ...