[转载]SharePoint 2013搜索学习笔记之搜索构架简单概述
Sharepoint搜索引擎主要由6种组件构成,他们分别是爬网组件,内容处理组件,分析处理组件,索引组件,查询处理组件,搜索管理组件。可以将这6种组件分别部署到Sharepoint场内的多个服务器上,组成适合需求的Sharepoint搜索场,搜索场的体系结构设计主要参考量是爬网内容量,微软根据爬网内容量不同将搜索场分为大型场,中型场和小型场,更多详细信息可参考: SharePoint Server 2013 中的搜索概述和在SharePoint Server 2013 中规划企业搜索体系结构。

Sharepoint搜索引擎构架图
|
内容量 |
搜索体系结构 |
|
0 - 1000 万个项 |
小型搜索服务器场 |
|
1000 万 - 4000 万个项 |
中型搜索服务器场 |
|
4000 万 - 1 亿个项 |
大型搜索服务器场 |
下图为一个小型搜索拓扑的例子,据微软测试可以支持1000万个项目,并测量出它每秒可以爬网 50 个文档,且每秒服务 10 个查询。对于每秒 50 个文档的爬网率,首次完全爬网中,需要搜索 55 个小时来爬网 1000 万个项目。

小型场服务器拓扑
以下为这个小型场的硬件需求说明:
|
机服务器 |
应用程序或数据库服务器 |
存储量 |
RAM |
处理器 |
|
A、B |
带有查询处理和索引组件的应用程序服务器 |
500 GB |
16 GB |
1.8 GHz 4x CPU 内核 |
|
A、B |
带有爬网、搜索管理、分析和内容处理组件的应用程序服务器。 |
200 GB |
8 GB |
1.8 GHz 4x CPU 内核 |
|
A、B |
带有所有搜索数据库的数据库服务器。 |
100 GB |
16 GB |
1.8 GHz 4x CPU 内核 |
搜索组件说明:
|
搜索组件名称 |
说明 |
|
爬网组件 |
对内容源进行爬网可从已爬网项目中收集已爬网属性和元数据,并将此信息发送到内容处理组件 |
|
内容处理组件 |
转换已爬网项目并将其发送到索引组件。此组件还会将已爬网属性映射到托管属性 |
|
分析处理组件 |
执行搜索分析和使用情况分析 |
|
索引组件 |
从内容处理组件中搜索已处理的项目并将其写入搜索索引。此组件还可以处理传入查询、从搜索索引中检索信息并将结果集发送回查询处理组件 |
|
查询处理组件 |
分析传入查询。这有助于提高精确度、改进检索和提高相关性。查询将发送到索引组件,该组件将为查询返回一组搜索结果 |
|
搜索管理组件 |
运行搜索的系统进程,添加并初始化搜索组件的新实例 |
搜索数据库说明:
|
搜索数据库名称 |
说明 |
|
爬网数据库 |
存储跟踪信息和有关已爬网项目(如文档和 URL)的历史信息。还将存储上一次爬网时间、上一次爬网 ID 和上一次爬网期间的更新类型(添加、更新、删除)等信息。 |
|
链接数据库 |
存储由内容处理组件提取的未处理信息和有关搜索单击的信息。分析处理组件将分析此信息。 |
|
分析报告数据库 |
存储使用情况分析的结果。 |
|
搜索管理数据库 |
存储搜索配置数据 |
博客转自:《Sharepoint2013搜索学习笔记之搜索构架简单概述(一)》
[转载]SharePoint 2013搜索学习笔记之搜索构架简单概述的更多相关文章
- Sharepoint2013搜索学习笔记之搜索构架简单概述(一)
Sharepoint搜索引擎主要由6种组件构成,他们分别是爬网组件,内容处理组件,分析处理组件,索引组件,查询处理组件,搜索管理组件.可以将这6种组件分别部署到Sharepoint场内的多个服务器上, ...
- [转载]SharePoint 2013搜索学习笔记之自定义结果源
搜索中心新建好之后在搜索结果页上会默认有所有内容,人员,对话,视频这四个结果分类,每个分类会返回指定范围的搜索结果,这里我再添加了部门日志结果分类,搜索这个分类只会返回部门日志内容类型的搜索结果,要实 ...
- [转载]SharePoint 2013搜索爬外网配置
本文介绍SharePoint 2013 设置外网(Internet)爬网源: 下面是步聚: 1. 新建外部爬网源 a. 打开 “SharePoint 2013 Central Administrati ...
- VSTO学习笔记(一)VSTO概述
原文:VSTO学习笔记(一)VSTO概述 接触VSTO纯属偶然,前段时间因为忙于一个项目,在客户端Excel中制作一个插件,从远程服务器端(SharePoint Excel Services)上下载E ...
- APPCAN学习笔记004---AppCan与Hybrid,appcan概述
APPCAN学习笔记004---AppCan与Hybrid,appcan概述 技术qq交流群:JavaDream:251572072 本节讲了appcan的开发流程,和开发工具 笔记不做具体介绍了,以 ...
- OGG学习笔记03-单向复制简单故障处理
OGG学习笔记03-单向复制简单故障处理 环境:参考:OGG学习笔记02-单向复制配置实例 实验目的:了解OGG简单故障的基本处理思路. 1. 故障现象 故障现象:启动OGG源端的extract进程, ...
- QML学习笔记(六)- 简单计时器和定时器
做一个简单的qml计时器和定时器,左键触发计时,右键触发定时 GitHub:八至 作者:狐狸家的鱼 本文链接:QML学习笔记(六)- 简单计时器和定时器 左键点击按钮,触发计时器,中键可以暂停计时,同 ...
- HTTP学习笔记02-HTTP报文格式之概述
HTTP学习笔记02-HTTP报文格式之概述 HTTP学习笔记02-HTTP报文格式之概述 HTTP报文格式 报文的语法 起始行 首部 实体部分 学习一个协议感觉最有意思的就是看包结构…在我看来这是唯 ...
- Sharepoint2013搜索学习笔记之设置业务数据内容源(六)
Sharepoint搜索爬网组件支持爬Business Data Connectivity Service 承载的外部数据,关于Business Data Connectivity Service设置 ...
随机推荐
- Android中的内部类引起的内存泄露
引子 什么是内部类?什么是内存泄露?为什么Android的内部类容易引起内存泄露?如何解决? 什么是内部类? 什么是内部类?什么又是外部类.匿名类.局部类.顶层类.嵌套类?大家可以参考我这篇文章 ,再 ...
- JavaScript中的CSS属性对照表
盒子标签和属性对照 CSS语法(不区分大小写) JavaScript语法(区分大小写) border border border-bottom borderBottom border-bottom-c ...
- CMD command
过滤字符串查找:netstat -aon|findstr "80"
- JS 清除字符串数组中,重复元素
<script language="JavaScript"> <!-- var arrData=new Array(); for(var i=0; i<10 ...
- github host你懂得,如果你是程序员请不要乱传,求求了
可用截止测试时间 2015-01-12 github相关的hosts 207.97.227.239 github.com 65.74.177.129 www.github.com 207.97.227 ...
- Logstash——multiline 插件,匹配多行日志
本文内容 测试数据 字段属性 按多行解析运行时日志 把多行日志解析到字段 参考资料 在处理日志时,除了访问日志外,还要处理运行时日志,该日志大都用程序写的,比如 log4j.运行时日志跟访问日志最大的 ...
- Spark使用总结与分享
背景 使用spark开发已有几个月.相比于python/hive,scala/spark学习门槛较高.尤其记得刚开时,举步维艰,进展十分缓慢.不过谢天谢地,这段苦涩(bi)的日子过去了.忆苦思甜,为了 ...
- 将Sql Server迁移到Always on集群 - 账号的同步
Always on环境的建立,网上资料很多,主要是windows集群的建立以及Sql Server Always on的建立,略 容易忽略的是Sql server账号同步问题(Always on能实现 ...
- CentOS 6.5 EasyPR环境搭建
EasyPR是一款开源的中文车牌识别系统,项目地址. 在搭建的过程中,主要的问题是注意版本的兼容性,这里面的版本包括:opencv版本,g++版本以及cmake版本. 我使用的EasyPr版本信息如下 ...
- .NET Core:面向未来的开源跨平台开发技术
作为一种全新的开源和跨平台的开发平台,.NET Core 历经两年多的开发,终于在于2016年6月27日针对所有主流服务器和桌面操作系统发布 1.0 RTM 版本..NET Core 是一种通用开发平 ...