SharePoint 搜索爬网第三方网站配置

介绍：SharePoint的搜索着实强大，而且最近用到SharePoint搜索第三方爬网，感觉收获挺大，而且网上资料没找到太多类似的，就小记录一下，分享给大家。

首先，我自己写了一个net页面，里面读取所有我需要内容，充当SharePoint爬网的数据源，对这个页面进行爬网，页面如下图：

然后，打开SharePoint管理中心，搜索设置，新建内容源Crawl，爬网http://moss:9000，如下图。爬网设置可以按照自己的需要进行设置，比如想要爬网页面深度，可以进行设置，我的爬网，只是爬网页面下面的链接，所以深度设置为1；设置完成，先不要爬网，还需要设置爬网规则。

设置爬网规则：

打开爬网规则，设置路径，我的路径是9000端口下的所有页面，所以设置为http://moss:9000/*，当然，你的规则应该按照需要进行设置，可以排除这些路径，也可以包含这些路径，同时，如果有爬网到的任何结果，都可以在这里进行排除。

特别的是，我的页面上的链接，包含“?”问号，所以勾选了对复杂的URL进行爬网，下面的指定认证，可以选择认证的账号，如果需要Form认证的网页，可以设置指定其他内容访问账户【特别：如果登录需要验证码的，SharePoint是无法爬网的】。设置完爬网规则，点击确定保存，然后可以对Crawl内容源进行完全爬网了。

对Crawl内容源进行完全爬网，查看爬网日志，如下图：

在SharePoint搜索页面上，试试搜索刚配置的内容源，如下图：

搜索结果：

注意事项：

1、如果，服务器处于代理访问网站的情况，需要配置管理中心的代理，位置在搜索管理 - 代理服务器和超时 - 管理中心URL/_admin/searchfarmsettings.aspx

2、搜索爬网内容，可能会出现异常情况，可以尝试重置搜索内容，位置在搜索管理 - 重置所有已爬网内容，重置一下搜索结果。

3、爬网结果，搜索出来的结果，标题为搜索页面的Html的页面Title，内容为页面上的Body内容，链接为URL。

4、同样的搜索配置，可以搜索新浪，搜狐等网站。

SharePoint 搜索爬网第三方网站配置的更多相关文章

SharePoint 2013 搜索爬网功能
最近在政府部门介绍SharePoint 2013 新功能,我也准备了很多,比如SharePoint 2013的Search.以后有机会谈谈Office Web App,Workflow等. Share ...
[转载]SharePoint 2013搜索爬外网配置
本文介绍SharePoint 2013 设置外网(Internet)爬网源: 下面是步聚: 1. 新建外部爬网源 a. 打开 “SharePoint 2013 Central Administrati ...
SharePoint 2013 对二进制大型对象(BLOB)进行爬网
本文是参考MSDN文档做的示例,SharePoint 2013搜索二进制对象(BLOB),通过外部内容类型的方式将外部数据与SharePoint相关联,修改BCD模型,使SharePoint能够爬网外 ...
SharePoint 2013中的默认爬网文件扩展名和分析文件类型
摘要:了解默认情况下 SharePoint 2013 爬网的文件扩展名及其解析的文件类型,可以借此了解搜索可以爬的文件和支持的功能. 如果“管理文件类型”页上的列表包含文件扩展名,爬网组件将仅爬网文件 ...
解决SharePoint 2010拒绝访问爬网内容源错误
今天发现SP爬网出现了问题,持续时间蛮长的,一直爬不到内容. 解决方案: 这里有一条解决在SharePoint 2010搜索爬网时遇到的"拒绝访问错误"的小技巧. 首先要检查默认内 ...
解决 SharePoint 2010 拒绝访问爬网内容源错误的小技巧（禁用环回请求的两种方式）
这里有一条解决在SharePoint 2010搜索爬网时遇到的“拒绝访问错误”的小技巧. 首先要检查默认内容访问帐户是否具有相应的访问权限,或者添加一条相应的爬网规则.如果目标资源库是一个ShareP ...
SharePoint 2013中的爬网最佳做法
了解在 SharePoint Server 2013 中爬网的最佳做法搜索系统对内容进行爬网,以构建一个用户可以对其运行搜索查询的搜索索引.本文包含有关如何最有效地管理爬网的建议. 本文内容: 使用 ...
sharepoint 2013 持续爬网
能否对所有类型的内容源都使用连续爬网?不能.连续爬网仅适用于 SharePoint 型内容源.所有其他类型的内容源将继续选择增量爬网和完全爬网. 使用连续爬网是否会给存储库增加额外负载?连续爬网的资源 ...
SharePoint 2013 手动删除爬网项目
本文介绍如何手动删除某些搜索项目,其实删除搜索项目并不常用,主要还是在刚刚完成爬网,就删除了某些项目,然后有比较敏感需要马上删除的时候.下面,就跟着图文简单了解下手动删除已爬网的项目吧. 1.配置好搜 ...

随机推荐

ScrollView的阻尼回弹效果实现(仿qq空间)
玩过新浪微博,qq空间等手机客户端的童鞋,都应该清楚,在主界面向下滑动时,会有一个阻尼回弹效果,看起来挺不错,接下来我们就来实现一下这种效果,下拉后回弹刷新界面,先看效果图: 这个是编辑器里面的界面效 ...
Ubuntu 16.04 安装和使用QQ最简洁的方式
推荐参考网址: 1 http://www.ubuntukylin.com/ 2 http://www.ubuntukylin.com/application/ Wine QQ 1 http:// ...
UNIX环境高级编程——初始化一个守护进程
#include <stdio.h> #include <stdlib.h> #include <signal.h> #include <unistd.h&g ...
Android Device Administration 设备管理器——实现一键锁屏
Android Device Administration 设备管理器--实现一键锁屏最近研究了一下安全这一块的内容,当然,我是比较水的,所以也拿不出什么好知识点,但是有一些冷门的东西我还是可以聊聊 ...
Android开发学习之路--Activity之初体验
环境也搭建好了,android系统也基本了解了,那么接下来就可以开始学习android开发了,相信这么学下去肯定可以把android开发学习好的,再加上时而再温故下linux下的知识,看看androi ...
[GitHub]第四讲：合并分支
本地两个分支合并先从最简单的一种情况着手.现在项目只有一个 master 分支,我来新建一个 idea 分支,实现自己的想法,commit 一下.那现在仓库内的情况就是这样的这个是前面已经见过的情 ...
Android 面向协议编程体会优雅编程之旅
Android中面向协议编程的深入浅出 http://blog.csdn.net/sk719887916/article/details skay编写说起协议,现实生活中大家第一感觉会想到规则或者约 ...
Uva - 400 - Unix ls
先计算出最长文件的长度M,然后计算列数和行数,最后输出即可. AC代码: #include <iostream> #include <cstdio> #include < ...
分析比较KafkaWordCount及DierctKafkaWordCount
参考spark官方文档,Spark Streaming + Kafka Integration Guide,其中提到Spark Streaming如何从Kafka中接收数据.主要有两种方法,一种是使用 ...
固定宽高的DIV绝对居中示例
看了一些代码,然后自己试验了一番,分享如下示例: 实现点: 如果元素的宽高固定,那么,css指定样式为top:50%;left:50%; 而margin-top和 margin-left 指定为负数, ...

SharePoint 搜索爬网第三方网站配置

SharePoint 搜索爬网第三方网站配置的更多相关文章

随机推荐

热门专题