介绍:SharePoint的搜索着实强大,而且最近用到SharePoint搜索第三方爬网,感觉收获挺大,而且网上资料没找到太多类似的,就小记录一下,分享给大家. 首先,我自己写了一个net页面,里面读取所有我需要内容,充当SharePoint爬网的数据源,对这个页面进行爬网,页面如下图: 然后,打开SharePoint管理中心,搜索设置,新建内容源Crawl,爬网http://moss:9000,如下图.爬网设置可以按照自己的需要进行设置,比如想要爬网页面深度,可以进行设置,我的爬网,只是爬网页…
最近在政府部门介绍SharePoint 2013 新功能,我也准备了很多,比如SharePoint 2013的Search.以后有机会谈谈Office Web App,Workflow等. SharePoint 2013的搜索功能很强大,特别是在社交领域的搜索让我耳目一新(如发掘知识,发现人际关系等).如下所示是一个SharePoint 普通搜索,可以看到实现对Office的全文检索(当然还包含很多,比如PDF). 启用Search Service Application SharePoint…
本文介绍SharePoint 2013 设置外网(Internet)爬网源: 下面是步聚: 1. 新建外部爬网源 a. 打开 “SharePoint 2013 Central Administration” -> "General Application Settings" ->"Farm Search Administration" ->"Search Service Application" b. 点击"Conte…
本文是参考MSDN文档做的示例,SharePoint 2013搜索二进制对象(BLOB),通过外部内容类型的方式将外部数据与SharePoint相关联,修改BCD模型,使SharePoint能够爬网外部数据中的文件流. 步骤,首先就是使用SPD创建外部内容类型,并为外部内容类型添加各种操作:然后,将BCD模型导出,添加方法后重新导入:最后,配置爬网,对外部内容类型进行爬网. 1.首先,用Designer 2013打开站点,点击左上角按钮,创建外部内容类型: 2.输入外部内容类型的名称,点击“单击…
摘要:了解默认情况下 SharePoint 2013 爬网的文件扩展名及其解析的文件类型,可以借此了解搜索可以爬的文件和支持的功能. 如果“管理文件类型”页上的列表包含文件扩展名,爬网组件将仅爬网文件.内容处理组件只能解析爬网文件的内容: 当它具有可解析文件格式的格式处理程序. 当使用格式处理程序解析具有文件格式和文件扩展名的文件时. 默认情况下,SharePoint 2013 满足很多文件类型的这些要求. 默认爬网文件扩展名和解析文件格式 下表显示 SharePoint 2013 具有内置格式…
今天发现SP爬网出现了问题,持续时间蛮长的,一直爬不到内容. 解决方案: 这里有一条解决在SharePoint 2010搜索爬网时遇到的"拒绝访问错误"的小技巧. 首先要检查默认内容访问帐户是否具有相应的访问权限,或者添加一条相应的爬网规则.如果目标资源库是一个SharePoint库,验证一下该帐号是否具有对该SharePoint web应用程序具有至少"完全读取"的权限. 当我在升级上来的SharePoint环境中对我新建的博客URL进行爬网时遇到了这个错误. 这…
这里有一条解决在SharePoint 2010搜索爬网时遇到的“拒绝访问错误”的小技巧. 首先要检查默认内容访问帐户是否具有相应的访问权限,或者添加一条相应的爬网规则.如果目标资源库是一个SharePoint库,验证一下该帐号是否具有对该SharePoint web应用程序具有至少“完全读取”的权限. 当我在升级上来的SharePoint环境中对我新建的博客URL进行爬网时遇到了这个错误. 这个错误发生在当你运行Windows 2008 R2和SharePoint 2010并且爬网进程试图访问一…
了解在 SharePoint Server 2013 中爬网的最佳做法 搜索系统对内容进行爬网,以构建一个用户可以对其运行搜索查询的搜索索引.本文包含有关如何最有效地管理爬网的建议. 本文内容: 使用默认内容访问帐户对大部分内容进行爬网 有效使用内容源 对用户配置文件进行爬网,然后再对 SharePoint 网站进行爬网 使用连续爬网确保搜索结果为最新 使用爬网规则排除已爬网的不相关的内容 对 SharePoint Web 应用程序的默认区域进行爬网 降低对 SharePoint 爬网目标进行爬…
能否对所有类型的内容源都使用连续爬网?不能.连续爬网仅适用于 SharePoint 型内容源.所有其他类型的内容源将继续选择增量爬网和完全爬网. 使用连续爬网是否会给存储库增加额外负载?连续爬网的资源占用与增量爬网相似.当发出请求的频率增加后,对一个存储库/主机的并发请求最大数仍将由 *爬网影响规则* 控制.该规则定义了可发出请求的并发线程的最大数,最大数默认设置为 12 个线程,但可以根据业务要求和/或容量计划进行更改. 使用连续爬网时是否需要设置增量爬网或完全爬网?使用连续爬网时不需要配置增…
本文介绍如何手动删除某些搜索项目,其实删除搜索项目并不常用,主要还是在刚刚完成爬网,就删除了某些项目,然后有比较敏感需要马上删除的时候.下面,就跟着图文简单了解下手动删除已爬网的项目吧. 1.配置好搜索,搜索linyu,如下图: 2.进入管理中心,点击Manage service applications,如下图: 3.找到Search Service Application,点击进入,如下图: 4.进入Search Administration,我们可以管理搜索配置,如下图: 5.点击左侧菜单…