开源 java CMS - FreeCMS2.3 Web页面信息採集
原文地址:http://javaz.cn/site/javaz/site_study/info/2015/23312.html
Web页面信息採集
从FreeCMS 2.1開始支持
通过简单配置就可以抓取目标网页信息,支持增量式採集、keyword替换、定时採集,同一採集规则可採集多个页面(静态和动态)。可採集多种信息属性。可自己主动审核且静态化信息页面。
採集规则管理
从左側管理菜单点击採集规则进入。

加入採集规则
在採集规则列表下方点击"加入"button。







填写相关属性后点击"保存"button就可以。
採集规则属性说明
採集规则属性分为基本、设置、採集地址,採集属性。关键词替换。
普通情况下仅仅要在基本选项卡填写相关属性就可以完毕。假设须要很多其它高级设置能够使用后面几个选项卡。
以下针对主要属性进行解释说明。
名称:採集规则的名称。
採集到栏目:採集的信息要加入到那个栏目。
页面编码:目标网页的页面编码,默觉得UTF-8。
採集地址:目标网页的地址。在基本选项卡中仅仅能设置一个,想要设置多个能够在採集地址选项卡中设置。
採集调度:设置定时运行採集操作,这个设置很重要。仅仅有设置了採集调度系统才运行採集操作。
内容列表開始结束html:由于系统是通过对目标网页内容进行关键词截取来提取信息属性的,所以设置目标属性的開始结束html就非常重要,一定要设置为相对照较唯一的開始结束html,这样系统才干正确的截取到目标属性。
此属性主要为了截取目标页面信息列表的html.
内容地址開始结束html:依据上面的属性获取内容列表html后,使用此属性截取各个内容地址。
内容标题開始结束html:依据上面的属性获取内容地址后。系统会抓取此内容地址的网页内容。然后依据此属性截取内容标题。内容相关属性的设置跟此属性类似。以下不再赘述。
状态:启用状态下的採集规则,系统才会运行。
採集图片:将信息内容中的图片下载到本地。
自己主动审核通过:将採集的信息直接设置为已审核状态。
使用採集信息点击量:默认採集到的信息的点击量为0。设置此属性和内容点击量開始结束html后系统会截取目标信息的点击量,设置为採集后信息的点击量。
最多採集内容数:默认不限制,假设设置了此属性,系统会从採集记录中统计此採集规则已採集了多少条信息,假设超过最多採集内容数。系统将不再採集。
将首幅图片设为标题图片:假设信息内容中有图片,则提取第一张做为标题图片。并设置信息为图片信息。
清除内容中的html标签:将信息内容中的html标签清除。保留纯文本。
当内容为空时是否採集:可设置在内容为空时不採集此信息。
使用採集信息的加入时间:默认採集到的信息的加入时间为当前时间。设置此属性和内容加入时间開始结束html后系统会截取目标信息的加入时间,设置为採集后信息的加入时间。
採集信息加入时间格式:默认格式为yyyy-MM-dd,假设目标页面的加入时间格式不同,须要在这里设置为正确的日期格式。
採集開始时间:默觉得当前时间,假设不到採集開始时间,系统是不会採集的。
採集结束时间:默觉得永不结束,假设超过採集结束时间,系统是不会採集的。
内容地址补全url:由于有些网页使用的是相对路径或绝对路径。能够设置内容地址的前缀。
图片地址补全url:由于有些网页使用的是相对路径或绝对路径,能够设置图片链接地址的前缀。
内容中A标签链接地址补全url:由于有些网页使用的是相对路径或绝对路径,能够设置内容中A标签链接地址的前缀。
採集地址分为静态和动态地址,静态地址为固定的地址。动态地址一般指能够分页的地址,通过{page}来代表分页变量,能够设置从那一页採集到那一页,如http://www.freetam.cn/list_{page}.html,设置開始页数为1,结束页数为10,系统会自己主动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html全部页面的数据。
普通情况下我们仅仅採集信息的标题和内容就能够了,系统还提供採集内容描写叙述、点击量、作者、来源、加入时间属性的功能。
通过关键词替换功能,您能够将採集到的信息里面的关键词替换为自己想要的关键词。
编辑採集规则
选择须要编辑的採集规则,然后点击"编辑"button。
注意:同一时候仅仅能编辑一个採集规则。

填写相关属性后点击"保存"button就可以。
採集
选择须要採集的採集规则。然后点击"採集"button。
注意:同一时候仅仅能对一个採集规则进行採集操作。


删除採集规则
选择须要删除的採集规则,然后点击"删除"button。
提示:同一时候能够删除多个採集规则。


为了防止误操作,系统会提示用户是否删除,点击"确定"完毕删除操作。
查看採集记录
从左側管理菜单点击採集记录进入。
在这里能够查看到全部web页面採集记录,您能够删除指定的採集记录。但并不会删除已採集的信息数据,选择须要删除的採集记录。然后点击"删除"button。
提示:同一时候能够删除多个採集记录。


为了防止误操作,系统会提示用户是否删除。点击"确定"完毕删除操作。
开源 java CMS - FreeCMS2.3 Web页面信息採集的更多相关文章
- 开源 java CMS - FreeCMS2.1公布
项目地址:http://www.freeteam.cn/ FreeCMS商业版V2.1更新功能 1.web页面信息採集:通过简单配置就可以抓取目标网页信息,支持增量式採集.keyword替换.定时採集 ...
- 开源 java CMS - FreeCMS2.2 网站管理
项目地址:http://www.freeteam.cn/ 网站管理 FreeCMS支持站点群模式,并支持无限树级管理. 网站的相关文件在site文件夹下,每一个网站有自己的文件夹,源文件文件夹名就是自 ...
- 开源 java CMS - FreeCMS2.3 移动app生成首页数据
原文地址:http://javaz.cn/site/javaz/site_study/info/2015/28160.html 项目地址:http://www.freeteam.cn/ 生成首页数据 ...
- 开源 java CMS - FreeCMS2.3员
原文地址:http://javaz.cn/site/javaz/site_study/info/2015/28375.html 项目地址:http://www.freeteam.cn/ 会员注冊 打 ...
- 开源 java CMS - FreeCMS2.2 模型管理
项目地址:http://www.freeteam.cn/ 模型管理 从FreeCMS 2.0開始支持 通过模型添加删除字段,调整后台功能;支持网站.栏目.信息等模型. 因为操作方法同样.本文档以网站模 ...
- 开源 java CMS - FreeCMS2.2 菜单管理
项目地址:http://www.freeteam.cn/ 菜单管理 FreeCMS在设计时定位于面向二次开发友好,所以FreeCMS提供了菜单管理功能.二次开发者能够自由添加新的功能菜单到FreeCM ...
- 开源 java CMS - FreeCMS2.2 单位管理
项目地址:http://www.freeteam.cn/ 单位管理 FreeCMS支持多单位同一时候使用,并支持无限树级管理. 1. 加入根单位 从左側管理菜单点击单位管理进入. 点击"加入 ...
- 开源 java CMS - FreeCMS2.3 移动app生成栏目数据
原文地址:http://javaz.cn/site/javaz/site_study/info/2015/28230.html 项目地址:http://www.freeteam.cn/ 生成栏目数据 ...
- 开源 java CMS - FreeCMS2.2 敏感词管理
项目地址:http://www.freeteam.cn/ 敏感词管理 管理敏感词.系统会自己主动将敏感词替换为指定字符. 系统进行敏感词处理的功能有: 信息:标题.内容,摘要. 栏目:名称,描写叙述. ...
随机推荐
- POJ 1080 Human Gene Functions
题意:给两个DNA序列,在这两个DNA序列中插入若干个'-',使两段序列长度相等,对应位置的两个符号的得分规则给出,求最高得分. 解法:dp.dp[i][j]表示第一个字符串s1的前i个字符和第二个字 ...
- CXF之六 自定义拦截器
CXF已经内置了一些拦截器,这些拦截器大部分默认添加到拦截器链中,有些拦截器也可以手动添加,如手动添加CXF提供的日志拦截器.也可以自定义拦截器,CXF中实现自定义拦截器很简单,只要继承Abstrac ...
- 《C++ primer》--第三章
习题3.2 什么是默认构造函数? 解答: 默认构造函数就是在没有显示提供初始化式时调用的构造函数.它由不带参数的构造函数,或者为所有形参提供默认实参的构造函数定义.如果定义某个类的变量时没有提供初始化 ...
- 新版本ubuntu13.10软件安装
问题1:如何解决ubunt13.04不能和主机共享文件的问题 . 安装VMware Tools 网上有很多的资料,这里没有给出. . 设置共享文件夹目录 ) 在VMware虚拟机窗口,选择VM-> ...
- [GRYZ]寒假模拟赛
写在前面 这是首次广饶一中的OIERS自编自导,自出自做(zuo)的模拟赛. 鉴于水平气压比较低,机(wei)智(suo)的WMY/XYD/HYXZC就上网FQ下海找了不少水(fei)题,经过他们优( ...
- SeaJS学习笔记(一) ./ 和 ../ 区别
最近要去实习,公司里使用sea.js进行模块化开发 具体下载安装就不多说了,请参见SeaJS官网 <!DOCTYPE html> <html> <head> < ...
- C++ 我想这样用(三)
话接前篇,继续谈在C++环境下使用C风格编程时的注意点: 6.关于原型的声明 在C里,调用一个未声明的函数是允许的,但是在C++里,必须先声明才能调用函数.另外,如果函数的参数是空的,那么在c里面是未 ...
- phonegap WebApp
打开网页浏览器,进入Android SDK网站(http://developer.android.com/sdk/index.html). 我们可以看到,Google官方提供了包括Windows平台在 ...
- 大道至简—SQLite3 使用教学
OS X自从10.4后把SQLite这套相当出名的数据库软件,放进了作业系统工具集里.OS X包装的是第三版的SQLite,又称SQLite3.这套软件有几个特色: 软件属于公共财(pu ...
- BestCoder Round #66 (div.2) hdu5592
GTW likes math Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others) ...