ET采集主要逻辑是做好这三个步骤,然后开始工作

采集配置

基本设置一般不用修改

列表设置:列表网址,可能有些人不知道什么是列表网址,就是你所要采集网址放在一个页面就是列表网址,比如我们常说的栏目,一个论坛的版块:

列表页肯定不是一页,一般是有规律的,就需要设置成自动列表,具体规则参考ET

列表区域选择:一个网页大的去了,为了快速找到你想要采集的页面,需要制定区域,

一定要找唯一属性的,一般是找id 之类的,中间是你区域内容

列表分析规则:对列表进行分析,用标记替换找到我们需要的文章标题,文章网址,文章缩略图,常见的是包含a标签的,必须有单独标记

文章网址合成:根据列表分析得到的网址,合成你所要采集的页面的网址

基本设置(编码、http请求)——》列表设置(列表网址-》列表区域规则——》列表分析规则)-->文章网址合成

数据项设置-》关联整理组-》

经过两个星期的学习和使用,基本从规则到接口都已经对et 很熟悉了,希望在学习et过程中有不懂的朋友可以再下面留言,我看到会及时回复。。

********************************************** 分割线(当时学习的一些记录) ***************************************************

1,列表网址
<%s=循环标志,起始编号,结束编号,步长,当前编号%>
子循环标记    <%l=loop,起始编号,结束编号,步长,当前编号%>

是否循环  noloop 不循环    loop 循环
自动递增或递减的起始值,只能填写数字,需补零位数应与原字符串一致,例如"05"或"005";
当起始编号比结束编号大则步进方向为递减,否则为递增

2,列表区域规则
[列表区域规则]用于指定包含文章条目列表的代码段,起到缩小分析范围、准确定位的作用
[列表区域规则]可以选填,当此项不填写时,将以整个采集到的列表页源码为列表分析对象,填写本项后,将以本项中区域标记<%content%>所表示的源码作为列表分析对象;
变量标记
标记代码为<%var%>,用于表示源码文本中不需要采集的、连续的、零到任意数量的不确定字符串

3,列表分析规则
[列表分析规则]为必填项,本项用以从[列表区域规则]确定的网页代码范围中分析出文章条目的网址、标题、缩略图等信息
文章地址:<%fileid%> 文章标题:<%title%> 缩略图 <%litpic%> 变量标记 <%var%>

4,文章网址合成
http://www.southmoney.com/<%fileid%>.html

1,数据项设置页
数据项用于定义从采集页面获取的各项信息,除[标题]、[缩略图]、[文章网址](即发布规则中的[文章网址])这三项数据可在列表设置页获取外,要采集发布其他信息,必须在此为其建立并设置数据项

数据项处理流程为:分析数据->字符解码->数据整理->字符解码->网址修正补全->伪原创->关键词检查->敏感词检查->去首尾空白->检查空值;

匹配多条 是为了匹配到回复内容

因为在内容中,只有文字和图片是我们需要的

在匹配 div的时候要由内而外,

经过测试,找到没有匹配到得标签,添加进去替换

附件下载,在数据项设置正文包含文件, 文件下载设置启用下载,
通常设置发布配置,文件上传设置ftp等

******************************************************************

et 采集器 分页

采集方式:
分页区域规则
找到包含分页区域的范围,替换区域标记
分页链接规则
单条链接的规则,选择更准确的字符串,

分页网址合成

逻辑分页

当前网址分解(也就是当前采集的内容页面)
分页增量 一般是从第二页开始
分页网址合成

测试无效特征码是否返回什么,如果没有就是用有效特征码

************************************************************

错误代码 1 :   文章在发布网站重复

错误代码 2 :   采集文章网页失败

错误代码 3 :   标题分析处理异常

错误代码 4 :   访问检查网址失败

错误代码 5 :   采集文章分页失败

错误代码 6 :   数据项分析出错

错误代码 7 :   附件下载异常

错误代码 8 :   附件上传异常

错误代码 9 :   文章发布异常

错误代码 10 :  文章回复异常

学习使用Et采集的过程和分析的更多相关文章

  1. [转]面向过程的分析(POA),和面向对象的分析(OOA)

    欢迎转载本文,转载地址: http://www.juliantec.info/articles/basic-concept/poa-and-ooa.html 软件开发方法论概述 在60年代的软件开发行 ...

  2. Android应用程序安装过程源代码分析

    文章转载至CSDN社区罗升阳的安卓之旅,原文地址:http://blog.csdn.net/luoshengyang/article/details/6766010 Android系统在启动的过程中, ...

  3. Android应用程序绑定服务(bindService)的过程源代码分析

    文章转载至CSDN社区罗升阳的安卓之旅,原文地址:http://blog.csdn.net/luoshengyang/article/details/6745181 Android应用程序组件Serv ...

  4. Android系统进程间通信(IPC)机制Binder中的Client获得Server远程接口过程源代码分析

    文章转载至CSDN社区罗升阳的安卓之旅,原文地址:http://blog.csdn.net/luoshengyang/article/details/6633311 在上一篇文章中,我 们分析了And ...

  5. Android应用程序组件Content Provider的启动过程源代码分析

    文章转载至CSDN社区罗升阳的安卓之旅,原文地址:http://blog.csdn.net/luoshengyang/article/details/6963418 通过前面的学习,我们知道在Andr ...

  6. ucore操作系统学习笔记(一) ucore lab1系统启动流程分析

    一.ucore操作系统介绍 操作系统作为一个基础系统软件,对下控制硬件(cpu.内存.磁盘网卡等外设),屏蔽了底层复杂多样的硬件差异:对上则提供封装良好的应用程序接口,简化应用程序开发者的使用难度.站 ...

  7. U-Boot启动过程完全分析

    U-Boot启动过程完全分析 1.1       U-Boot工作过程 U-Boot启动内核的过程可以分为两个阶段,两个阶段的功能如下: (1)第一阶段的功能 硬件设备初始化 加载U-Boot第二阶段 ...

  8. Android系统默认Home应用程序(Launcher)的启动过程源代码分析

    在前面一篇文章中,我们分析了Android系统在启动时安装应用程序的过程,这些应用程序安装好之后,还需要有一个 Home应用程序来负责把它们在桌面上展示出来,在Android系统中,这个默认的Home ...

  9. openstack学习笔记一 虚拟机启动过程代码跟踪

    openstack学习笔记一 虚拟机启动过程代码跟踪 本文主要通过对虚拟机创建过程的代码跟踪.观察虚拟机启动任务状态的变化,来透彻理解openstack各组件之间的作用过程. 当从horizon界面发 ...

随机推荐

  1. linux svn服务器搭建、客户端操作、备份与恢复

    Subversion(SVN)是一个开源的版本控制系統,管理着随时间改变的数据.这些数据放置在一个中央资料档案库中,这个档案库很像一个普通的文件服务器,它会记住每一次文件的变动,这样就可以把档案恢复到 ...

  2. linux命令中,执行一个程序,后面加上&, 代表的意思是什么?

    后台执行.也就是执行这个程序的同时,你的终端同时还能够做其他的事情,如果不加这个符号,那么你执行这个程序后,你的终端只能等这个程序执行完成才能够继续执行其他的操作 . 如:启动etcd: ./etcd ...

  3. 【转】LINUX系统I/O复用技术之二:poll() -- 不错

    原文网址:http://www.cnblogs.com/alyssaCui/archive/2013/04/01/2993886.html poll poll或select为大部分Unix/Linux ...

  4. Json数据异步绑定到界面的Table并且自动刷新

    转自:http://blog.csdn.net/jianxin1009/article/details/8565828‘ 做Winform习惯了,大家都习惯设置datasource这样的写法. 如果想 ...

  5. 如何从PDF文件中提取矢量图

    很多时候我们需要PDF文档中的插图,直接用pdf中的复制或者截屏软件只能提取位图格式的图片,放大缩小难免失真. 本文教大家一种一种从pdf中提取矢量图的方法. 工具软件: 1 adobe acroba ...

  6. Eclipse插件收藏列表

    viPlugin 2.11.0 AnyEdit Tools 2.4.4 EclipseColorer 0.8.0 PyDev – Python IDE for Eclipse 2.7.5 MoreUn ...

  7. MySQL数据库建立外键失败的原因总结

    在MySQL数据库创建外键时,经常会发生一些错误,这是一件很令人头疼的事.一个典型的错误就是:Can’t create table... 的错误.在很多实例中,这种错误的发生都是因为mysql一直以来 ...

  8. windows下mysql 控制台操作

    windows mysql 控制台操作 1.首先打开cmd进入dos窗口 2.切换至目录: F: cd PHPnow-1.5.6\MySQL-5.0.90\bin 3.进入mysql: mysql - ...

  9. linux下利用openssl来实现证书的颁发(详细步骤)

    1.首先需要安装openssl,一个开源的实现加解密和证书的专业系统.在centos下可以利用yum安装. 2.openssl的配置文件是openssl.cnf,我们一般就是用默认配置就可以.如果证书 ...

  10. 记录:Ubuntu下配置java

    使用的Ubuntu版本为:Ubunyu Kylin 14.04 >>下载JDK 网页链接:http://www.oracle.com/technetwork/java/javase/dow ...