spider-web 是爬虫的网页版，使用xml配置

spider-web 是爬虫的网页版，使用xml配置，支持大部分页面的爬取，支持爬取内容的保存、下载等。

其中配置文件格式为：

<?xml version="1.0" encoding="UTF-8"?>

<content>

<url type="simple">

<url_head>http://www.oschina.net/tweets</url_head>

<url_start></url_start>

<url_end></url_end>

<url_suffix></url_suffix>

</url>

<analysis type="list">

<elem name="title">

<attr type="key" num="1">

<name>link</name>

<pro>http://my.oschina.net/(.)*/[0-9]*</pro>

</attr>

<attr type="class" num="2">

<name>tweet</name>

<pro>a</pro>

</attr>

<attr type="class" num="3">

<name>txt</name>

<pro>a</pro>

</attr>

<attr type="tag" num="4">

<name>a</name>

<pro>a</pro>

</attr>

</elem>

<elem name="content">

<attr type="key" num="1">

<name>link</name>

<pro>http://my.oschina.net/(.)*/[0-9]*</pro>

</attr>

<attr type="class" num="2">

<name>tweet</name>

<pro>a</pro>

</attr>

<attr type="class" num="3">

<name>txt</name>

<pro>a</pro>

</attr>

</elem>

</analysis>

<target type="download">

</target>

</content>

根据不同的页面进行设置，可以支持比较流行的页面爬取。

gllfeixiang/spider-web

star 1 | fork 3

爬虫网页版

issues: 没有issue

最近提交:

7092aa088 基本成型

gllfeixiang 8个月前
b3953d9de 爬虫网页版

gllfeixiang 9个月前
8d5ede1dc Initial commit

gllfeixiang 9个月前

下载zip master分支代码最近更新：2014-12-02

spider-web 是爬虫的网页版，使用xml配置的更多相关文章

SpringBoot系列教程web篇之404、500异常页面配置
接着前面几篇web处理请求的博文,本文将说明,当出现异常的场景下,如404请求url不存在,,403无权,500服务器异常时,我们可以如何处理原文友链: SpringBoot系列教程web篇之404 ...
CROW-5 WEB APP引擎商业计划书（HTML5方向）-微信网页版微信公众平台登录-水仙谷
CROW-5 WEB APP引擎商业计划书(HTML5方向)-微信网页版微信公众平台登录-水仙谷 CROW-5 WEB APP引擎商业计划书(HTML5方向)
python爬虫抓网页的总结
python爬虫抓网页的总结更多 python 爬虫学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自 ...
wechat 网页版通信全过程
想要记录总结一下自己在这个小项目中所遇到的坑,以及解决问题的思路. 首先我觉得这个小项目挺有实际市场的,市场上有一定的需求量,这个就是驱动力吧.这个小项目的关键点是wechat网页版通信全过程,讲真挺 ...
【爬虫】网页抓包工具--Fiddler--Request和Response
[爬虫]网页抓包工具--Fiddler Fiddler基础知识 Fiddler是强大的抓包工具,它的原理是以web代理服务器的形式进行工作的,使用的代理地址是:127.0.0.1,端口默认为8888, ...
分享：计算机图形学期末作业！！利用WebGL的第三方库three.js写一个简单的网页版“我的世界小游戏”
这几天一直在忙着期末考试,所以一直没有更新我的博客,今天刚把我的期末作业完成了,心情澎湃,所以晚上不管怎么样,我也要写一篇博客纪念一下我上课都没有听,还是通过强大的度娘完成了我的作业的经历.(当然作业 ...
网页版电子表格控件tmlxSpreadsheet免费下载地址
tmlxSpreadsheet 是一个由JavaScript 和 PHP 写成的电子表格控件(包含WP插件, Joomla插件等等).. 程序员可以容易的添加一个类似Excel功能的,可编辑的表格功能 ...
有图有真相，分享一款网页版HTML5飞机射击游戏
本飞机射击游戏是使用HTML5代码写的,尝试通过统一开发环境(UDE)将游戏托管在MM应用引擎,直接生成了网页版游戏,游戏简单易上手,非常适合用来当做小休闲打发时间. 游戏地址:http://flyg ...
PC网页版、移动客户端、Wap版有什么不同
测试周期中,可能会涉及到版本说明的词汇,比如:PC版.网页版.Web客户端.PC客户端.移动端.移动客户端.Wap版.H5. 关于＂PC网页版＂- 因为之前,基本没有PC终端业务,所以我们在通常的沟通 ...

随机推荐

viewpager的layout_width="wrap_content"无效问题
在viewpager当中直接使用layout_width="wrap_content"是无效的,扩展了一下.解决这个问题. package com.soulagou.ui; imp ...
A Brief Introduction to Multiset[STL]
基础 multiset是<set>库中一个非常有用的类型,它可以看成一个序列,插入一个数,删除一个数都能够在O(logn)的时间内完成,而且他能时刻保证序列中的数是有序的,而且序列中可以存 ...
OTL使用总结
在VC中访问Oracle,可以使用ADO或ODBC,如果你比较强大,也可以直接使用OCI API,但我个人认为OTL是最佳选择,它是一套数据库访问C++模板库,全部代码都在otlv4.h头文件中,通过 ...
[Windows编程] 开发DLL必读《Best Practices for Creating DLLs》
开发DLL的时候,需要十分注意 DllMain 函数,因为在多线程环境下DLLMain里面的代码很容易引发线程死锁. 这篇MSDN文章<Best Practices for Creating D ...
Android多线程断点续传下载
这个月接到一个项目.要写一个像360助手一样的对于软件管理的APP:当中.遇到了一个问题:多线程断点下载这个 ,因为之前没有写过这方面的应用功能.所以.不免要自学了. 然后就在各个昂站上收索并整理了 ...
基于hash的文档判重——simhash
本文环境: python3.5 ubuntu 16.04 第三方库: jieba 文件寄于github: https://github.com/w392807287/angelo_tools.git ...
Flask中路由模块的实现
在Flask中的路由功能主要通过修饰函数route实现,下面我们就来挖掘下route在源代码中是怎么分配视图函数的. def route(self, rule, **options): def dec ...
Introduction to REST #Reprinted#
from http://www.cnblogs.com/shanyou/archive/2012/05/12/2496959.html dudu的 HttpClient + ASP.NET Web A ...
WebRTC–getUserMedia-filter
示例说明:抓取MediaStream的一帧数据,并对该帧数据使用Css滤镜效果. 步骤: 1. 由getUserMedia方法获取一个可用的MediaStream 2. canvas方法drawIma ...
AutoCAD 2013官方简体中文破解版(32 / 64位），带激活码和注册机
AutoCAD 2014下载地址:http://ideapad.zol.com.cn/61/160_603697.html 安装及破解方法:(注册机下载在下方) 1.安装Autodesk AutoCA ...

spider-web 是爬虫的网页版，使用xml配置

star 1 | fork 3

spider-web 是爬虫的网页版，使用xml配置的更多相关文章

随机推荐

热门专题