13个.Net开源的网络爬虫

请点击此处输入图片描述

1：.Net开源的跨平台爬虫框架 DotnetSpider Star:430

DotnetSpider这是国人开源的一个跨平台、高性能、轻量级的爬虫软件，采用 C# 开发。目前是.Net开源爬虫最为优秀的爬虫之一。

请点击此处输入图片描述

2：俄国牛人写的开源爬虫xNet Star:117

这个一个俄国牛人写的开源工具，为啥说他强悍了，因为他将所有Http协议的底层都实现了一遍，这有啥好处？只要你是写爬虫的，都会遇到一个让人抓狂的问题，就是明明知道自己Http请求头跟浏览器一模一样了，为啥还会获取不到自己想要的数据

3：开源的.net爬虫Abot Star:1050

Abot是一个开源的.net爬虫，速度快，易于使用和扩展

4：C#仿火车头的开源数据采集器V5_DataCollection Star:25

V5 数据采集器是一款面向个人及专业用户提供的一款专业的数据采集软件,即适用于简单化配置操作，也适应针对复杂数据采集的能力,所见即可采。 V5数据采集器独有的代理轮询采集机制，可有效的解决网站屏蔽问题，可用于互联网数据动态监控，绝对是您的首选

5：C#爬虫引擎内核版SmartSpider Star:17

SmartSpider爬虫引擎内核版，全新的设计理念，真正的极简版本。

6：.Net开源的超级爬虫Hawk Star:1039

HAWK是一种数据采集和清洗工具，依据GPL协议开源，能够灵活，有效地采集来自网页，数据库，文件，并通过可视化地拖拽，快速地进行生成，过滤，转换等操作。其功能最适合的领域，是爬虫和数据清洗

7：基于C#.NET的简单且高效的网站爬虫 Star:58

Simple-Web-Crawler - 基于C#.NET的简单网页爬虫，支持异步并发、切换代理、操作Cookie、Gzip加速。

8：网站数据采集软件网络矿工采集器（原soukey采摘）

Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件，也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源，但并不会影响软件功能的提供，甚至要比一些商用软件的功能还要丰富。Soukey采摘当前提供的主要功能如下： 1. 多任务多线程数据采集，支持POST方式；...

9：网站数据采集软件NETSpider Star:94

NETSpider网站数据采集软件是一款基于.Net平台的开源软件。软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的. NETSpider采摘当前提供的主要功能如下： 1. 多任务多线程数据采集，支持POST方式(待定)； 2. 可...

10：网络爬虫程序NWebCrawler

NWebCrawler是一款开源的C#网络爬虫程序

11：Web爬虫工具NCrawler

NCrawler 是一个Web Crawler 工具，它可以让开发人员很轻松的发展出具有Web Crawler 能力的应用程式，并且具有可以延展的能力，让开发人员可以扩充它的功能，以支援其他类型的资源（例如PDF /Word/Excel 等档案或其他资料来源）。 NCrawler 使用多执行绪...

12：多线程web爬虫程序spidernet

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件. 源码中TODO:标记描述了未完成功能, 希望提交你...

13：网页爬虫ScrapingSpider Star:48

ScrapingSpider 是一个业余时间开发的，支持多线程，支持关键字过滤，支持正文内容智能识别的爬虫。爬虫的核心实现在ScrapingSpider.Core程序集中。爬虫类为Spider类，爬虫的爬取逻辑，与页面处理逻辑通过事件分离，两个关键事件为AddUrlEvent和Data...

14：爬虫小新Sinawler

国内第一个针对微博数据的爬虫程序！原名“新浪微博爬虫”。登录后，可以指定用户为起点，以该用户的关注人、粉丝为线索，延人脉关系搜集用户基本信息、微博数据、评论数据。该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持，但请勿用于商业用途。该应用基于.NET2.0框架，需SQL SER...

13个.Net开源的网络爬虫的更多相关文章

推荐13个.Net开源的网络爬虫
1:.Net开源的跨平台爬虫框架 DotnetSpider Star:430 DotnetSpider这是国人开源的一个跨平台.高性能.轻量级的爬虫软件,采用 C# 开发.目前是.Net开源爬虫最为优 ...
larbin是一种开源的网络爬虫/网络蜘
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发.larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源.Lar ...
基于Heritrix的特定主题的网络爬虫配置与实现
建议在了解了一定网络爬虫的基本原理和Heritrix的架构知识后进行配置和扩展.相关博文:http://www.cnblogs.com/hustfly/p/3441747.html 摘要随着网络时代 ...
网络爬虫系统Heritrix的结构分析（个人读书报告）
摘要随着网络时代的日新月异,人们对搜索引擎,网页的内容,大数据处理等问题有了更多的要求.如何从海量的互联网信息中选取最符合要求的信息成为了新的热点.在这种情况下,网络爬虫框架heritrix出现 ...
为编写网络爬虫程序安装Python3.5
1. 下载Python3.5.1安装包1.1 进入python官网,点击menu->downloads,网址:https://www.python.org/downloads/ 1.2 根据系统 ...
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...
Python即时网络爬虫项目: 内容提取器的定义
1. 项目背景在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作 ...
Python即时网络爬虫：API说明
API说明——下载gsExtractor内容提取器 1,接口名称下载内容提取器 2,接口说明如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...
Python3之网络爬虫<0>初级
由于Python3合并URLib与URLlib2统一为URLlib,Python3将urlopen方法放在了urllib.request对象下. 官方文档:https://docs.python.or ...

随机推荐

数据库 -- mysql记录操作
一,概括 MySQL数据操作: DML 在MySQL管理软件中,可以通过SQL语句中的DML语言来实现数据的操作,包括使用INSERT实现数据的插入 UPDATE实现数据的更新使用DELETE实现 ...
【BZOJ3132】【TYVJ1716】上帝造题的七分钟二维树状数组
题目大意维护一个$n\times m$的矩阵,有两种操作: $1~x_1~y_1~x_2~y_2~v$:把$(a,b),(c,d)$为顶点的矩形区域内的所有数字加上$v$. \(2~ ...
PHUML 生成UML类图操作流程
项目基础阶段: 安装svn,因为托管在svn平台上: 项目下载到本地,并切换到对应目录(如:F:\wwwroot\phuml.git\trunk\src\app): svn checkout http ...
sql里的正则表达式
SQL语句还可以搭配正则表达式作为查询条件,很是有用. REGEXP_LIKE(匹配)REGEXP_INSTR (包含)REGEXP_REPLACE(替换)REGEXP_SUBSTR(提取) 表 1: ...
session的基本原理及安全性
1.session原理提到session,大家肯定会联想到登录,登录成功后记录登录状态,同时标记当前登录用户是谁.功能大体上就是这个样子,但是今天要讲的不是功能,而是实现.通过探讨session的实 ...
html标题、段落、换行与字符实体
通过 <h1>.<h2>.<h3>.<h4>.<h5>.<h6>,标签可以在网页上定义6种级别的标题.6种级别的标题表示文档的6 ...
Docker使用阿里云docker镜像加速
首先进入阿里云docker库首页 https://dev.aliyun.com/ 点击管理中心点击加速器复制下面的加速地址进入docker的 Settings 把basic 切换成 adva ...
通俗讲解MOSFET
一位工程师曾经对我讲,他从来不看MOSFET数据表的第一页,因为“实用”的信息只在第二页以后才出现.事实上,MOSFET数据表上的每一页都包含有对设计者非常有价值的信息.但人们不是总能搞得清楚该如何解 ...
php 写斐波那契数列
<?php $arr = []; for($i=1;$i<9;$i++){ if($i==1 || $i ==2){ $arr[$i-1] = 1; }else{ $arr[$i-1] = ...
css 圆形头像
方法一:背景图片(推荐) 好处是,图片长宽不等的情况下图片不会变形 .ui-photo { width: 100px; height: 100px; background: url("img ...

13个.Net开源的网络爬虫

13个.Net开源的网络爬虫的更多相关文章

随机推荐

热门专题