[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计

一，为什么要造轮子

有兴趣的同学可以去各大招聘网站看一下爬虫工程师的要求，大多是JAVA，PYTHON甚至于还有NODEJS，C++，再或者在开源中国查询C#的爬虫，仅有几个非常简单或是几年没有更新的项目。从我看的一些文章来说，单纯性能上.NET对比JAVA，PYTHON并没有处于弱势，另根据我多年的开发经验大多爬虫性能瓶颈在并发下载（网速）、IP池，因此我认为用C#写一个爬虫框架绝对是可行的，那么为什么我大.NET没有一个强大的爬虫框架呢？说真的我不知道，可能爬虫框架核心上比较简单而没有被大牛看上，也可能.NET的开发人员没有别的语言的开发人员勤奋，或是.NET的开源氛围没有别的语言高。随着.NET开源消息的公布，我觉得是时候开发一个跨平台，跨语言的爬虫框架了。我不喜欢复杂的东西，总是觉得复杂的东西容易出问题，可能跟我个人能力有限，驾驭不了有关。所以设计DotnetSpider的时候是参考JAVA下一个轻量级爬虫框架webmagic，但是肯定有我自己的理解和改进在内的。此文是系列介绍第一篇，后面陆续会介绍详细用法及程序改动

另：个人代码水平有限，如果写得不好请大家指正海涵

二，框架设计

其实爬虫的设计我觉得还是挺成熟的，大部分都会拿出下图来说事，由于我是参考的webmagic，所以也少不得得贴上来给大家一看(图片是直接从webmagic上拿的)

Scheduler：负责URL的调度，可以实现如Queue, PriorityScheduler, RedisScheduler(可用于分布式)等等
Downloader: 负责下载HTML，可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader，本地文件Downloader等等
PageProcesser: 负责HTML解析及新的符合规则的URL解析，从上图可以看到传入Processer的是Page对象，里面包含了下载好的完整HTML或者JSON数据
Pipeline: 负责数据的存储, 可以实现如MySql, MySqlFile，MSSQL，MongoDb等等

三，与别的爬虫的差异

使用JSON定义爬虫，所以可以最终实现跨语言（不同语言只要写一个JSON转换的provider就好）
由于使用JSON做解析，所以可以实现类中属性是别的类的情况（仅限MongoDB, 关系型数据库不好存这种数据）\
自动建表
有.NET CORE版本，因此可以跨平台（已经在LINUX下运行大量任务了）
有感于IP代理的不稳定性，因此代理模块没有细致测试使用，而是实现了另一种换IP手段（ADSL拨号）
加入基本的数据验证模块

四，最基本使用方法

最基本的使用方法是不需要引用Extension, 引用Common, Core, JLog就好，然后需要你自己实现IPipeline和Processer

    public static void Main()

    {

        HttpClientDownloader downloader = new HttpClientDownloader();

        Core.Spider spider = Core.Spider.Create(new MyPageProcessor(), new QueueDuplicateRemovedScheduler()).AddPipeline(new MyPipeline()).SetThreadNum(1);

        var site = new Site() { EncodingName = "UTF-8" };

        for (int i = 1; i < 5; ++i)

        {

            site.AddStartUrl("http://www.youku.com/v_olist/c_97_g__a__sg__mt__lg__q__s_1_r_0_u_0_pt_0_av_0_ag_0_sg__pr__h__d_1_p_1.html");

        }

        spider.Site = site;

        spider.Start();

    }

    private class MyPipeline : IPipeline

    {

        public void Process(ResultItems resultItems, ISpider spider)

        {

            foreach (YoukuVideo entry in resultItems.Results["VideoResult"])

            {

                Console.WriteLine($"{entry.Name}:{entry.Click}");

            }

            //May be you want to save to database

            //

        }

        public void Dispose()

        {

        }

    }

    private class MyPageProcessor : IPageProcessor

    {

        public void Process(Page page)

        {

            var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-col3']")).Nodes();

            List<YoukuVideo> results = new List<YoukuVideo>();

            foreach (var videoElement in totalVideoElements)

            {

                var video = new YoukuVideo();

                video.Name = videoElement.Select(Selectors.XPath("/div[4]/div[1]/a")).GetValue();

                video.Click = int.Parse(videoElement.Select(Selectors.Css("p-num")).GetValue().ToString());

                results.Add(video);

            }

            page.AddResultItem("VideoResult", results);

        }

        public Site Site => new Site { SleepTime = 0 };

    }

    public class YoukuVideo

    {

        public string Name { get; set; }

        public string Click { get; set; }

    }

五，高级使用方法

定义一个实体类，并在类上加合适的Attribute以便知道你要如何解析数据
定义一个SpiderContextBuilder类，在里面配置爬虫名字，线程数，Scheduler,downloader等等
在main中实类化你的爬虫类，调用run方法

public class JdSkuSpider : ISpiderContext

{

    public SpiderContextBuilder GetBuilder()

    {

        Log.TaskId = "JD SKU Weekly";

        SpiderContext context = new SpiderContext

        {

            SpiderName = "JD SKU " + DateTimeUtils.MONDAY_RUN_ID,

            CachedSize = 1,

            ThreadNum = 8,

            Site = new Site

            {

            },

            Scheduler = new QueueScheduler()

            {

            },

            StartUrls=new Dictionary<string, Dictionary<string, object>> {

                { "http://list.jd.com/list.html?cat=9987,653,655&page=1&go=0&JL=6_0_0&ms=5", new Dictionary<string, object> { { "name","手机" }, { "cat3","9987" } } },

            },

            Pipeline = new MysqlPipeline()

            {

                ConnectString = "[your mysql connect string]"

            },

            Downloader = new HttpDownloader()

        };

        return new SpiderContextBuilder(context, typeof(Product));

    }

    [Schema("jd", "sku_v2", Suffix = TableSuffix.Monday)]

    [TargetUrl(new[] { @"page=[0-9]+" }, "//*[@id=\"J_bottomPage\"]")]

    [TypeExtractBy(Expression = "//div[contains(@class,'j-sku-item')]", Multi = true)]

    [Indexes(Primary = "sku")]

    public class Product : ISpiderEntity

    {

        [StoredAs("category", DataType.String, 20)]

        [PropertyExtractBy(Expression = "name", Type = ExtractType.Enviroment)]

        public string CategoryName { get; set; }

        [StoredAs("cat3", DataType.String, 20)]

        [PropertyExtractBy(Expression = "cat3", Type = ExtractType.Enviroment)]

        public int CategoryId { get; set; }

        [StoredAs("url", DataType.Text)]

        [PropertyExtractBy(Expression = "./div[1]/a/@href")]

        public string Url { get; set; }

        [StoredAs("sku", DataType.String, 25)]

        [PropertyExtractBy(Expression = "./@data-sku")]

        public string Sku { get; set; }

        [StoredAs("commentscount", DataType.String, 20)]

        [PropertyExtractBy(Expression = "./div[@class='p-commit']/strong/a")]

        public long CommentsCount { get; set; }

        [StoredAs("shopname", DataType.String, 100)]

        [PropertyExtractBy(Expression = "./div[@class='p-shop hide']/span[1]/a[1]")]

        public string ShopName { get; set; }

        [StoredAs("name", DataType.String, 50)]

        [PropertyExtractBy(Expression = "./div[@class='p-name']/a/em")]

        public string Name { get; set; }

        [StoredAs("shopid", DataType.String, 25)]

        public string ShopId { get; set; }

        [StoredAs("venderid", DataType.String, 25)]

        [PropertyExtractBy(Expression = "./@venderid")]

        public string VenderId { get; set; }

        [StoredAs("jdzy_shop_id", DataType.String, 25)]

        [PropertyExtractBy(Expression = "./@jdzy_shop_id")]

        public string JdzyShopId { get; set; }

        [StoredAs("cdate", DataType.Time)]

        [PropertyExtractBy(Expression = "now", Type = ExtractType.Enviroment)]

        public DateTime CDate { get; set; }

    }

}

JdSkuSpider spiderBuilder = new JdSkuSpider();

var context = spiderBuilder.GetBuilder().Context;

ContextSpider spider = new ContextSpider(context);

spider.Run();

五，代码地址

https://github.com/zlzforever/DotnetSpider 望各位大佬加星:)

爬虫框架: DotnetSpider的更多相关文章

[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统为什么要造轮子同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JA ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集为什么要造轮子同学们可以去各大招聘网站查看一下爬虫工程师 ...
[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [二] 基本使用
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统使用环境 Visual Studio 2015 or later .NET 4 ...
[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [三] 配置式爬虫
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统上一篇介绍的基本的使用方式,虽然自由度很高,但是编写的代码相对还是挺多.于是框 ...
[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [四] JSON数据解析
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统场景模拟假设由于漏存JD SKU对应的店铺信息.这时我们需要重新完全采集所有 ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [五] 如何做全站采集?
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集如何做全站采集? 很多同学加群都在问, 如何使用Dotne ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [四] JSON数据解析
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集场景模拟接上一篇, JD SKU对应的店铺信息是异步加载 ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [三] 配置式爬虫
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集上一篇介绍的基本的使用方式,自由度很高,但是编写的代码相对 ...
[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [二] 基本使用
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集使用环境 Visual Studio 2017 .NET ...

随机推荐

HDU--杭电--1501--Zipper--深搜、DP都好
Zipper Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Sub ...
Android--开发过程中使用到的长度单位
px:表示屏幕实际的像素. in:表示英寸. mm:毫米. pt:表示一个点,是屏幕的物理尺寸. dp:(与密度无关的像素)逻辑长度单位,在160dpi屏幕上,1dp = 1px = 1/160英寸 ...
ie6背景透明的设置方法 ie6背景颜色透明和png图像透明解决方法
IE6浏览器,让我们又爱又恨.爱它的是,可以让我们写的代码的时候,可以更标准,恨的是,它有太多无厘头的IE6常见bug(详情点击),让我们焦头烂额.现在现在用百度浏览器调查,国内占有率不到6%了,但是 ...
Jquery 中each循环嵌套的使用示例教程
1.从MVC返回的Json数据如下: 2.下面是客户端实现的示例: $.post("/admin/GetPermissionsForRole", function (data,st ...
设计模式（三）建造者模式Builder（创建型）
1. 概述在软件开发的过程中,当遇到一个“复杂的对象”的创建工作,该对象由一定各个部分的子对象用一定的算法构成,由于需求的变化,复杂对象的各个部分经常面临剧烈的变化,但将它们组合在一起的算法相对稳定 ...
仿StackOverflow开发在线问答系统
仿StackOverflow开发在线问答系统 [第二期11月9日开课]使用Python Flask Web开发框架实现一套类似StackOverflow的在线问答平台LouQA,具备提问,回答,评论点 ...
道格拉斯—普克(Douglas一Peukcer)节点抽稀算法
Douglas一Peukcer算法由D.Douglas和T.Peueker于1973年提出,简称D一P算法,是眼下公认的线状要素化简经典算法.现有的线化简算法中,有相当一部分都是在该算法基础上进行改进 ...
异常：未能载入文件或程序集”DAL”或它的某一个依赖项——解决的方法
以下是我再使用抽象工厂+反射重构机房时,在Factoy中出现了以下一个问题: 去网上查了一下资料,发现这是一个非常普遍的问题,它出现的原因主要有两种: 第一种: 载入DLL路径错误.解决的方法是调整D ...
PHP - 代码分离
总代码: <?php /* * Version:1.0 * CreateTime:2015年11月11日 * Author:HF_Ultrastrong *///引入公共文件,在公共文件中创建, ...
How to find variable is empty in shell script
(1). var="" if [ -n "$var" ]; then echo "not empty" else echo ...

爬虫框架: DotnetSpider

[开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

一 ，为什么要造轮子

二 ，框架设计

三 ，与别的爬虫的差异

四 ，最基本使用方法

五 ，高级使用方法

五 ，代码地址