C# 爬虫小程序

设计思路

主要基于Http Get请求网页数据，进行分析。涉及递归调用，多线程提高效率，守护线程等。

项目结构

AbsChain

职责链抽象类，负责定义HTML处理方法，定义递归处理方法等

AbsThreadManager

线程管理抽象类，负责定义守望线程，管理多线程

UrlQueue

URL队列对象，管理URL队列

Crawl

爬虫对象，负责结合URL队列与职责链，运行爬取功能

HttpGet

HTTP GET请求类，负责获取HTML文本

ThreadEntity

爬虫线程，实体对象

简单爬虫示例

以下示例为一个简单的获取HTML页面文本示例，可以做到下载文本，并进行分析，可以说是最简单的爬虫

            WebClient wc = new WebClient();

            byte[] response = wc.DownloadData("http://www.weather.com.cn/weather/101120501.shtml");

            string ss = Encoding.UTF8.GetString(response);

项目代码调用示例

创建继承类，继承职责链，负责具体爬虫方法

    public class NodeChain : AbsChain

    {

        #region 去除头部的'与"

        /// <summary>

        /// 去除头部的'与"

        /// </summary>

        /// <param name="url"></param>

        /// <returns></returns>

        private string RemoveQuotation(string url)

        {

            if ((url.IndexOf("'") == 0) || (url.IndexOf("\"") == 0))

            {

                url = url.Remove(0, 1);

                if (url.IndexOf("'") != -1)

                {

                    url = url.Remove(url.IndexOf("'"), 1);

                }

                if (url.IndexOf("\"") != -1)

                {

                    url = url.Remove(url.IndexOf("\""), 1);

                }

            }

            if (url.IndexOf(" ") != -1)

            {

                url = url.Remove(url.IndexOf(" "));

            }

            return url;

        }

        #endregion

        #region 处理网页

        /// <summary>

        /// 处理网页

        /// </summary>

        /// <param name="html"></param>

        protected override void Process(string html)

        {

            try

            {

                Regex re = new Regex(@"href=(?<web_url>[\s\S]*?)>|href=""(?<web_url>[\s\S]*?)""|href='(?<web_url>[\s\S]*?)'");

                MatchCollection mc = re.Matches(html);

                foreach (Match m in mc)

                {

                    string url = m.Groups["web_url"].ToString();

                    url = this.RemoveQuotation(url);

                    if (url.IndexOf("http://") != -1)

                    {

                        UrlQueue.GetInstance().Enqueue(url);

                    }

                }

                string title = string.Empty;

                re = new Regex(@"<title[\s\S]*?>(?<title>[\s\S]*?)</title>");

                Match temp = re.Match(html.ToLower());

                title = temp.Groups["title"].ToString();

                if (!string.IsNullOrEmpty(title))

                {

                    Console.WriteLine(string.Format("网页标题：{0}",title));

                    Console.WriteLine(string.Format("网页URL：{0}", this.Url));

                }

            }

            catch

            {

            }

        }

        #endregion

    }

创建线程管理继承类，负责重写新建职责链对象

    public class ThreadManager:AbsThreadManager

    {

        protected override AbsChain GetChainHeader()

        {

            return new NodeChain();

        }

    }

设置URL入口，运行爬虫

            try

            {

                Console.Title = System.Configuration.ConfigurationManager.AppSettings["Title"].ToString();

                Console.WriteLine("Process is running！");

                string url = System.Configuration.ConfigurationManager.AppSettings["URL"].ToString();

                UrlQueue.GetInstance().Enqueue(url);

                ThreadManager thread = new ThreadManager();

                thread.Start();

            }

            catch (Exception ex)

            {

            }

GitHub

.NET-App/NetSpider/

C# 爬虫小程序的更多相关文章

一个python爬虫小程序
起因深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊.“多线程”啊都没有学到. 想到廖雪峰大神的python教程很经典.很著名.就想找找有木有pdf版的 ...
nodeJs爬虫小程序练习
//爬虫小程序 var express = require('express'); //superagent是一个http的库,可以发起get和post请求 var superagent = requ ...
适合新手的Python爬虫小程序
介绍:此程序是使用python做的一个爬虫小程序爬取了python百度百科中的部分内容,因为这个demo是根据网站中的静态结构爬取的,所以如果百度百科词条的html结构发生变化需要修改部分内容. ...
福利贴——爬取美女图片的Java爬虫小程序代码
自己做的一个Java爬虫小程序废话不多说.先上图. 目录命名是用标签缩写,假设大家看得不顺眼能够等完成下载后手动改一下,比方像有强迫症的我一样... 这是挂了一个晚上下载的总大小,只是还有非常多由于 ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(协程池版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from gevent import monkey monkey.patch_all() from gevent.pool i ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(线程池版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from queue import Queue import requests from lxml import etree ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多线程版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from queue import Queue import requests from lxml import etree ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多进程版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 import requests from lxml import etree from multiprocessing imp ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正from selenium import webdriver import time class Douyu: "&q ...
java实现一个简单的爬虫小程序
前言前些天无意间在百度搜索了一下以前写过的博客我啥时候在这么多不知名的网站上发表博客了???点进去一看, 内容一模一样,作者却不是我... 然后又去搜了其他篇博客,果然,基本上每篇都在别的网站上有 ...

随机推荐

PAT B1002 写出这个数
读入一个自然数n,计算其各位数字之和,用汉语拼音写出和的每一位数字. 输入格式:每个测试输入包含1个测试用例,即给出自然数n的值.这里保证n小于10100. 输出格式:在一行内输出n的各位数字之和的每 ...
jqgrid 单列排序和组合排序
有时,我们需要设置jqgrid表格按某个列排序,或则按多个列组合排序.如何实现? 1)设置可以排序的列 sortable: true 2)设置 multiSort: true 启用组合排序 $(&q ...
03-Maven坐标管理
1.什么是坐标? 2.坐标的详细概念 3.Maven包引用
boot.img的修改
个文件:boot.img.system.img.userdata.img.其中boot.img 存放着内核以及Android系统的配置信息,比如android系统各文件夹的读写权限,adb 的权限.所 ...
mfc 基类与子类
基类(父类) 派生类(子类) 一.基类(父类) 基类(又称为父类,基类与派生类是相对的关系! 通过继承机制,可以利用已有的数据类型来定义新的数据类型.所定义的新的数据类型不仅拥有新定义的成员,而且还同 ...
vue.js 2.0 官方文档学习笔记 —— 01. vue 介绍
这是我的vue.js 2.0的学习笔记,采取了将官方文档中的代码集中到一个文件的形式.目的是保存下来,方便自己查阅. !官方文档:https://cn.vuejs.org/v2/guide/ 01. ...
【第七课】Nginx反向代理和负载均衡
目录一.Nginx负载均衡集群介绍二.实现一个简单的负载均衡三.Nginx负载均衡组件介绍四.Nginx负载均衡实际应用一.Nginx负载均衡集群介绍负载均衡(Load Balance ...
CDH上Cloudera Management Service 各个角色迁移至其他节点
1.首先查看Cloudera Management Service下有哪些服务,cdh版本为5.9.2: 可以看到基本上有以上6个角色: 2.停止所有角色,并执行删除: 3.找到集群中另外一个节点,添 ...
libgdx学习记录7——Ui
libgdx中的UI设计主要通过其对应的Style类进行实现,也可以通过skin实现.如果没有编辑好的skin文件,可以创建一个默认的skin,再添加已经设计好的style类即可,然后在需要使用的地方 ...
centos7 部署 nginx+tomcat+MariaDB 环境并安装安全狗，使用natapp隧道
jdk安装: -openjdk 参考:https://blog.csdn.net/dhr201499/article/details/81626466 tomcat安装: 使用版本:8.5.37 参考 ...

C# 爬虫小程序

设计思路

相关技术

项目结构

简单爬虫示例

项目代码调用示例

GitHub

C# 爬虫小程序的更多相关文章

随机推荐

热门专题