C#网络爬虫--多线程处理强化版

上次做了一个帮公司妹子做了爬虫，不是很精致，这次公司项目里要用到，于是有做了一番修改，功能添加了网址图片采集，下载，线程处理界面网址图片下载等。

说说思路：首相获取初始网址的所有内容在初始网址采集图片去初始网址采集链接把采集到的链接放入队列继续采集图片，然后继续采集链接，无限循环

还是上图片大家看一下，在上代码！

处理网页内容抓取跟网页网址爬取都做了改进，下面还是大家来看看代码，有不足之处，还请之处!

网页内容抓取HtmlCodeRequest,

网页网址爬取GetHttpLinks，用正则去筛选html中的Links

图片抓取GetHtmlImageUrlList，用正则去筛选html中的Img

都写进了一个封装类里面 HttpHelper

    /// <summary>

        /// 取得HTML中所有图片的 URL。

        /// </summary>

        /// <param name="sHtmlText">HTML代码</param>

        /// <returns>图片的URL列表</returns>

public static string HtmlCodeRequest(string Url)

        {

            if (string.IsNullOrEmpty(Url))

            {

                return "";

            }

            try

            {

                //创建一个请求

                HttpWebRequest httprequst = (HttpWebRequest)WebRequest.Create(Url);

                //不建立持久性链接

                httprequst.KeepAlive = true;

                //设置请求的方法

                httprequst.Method = "GET";

                //设置标头值

                httprequst.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705";

                httprequst.Accept = "*/*";

                httprequst.Headers.Add("Accept-Language", "zh-cn,en-us;q=0.5");

                httprequst.ServicePoint.Expect100Continue = false;

                httprequst.Timeout = ;

                httprequst.AllowAutoRedirect = true;//是否允许302

                ServicePointManager.DefaultConnectionLimit = ;

                //获取响应

                HttpWebResponse webRes = (HttpWebResponse)httprequst.GetResponse();

                //获取响应的文本流

                string content = string.Empty;

                using (System.IO.Stream stream = webRes.GetResponseStream())

                {

                    using (System.IO.StreamReader reader = new StreamReader(stream, System.Text.Encoding.GetEncoding("utf-8")))

                    {

                        content = reader.ReadToEnd();

                    }

                }

                //取消请求

                httprequst.Abort();

                //返回数据内容

                return content;

            }

            catch (Exception)

            {

                return "";

            }

        }

/// <summary>

        /// 提取页面链接

        /// </summary>

        /// <param name="html"></param>

        /// <returns></returns>

public static List<string> GetHtmlImageUrlList(string url)

        {

            string html = HttpHelper.HtmlCodeRequest(url);

            if (string.IsNullOrEmpty(html))

            {

                return new List<string>();

            }

            // 定义正则表达式用来匹配 img 标签

            Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);

            // 搜索匹配的字符串

            MatchCollection matches = regImg.Matches(html);

            List<string> sUrlList = new List<string>();

            // 取得匹配项列表

            foreach (Match match in matches)

                sUrlList.Add(match.Groups["imgUrl"].Value);

            return sUrlList;

        }

        /// <summary>

        /// 提取页面链接

        /// </summary>

        /// <param name="html"></param>

        /// <returns></returns>

        public static List<string> GetHttpLinks(string url)

        {

            //获取网址内容

            string html = HttpHelper.HtmlCodeRequest(url);

            if (string.IsNullOrEmpty(html))

            {

                return new List<string>();

            }

            //匹配http链接

            const string pattern2 = @"http(s)?://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";

            Regex r2 = new Regex(pattern2, RegexOptions.IgnoreCase);

            //获得匹配结果

            MatchCollection m2 = r2.Matches(html);

            List<string> links = new List<string>();

            foreach (Match url2 in m2)

            {

                if (StringHelper.CheckUrlIsLegal(url2.ToString()) || !StringHelper.IsPureUrl(url2.ToString()) || links.Contains(url2.ToString()))

                    continue;

                links.Add(url2.ToString());

            }

            //匹配href里面的链接

            const string pattern = @"(?i)<a\s[^>]*?href=(['""]?)(?!javascript|__doPostBack)(?<url>[^'""\s*#<>]+)[^>]*>"; ;

            Regex r = new Regex(pattern, RegexOptions.IgnoreCase);

            //获得匹配结果

            MatchCollection m = r.Matches(html);

            foreach (Match url1 in m)

            {

                string href1 = url1.Groups["url"].Value;

                if (!href1.Contains("http"))

                {

                    href1 = Global.WebUrl + href1;

                }

                if (!StringHelper.IsPureUrl(href1) || links.Contains(href1)) continue;

                links.Add(href1);

            }

            return links;

        }

这边下载图片有个任务条数限制，限制是200条。如果超过的话线程等待5秒，这里下载图片是异步调用的委托

public string DownLoadimg(string url)

        {

            if (!string.IsNullOrEmpty(url))

            {

                try

                {

                    if (!url.Contains("http"))

                    {

                        url = Global.WebUrl + url;

                    }

                    HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);

                    request.Timeout = ;

                    request.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705";

                    //是否允许302

                    request.AllowAutoRedirect = true;

                    WebResponse response = request.GetResponse();

                    Stream reader = response.GetResponseStream();

                    //文件名

                    string aFirstName = Guid.NewGuid().ToString();

                    //扩展名

                    string aLastName = url.Substring(url.LastIndexOf(".") + , (url.Length - url.LastIndexOf(".") - ));

                    FileStream writer = new FileStream(Global.FloderUrl + aFirstName + "." + aLastName, FileMode.OpenOrCreate, FileAccess.Write);

                    byte[] buff = new byte[];

                    //实际读取的字节数

                    int c = ;

                    while ((c = reader.Read(buff, , buff.Length)) > )

                    {

                        writer.Write(buff, , c);

                    }

                    writer.Close();

                    writer.Dispose();

                    reader.Close();

                    reader.Dispose();

                    response.Close();

                    return (aFirstName + "." + aLastName);

                }

                catch (Exception)

                {

                    return "错误：地址" + url;

                }

            }

            return "错误：地址为空";

        }

话不多说，更多的需要大家自己去改进咯！欢迎读者来与楼主进行交流。如果本文对您有参考价值，欢迎帮博主点下文章下方的推荐，谢谢

有兴趣可加入企鹅群一起进步：495104593

下面源码送上：嘿嘿要分的哦！

http://download.csdn.net/detail/nightmareyan/9627215

C#网络爬虫--多线程处理强化版的更多相关文章

C# 多线程网络爬虫
原文 C#制作多线程处理强化版网络爬虫上次做了一个帮公司妹子做了爬虫,不是很精致,这次公司项目里要用到,于是有做了一番修改,功能添加了网址图片采集,下载,线程处理界面网址图片下载等. 说说思路:首相 ...
swing版网络爬虫-丑牛迷你采集器2.0
swing版网络爬虫-丑牛迷你采集器2.0 http://www.javacoo.com/code/704.jhtml 整合JEECMS http://bbs.jeecms.com/fabu/3186 ...
用Python写网络爬虫第二版
书籍介绍书名:用 Python 写网络爬虫(第2版) 内容简介:本书包括网络爬虫的定义以及如何爬取网站,如何使用几种库从网页中抽取数据,如何通过缓存结果避免重复下载的问题,如何通过并行下载来加速数据 ...
Java版网络爬虫基础（转）
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等.这几天看了点基础,记录下来. 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先.网络爬虫采取的广 ...
Java版网络爬虫基础
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等.这几天看了点基础,记录下来. 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先.网络爬虫采取的广 ...
Atitit.数据检索与网络爬虫与数据采集的原理概论
Atitit.数据检索与网络爬虫与数据采集的原理概论 1. 信息检索1 1.1. <信息检索导论>((美)曼宁...)[简介_书评_在线阅读] - dangdang.html1 1.2. ...
iOS开发——网络实用技术OC篇&网络爬虫－使用青花瓷抓取网络数据
网络爬虫-使用青花瓷抓取网络数据由于最近在研究网络爬虫相关技术,刚好看到一篇的的搬了过来! 望谅解..... 写本文的契机主要是前段时间有次用青花瓷抓包有一步忘了,在网上查了半天也没找到写的完整的教 ...
GJM：用C#实现网络爬虫（二） [转载]
上一篇<用C#实现网络爬虫(一)>我们实现了网络通信的部分,接下来继续讨论爬虫的实现 3. 保存页面文件这一部分可简单可复杂,如果只要简单地把HTML代码全部保存下来的话,直接存文件就行 ...
HTTP请求中的User-Agent 判断浏览器类型的各种方法网络爬虫的请求标示
我们知道,当用户发送一个http请求的时候,浏览的的版本信息也包含在了http请求信息中: 如上图所示,请求 google plus 请求头就包含了用户的浏览器信息: User-Agent:Mozil ...

随机推荐

devexpress gridview 添加按钮
#region 添加按钮事件 private RepositoryItemButtonEdit CreateRepositoryItemButtonEdit(Dictionary<object, ...
Flask系列04--Flask的蓝图
flask蓝图一.蓝图蓝图(Blueprint),类似于实现django中路由分发那种感觉, 可以把Blueprint理解为不能被run的Flask对象 Blueprint实例化时需要的参数基本 ...
Linux查看运行时间
以下命令都可以查看出系统运行时间.对于查看机器的状态很有帮助. w -b 查看最后一次系统启动的时间 w -r 查看当前系统运行时间 last reboot 查看系统历史启动的时间 top up后表示 ...
19_python_反射
一.内置函数(补充) 1.issubclass() -- 方法用于判断参数 class 是否是类型参数 classinfo 的子类. 语法格式:issubclass(class, ...
Spring Boot中使用Redis数据库
引入依赖 Spring Boot提供的数据访问框架Spring Data Redis基于Jedis.可以通过引入spring-boot-starter-redis来配置依赖关系. <depend ...
ArrayList的源码分析
在项目中经常会用到list集合来存储数据,而其中ArrayList是用的最多的的一个集合,这篇博文主要简单介绍ArrayList的源码分析,基于JDK1.7: 这里主要介绍集合的属性,构造器,和方 ...
爬虫：Scrapy5 - 选择器Selectors
当抓取网页时,常见的任务是从HTML源码中提取数据.现有的一些库可以达到这个目的: BeautifulSoup lxml Scrapy 提取数据有自己的一套机制.它们被称作选择器(seletors), ...
a 便签实现下载
如果想通过纯前端技术实现文件下载,直接把a标签的href属性设置为文件路径即可,如下: <a href="https://cdn.shopify.com/s/files/1/1545/ ...
cmd命令关闭占用程序的端口
遇到的问题: 在重新启动tomcat服务时,启动失败,显示的信息大概为:Error running 'cus_manager_system': Unable to open debugger port ...
golang 切片和数组在for...range中的区别
切片是引用类型,而数组是值类型,并且for...range有以下规则: range表达式只会在for语句开始执行时被求值一次,无论后边会有多少次迭代 range表达式的求值结果会被复制,也就是说,被迭 ...

C#网络爬虫--多线程处理强化版

这边下载图片有个任务条数限制，限制是200条。如果超过的话线程等待5秒，这里下载图片是异步调用的委托

C#网络爬虫--多线程处理强化版的更多相关文章

随机推荐

热门专题