C#多线程爬虫抓取免费代理IP

本人开发的开发者技术变现资源聚集地,大家支持下，下面是网址

https://www.baiydu.com

这里用到一个HTML解析辅助类：HtmlAgilityPack,如果没有网上找一个增加到库里，这个插件有很多版本,如果你开发环境是使用VS2005就2.0的类库，VS2010就使用4.0,以此类推..........然后直接创建一个控制台应用，将我下面的代码COPY替换就可以运行,下面就来讲讲我两年前做爬虫经历，当时是给一家公司做，也是用的C#，不过当时遇到一个头痛的问题就是抓的图片有病毒，然后系统挂了几次。所以抓网站图片要注意安全，虽然我这里没涉及到图片，但是还是提醒下看文章的朋友。

 class Program

    {

        //存放所有抓取的代理

        public static List<proxy> masterPorxyList = new List<proxy>();

        //代理IP类

        public class proxy

        {

            public string ip;

            public string port;

            public int  speed;

            public proxy(string pip,string pport,int pspeed)

            {

                this.ip = pip;

                this.port = pport;

                this.speed = pspeed;

             }

        }

       //抓去处理方法

        static void getProxyList(object pageIndex)

        {

            string urlCombin = "http://www.xicidaili.com/wt/" + pageIndex.ToString();

            string catchHtml = catchProxIpMethord(urlCombin, "UTF8");

            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

           doc.LoadHtml(catchHtml);

           HtmlNode table = doc.DocumentNode.SelectSingleNode("//div[@id='wrapper']//div[@id='body']/table[1]");

           HtmlNodeCollection collectiontrs = table.SelectNodes("./tr");   

               for (int i = ; i < collectiontrs.Count; i++)

               {

                   HtmlAgilityPack.HtmlNode itemtr = collectiontrs[i];

                   HtmlNodeCollection collectiontds = itemtr.ChildNodes;

                   //table中第一个是能用的代理标题，所以这里从第二行TR开始取值

                   if (i>)

                   {

                       HtmlNode itemtdip = (HtmlNode)collectiontds[];

                       HtmlNode itemtdport = (HtmlNode)collectiontds[];

                       HtmlNode itemtdspeed = (HtmlNode)collectiontds[];

                       string ip = itemtdip.InnerText.Trim();

                       string port = itemtdport.InnerText.Trim();

                       string speed = itemtdspeed.InnerHtml;

                       int beginIndex = speed.IndexOf(":", , speed.Length);

                       int endIndex = speed.IndexOf("%", , speed.Length);

                       int subSpeed = int.Parse(speed.Substring(beginIndex + , endIndex - beginIndex - ));

                       //如果速度展示条的值大于90,表示这个代理速度快。

                     if (subSpeed > )

                        {

                            proxy temp = new proxy(ip, port, subSpeed);

                            masterPorxyList.Add(temp);

                            Console.WriteLine("当前是第:" + masterPorxyList.Count.ToString() + "个代理IP");

                       }

                      }

               }

        }

        //抓网页方法

        static string catchProxIpMethord(string url,string encoding )

        {

            string htmlStr = "";

            try

            {

                if (!String.IsNullOrEmpty(url))

                {

                    WebRequest request = WebRequest.Create(url);

                    WebResponse response = request.GetResponse();

                    Stream datastream = response.GetResponseStream();

                    Encoding ec = Encoding.Default;

                    if (encoding == "UTF8")

                    {

                        ec = Encoding.UTF8;

                    }

                    else if (encoding == "Default")

                    {

                        ec = Encoding.Default;

                    }

                    StreamReader reader = new StreamReader(datastream, ec);

                    htmlStr = reader.ReadToEnd();

                    reader.Close();

                    datastream.Close();

                    response.Close();

                }

            }

            catch { }

            return htmlStr;

        }

      static void Main(string[] args)

         {

             //多线程同时抓15页

             for (int i = ; i <= ; i++)

             {

                 ThreadPool.QueueUserWorkItem(getProxyList, i);

             }

             Console.Read();

         }

    }

本人创业做的一款androidApp, 下载量已经有2000多万,各种当前热门的网络手机奖励红包全部集成，另外还有热门电影和淘宝高额优惠券！很适合各类型的用户。

C#多线程爬虫抓取免费代理IP的更多相关文章

vb.net 多线程爬虫抓取免费代理IP
Class Program Public Shared masterPorxyList As List(Of proxy) = New List(Of proxy)() Public Class pr ...
PHP简单爬虫爬取免费代理ip 一万条
目标站:http://www.xicidaili.com/ 代码: <?php require 'lib/phpQuery.php'; require 'lib/QueryList.php'; ...
简单爬虫-爬取免费代理ip
环境:python3.6 主要用到模块:requests,PyQuery 代码比较简单,不做过多解释了 #!usr/bin/python # -*- coding: utf-8 -*- import ...
c#批量抓取免费代理并验证有效性
之前看到某公司的官网的文章的浏览量刷新一次网页就会增加一次,给人的感觉不太好,一个公司的官网给人如此直白的漏洞,我批量发起请求的时候发现页面打开都报错,100多人的公司的官网文章刷新一次你给我看这个, ...
golang爬取免费代理IP
golang爬取免费的代理IP,并验证代理IP是否可用这里选择爬取西刺的免费代理Ip,并且只爬取了一页,爬取的时候不设置useAgent西刺不会给你数据,西刺也做反爬虫处理了,所以小心你的IP被封掉 ...
极简代理IP爬取代码——Python爬取免费代理IP
这两日又捡起了许久不碰的爬虫知识,原因是亲友在朋友圈拉人投票,点进去一看发现不用登陆或注册,觉得并不复杂,就一时技痒搞一搞,看看自己的知识都忘到啥样了. 分析一看,其实就是个post请求,需要的信息都 ...
码农代理免费代理ip端口字段js加密破解
起因之前挖过爬取免费代理ip的坑,一个比较帅的同事热心发我有免费代理ip的网站,遂研究了下:https://proxy.coderbusy.com/. 解密因为之前爬过类似的网站有了些经验,大概知 ...
Python 爬虫抓取代理IP，并检测联通性
帮朋友抓了一些代理IP,并根据测试联的通性,放在了不通的文件夹下.特将源码分享注意: 1,环境Python3.5 2,安装BeautifulSoup4 requests 代码如下: 1 2 3 4 ...
免费代理ip爬虫分享
分享一个某代理网站的免费代理ip的爬虫,直接复制到pycharm运行就可以了. 注意:爬取的代理ip有点坑,因为是免费的所以过期时间很快,可能1分钟后就会失效.并且在scrapy使用这些代理ip还会给 ...

随机推荐

PHP面向对象 ——多态
接口接口(interface)是抽象方法和静态常量定义的集合. 接口是一种特殊的抽象类,这种抽象类中只包含抽象方法和静态常量. 接口中没有其它类型的内容接口的定义 /** * 接口可以认为是特殊的 ...
redhat系列linux系统修改主机名的正确方法
##注:无特别说明,以下称呼的linux系统统一视为redhat系linux redhat系列linux系统如果想修改主机名很多人可能都会以为是: $hostname NEW-NAME 或者在 / ...
使用travis-ci自动部署github上的项目
travis-ci是什么? 一个使用yaml格式配置用于持续集成完成自动化测试部署的开源项目官网:https://travis-ci.org/ 使用travis-ci集成vue.js项目首先,您需 ...
Pivot Table系列之展开/折叠用法 (Expand/Collapse)
1.遇到的问题: PivotTable中本来已经展开的维度的Hierarchy(层次结构),在切换切片器的数据集时,层次结构就折叠在一起了:没有按照之前的方式展开显示. 2.在做成PivotTable ...
Nginx文档-初学者指南
原文档: http://nginx.org/en/docs/beginners_guide.html 译者:Oopsguy 本指南旨在介绍nginx基本内容和一些在Nginx上可以完成的简单任务.这里 ...
(转)Java线程：线程的同步与锁
Java线程:线程的同步与锁一.同步问题提出线程的同步是为了防止多个线程访问一个数据对象时,对数据造成的破坏. 例如:两个线程ThreadA.ThreadB都操作同一个对象Fo ...
Java 9 揭秘（17. Reactive Streams）
Tips 做一个终身学习的人. 在本章中,主要介绍以下内容: 什么是流(stream) 响应式流(Reactive Streams)的倡议是什么,以及规范和Java API 响应式流在JDK 中的AP ...
LeetCode-Triangle[dp]
Given a triangle, find the minimum path sum from top to bottom. Each step you may move to adjacent n ...
【TRICK】解决锚点定位向下浮动Xpx问题
1. 问题描述页面滚动后,菜单栏会固定在页头,当锚点定位时,菜单会遮盖部分定位后的内容,所以需要在锚点定位后自动向下漂移Xpx. 2. 解决办法 a. 利用空div 占位,如下: <a hre ...
【EntityFramework 6.1.3】个人理解与问题记录
前言又是一个炎热夏日的晚上,开着空调听着音乐又开始了我们今天的博文.此文并不是ROM工具哪家强之类的引战贴,只是本文自己的一点看法和见解,望前辈看官有望斧正声明本文欢迎转载,原文地址:http: ...

C#多线程爬虫抓取免费代理IP

C#多线程爬虫抓取免费代理IP的更多相关文章

随机推荐

热门专题