.net HttpCrawler

using HtmlAgilityPack;

using System;

using System.Collections.Generic;

using System.Diagnostics;

using System.IO;

using System.Linq;

using System.Net;

using System.Text;

using System.Threading.Tasks;

namespace HttpCrawler

{

    class Program

    {

        static void Main(string[] args)

        {

            Stopwatch sw = new Stopwatch();

            sw.Start();

            var titles = from row in GetHtml("http://bbs.csdn.net/forums/DotNET/").DocumentNode.SelectSingleNode("//table[@class='table_list parent_forum ']").Elements("tr").Skip(1)

                         let td = row.Element("td")

                         where td != null

                         let a = td.Descendants("a").FirstOrDefault()

                         where a != null

                         select new

                         {

                             href = a.Attributes["href"].Value,

                             text = a.InnerText

                         };

            var pages = from t in titles

                            .AsParallel().WithDegreeOfParallelism(20)

                        where t.href != null

                        let path = "http://bbs.csdn.net" + t.href

                        let subQuery = from nick in GetHtml(path).DocumentNode.SelectNodes("//span[@class='name2nick']")

                                       where nick.InnerText == "sp1234"

                                       select nick

                        where subQuery.Any()

                        select new

                        {

                            title = t.text,

                            href = path

                        };

            var results = pages.ToList();

            sw.Stop();

            Console.WriteLine("不加并发的时间:"+sw.ElapsedMilliseconds);

            Console.ReadKey();

        }

        static HtmlDocument GetHtml(string url)

        {

            var content = Encoding.UTF8.GetString(new WebClient().DownloadData(url));

            var doc = new HtmlDocument();

            doc.Load(new StringReader(content));

            return doc;

        }

    }

}

.net HttpCrawler的更多相关文章

Python分布式爬虫原理
转载 permike 原文 Python分布式爬虫原理首先,我们先来看看,如果是人正常的行为,是如何获取网页内容的. (1)打开浏览器,输入URL,打开源网页 (2)选取我们想要的内容,包括标题,作 ...
urllib2.URLError: <urlopen error [Errno 104] Connection reset by peer>
http://www.dianping.com/shop/8010173 File "综合商场1.py", line 152, in <module> httpC ...
china-pub
#!/usr/bin/env python #coding:utf-8import urllib2,re,sys,os,types ...
jd.py
#!/usr/bin/env python #coding:utf-8 import urllib2,re,sys,os,types #from bs4 import BeautifulSoup re ...
大数据抓取采集框架(摘抄至http://blog.jobbole.com/46673/)
摘抄至http://blog.jobbole.com/46673/ 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前.如何能够做到所见即所得的无阻拦式采集.如 ...
shops
#!/usr/bin/env python #coding:utf- import urllib2,sys,re,os,string reload(sys); sys.setdefaultencodi ...

随机推荐

java 连接oracle 进行增删改查
1.在DAO层新增类OraclePersionDao package com.test.dao; import java.sql.*; /** * Created by wdw on 2017/9/1 ...
dp的一些计划
抱歉这是鸽子贴. 树形dp [x][[POI2014]HOT-Hotels](https://www.luogu.org/problemnew/show/P3565) [x][[HAOI2015]树上 ...
【BZOJ4140】共点圆加强版（二进制分组）
[BZOJ4140]共点圆加强版(二进制分组) 题面 BZOJ 题解我卡精度卡了一天.... 之前不强制在线的做法是\(CDQ\)分治,维护一个凸壳就好了. 现在改成二进制分组,每次重建凸壳就好了. ...
【BZOJ3294】放棋子（动态规划，容斥，组合数学）
[BZOJ3294]放棋子(动态规划,容斥,组合数学) 题面 BZOJ 洛谷题解如果某一行某一列被某一种颜色给占了,那么在考虑其他行的时候可以直接把这些行和这些列给丢掉. 那么我们就可以写出一个\ ...
【BZOJ4709】【Jsoi2011】柠檬
Description 传送门题意简述:将序列划分成任意多段,从每一段选出一个数\(x\),获得\(在这一段出现的次数x*(x在这一段出现的次数)\)的贡献.求总贡献最大值. Solution ...
APT攻击基础科普
0x00 APT的历史起源背景 APT这个词汇最早起源于:2005年英国和美国的CERT组织发布了关于有针对性的社交工程电子邮件,放弃特洛伊木马以泄露敏感信息的第一个警告,尽管没有使用“APT”这个名 ...
ELK5.4安装Xpack
X-Pack是一个Elastic Stack的扩展,将安全,警报,监控,报告和图形功能包含在一个易于安装的软件包中.在Elasticsearch 5.0.0之前,必须安装单独的Shield.Watch ...
Mac显示同一程序的所有窗口
通过F3键可以显示所有程序的所有窗口到桌面,但是如果窗口太多的话显示出来很难看清. 如果只显示某一个程序的所有窗口就不会乱了. 其实在dock上有一个相应的选项,但是没有快捷键. 开启方法: 在终端上 ...
Android实现动态改变屏幕方向（Landscape & Portrait）
1.AndroidManifest.xml: <activity> android:screenOrientation="portrait" ... 2.xx.java ...
百度地图JS API不能使用position:fixed
用于放置百度地图的dom元素及其任何一级父元素设置position:fixed属性时,js会报如下错误: Uncaught TypeError: Cannot read property 'offse ...

.net HttpCrawler

.net HttpCrawler的更多相关文章

随机推荐

热门专题