使用HttpWebRequest和HtmlAgilityPack抓取网页（拒绝乱码，拒绝正则表达式）

废话不多说，直接说需求。

公司的网站需要抓取其他网站的文章，但任务没到我这，同事搞了一下午没搞出来。由于刚刚到公司，想证明下自己，就把活揽过来了。因为以前做过，觉得应该很简单，但当我开始做的时候，我崩溃了，http请求后，得到的是字符串竟然是乱码，然后就各种百度(谷歌一直崩溃中)，最后找到了原因。由于我要抓取的网页做了压缩，所以当我抓的时候，抓过来的是压缩后的，所以必须解压一下，如果不解压，不管用什么编码方式，结果还是乱码。直接上代码：

1 public Encoding GetEncoding(string CharacterSet)

2         {

3             switch (CharacterSet)

4             {

5                 case "gb2312": return Encoding.GetEncoding("gb2312");

6                 case "utf-8": return Encoding.UTF8;

7                 default: return Encoding.Default;

8             }

9         }

  public string HttpGet(string url)

        {

            string responsestr = "";

            HttpWebRequest req = HttpWebRequest.Create(url) as HttpWebRequest;

            req.Accept = "*/*";

            req.Method = "GET";

            req.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1";

            using (HttpWebResponse response = req.GetResponse() as HttpWebResponse)

            {

                Stream stream;

                if (response.ContentEncoding.ToLower().Contains("gzip"))

                {

                    stream = new GZipStream(response.GetResponseStream(), CompressionMode.Decompress);

                }

                else if (response.ContentEncoding.ToLower().Contains("deflate"))

                {

                    stream = new DeflateStream(response.GetResponseStream(), CompressionMode.Decompress);

                }

                else

                {

                    stream = response.GetResponseStream();

                }

                using (StreamReader reader = new StreamReader(stream, GetEncoding(response.CharacterSet)))

                {

                    responsestr = reader.ReadToEnd();

                    stream.Dispose();

                }

            }

            return responsestr;

        }

调用HttpGet就可以获取网址的源码了，得到源码后，现在用一个利器HtmlAgility来解析html了，不会正则不要紧，此乃神器啊。老板再也不用担心我的正则表达式了。

至于这个神器的用法，园子文章很多，写的也都挺详细的，在此不赘余了。

下面是抓取园子首页的文章列表：

 string html = HttpGet("http://www.cnblogs.com/");

            HtmlDocument doc = new HtmlDocument();

            doc.LoadHtml(html);

            //获取文章列表

            var artlist = doc.DocumentNode.SelectNodes("//div[@class='post_item']");

            foreach (var item in artlist)

            {

                HtmlDocument adoc = new HtmlDocument();

                adoc.LoadHtml(item.InnerHtml);

                var html_a = adoc.DocumentNode.SelectSingleNode("//a[@class='titlelnk']");

                Response.Write(string.Format("标题为：{0}，链接为：{1}<br>",html_a.InnerText,html_a.Attributes["href"].Value));

            }

运行结果如图：

打完收工。

由于时间仓促，加上本人文笔不行，如有疑问，欢迎吐槽，吐吐更健康。

使用HttpWebRequest和HtmlAgilityPack抓取网页（拒绝乱码，拒绝正则表达式）的更多相关文章

HtmlAgilityPack 抓取页面的乱码处理
HtmlAgilityPack 抓取页面的乱码处理用来解析 HTML 确实方便.不过直接读取网页时会出现乱码. 实际上,它是能正确读到有关字符集的信息,怎么会在输出时,没有取到正确内容. 因此,读两 ...
使用HtmlAgilityPack抓取网页数据
XPath 使用路径表达式来选取 XML 文档中的节点或节点集.节点是通过沿着路径 (path) 或者步 (steps) 来选取的. 下面列出了最有用的路径表达式: nodename:选取此节点的所有 ...
C# 使用HtmlAgilityPack抓取网页信息
前几天看到一篇博文:C# 爬虫抓取小说博主使用的是正则表达式获取小说的名字.目录以及内容. 下面使用HtmlAgilityPack来改写原博主的代码在使用HtmlAgilityPack之前,可以 ...
NET 使用HtmlAgilityPack抓取网页数据
刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问,html也是也是一种类似于xml的标记语言,但是语法没有那么严谨 ...
【.NET】使用HtmlAgilityPack抓取网页数据
刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问,html也是也是一种类似于xml的标记语言,但是语法没有那么 ...
解决PHP中file_get_contents抓取网页中文乱码问题
根据网上有朋友介绍说原因可能是服务器开了GZIP压缩. 下面是用firebug查看我的博客的头信息,Gzip是开了的. 请求头信息原始头信息代码如下复制代码 Accept text/html,ap ...
Jumony快速抓取网页 --- Jumony使用笔记--icode
作者:郝喜路个人主页:http://www.cnicode.com 博客地址:http://haoxilu.cnblogs.com 时间:2014年6月26日 19:25:02 ...
Jumony快速抓取网页
Jumony快速抓取网页 --- Jumony使用笔记--icode 作者:郝喜路个人主页:http://www.cnicode.com 博客地址:http://haoxilu.c ...
使用HtmlAgilityPack批量抓取网页数据
原文:使用HtmlAgilityPack批量抓取网页数据相关软件点击下载登录的处理.因为有些网页数据需要登陆后才能提取.这里要使用ieHTTPHeaders来提取登录时的提交信息.抓取网页 Htm ...

随机推荐

优化SqlServer--数据压缩
数据压缩是对存储和性能优势的加强.减少数据库占用的磁盘空间量将减少整体数据文件存储空间,在一下几个方面增加吞吐量: 1.更好的I/O利用率,每个页面可以读写更多的数据. 2.更好的内存利用率,缓冲区可 ...
《java jdk7学习笔记》之java三大平台
Sun公司在2006年底,就将三大平台正名为java SE.java EE和java ME.也有很多人习惯用J2SE.J2EE和J2ME. 1.java SE java SE(标准版)是各应用平台的基 ...
安装使用ubuntu问题汇总
很早以前就安装了ubuntu系统,可是一直没怎么用,也没有深入研究.这两天重装了一下windows,顺带着也重新装了一遍最新的ubuntu14.04.期间碰到了不少问题,一个个解决也花费了不少时间.所 ...
[转]Shell中read的常用方式
原文:Linux Shell Scripting Tutorial V2.0 read命令的语法: read -p "Prompt" variable1 variable2 var ...
mysql 分库分表
分表是分散数据库压力的好方法. 分表,最直白的意思,就是将一个表结构分为多个表,然后,可以再同一个库里,也可以放到不同的库. 当然,首先要知道什么情况下,才需要分表.个人觉得单表记录条数达到百万到千万 ...
redis参数优化
redis内存管理方式,支持tcmalloc,jemalloc,malloc三种内存分配,memcache使用slabs,malloc等内存分配方式. 简单点,就是redis,是边用边申请,使用现场申 ...
说说React
一个组件,有自己的结构,有自己的逻辑,有自己的样式,会依赖一些资源,会依赖某些其他组件.比如日常写一个组件,比较常规的方式: 通过前端模板引擎定义结构 JS文件中写自己的逻辑 CSS中写组件的样式通 ...
[转]TCP协议中的三次握手和四次挥手(图解)
本文转自:http://blog.csdn.net/whuslei/article/details/6667471 建立TCP需要三次握手才能建立,而断开连接则需要四次握手.整个过程如下图所示: 先来 ...
Machine Learning Algorithms Study Notes(2)--Supervised Learning
Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 本系列文章是Andrew Ng 在斯坦福的机器学习课程 CS 22 ...
【温故而知新-Javascript】使用地理定位
地理定位(Geolocation)API让我们可以获取用户当前地理位置的信息(或者至少是正在运行浏览器的系统的位置).它不是HTML5规范的一部分,但经常被归组到与HTML5相关的新功能中. 1. 使 ...

使用HttpWebRequest和HtmlAgilityPack抓取网页（拒绝乱码，拒绝正则表达式）

使用HttpWebRequest和HtmlAgilityPack抓取网页（拒绝乱码，拒绝正则表达式）的更多相关文章

随机推荐

热门专题