C# 爬取网页上的数据

最近工作中需求定时爬取不同城市每天的温度。其实就是通过编程的方法去抓取不同网站网页进行分析筛选的过程。.NET提供了很多类去访问并获得远程网页的数据，比如WebClient类和HttpWebRequest类。这些类对于利用HTTP去访问远端的网页并且下载下来是很有用的，但在对于所下载下来的HTML的解析能力方面，则显得功能很弱了。推荐一个开源的组件HTML Agility Pack(http://htmlagilitypack.codeplex.com/),它的设计目标是尽可能简化对HTML文档的读和写。这个包本身是利用了DOM文档对象模型去解析HTML的。在此顺便记录一下最近收集的爬取历史和当前天气的网站备用：

支持历史天气查询的中文网站：http://lishi.tianqi.com/
类似网站：http://tianqi.2345.com/wea_history/59287.htm （最近2-3年数据）
网站：http://www.wunderground.com/history/ （最近18年数据）
这个网站支持的时间更长： http://www.tutiempo.net/en/Climate/
中国天气网：http://www.weather.com.cn/,

中国天气网(Weather.com.cn)

该网提供有如下三个Json格式的查询接口，以北京为例：
http://www.weather.com.cn/data/sk/101010100.html
http://www.weather.com.cn/data/cityinfo/101010100.html
http://m.weather.com.cn/data/101010100.html
ID是一个9位的数字，按照长度可以分为如下四部分：101（国家代号） 01（省） 01（二级地区） 00（三级地区）
要获取所有的地区代号，通过如下方式：https://wqbot.blob.core.windows.net/botdemo/CityCode.xml

示例Demo

编程使用示例如下：我们要获取如下网页中的天气信息：

下载HTML Agility Pack组件，新建控制台程序，在你的工程中引用相应framework版本对应的组件，示例代码如下：

            string url = @"http://lishi.tianqi.com/beijing/201701.html";

            var webGet = new HtmlWeb();

            var document = webGet.Load(url);

            var div = document.DocumentNode.SelectNodes("//div[@class='tqtongji2']/ul");

            foreach (HtmlNode node in div)

            {

                var tmpNode = node.SelectNodes("li");

                Console.WriteLine(string.Format("{0}-----------{1}---------{2}----------{3}",

                    tmpNode[].InnerText,

                    tmpNode[].InnerText,

                    tmpNode[].InnerText,

                    tmpNode[].InnerText));

            }

            Console.ReadKey();

程序运行效果：中文存在乱码，如下图

通过分析HTML Agility Pack源码，在HtmlWeb类的Get(Uri uri, string method, string path, HtmlDocument doc)方法中，局部变量 resp是http请求的response。设置断点发现resp.ContentEncoding为空。因此通过HttpWebRequest来下载数据，示例代码如下：

            string url = @"http://lishi.tianqi.com/beijing/201701.html";

            HttpWebRequest req = WebRequest.Create(new Uri(url)) as HttpWebRequest;

            req.Method = "GET";

            WebResponse rs = req.GetResponse();

            Stream rss = rs.GetResponseStream();

            HtmlDocument doc = new HtmlDocument();

            doc.Load(rss);

            var div = doc.DocumentNode.SelectNodes("//div[@class='tqtongji2']/ul");

            foreach (HtmlNode node in div)

            {

                var tmpNode = node.SelectNodes("li");

                Console.WriteLine(string.Format("{0}-----------{1}---------{2}----------{3}",

                    tmpNode[].InnerText,

                    tmpNode[].InnerText,

                    tmpNode[].InnerText,

                    tmpNode[].InnerText));

            }

            Console.ReadKey();

代码运行效果如下：

that's ok!!!

C# 爬取网页上的数据的更多相关文章

Python爬取网站上面的数据很简单，但是如何爬取APP上面的数据呢
python3下scrapy爬虫(第八卷:循环爬取网页多页数据）
之前我们做的数据爬取都是单页的现在我们来讲讲多页的一般方式有两种目标URL循环抓取另一种在主页连接上找规律,现在我用的案例网址就是通过点击下一页的方式获取多页资源话不多说全在代码里(因为刚才写 ...
简单又强大的pandas爬虫利用pandas库的read_html()方法爬取网页表格型数据
文章目录一.简介二.原理三.爬取实战实例1 实例2 一.简介一般的爬虫套路无非是发送请求.获取响应.解析网页.提取数据.保存数据等步骤.构造请求主要用到requests库,定位提取数据用的比 ...
PHP 爬取网页中表格数据
public function spider_j($page) { $url="http://aaa/bbb".$page."_0/"; $fcontents= ...
Python3.5：爬取网站上电影数据
首先我们导入几个pyhton3的库: from urllib import requestimport urllibfrom html.parser import HTMLParser 在Python ...
[原创]python爬虫之BeautifulSoup,爬取网页上所有图片标题并存储到本地文件
from bs4 import BeautifulSoup import requests import re import os r = requests.get("https://re. ...
爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...

随机推荐

forget words out1
forget word 1● information 2● infomation 3● mation 4● pavilion 5● river 6● mouth 7● fish 8● lick 9● ...
小程序配置单个页面导航栏的属性（微信小程序交流群：604788754）
配置单个页面导航栏的属性: 就在所要配置页面相对应的json文件中写入以下想要设置的属性: { "navigationBarBackgroundColor": "#fff ...
Java——File类概述
body, table{font-family: 微软雅黑} table{border-collapse: collapse; border: solid gray; border-width: 2p ...
vee-validate 中文配置报错及自定义规则报错.updateDictionary/.addlocale is not a function
原因由于vee-validate版本更新的问题导致的. 1. 原因分析: a 新版vee-validate的语言配置方法变化了, Validator.localize('zh_CN', zh_CN) ...
API - jQuery之操作cookie(转)
Installation Include script after the jQuery library (unless you are packaging scripts somehow else) ...
Android中检测字符编码（GB2312,ASCII,UTF8,UNICODE，TOTAL——ENCODINGS)方法（二）
Intent intent = getIntent(); String contentUri = null; Uri uri =null; if (in ...
QModelIndex 与 QStandardItem互转
1. QModelIndex 转换成QStandardItem QStandardItem * item=QStandardItemModel::itemFromIndex(const QModel ...
MAC OS下使用OpenSSL生成私钥和公钥的方法
MAC OS自带了OpenSSL,所以不用去编译那一坨跟SHIT一样的源码.直接在命令行里使用OPENSSL就可以. 打开命令行工具,然后输入 openssl打开openssl,接着只要三句命令就可以 ...
最大似然估计和最大后验概率MAP
最大似然估计是一种奇妙的东西,我觉得发明这种估计的人特别才华.如果是我,觉得很难凭空想到这样做. 极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点.频率派认为,参数是客观存在的,只是未知而矣. ...
Android Kernel save defalut config
/********************************************************************************* * Android Kernel ...

C# 爬取网页上的数据

C# 爬取网页上的数据的更多相关文章

随机推荐

热门专题