使用HtmlAgilityPack解析Html(非常好用)
/// <summary>
/// 设计成一个exe,解决WebBrowser控件内存泄漏的问题.
/// </summary>
public partial class MainForm : Form
{
/// <summary>
/// 是否处理完成
/// </summary>
private bool isCompleted; //webBrowser只能运行在UI线程上,所以这里不用信号通知,而用一个变量,不断检查这个变量的状态 /// <summary>
/// 处理结果
/// </summary>
private List<RowData> executeResult = new List<RowData>(); private static MainForm instance = new MainForm();
/// <summary>
/// 单件实例
/// </summary>
public static MainForm Instance { get { return instance; } } private MainForm()
{
InitializeComponent();
webBrowser.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(webBrowser_DocumentCompleted);
} private void webBrowser_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
{
if (this.webBrowser.ReadyState != WebBrowserReadyState.Complete)
return; var txt = webBrowser.Document.Body.InnerText;
var html = webBrowser.Document.Body.InnerHtml;
if (webBrowser.Document.Title == "选择")
{
var items = ExtractData(html);
executeResult.AddRange(items);
isCompleted = true;
}
} private List<RowData> ExtractData(string html)
{
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html); HtmlAgilityPack.HtmlNode node = doc.GetElementbyId("div");
var trNodes = node.SelectNodes("tbody/tr"); List<RowData> rows = new List<RowData>();
foreach (var trNode in trNodes)
{
var tdNode = trNode.SelectNodes("td/div");
RowData row = new RowData();
rows.Add(row); row.航班 = tdNode[0].InnerText;
row.出发时间 = tdNode[1].InnerText;
row.到达时间 = tdNode[2].InnerText;
row.机场 = tdNode[3].InnerText;
row.机型 = tdNode[4].InnerText;
row.头等 = tdNode[5].InnerText;
row.公务 = tdNode[6].InnerText;
row.全价 = tdNode[7].InnerText;
row.折扣 = tdNode[8].InnerText;
row.特价 = tdNode[9].InnerText;
} return rows;
} /// <summary>
/// 查询数据
/// </summary>
/// <param name="fromCity">出发城市代码</param>
/// <param name="toCity">到达城市代码</param>
/// <param name="date">出发日期</param>
/// <param name="timeout">超时时间</param>
/// <returns>机票信息</returns>
[MethodImpl(MethodImplOptions.Synchronized)]
public List<RowData> Query(string fromCity, string toCity, DateTime date, TimeSpan timeout)
{
isCompleted = false;
executeResult.Clear(); string urlTemplate = "http://www.xxx.com";
string url = string.Format(urlTemplate, fromCity, date.Month, date.Day, date.Year, toCity);
Navigate(url); DateTime startTime = DateTime.Now;
//未处理完,且没有超时,则等待
while (!isCompleted && startTime.Add(timeout) > DateTime.Now)
{
Thread.Sleep(100);
Application.DoEvents();
} return executeResult;
} private void Navigate(string url)
{
if (InvokeRequired)
{
BeginInvoke(new Action<string>(Navigate), url);
return;
} webBrowser.Navigate(url);
}
} /// <summary>
/// 对应到页面上的每一行数据
/// 不喜欢中文请自行修改
/// </summary>
public class RowData
{
public string 航班 { get; set; }
public string 出发时间 { get; set; }
public string 到达时间 { get; set; }
public string 机场 { get; set; }
public string 机型 { get; set; }
public string 头等 { get; set; }
public string 公务 { get; set; }
public string 全价 { get; set; }
public string 折扣 { get; set; }
public string 特价 { get; set; }
}
使用HtmlAgilityPack解析Html(非常好用)的更多相关文章
- HtmlAgilityPack解析全国区号页面到XML
需求:完成一个城市和区号的xml配置文件 处理思路:通过HtmlAgilityPack解析一个区号页面,生产xml文件 页面:http://www.hljboli.gov.cn/html/code.h ...
- HtmlAgilityPack解析器在WP8.1下报错,不仅如此,社交化分享也报错。
以前WP7下是用的HtmlAgilityPack和 XPath来解析网页,很好用. 但是在Wp8.1下,这个里面却缺少了一个很重要的方法. HtmlDocument doc = new HtmlDoc ...
- HtmlAgilityPack --解析Html源码
最近项目需要从网络上抓取一下数据解析Html源码,奈何正则表达式难写,于是网上搜索找到了“ HtmlAgilityPack”类库,敏捷开发,果然效率非同寻常. 在此做笔记,写下心得,顺便给自己总结一下 ...
- C#:使用HtmlAgilityPack解析Html
推荐阅读: HtmlAgilityPack 入门教程1 HtmlAgilityPack入门教程2 向HtmlAgilityPack道歉:解析HTML还是你好用 获取html中meta标签中的conte ...
- 使用HtmlAgilityPack解析html
HtmlAgilityPack是.net下使用xPath来解析html的类库,可以方便的做html的页面分析处理 项目地址: http://htmlagilitypack.codeplex.com/ ...
- 使用C#和HtmlAgilityPack解析HTML
近期,有一个需求,需要解析HTML页面,读取一些需要的数据后,插入本地数据库.我知道可以通过正则表达式实现,然而正则表达式之于我,就像汇编语言之于我,一样.我知道它是干什么的,我也知道它能干什么,但是 ...
- .Net Core下使用HtmlAgilityPack解析采集互联网数据
HtmlAgilityPack应该算是.Net下最好用的html解析库了. 因为最近帮朋友采集一些数据,在nuget里面搜索了好几个库,最后决定就用HtmlAgilityPack.并简单的记录下使用的 ...
- HtmlAgilityPack解析html文档
一.概述 HtmlAgilityPack(以下简称HAP)是一个基于.Net的.第三方免费开源的微型类库,主要用于在服务器端解析html文档. HtmlAgilityPack为网页提供了标准的DOM ...
- c#HtmlAgilityPack解析html
通过HtmlAgilityPack实现对html页面解析HtmlDocument doc = new HtmlDocument(); doc.Load(yourStream); var itemLis ...
- C#爬虫(04):HtmlAgilityPack解析html文档
原文链接 https://www.cnblogs.com/springsnow/p/13278283.html 目录 一.爬虫概述 1.使用浏览器获取页面源码 2.HTML解析组件 二.HtmlAgi ...
随机推荐
- CMFCPropertyGridProperty SetValue 出错处理
对CMFCPropertyGridProperty SetValue时容易报错,这种情况一般是Property和value的类型不匹配造成的. 在创建property的时候,指定了数据类型,如果set ...
- otter双主同步安装与配置
otter是阿里的开源数据同步项目,资源地址就不用说了哈,网上找,阿里云论坛关于单方向同步的配置已经很清楚了,理论上说,双主同步也不复杂,但是毕竟 是数据库,比较重要,配置双主的时候,总觉得心里没底, ...
- 动态设置 button的 name 的话 闪动的问题 解决
其实 只要把 button设置成 custom 的 type 的话 就会 解决这个问题
- Android WIFI 分析(一)
本文基于<深入理解Android WiFi NFC和GPS 卷>和 Android N 代码结合分析 WifiService 是 Frameworks中负责wifi功能的核心服务,它主 ...
- html只给自己
//另外一个 height:400px; weight:400px; border-top-left-radius: 10px; border-top-right-radius: 10px; bord ...
- 最全的Resharper快捷键汇总
编辑Ctrl + Space 代码完成 Ctrl + Shift + Space代码完成Ctrl + Alt + Space代码完成Ctrl + P 显示参数信息Alt + Insert 生成构造函数 ...
- 一次诡异的TOMCAT启动故障的解决
该系统采用TOMCAT+SSH+Linux+Proxool连接池, 以前数据库是本地连接. 后换数据库远端连接,最近老是启动不了. 1.怀疑是proxool连接池没有自动断开后恢复.尝试解决,不是这个 ...
- Visual Studio2008环境下查找C#中方法的“查看所有引用”
在Visual Studio开发环境下,想必F12我们都很熟悉了,有没有用过“查看所有引用”呢? 尤其是在一个解决方案中,包含了很多项目,彼此相互的调用是很常见的,例如三层架构, BLL调用DAL,D ...
- $POST 、$HTTP_RAW_POST_DATA、php://input三者之间的区别
$POST .$HTTP_RAW_POST_DATA.php://input三者之间的区别 访问原始 POST 数据的更好方法是 php://input或者$HTTP_RAW_POST_DATA.$H ...
- Web程序的运行原理及流程(一)
自己做Web程序的开发也有两年多了 从最开始跟风学框架 到第一用上框架的欣喜若狂 我相信每个程序员都是这样过来的 在大学学习一门语言 学会后往往很想做一个实际的项目出来 我当时第一次做WEB项目看 ...