通过WebBrowser取得AJAX后的网页
通常情况下通过WebBrowser的文档加载完成事件DocumentCompleted中进行判断
if (_WebBrowder.ReadyState == WebBrowserReadyState.Complete)
{
//取网页信息并处理
}
不过,不幸的是很多网页相当复杂,有的时候调试可以看到_WebBrowder.ReadyState状态信息可能一直处于WebBrowserReadyState.Interactive状态,但是网页中相关数据已经加载完成或没有加载数据,或者卡了,等等情况都可能出现,为了能够数据采集提升效率,就得考虑超时情况,需要人为实时获取相关html来判断是否文档已加载了我们想要的数据,如果在限定的时间内未加载就要跳过,为了达到这个效果研究了很长时间一直都没解决,后来看到一篇文章http://www.cnblogs.com/wangchuang/p/3618883.html,通过对里面的类进行改进达到自己想要的效果,现在把自己的代码贴出来,有遇到类似的同鞋可以参考下
/// <summary>
/// 通过WebBrowser抓取网页数据
/// WebBrowserCrawler webBrowserCrawler=new WebBrowserCrawler();
/// 示例:File.WriteAllText(Server.MapPath("sample.txt"),webBrowserCrawler.GetReult(http://www.in2.cc/sample/waterfalllab.htm));
/// </summary>
public class WebBrowserCrawler
{
// WebBrowser
private WebBrowser _WebBrowder;
//最後結果
private string _Result { get; set; }
//網址
private string _Path { get; set; }
//当一直在抓取资料,允许等待的的最大秒数,超时时间(秒)
private int _MaxWaitSeconds { get; set; } public delegate bool MyDelegate(object sender, TestEventArgs e);
/// <summary>
/// 是否达到停止加载条件
/// </summary>
public event MyDelegate IsStopEvent; /// <summary>
/// 對外公開的Method
/// </summary>
/// <param name="url">URL Path</param>
/// <param name="maxWaitSeconds">最大等待秒数</param>
/// <returns></returns>
public string GetReult(string url, int maxWaitSeconds = )
{
_Path = url;
_MaxWaitSeconds = maxWaitSeconds <= ? : maxWaitSeconds; var mThread = new Thread(FatchDataToResult);
//Apartment 是處理序當中讓物件共享相同執行緒存取需求的邏輯容器。 同一 Apartment 內的所有物件都能收到 Apartment 內任何執行緒所發出的
//.NET Framework 並不使用 Apartment;Managed 物件必須自行以安全執行緒 (Thread-Safe) 的方式運用一切共
//因為 COM 類別使用 Apartment,所以 Common Language Runtime 在 COM Interop 的狀況下呼叫出 COM 物件時必須建立 Apartment 並且加以初
//Managed 執行緒可以建立並且輸入只容許一個執行緒的單一執行緒 Apartment (STA),或者含有一個以上執行緒的多執行緒 Apartment (MT
//只要把執行緒的 ApartmentState 屬性設定為其中一個 ApartmentState 列舉型別 (Enumeration),即可控制所建立的 Apartment 屬於哪種
//因為特定執行緒一次只能初始化一個 COM Apartment,所以第一次呼叫 Unmanaged 程式碼之後就無法再變更 Apartment
//From : http://msdn.microsoft.com/zh-tw/library/system.threading.apartmentstate.
mThread.SetApartmentState(ApartmentState.STA);
mThread.Start();
mThread.Join(); return _Result;
} /// <summary>
/// Call _WebBrowder 抓取資料
/// For thread Call
/// </summary>
private void FatchDataToResult()
{
_WebBrowder = new WebBrowser();
_WebBrowder.ScriptErrorsSuppressed = true;
_WebBrowder.Navigate(_Path);
DateTime firstTime = DateTime.Now;
//處理目前在訊息佇列中的所有 Windows
//如果在程式碼中呼叫 DoEvents,您的應用程式就可以處理其他事件。例如,如果您的表單將資料加入 ListBox 並將 DoEvents 加入程式碼中,則當另一個視窗拖到您的表單上時,該表單將重
//如果您從程式碼移除 DoEvents,您的表單將不會重新繪製,直到按鈕按一下的事件處理常式執
while ((DateTime.Now - firstTime).TotalSeconds <= _MaxWaitSeconds)
{
if (_WebBrowder.Document != null && _WebBrowder.Document.Body != null &&
!string.IsNullOrEmpty(_WebBrowder.Document.Body.OuterHtml) &&
this.IsStopEvent != null)
{
string html = _WebBrowder.Document.Body.OuterHtml;
bool rs = this.IsStopEvent(null, new TestEventArgs(html));
if (rs)
{
this._Result = html;
break;
}
}
Application.DoEvents();
}
_WebBrowder.Dispose();
}
}
使用方法:
WebBrowserCrawler obj = new WebBrowserCrawler();
obj.IsStopEvent += new WebBrowserCrawler.MyDelegate((sender, e) => {
//当前html中已经加载了我想要的数据,返回true
return e.Html.Contains("aidfdsfsdf");
});
string url = "http://www.xxx.cn/aaa/index.html?keyword=sdfded";
string html = obj.GetReult(url); //获取采集的数据
if (!string.IsNullOrEmpty(html))
{
//处理数据
}
通过WebBrowser取得AJAX后的网页的更多相关文章
- [C#][ASP.net] 透过WebBrowser 取得AJAX 后的网页
原文[C#][ASP.net] 透过WebBrowser 取得AJAX 后的网页 今天 Shih-Min 问我说,假设网页一开始是AJAX 会载入一些资料,但是透过WebClient 去抓 抓到都是J ...
- ASP.net通过WebBrowser取得AJAX后的网页
今天 Shih-Min 问我说,假设网页一开始是AJAX 会载入一些资料,但是透过WebClient 去抓 抓到都是JavaScript 跟 AJAX 的原始码,有办法可以抓到AJAX 取完值之后的 ...
- WebBrowser处理AJAX生成的网页内容!
WebBrowser处理AJAX生成的网页内容! 等待网页执行完毕(AJAX执行后). 使用webBrowser1.Document.Body.OuterHtml可以获取到AJAX产生的网页内容.
- 乱花渐入迷人眼------从解决jqueryEasyUI上传插件提交ajax请求谈网页调试
由于要给格斗男神写搏击俱乐部ERP系统,就要用到jquery Easyui插件规范数据和表单的录入,其中一项功能就是上传商品图片, 而且是在datagrid-detailview中使用filebox完 ...
- 使用WebBrowser控件时在网页元素上绘制文本或其他自定义内容
原文:使用WebBrowser控件时在网页元素上绘制文本或其他自定义内容 第一次在CNBlogs上发Post是提出一个有关使用WebBrowser控件时对SELECT网页元素操作的疑惑,这个问题至今也 ...
- echo json数据给ajax后, 需要加上exit,防止往下执行,带上其他数据,到时ajax失败
01返回json数据给ajax后需要加上exit.返回json数据前不能有其他输出 function apply(){ if(IS_POST){$info['status'] = 1; echo js ...
- C# WebBrowser的DrawToBitmap方法 截取网页保存为图片
bool mark = true; private void btnOpen_Click(object sender, EventArgs e) { ...
- 服务端渲染 数据驱动 不是渲染后的网页,而是一个由html和Javascript组成的app ssr 隐藏接口服务器
小结: 1. 服务端渲染主要的工作是把组件渲染为服务器端的 HTML 字符串,将它们直接发送到浏览器,最后将静态标记"混合"为客户端上完全交互的应用程序. 服务器给到客户端的已经是 ...
- 如何用webbrowser获取ajax动态生成的网页的源码?
1.步骤一:修改IE内核的版本(这个方法厉害了) public Form1() { InitializeComponent();int BrowserVer, RegVal; // get the i ...
随机推荐
- 使用UI Automation实现自动化测试 --微软提供的控件Pattern
微软提供的控件Pattern System.Windows.Automation 命名空间 System.Windows.Automation.BasePattern 为控件模式类提供基实现 Syst ...
- 在python3.5中使用pip
我centos7上同时有python2.7和python3.5.现在希望能在使用python3.5时也能用pip.本来这应该是很容易的一件事,然而我一步步掉进坑里.. 官网安装pip的方法是,http ...
- rel="stylesheet" 描述
<link type="text/css" rel="stylesheet" href="css/style.css"/> re ...
- ON DUPLICATE KEY UPDATE用法
INSERT INTO `books ` (`name`,`count`,`num`) VALUES ('windows','1','2'),('','linux','1','3') ON DUPLI ...
- leetcode 20
判断括号的顺序是否正确: 思路:用一个堆栈来存储符号序列,按照符号匹配规则进行堆栈操作: 前括号一律入栈,后括号如果跟栈顶符号匹配,栈顶符号出栈如果,若不匹配则返回false: 最后栈为空返回true ...
- 让chrome打开手机网页
在chrome快捷方式上点右键: "C:\Program Files\Google\Chrome\Application\chrome.exe" -user-agent=" ...
- 基于MVC设计模式的两种软件架构简介
第一种模式,可处理组合命令,具有撤销(Undo)和重做(Redo)功能,支持多种数据库类型 1.Action采用组合模式,既可以代表一个简单的动作,也可以代表一组动作组合.List<Ac ...
- 开源自己的一个小android项目(美女撕衣服游戏)
这是自己的一个开源自己的一个小android项目(美女撕衣服游戏),也是前6个月开发的,有部分的资源来自网络上的,现在开源出来给大家吧,由于源码比较大,不上传了,我已经上传到源码天堂那个网站那里了,大 ...
- Elasticsearch的PHP的API使用(一)
前提:在服务器上安装Elasticsearch (host:192.168.1.10) http://192.168.1.10:9200?_search?pretty 1:安装PHP的Elast ...
- debug版本和release版本的区别?
好久没有做web项目了,这项目完成了要发布网站,不好忘了 以前操作过的? 还好脑子还是有点印象 现还是 写个文档吧记录吧 免得 以后作别的了又忘了 那可不妙啊 网站发布步骤:1.先将