通常情况下通过WebBrowser的文档加载完成事件DocumentCompleted中进行判断

if (_WebBrowder.ReadyState == WebBrowserReadyState.Complete)
{
//取网页信息并处理
}

不过,不幸的是很多网页相当复杂,有的时候调试可以看到_WebBrowder.ReadyState状态信息可能一直处于WebBrowserReadyState.Interactive状态,但是网页中相关数据已经加载完成或没有加载数据,或者卡了,等等情况都可能出现,为了能够数据采集提升效率,就得考虑超时情况,需要人为实时获取相关html来判断是否文档已加载了我们想要的数据,如果在限定的时间内未加载就要跳过,为了达到这个效果研究了很长时间一直都没解决,后来看到一篇文章http://www.cnblogs.com/wangchuang/p/3618883.html,通过对里面的类进行改进达到自己想要的效果,现在把自己的代码贴出来,有遇到类似的同鞋可以参考下

    /// <summary>
/// 通过WebBrowser抓取网页数据
/// WebBrowserCrawler webBrowserCrawler=new WebBrowserCrawler();
/// 示例:File.WriteAllText(Server.MapPath("sample.txt"),webBrowserCrawler.GetReult(http://www.in2.cc/sample/waterfalllab.htm));
/// </summary>
public class WebBrowserCrawler
{
// WebBrowser
private WebBrowser _WebBrowder;
//最後結果
private string _Result { get; set; }
//網址
private string _Path { get; set; }
//当一直在抓取资料,允许等待的的最大秒数,超时时间(秒)
private int _MaxWaitSeconds { get; set; } public delegate bool MyDelegate(object sender, TestEventArgs e);
/// <summary>
/// 是否达到停止加载条件
/// </summary>
public event MyDelegate IsStopEvent; /// <summary>
/// 對外公開的Method
/// </summary>
/// <param name="url">URL Path</param>
/// <param name="maxWaitSeconds">最大等待秒数</param>
/// <returns></returns>
public string GetReult(string url, int maxWaitSeconds = )
{
_Path = url;
_MaxWaitSeconds = maxWaitSeconds <= ? : maxWaitSeconds; var mThread = new Thread(FatchDataToResult);
//Apartment 是處理序當中讓物件共享相同執行緒存取需求的邏輯容器。 同一 Apartment 內的所有物件都能收到 Apartment 內任何執行緒所發出的
//.NET Framework 並不使用 Apartment;Managed 物件必須自行以安全執行緒 (Thread-Safe) 的方式運用一切共
//因為 COM 類別使用 Apartment,所以 Common Language Runtime 在 COM Interop 的狀況下呼叫出 COM 物件時必須建立 Apartment 並且加以初
//Managed 執行緒可以建立並且輸入只容許一個執行緒的單一執行緒 Apartment (STA),或者含有一個以上執行緒的多執行緒 Apartment (MT
//只要把執行緒的 ApartmentState 屬性設定為其中一個 ApartmentState 列舉型別 (Enumeration),即可控制所建立的 Apartment 屬於哪種
//因為特定執行緒一次只能初始化一個 COM Apartment,所以第一次呼叫 Unmanaged 程式碼之後就無法再變更 Apartment
//From : http://msdn.microsoft.com/zh-tw/library/system.threading.apartmentstate.
mThread.SetApartmentState(ApartmentState.STA);
mThread.Start();
mThread.Join(); return _Result;
} /// <summary>
/// Call _WebBrowder 抓取資料
/// For thread Call
/// </summary>
private void FatchDataToResult()
{
_WebBrowder = new WebBrowser();
_WebBrowder.ScriptErrorsSuppressed = true;
_WebBrowder.Navigate(_Path);
DateTime firstTime = DateTime.Now;
//處理目前在訊息佇列中的所有 Windows
//如果在程式碼中呼叫 DoEvents,您的應用程式就可以處理其他事件。例如,如果您的表單將資料加入 ListBox 並將 DoEvents 加入程式碼中,則當另一個視窗拖到您的表單上時,該表單將重
//如果您從程式碼移除 DoEvents,您的表單將不會重新繪製,直到按鈕按一下的事件處理常式執
while ((DateTime.Now - firstTime).TotalSeconds <= _MaxWaitSeconds)
{
if (_WebBrowder.Document != null && _WebBrowder.Document.Body != null &&
!string.IsNullOrEmpty(_WebBrowder.Document.Body.OuterHtml) &&
this.IsStopEvent != null)
{
string html = _WebBrowder.Document.Body.OuterHtml;
bool rs = this.IsStopEvent(null, new TestEventArgs(html));
if (rs)
{
this._Result = html;
break;
}
}
Application.DoEvents();
}
_WebBrowder.Dispose();
}
}

使用方法:

            WebBrowserCrawler obj = new WebBrowserCrawler();
obj.IsStopEvent += new WebBrowserCrawler.MyDelegate((sender, e) => {
//当前html中已经加载了我想要的数据,返回true
return e.Html.Contains("aidfdsfsdf");
});
string url = "http://www.xxx.cn/aaa/index.html?keyword=sdfded";
string html = obj.GetReult(url); //获取采集的数据
if (!string.IsNullOrEmpty(html))
{
//处理数据
}

通过WebBrowser取得AJAX后的网页的更多相关文章

  1. [C#][ASP.net] 透过WebBrowser 取得AJAX 后的网页

    原文[C#][ASP.net] 透过WebBrowser 取得AJAX 后的网页 今天 Shih-Min 问我说,假设网页一开始是AJAX 会载入一些资料,但是透过WebClient 去抓 抓到都是J ...

  2. ASP.net通过WebBrowser取得AJAX后的网页

    今天  Shih-Min 问我说,假设网页一开始是AJAX 会载入一些资料,但是透过WebClient 去抓 抓到都是JavaScript 跟 AJAX 的原始码,有办法可以抓到AJAX 取完值之后的 ...

  3. WebBrowser处理AJAX生成的网页内容!

    WebBrowser处理AJAX生成的网页内容! 等待网页执行完毕(AJAX执行后). 使用webBrowser1.Document.Body.OuterHtml可以获取到AJAX产生的网页内容.

  4. 乱花渐入迷人眼------从解决jqueryEasyUI上传插件提交ajax请求谈网页调试

    由于要给格斗男神写搏击俱乐部ERP系统,就要用到jquery Easyui插件规范数据和表单的录入,其中一项功能就是上传商品图片, 而且是在datagrid-detailview中使用filebox完 ...

  5. 使用WebBrowser控件时在网页元素上绘制文本或其他自定义内容

    原文:使用WebBrowser控件时在网页元素上绘制文本或其他自定义内容 第一次在CNBlogs上发Post是提出一个有关使用WebBrowser控件时对SELECT网页元素操作的疑惑,这个问题至今也 ...

  6. echo json数据给ajax后, 需要加上exit,防止往下执行,带上其他数据,到时ajax失败

    01返回json数据给ajax后需要加上exit.返回json数据前不能有其他输出 function apply(){ if(IS_POST){$info['status'] = 1; echo js ...

  7. C# WebBrowser的DrawToBitmap方法 截取网页保存为图片

    bool mark = true;         private void btnOpen_Click(object sender, EventArgs e)         {           ...

  8. 服务端渲染 数据驱动 不是渲染后的网页,而是一个由html和Javascript组成的app ssr 隐藏接口服务器

    小结: 1. 服务端渲染主要的工作是把组件渲染为服务器端的 HTML 字符串,将它们直接发送到浏览器,最后将静态标记"混合"为客户端上完全交互的应用程序. 服务器给到客户端的已经是 ...

  9. 如何用webbrowser获取ajax动态生成的网页的源码?

    1.步骤一:修改IE内核的版本(这个方法厉害了) public Form1() { InitializeComponent();int BrowserVer, RegVal; // get the i ...

随机推荐

  1. Leetcode005 Longest Palindromic Substring

    o(n)算法地址:http://blog.163.com/zhaohai_1988/blog/static/2095100852012716105847112/ /* pivot varies whe ...

  2. Android WebRTC 音视频开发总结(三)-- 信令服务和媒体服务

    前面介绍了WebRTCDemo的基本结构,本节主要介绍WebRTC音视频服务端的处理,,转载请说明出处(博客园RTC.Blacker). 通过前面的例子我们知道运行WebRTCDemo即可看到P2P的 ...

  3. javaSE第十四天

    第十四天    92 1. 正则表达式(理解)    92 (1)定义:    92 (2)常见规则    92 A:字符    92 B:字符类    93 C:预定义字符类    93 D:边界匹 ...

  4. 解决VirtualBox 上的XP 蓝屏,自动重复启动

    启动时的蓝屏显示错误信息是: STOP 0x000000CE (...) DRIVER_UNLOADED_WITHOUT_CANCELLING_PENDING_OPERATIONS intelppm. ...

  5. 实例分析ELF文件静态链接

    参考文献: <ELF V1.2> <程序员的自我修养---链接.装载与库>第4章 静态链接 开发平台: [thm@tanghuimin static_link]$ uname ...

  6. 【PHP】金额数字转换成大写形式

    <?php /*将数字金额转成大写*/ function num_to_upper($num) { $d = array('零','壹','贰','叁','肆','伍','陆','柒','捌', ...

  7. 最新百度音乐api

    一直都想做网络音乐播放器,但是自己又没有服务器,根本就不能实现,也没那个能力实现.唯一的办法就是借助别人的API. 网上公布的API特别少,像能够直接得到音乐文件的真是地址的几乎没有,有的也只是截取流 ...

  8. Oracle中存储过程与函数的区别

    Oracle 获取信息一般用function 修改数据用存储过程(需要执行commit命令)

  9. C# 判断一字符串是否为合法数字(正则表达式)

    判断一个字符串是否为合法整数(不限制长度) public static bool IsInteger(string s) { string pattern = @"^\d*$"; ...

  10. jquery用ajax方式从后台获取json数据,将内容填充到下拉列表。

    从后台获取json数据,将内容填充到下拉列表. url:链接 par:ID sel:下拉列表选择器 //获取下拉列表 function BuildSelectBox(url, par, sel) { ...