通过WebBrowser取得AJAX后的网页
通常情况下通过WebBrowser的文档加载完成事件DocumentCompleted中进行判断
if (_WebBrowder.ReadyState == WebBrowserReadyState.Complete)
{
//取网页信息并处理
}
不过,不幸的是很多网页相当复杂,有的时候调试可以看到_WebBrowder.ReadyState状态信息可能一直处于WebBrowserReadyState.Interactive状态,但是网页中相关数据已经加载完成或没有加载数据,或者卡了,等等情况都可能出现,为了能够数据采集提升效率,就得考虑超时情况,需要人为实时获取相关html来判断是否文档已加载了我们想要的数据,如果在限定的时间内未加载就要跳过,为了达到这个效果研究了很长时间一直都没解决,后来看到一篇文章http://www.cnblogs.com/wangchuang/p/3618883.html,通过对里面的类进行改进达到自己想要的效果,现在把自己的代码贴出来,有遇到类似的同鞋可以参考下
/// <summary>
/// 通过WebBrowser抓取网页数据
/// WebBrowserCrawler webBrowserCrawler=new WebBrowserCrawler();
/// 示例:File.WriteAllText(Server.MapPath("sample.txt"),webBrowserCrawler.GetReult(http://www.in2.cc/sample/waterfalllab.htm));
/// </summary>
public class WebBrowserCrawler
{
// WebBrowser
private WebBrowser _WebBrowder;
//最後結果
private string _Result { get; set; }
//網址
private string _Path { get; set; }
//当一直在抓取资料,允许等待的的最大秒数,超时时间(秒)
private int _MaxWaitSeconds { get; set; } public delegate bool MyDelegate(object sender, TestEventArgs e);
/// <summary>
/// 是否达到停止加载条件
/// </summary>
public event MyDelegate IsStopEvent; /// <summary>
/// 對外公開的Method
/// </summary>
/// <param name="url">URL Path</param>
/// <param name="maxWaitSeconds">最大等待秒数</param>
/// <returns></returns>
public string GetReult(string url, int maxWaitSeconds = )
{
_Path = url;
_MaxWaitSeconds = maxWaitSeconds <= ? : maxWaitSeconds; var mThread = new Thread(FatchDataToResult);
//Apartment 是處理序當中讓物件共享相同執行緒存取需求的邏輯容器。 同一 Apartment 內的所有物件都能收到 Apartment 內任何執行緒所發出的
//.NET Framework 並不使用 Apartment;Managed 物件必須自行以安全執行緒 (Thread-Safe) 的方式運用一切共
//因為 COM 類別使用 Apartment,所以 Common Language Runtime 在 COM Interop 的狀況下呼叫出 COM 物件時必須建立 Apartment 並且加以初
//Managed 執行緒可以建立並且輸入只容許一個執行緒的單一執行緒 Apartment (STA),或者含有一個以上執行緒的多執行緒 Apartment (MT
//只要把執行緒的 ApartmentState 屬性設定為其中一個 ApartmentState 列舉型別 (Enumeration),即可控制所建立的 Apartment 屬於哪種
//因為特定執行緒一次只能初始化一個 COM Apartment,所以第一次呼叫 Unmanaged 程式碼之後就無法再變更 Apartment
//From : http://msdn.microsoft.com/zh-tw/library/system.threading.apartmentstate.
mThread.SetApartmentState(ApartmentState.STA);
mThread.Start();
mThread.Join(); return _Result;
} /// <summary>
/// Call _WebBrowder 抓取資料
/// For thread Call
/// </summary>
private void FatchDataToResult()
{
_WebBrowder = new WebBrowser();
_WebBrowder.ScriptErrorsSuppressed = true;
_WebBrowder.Navigate(_Path);
DateTime firstTime = DateTime.Now;
//處理目前在訊息佇列中的所有 Windows
//如果在程式碼中呼叫 DoEvents,您的應用程式就可以處理其他事件。例如,如果您的表單將資料加入 ListBox 並將 DoEvents 加入程式碼中,則當另一個視窗拖到您的表單上時,該表單將重
//如果您從程式碼移除 DoEvents,您的表單將不會重新繪製,直到按鈕按一下的事件處理常式執
while ((DateTime.Now - firstTime).TotalSeconds <= _MaxWaitSeconds)
{
if (_WebBrowder.Document != null && _WebBrowder.Document.Body != null &&
!string.IsNullOrEmpty(_WebBrowder.Document.Body.OuterHtml) &&
this.IsStopEvent != null)
{
string html = _WebBrowder.Document.Body.OuterHtml;
bool rs = this.IsStopEvent(null, new TestEventArgs(html));
if (rs)
{
this._Result = html;
break;
}
}
Application.DoEvents();
}
_WebBrowder.Dispose();
}
}
使用方法:
WebBrowserCrawler obj = new WebBrowserCrawler();
obj.IsStopEvent += new WebBrowserCrawler.MyDelegate((sender, e) => {
//当前html中已经加载了我想要的数据,返回true
return e.Html.Contains("aidfdsfsdf");
});
string url = "http://www.xxx.cn/aaa/index.html?keyword=sdfded";
string html = obj.GetReult(url); //获取采集的数据
if (!string.IsNullOrEmpty(html))
{
//处理数据
}
通过WebBrowser取得AJAX后的网页的更多相关文章
- [C#][ASP.net] 透过WebBrowser 取得AJAX 后的网页
原文[C#][ASP.net] 透过WebBrowser 取得AJAX 后的网页 今天 Shih-Min 问我说,假设网页一开始是AJAX 会载入一些资料,但是透过WebClient 去抓 抓到都是J ...
- ASP.net通过WebBrowser取得AJAX后的网页
今天 Shih-Min 问我说,假设网页一开始是AJAX 会载入一些资料,但是透过WebClient 去抓 抓到都是JavaScript 跟 AJAX 的原始码,有办法可以抓到AJAX 取完值之后的 ...
- WebBrowser处理AJAX生成的网页内容!
WebBrowser处理AJAX生成的网页内容! 等待网页执行完毕(AJAX执行后). 使用webBrowser1.Document.Body.OuterHtml可以获取到AJAX产生的网页内容.
- 乱花渐入迷人眼------从解决jqueryEasyUI上传插件提交ajax请求谈网页调试
由于要给格斗男神写搏击俱乐部ERP系统,就要用到jquery Easyui插件规范数据和表单的录入,其中一项功能就是上传商品图片, 而且是在datagrid-detailview中使用filebox完 ...
- 使用WebBrowser控件时在网页元素上绘制文本或其他自定义内容
原文:使用WebBrowser控件时在网页元素上绘制文本或其他自定义内容 第一次在CNBlogs上发Post是提出一个有关使用WebBrowser控件时对SELECT网页元素操作的疑惑,这个问题至今也 ...
- echo json数据给ajax后, 需要加上exit,防止往下执行,带上其他数据,到时ajax失败
01返回json数据给ajax后需要加上exit.返回json数据前不能有其他输出 function apply(){ if(IS_POST){$info['status'] = 1; echo js ...
- C# WebBrowser的DrawToBitmap方法 截取网页保存为图片
bool mark = true; private void btnOpen_Click(object sender, EventArgs e) { ...
- 服务端渲染 数据驱动 不是渲染后的网页,而是一个由html和Javascript组成的app ssr 隐藏接口服务器
小结: 1. 服务端渲染主要的工作是把组件渲染为服务器端的 HTML 字符串,将它们直接发送到浏览器,最后将静态标记"混合"为客户端上完全交互的应用程序. 服务器给到客户端的已经是 ...
- 如何用webbrowser获取ajax动态生成的网页的源码?
1.步骤一:修改IE内核的版本(这个方法厉害了) public Form1() { InitializeComponent();int BrowserVer, RegVal; // get the i ...
随机推荐
- jQuery右键菜单ContextMenu使用笔记
插件下载地址:http://www.trendskitchens.co.nz/jquery/contextmenu/jquery.contextmenu.r2.packed.js 和http://ww ...
- Solarwinds Orion NPM实战视频演示
Orion Network Performance Monitor是全面的带宽性能监控和故障管理软件,能监控并收集来自路由器.交换机.服务器和其他SNMP设备中的数据,您可以直接从Web浏览器上观察您 ...
- ios开发之OC基础-类和对象
本系列的文章主要来自于个人在学习前锋教育-欧阳坚老师的iOS开发教程之OC语言教学视频所做的笔记,边看视频,边记录课程知识点.建议大家先过一遍视频,在看视频的过程中记录知识点关键字,把把握重点,然后再 ...
- Jmeter笔记1:使用Badboy录制脚本,作为JMeter测试的素材
接触Badboy,是因为JMeter要引用Badboy导出的脚本 Badboy的录制提供两个模式:Request(默认模式) 和navigation模式.点击下图N,切换模式:但是要导出到Jmeter ...
- dig out deledted chat messages
One of my friends asked me to do a favor for her. She said her friend deleted some important chat me ...
- Android IOS WebRTC 音视频开发总结(十)-- webrtc入门002
继续上一篇中未翻译完成的部分,主要包括下面三个部分: 1,扩展:WebRTC多方通话. 2,MCU Multipoint Control Unit. 2, 扩展:VOIP,电话,消息通讯. 注意:翻译 ...
- javaSE第十二天
第十二天 64 1. Scanner的使用(了解) 64 (1)在JDK5以后出现的用于键盘录入数据的类. 64 (2)构造方法: 64 (4)要掌握的两个方法 65 ( ...
- “Sysprep 错误 + CAPI2 引起的蓝屏”的参考解决方法
这些天我在给学校机房部署 Windows 7 系统时,遇到一些问题,在网上找了很长时间才找到,其中有一个还是英文的资料.特此分享出来,希望能给遇到同样问题的人一个参考.由于学校的机子型号不都一样,所以 ...
- 配置server.xml后,启动tomcat 失败(Unable to start cluster)及解决方法
在配置负载均衡环境过程中修改server.xml 后重启tomcat报错,报错信息如下 [root@Alice bin]# ./catalina.sh runUsing CATALINA_BASE: ...
- POJ C程序设计进阶 编程题#3:运算符判定
编程题#3:运算符判定 来源: POJ (Coursera声明:在POJ上完成的习题将不会计入Coursera的最后成绩.) 注意: 总时间限制: 1000ms 内存限制: 65536kB 描述 两个 ...