最近有个小程序需要采集网页源代码,但有的网页中JS脚本又会生成额外的代码,比如http://www.cnblogs.com/lidabo/p/4169396.html

红框部分便是另外加载的代码。

此处可以看到web前端是有 "操作系统" 几个字的,但查看网页源代码之后却搜不到这几个字

C#有个webbrowser控件可以等网页加载完之后获取浏览器上所有的网页源代码(也包括额外被JS加载进来的代码)

【第一次】试验

WebBrowser webBrowser1 = new WebBrowser();

private void button1_Click(object sender, EventArgs e)
{

  webBrowser1.Navigate("http://www.cnblogs.com/lidabo/p/4169396.html");

  //加载完毕后触发事件webBrowser1_DocumentCompleted
  webBrowser1.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(webBrowser1_DocumentCompleted);

}

private void webBrowser1_DocumentCompleted(object sender, EventArgs e)//这个就是当网页载入完毕后要进行的操作
{

  //将webBrowser显示的代码传入richTextBox以便调试

  richTextBox1.Text = webBrowser1.DocumentText;

}

结果:webbrowser加载完这个页面之后,richTextBox1.Text获取的代码里面找不到  "操作系统"  几个字 , 获取的代码有1063行

网页在加载的过程中,webBrowser1_DocumentCompleted可能会触发一次以上,且相同网页可能触发次数不尽相同

有的网页会多次触发webBrowser1_DocumentCompleted,腾讯网http://www.qq.com触发了4次

【第二次】试验

public int i;//设置全局变量i

private void webBrowser1_DocumentCompleted(object sender, EventArgs e)
{

  i++;//以便观察这个事件被触发了多少次

  richTextBox1.Text = webBrowser1.DocumentText;

}

结果:最后  i  的值为 1,richTextBox1.Text获取的代码里面依然找不到  "操作系统"  几个字 , 获取的代码有1063行

按理来说不应该只触发一次、

【第三次】试验

private void webBrowser1_DocumentCompleted(object sender, EventArgs e)
{

  MessageBox.Show("111");//这个得迅速点掉确定才看到触发了多少次messagebox

  richTextBox1.Text = webBrowser1.DocumentText;

}

结果:迅速点掉messagebox的“确定”后又出现了一次messagebox,即一共两次触发了webBrowser1_DocumentCompleted事件

实验触发二次webBrowser1_DocumentCompleted事件,里面可以找到"操作系统"几个字,代码共有2095行,这次应该全部获取完毕了

加入没有迅速点掉messagebox,可能这个等待过程中,网页可能被webbrowser真的完全加载完毕从而不再触发webBrowser1_DocumentCompleted事件

为什么

【第二次】实验只触发一次webBrowser1_DocumentCompleted事件,而且获取的代码还不完全

【第三次】实验加入了messagebox(然后迅速点掉)能触发一次以上的webBrowser1_DocumentCompleted事件,获取代码完全

【第三次】实验加入了messagebox(没有迅速点掉)只能触发一次webBrowser1_DocumentCompleted事件,获取代码完全

我没弄明白

***********************************************************************************************************

那么换个思路。在第一次进入webBrowser1_DocumentCompleted事件之时开启一个timer时钟,间隔5秒,5秒之后获取一次webbrowser的代码

只触发一次时钟时间,由于时钟是另外的线程,要调用webbrowser需要用到委托

//实例化timer

System.Timers.Timer t = new System.Timers.Timer();

//定义委托变量
public happy updateTxt_ok;

public delegate void happy();

public Form1()
{
  InitializeComponent();

  //设定timer
  t.Interval = 5000; //定时,单位ms
  t.Enabled = true; //回调函数允许执行
  t.AutoReset = false; //回调函数循环执行
  t.Elapsed += new System.Timers.ElapsedEventHandler(theout); //到达时间的时候执行事件; 
  t.Stop();
}

private void Form1_Load(object sender, EventArgs e)
{
  updateTxt_ok = new happy(UpdateTxtMethod);
}

//委托执行函数

public void UpdateTxtMethod()
{

  //此处不用DocumentText是因为它获取中文可能产生乱码
  Encoding encoding = Encoding.GetEncoding(webBrowser1.Document.Encoding);
  StreamReader stream = new StreamReader(webBrowser1.DocumentStream, encoding);
  string aa = stream.ReadToEnd();

  richTextBox1.Text = aa;
  stream.Close();

}

//timer事件

public void theout(object source, System.Timers.ElapsedEventArgs e)
{
  this.BeginInvoke(updateTxt_ok);//委托执行updateTxt_ok
}

//按下按钮

private void button1_Click(object sender, EventArgs e)
{

  webBrowser1.Navigate(richTextBox1.Text);
  webBrowser1.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(webBrowser1_DocumentCompleted);

}

private void webBrowser1_DocumentCompleted(object sender, EventArgs e)//这个就是当网页载入完毕后要进行的操作
{
  t.start();//开启时钟
}

结果:获取完整源代码,共有2095行

但不能保证其他网页也是延迟5秒就能加载完,有的服务器很卡,需要调整时间

c#如何判断webbrowser已经加载完毕的更多相关文章

  1. Js判断CSS文件加载完毕的实例教程

    要判断这个 CSS 文件是否加载完毕,各个浏览器的做法差异比较大,这次要说IE浏览器做的不错,我们可以直接通过onload方法来处理CSS加载完成以后的处理: 代码如下 复制代码 // 代码节选至se ...

  2. 【转】JS判断SWF,JPG加载完毕、兼容(Activex,plugIn)所有浏览器

    JS判断SWF,JPG加载完毕.兼容(Activex,plugIn)所有浏览器 这里主要说下监听SWF的加载. 网上流传已久的监听方法,只能在IE(Activex插件下)下实现.在使用plugin的浏 ...

  3. axios(封装使用、拦截特定请求、判断所有请求加载完毕)

    博客地址:https://ainyi.com/71 基于 Promise 的 HTTP 请求客户端,可同时在浏览器和 Node.js 中使用 vue2.0之后,就不再对 vue-resource 更新 ...

  4. js 判断iframe是否加载完毕

      js 判断iframe是否加载完毕 CreationTime--2018年9月13日15点30分 Author:Marydon 1.javascript实现 window.onload = fun ...

  5. jQuery load() 判断 iframe 是否加载完毕

    判断 iframe 是否加载完毕  方法.jQuery load() var frm = document.getElementById('myiframe'); $(frm).load(functi ...

  6. js判断网页是否加载完毕 包括图片

    <script type="text/javascript" language="JavaScript"> //: 判断网页是否加载完成 docum ...

  7. JavaScript在A页面判断B页面加载完毕(iframe load)

    今天遇到一个需求,在A页面上判断B页面是否加载完毕(B页面是第三方页面),加载完毕时隐藏loading动画... 而平时我们一般做的事是在B页面上判断B页面是否加载完毕,进行操作. if(docume ...

  8. 用js判断页面是否加载完毕

    用document.onreadystatechange的方法来监听状态改变, 然后用document.readyState == "complete"判断是否加载完成 docum ...

  9. javaScript & jquery完美判断图片是否加载完毕

    好久没写东西了,正好最近因为工作需要,写了一个瀑布流异步加载的程序. 今天就不谈瀑布流,来谈一下关于load的问题. ----------------------------------------- ...

随机推荐

  1. nodejs进阶(4)—读取图片到页面

    我们先实现从指定路径读取图片然后输出到页面的功能. 先准备一张图片imgs/dog.jpg. file.js里面继续添加readImg方法,在这里注意读写的时候都需要声明'binary'.(file. ...

  2. 使用Visual Studio SDK制作GLSL词法着色插件

    使用Visual Studio SDK制作GLSL词法着色插件 我们在Visual Studio上开发OpenGL ES项目时,避免不了写Shader.这时在vs里直接编辑shader就会显得很方便. ...

  3. 线性数据结构之栈——Stack

    Linear data structures linear structures can be thought of as having two ends, whose items are order ...

  4. Redis数据库

    Redis是k-v型数据库的典范,设计思想及数据结构实现都值得学习. 1.数据类型 value支持五种数据类型:1.字符串(strings)2.字符串列表(lists)3.字符串集合(sets)4.有 ...

  5. Python应用03 使用PyQT制作视频播放器

    作者:Vamei 出处:http://www.cnblogs.com/vamei 严禁任何形式转载. 最近研究了Python的两个GUI包,Tkinter和PyQT.这两个GUI包的底层分别是Tcl/ ...

  6. 微信小程序(微信应用号)组件讲解

    这篇文章主要讲解微信小程序的组件. 首先,讲解新建项目.现在有句话:招聘三天以上微信小程序开发,这个估计只能去挖微信的工程师了.技术新,既然讲解,那我们就从开始建项目讲解. 打开微信web开发者工具, ...

  7. BPM流程中心解决方案分享

    一.需求分析 在过去办公自动化的浪潮中,很多企业已经实施了OA流程,但随着客户的发展和对流程管理的越来越重视, 客户对流程应用需求越来越深 入,您可能面临以下需求: 1.流程功能不能满足需求,包括流程 ...

  8. SpringMVC 数据校验

    1.引入jar包 2.配置验证器 <!-- 配置验证器 --> <bean id="myvalidator" class="org.springfram ...

  9. mono for android学习过程系列教程(3)

    服务 接着上一讲的内容,咱们继续来唠叨概念性的东西.服务,内容提供器,广播接收器等理论知识. 首先是服务,它不是一个可视化的组件或者视图.他是由我们开发人员来定义,可以一直一直运行 的工作单元.跟活动 ...

  10. 初尝Brnshop移植到Linux Mono Jexus环境运行

    brnshop是最近社区上比较火的开源商城. Jexus是Linux上的web服务器,简单说就是Linux的iis吧.特别感谢作者宇内流云的指点 一.根据http://www.cnblogs.com/ ...