c# 抓取Web网页数据分析

通过程序自动的读取其它网站网页显示的信息，类似于爬虫程序。比方说我们有一个系统，要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。

为了完成以上的需求，我们就需要模拟浏览器浏览网页，得到页面的数据在进行分析，最后把分析的结构，即整理好的数据写入数据库。那么我们的思路就是：
　　1、发送HttpRequest请求。
　　2、接收HttpResponse返回的结果。得到特定页面的html源文件。
　　3、取出包含数据的那一部分源码。
　　4、根据html源码生成HtmlDocument，循环取出数据。
　　5、写入数据库。
程序如下：　　

//根据Url地址得到网页的html源码

private string GetWebContent(string Url)

{

string strResult="";

try

{

HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url);

　　　　//声明一个HttpWebRequest请求

request.Timeout = 30000;

//设置连接超时时间

request.Headers.Set("Pragma", "no-cache");

HttpWebResponse response = (HttpWebResponse)request.GetResponse();

Stream streamReceive = response.GetResponseStream();

Encoding encoding = Encoding.GetEncoding("GB2312");

StreamReader streamReader = new StreamReader(streamReceive, encoding);

strResult = streamReader.ReadToEnd();

}

catch

{

MessageBox.Show("出错");

}

return strResult;

}

为了使用HttpWebRequest和HttpWebResponse，需填名字空间引用

　　using System.Net;

以下是程序具体实现过程：

private void button1_Click(object sender, EventArgs e)

{

//要抓取的URL地址

string Url = "http://list.mp3.baidu.com/topso/mp3topsong.html?id=1#top2";

//得到指定Url的源码

　　　string strWebContent = GetWebContent(Url);

richTextBox1.Text = strWebContent;

　　　//取出和数据有关的那段源码

int iBodyStart = strWebContent.IndexOf("<body", 0);

int iStart = strWebContent.IndexOf("歌曲TOP500", iBodyStart);

int iTableStart = strWebContent.IndexOf("<table", iStart);

int iTableEnd = strWebContent.IndexOf("</table>", iTableStart);

string strWeb = strWebContent.Substring(iTableStart, iTableEnd - iTableStart + 8);

//生成HtmlDocument

　　　WebBrowser webb = new WebBrowser();

webb.Navigate("about:blank");

HtmlDocument htmldoc = webb.Document.OpenNew(true);

htmldoc.Write(strWeb);

HtmlElementCollection htmlTR = htmldoc.GetElementsByTagName("TR");

foreach (HtmlElement tr in htmlTR)

{

string strID = tr.GetElementsByTagName("TD")[0].InnerText;

string strName = SplitName(tr.GetElementsByTagName("TD")[1].InnerText, "MusicName");

string strSinger = SplitName(tr.GetElementsByTagName("TD")[1].InnerText, "Singer");

strID = strID.Replace(".", "");

//插入DataTable

AddLine(strID, strName, strSinger,"0");

string strID1 = tr.GetElementsByTagName("TD")[2].InnerText;

string strName1 = SplitName(tr.GetElementsByTagName("TD")[3].InnerText, "MusicName");

string strSinger1 = SplitName(tr.GetElementsByTagName("TD")[3].InnerText, "Singer");

//插入DataTable

strID1 = strID1.Replace(".", "");

AddLine(strID1, strName1, strSinger1,"0");

string strID2 = tr.GetElementsByTagName("TD")[4].InnerText;

string strName2 = SplitName(tr.GetElementsByTagName("TD")[5].InnerText, "MusicName");

string strSinger2 = SplitName(tr.GetElementsByTagName("TD")[5].InnerText, "Singer");

//插入DataTable

strID2 = strID2.Replace(".", "");

AddLine(strID2, strName2, strSinger2,"0");

}

//插入数据库

InsertData(dt);

　　　

dataGridView1.DataSource = dt.DefaultView;

}

c# 抓取Web网页数据分析的更多相关文章

scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...
抓取https网页时，报错sun.security.validator.ValidatorException: PKIX path building failed 解决办法
抓取https网页时,报错sun.security.validator.ValidatorException: PKIX path building failed 解决办法原因是https证书问题, ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题
注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分情境再现: 使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示 {'au ...
利用wget 抓取网站网页包括css背景图片
利用wget 抓取网站网页包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...
使用scrapy-selenium, chrome-headless抓取动态网页
在使用scrapy抓取网页时, 如果遇到使用js动态渲染的页面, 将无法提取到在浏览器中看到的内容. 针对这个问题scrapy官方给出的方案是scrapy-selenium, 这是一个把sel ...
python抓取中文网页乱码通用解决方法
注:转载自http://www.cnpythoner.com/ 我们经常通过python做采集网页数据的时候,会碰到一些乱码问题,今天给大家分享一个解决网页乱码,尤其是中文网页的通用方法. 首页我们需 ...

随机推荐

Graph单元
感谢世外苏子恒同学提供一.调用单元例:uses graph; 二.初始化例:initgraph(var graphdriver,graphmode:integer; const path ...
Python绑定方法，未绑定方法，类方法，实例方法，静态方法
>>> class foo(): clssvar=[1,2] def __init__(self): self.instance=[1,2,3] def hehe(self): pr ...
C++设计模式-AbstractFactory抽象工厂模式
AbstractFactory 要创建一组相关或者相互依赖的对象作用:提供一个创建一系列相关或相互依赖对象的接口,而无需指定它们具体的类. UML结构图: 抽象基类: 1)AbstractProdu ...
IPTV视频基本概念
480x320, 640x480 标清 1024x720p 高清 1920x1080i (隔行扫描) 也属于高清 1920x1080p 全高清 3840x2160,7680x4320 超(高)清 ...
慕课网-安卓工程师初养成-6-3 如何使用 Java 中的数组
来源:http://www.imooc.com/code/1525 Java 中操作数组只需要四个步骤: 1. 声明数组语法: 或者其中,数组名可以是任意合法的变量名,如: 2. 分配空间简 ...
MySQL 常用命令（持续更新）
停止启动MySQL服务停止:net stop mysql启动:net start mysql 查看正在运行的线程 SHOW PROCESSLIST SHOW FULL PROCESSLIST 杀死线 ...
Java内各种进制的表示
不同进制的数据表现: 二进制:由0,1组成.以0b开头. 八进制:由0,1,...7组成.以0开头. 十进制:由0,1,...9组成.默认整数是十进制. 十六进制:由0,1,...9,a,b,c,d, ...
centos 6 initctl
在centos6中有initctl 可以启动tty等.此命令在 upstart-0.6.5-10.el6.x86_64 rpm包中或者 mingetty 命令启动 tty #initctl star ...
基于WDF的PCI/PCIe接口卡Windows驱动程序（2）-开发者需要了解的WDF中的一些重要的概念
原文出处:http://www.cnblogs.com/jacklu/p/4646601.html 本科毕业设计是这方面的工作,所以想开几篇博客来介绍使用WDF开发PCI/PCIe接口卡的驱动程序方法 ...
1.openssl genrsa
genrsa用于生成RSA私钥.不会生成公钥,因为公钥提取自私钥,如果需要查看公钥或生成公钥,可以使用openssl rsa命令,后文介绍. man genrsa查询其用法. [root@xuexi ...

c# 抓取Web网页数据分析

c# 抓取Web网页数据分析的更多相关文章

随机推荐

热门专题