C# 使用XPath解析网页

1、需要安装库HtmlAgilityPack ,官网http://htmlagilitypack.codeplex.com/

// From File

var doc = new HtmlDocument();

doc.Load(filePath);

// From String

var doc = new HtmlDocument();

doc.LoadHtml(html);

// From Web

var url = "http://html-agility-pack.net/";

var web = new HtmlWeb();

var doc = web.Load(url);

//XPath

var nodes = doc.DocumentNode.SelectNodes("//*[@id=\"body\"]");

XPath语法：http://www.w3school.com.cn/xpath/xpath_syntax.asp

其他解析网页的方法：（引用至：https://blog.csdn.net/shenmegui_zyf/article/details/78784464）

方法一：使用WebClient

static void Main(string[] args)

{

    try {

        WebClient MyWebClient = new WebClient();

        MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据

        Byte[] pageData = MyWebClient.DownloadData(“http://www.163.com”); //从指定网站下载数据

        string pageHtml = Encoding.Default.GetString(pageData);  //如果获取网站页面采用的是GB2312，则使用这句

        //string pageHtml = Encoding.UTF8.GetString(pageData); //如果获取网站页面采用的是UTF-8，则使用这句

        Console.WriteLine(pageHtml);//在控制台输入获取的内容

        using (StreamWriter sw = new StreamWriter("c:\\test\\ouput.html"))//将获取的内容写入文本

        {

            sw.Write(pageHtml);

        }

        Console.ReadLine();

    }

    catch(WebException webEx) {

        Console.WriteLine(webEx.Message.ToString());

    }

}

方法二：使用WebBrowser

WebBrowser web = new WebBrowser();

web.Navigate("http://www.xjflcp.com/ssc/");

web.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(web_DocumentCompleted);

void web_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)

        {

            WebBrowser web = (WebBrowser)sender;

            HtmlElementCollection ElementCollection = web.Document.GetElementsByTagName("Table");

            foreach (HtmlElement item in ElementCollection)

            {

                 File.AppendAllText("Kaijiang_xj.txt", item.InnerText);

            }

        }

方法三：使用HttpWebRequest/HttpWebResponse

HttpWebRequest httpReq;

HttpWebResponse httpResp; 

string strBuff = "";

char[] cbuffer = new char[];

int byteRead = ;

string filename = @"c:\log.txt";

///定义写入流操作

public void WriteStream()

{

　　Uri httpURL = new Uri(txtURL.Text);

　　///HttpWebRequest类继承于WebRequest，并没有自己的构造函数，需通过WebRequest的Creat方法 建立，并进行强制的类型转换

   httpReq = (HttpWebRequest)WebRequest.Create(httpURL);

　　///通过HttpWebRequest的GetResponse()方法建立HttpWebResponse,强制类型转换

   httpResp = (HttpWebResponse) httpReq.GetResponse();

　　///GetResponseStream()方法获取HTTP响应的数据流,并尝试取得URL中所指定的网页内容

 　 ///若成功取得网页的内容，则以System.IO.Stream形式返回，若失败则产生ProtoclViolationException错 误。在此正确的做法应将以下的代码放到一个try块中处理。这里简单处理

　　Stream respStream = httpResp.GetResponseStream();

 　///返回的内容是Stream形式的，所以可以利用StreamReader类获取GetResponseStream的内容，并以

 　 StreamReader类的Read方法依次读取网页源程序代码每一行的内容，直至行尾（读取的编码格式：UTF8）

　　StreamReader respStreamReader = new StreamReader(respStream,Encoding.UTF8);

　　byteRead = respStreamReader.Read(cbuffer,,);

　　while (byteRead != )

　　{

　　　　string strResp = new string(cbuffer,,byteRead);

       strBuff = strBuff + strResp;

       byteRead = respStreamReader.Read(cbuffer,,);

　　}

　　respStream.Close();

　　txtHTML.Text = strBuff;

}

C# 使用XPath解析网页的更多相关文章

小程序开发-使用xpath解析网页html中的数据
最新有个微信小程序的开发需求,需要从网页中提取一些元素信息,获取有效数据 1. 了解到微信小程序里面不能直接操作dom元素,所以我们需要使用一些其他的npm包 2. 经过查到各方面的文档,最新决定用x ...
golang xpath解析网页
https://github.com/antchfx/htmlquery package main import ( "fmt" "github.com/antchfx/ ...
@1-4使用Xpath解析豆瓣短评
使用Xpath解析豆瓣短评 Python爬虫(入门+进阶) DC学院本节课程主要介绍解析神器Xpath是什么.Xpath如何安装及使用,以及使用实际的例子讲解Xpath如何解析豆瓣短评的网页 ...
用Xpath选择器解析网页（lxml）
在<爬虫基础以及一个简单的实例>一文中,我们使用了正则表达式来解析爬取的网页.但是正则表达式有些繁琐,使用起来不是那么方便.这次我们试一下用Xpath选择器来解析网页. 首先,什么是XPa ...
python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
目录前言 XPath的使用方法 XPath爬取数据后言 @(目录) 前言本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ...
python开发遇到的坑(1)xpath解析ValueError: Unicode strings with encoding declaration are not supported
Traceback (most recent call last): File "/Users/*******.py", line 37, in <module> Bt ...
Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
python爬虫三大解析库之XPath解析库通俗易懂详讲
目录使用XPath解析库 @(这里写自定义目录标题) 使用XPath解析库 1.简介 XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言. ...

随机推荐

how many shards and replicas should be set for Elastic Search
https://cpratt.co/how-many-shards-should-elasticsearch-indexes-have/ https://blog.trifork.com/2014/0 ...
（原创）C++11改进我们的程序之简化我们的程序（三）
这次要讲的是:C++11如何通过auto.decltype和返回值后置来简化我们的程序. auto和c#中的var类似,都是在初始化时自动推断出数据类型.当某个变量的返回值难于书写时,或者不太确定返回 ...
[翻译] Dremel made simple with Parquet
首先自己的 blog 好久没有写技术相关的东西了,今天又动笔了,好高兴!然后转载请注明出处.最后开始正题: 原文:Dremel made simple with Parquet | Twitter E ...
【socket】小项目-智能点餐系统
系统说明前段时间做的一个智能点餐系统,从0开始,用时3天,其中调bug(内存拷贝)调了一天,囧,现记一些架构文档这个系统涉及到的知识点还是挺多的典型的c/s模式,socket通信多线程操作数 ...
windows安装php和mysql
windows安装php和mysql 测试环境:windows2008-64位主机 1.下载护卫神php一件安装包 https://www.huweishen.com/soft/php/#phpdow ...
Java后台测试技巧
[本文出自天外归云的博客园] 问题很多测试是和后台代码逻辑相关的,比如: 接口测试接口文档里面包含了接口的url.用途.一些上行参数和下行参数的描述信息. 但是要想知道这些参数取值的来龙去脉,还是 ...
检查jdk版本
### 检查JDK版本信息-----------------------------查看jdk是否已安装 javac查看jdk版本信息 javac -version查看jdk安装位置 java -ve ...
FileNet P8 Content Engine 的分布式部署架构
摘抄笔记:http://www.ibm.com/developerworks/cn/data/library/techarticle/dm-1307wanghaining/ 前言对于集团公司,企业内 ...
Linux 获取 MAC 地址并去除 : 字符
ifconfig -a | grep eth0 | awk -F ' ' '{print $5}' | sed 's/://g'
【转】WKT、SRID、EPSG概念
http://www.cnblogs.com/jackdong/archive/2010/12/20/1911558.html 之前一直对WKT.EPSG.SRID不是很理解,总是混淆,今天看了一下, ...

C# 使用XPath解析网页

C# 使用XPath解析网页的更多相关文章

随机推荐

热门专题