C#使用xpath简单爬取网站的内容

       public static void Get()

        {

            // string xpathtrI = "//*[@id='classify-list']/dl/dd/a/cite/span/i";

            #region 获取首页的分类

            ////主页的html地址

            //string urlHome = "http://www.qidian.com/";

            //HtmlWeb web = new HtmlWeb();

            //HtmlAgilityPack.HtmlDocument htmlDoc = web.Load(urlHome);

            ////创建html的节点

            //HtmlNode rootNode1 = htmlDoc.DocumentNode;

            //string xpathtrA = "//*[@id='classify-list']/dl/dd";

            //HtmlNodeCollection classList = rootNode1.SelectNodes(xpathtrA);

            //List<string> listINode = new List<string>();

            //foreach (HtmlNode item in classList)

            //{

            //    //获取分类

            //    string inode = item.SelectSingleNode("//a/cite/span/i").InnerText;

            //    listINode.Add(inode);

            //}

            #endregion

            #region 分类及明细

            //string urlDetail = "http://xuanhuan.qidian.com/";

            //List<string> urlList = new List<string>();

            //urlList.Add("http://xuanhuan.qidian.com/");

            //urlList.Add("http://qihuan.qidian.com/");

            //urlList.Add("http://wuxia.qidian.com/");

            //urlList.Add("http://xianxia.qidian.com/");

            //urlList.Add("http://dushi.qidian.com/");

            //urlList.Add("http://zhichang.qidian.com/");

            //urlList.Add("http://junshi.qidian.com/");

            //urlList.Add("http://lishi.qidian.com/");

            //urlList.Add("http://youxi.qidian.com/");

            //urlList.Add("http://tiyu.qidian.com/");

            //urlList.Add("http://kehuan.qidian.com/");

            //urlList.Add("http://lingyi.qidian.com/");//foreach (string url in urlList)

            //{

            //    HtmlAgilityPack.HtmlDocument htmlDetail = web.Load(url);

            //    HtmlNode rootNode2 = htmlDetail.DocumentNode;

            //    string a = "//*[@class='book-info']";

            //    HtmlNodeCollection classList2 = rootNode2.SelectNodes(a);

            //    List<string> listINode2 = new List<string>();

            //    foreach (HtmlNode item in classList2)

            //    {

            //        //获取分类

            //        string inode = item.InnerHtml;

            //        listINode2.Add(inode);

            //    }

            //}

            #endregion

            #region 文章内容

            HtmlWeb web = new HtmlWeb();

            string u = "http://read.qidian.com/chapter/zOGI9RYmNdFhO--gcH8iFg2/h3iHSEH1cSpMs5iq0oQwLQ2";

            HtmlAgilityPack.HtmlDocument htmlDocment = web.Load(u);

            //创建html的节点

            HtmlNode htmlNode = htmlDocment.DocumentNode;

            string x = "//*[@class='read-content j_readContent']";

            HtmlNode htmlNodeP = htmlNode.SelectSingleNode(x);

            string htmlD = htmlNodeP.InnerText;

            #endregion

        }

只是拿一个例子而已。

C#使用xpath简单爬取网站的内容的更多相关文章

Python入门,以及简单爬取网页文本内容
最近痴迷于Python的逻辑控制,还有爬虫的一方面,原本的目标是拷贝老师上课时U盘的数据.后来发现基础知识掌握的并不是很牢固.便去借了一本Python基础和两本爬虫框架的书.便开始了自己的入坑之旅言 ...
Python简单爬取Amazon图片-其他网站相应修改链接和正则
简单爬取Amazon图片信息这是一个简单的模板,如果需要爬取其他网站图片信息,更改URL和正则表达式即可 1 import requests 2 import re 3 import os 4 de ...
requests 使用免费的代理ip爬取网站
import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxx ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
Java - XPath解析爬取内容
code { margin: 0; padding: 0; white-space: pre; border: none; background: transparent; } pre { backg ...
Golang+chromedp+goquery 简单爬取动态数据
目录 Golang+chromedp+goquery 简单爬取动态数据 Golang的安装下载golang软件解压golang 配置golang 重新导入配置 chromedp框架的使用实际的代 ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...
requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...

随机推荐

PAT Basic 1007
1007 素数对猜想 (20 分) 让我们定义dn为:dn=pn+1−pn,其中pi是第i个素数.显然有d1=1,且对于n>1有dn是偶数.“素数对猜想 ...
cs331n 线性分类器损失函数与最优化
tip:老师语速超快...痛苦= = 线性分类器损失函数与最优化 \(Multiclass SVM loss: L_{i} = \sum_{j \neq y_{i}} max(0,s_{i}-s_{y ...
websocket 的客户端 websocket-sharp
事实上, websocket-sharp 也包括服务端的实现, 还有 HTTP Authentication 的功能 http://sta.github.io/websocket-sharp/ h ...
jsp下载文件的实现方法及注意事项 (转)
jsp中实现文件下载,最简单的方式是在网页上做超级链接,如:<a href="music/abc.mp3">点击下载</a>. 但是,这样服务器上的目录资源 ...
移动端适配问题px->rem方法
移动端web页面适配问题 1.引入插件 github地址:https://github.com/re54k/mobileweb-utilities/blob/master/util/mobile-ut ...
Spark 1.x 爆内存相关问题汇总及解
Spark 1.x 爆内存相关问题汇总及解决 OOM # 包括GC Overhead limitjava.lang.OutOfMemoryError # on yarn org.apache.hado ...
Redis连接出现Error: Connection reset by peer的问题是由于使用Redis的安全模式
现在网上一查出现安全模式的连接,基本都是要关闭服务端的操作,其实这种方式是不正确的,最有效的解决方式是使用stunnel进行安全模式的连接. 我碰到的问题是微软云(其实我不想用!)连接Redis,默认 ...
SOLDI原则之DIP：依赖倒置原则
本篇介绍软件设计原则之一DIP:依赖倒置原则.很多知识回头来看会有新的理解.看到一句话,一段文字,一个观点有了新的理解,醍醐灌顶的感觉.这种感觉像是一种惊喜.古语说:温故而知新. DIP:依赖倒置原则 ...
linux go环境安装和基本项目结构
最近项目中要用到Go语言,所以简单总结一下安装和配置,Go这个语言本身就限定了很多规范,比如项目设置,编程风格等,开发中就不需要再因为各种规范问题纠结了,直接用官方规定的能避免很多坑,下面直接切正题, ...
前端使用 crypto-js 对数据进行对称加密
From: https://www.cnblogs.com/CyLee/p/7216988.html 传送门: # crypto-js github https://github.com/brix/ ...

C#使用xpath简单爬取网站的内容

C#使用xpath简单爬取网站的内容的更多相关文章

随机推荐

热门专题