C#使用xpath简单爬取网站的内容

       public static void Get()

        {

            // string xpathtrI = "//*[@id='classify-list']/dl/dd/a/cite/span/i";

            #region 获取首页的分类

            ////主页的html地址

            //string urlHome = "http://www.qidian.com/";

            //HtmlWeb web = new HtmlWeb();

            //HtmlAgilityPack.HtmlDocument htmlDoc = web.Load(urlHome);

            ////创建html的节点

            //HtmlNode rootNode1 = htmlDoc.DocumentNode;

            //string xpathtrA = "//*[@id='classify-list']/dl/dd";

            //HtmlNodeCollection classList = rootNode1.SelectNodes(xpathtrA);

            //List<string> listINode = new List<string>();

            //foreach (HtmlNode item in classList)

            //{

            //    //获取分类

            //    string inode = item.SelectSingleNode("//a/cite/span/i").InnerText;

            //    listINode.Add(inode);

            //}

            #endregion

            #region 分类及明细

            //string urlDetail = "http://xuanhuan.qidian.com/";

            //List<string> urlList = new List<string>();

            //urlList.Add("http://xuanhuan.qidian.com/");

            //urlList.Add("http://qihuan.qidian.com/");

            //urlList.Add("http://wuxia.qidian.com/");

            //urlList.Add("http://xianxia.qidian.com/");

            //urlList.Add("http://dushi.qidian.com/");

            //urlList.Add("http://zhichang.qidian.com/");

            //urlList.Add("http://junshi.qidian.com/");

            //urlList.Add("http://lishi.qidian.com/");

            //urlList.Add("http://youxi.qidian.com/");

            //urlList.Add("http://tiyu.qidian.com/");

            //urlList.Add("http://kehuan.qidian.com/");

            //urlList.Add("http://lingyi.qidian.com/");//foreach (string url in urlList)

            //{

            //    HtmlAgilityPack.HtmlDocument htmlDetail = web.Load(url);

            //    HtmlNode rootNode2 = htmlDetail.DocumentNode;

            //    string a = "//*[@class='book-info']";

            //    HtmlNodeCollection classList2 = rootNode2.SelectNodes(a);

            //    List<string> listINode2 = new List<string>();

            //    foreach (HtmlNode item in classList2)

            //    {

            //        //获取分类

            //        string inode = item.InnerHtml;

            //        listINode2.Add(inode);

            //    }

            //}

            #endregion

            #region 文章内容

            HtmlWeb web = new HtmlWeb();

            string u = "http://read.qidian.com/chapter/zOGI9RYmNdFhO--gcH8iFg2/h3iHSEH1cSpMs5iq0oQwLQ2";

            HtmlAgilityPack.HtmlDocument htmlDocment = web.Load(u);

            //创建html的节点

            HtmlNode htmlNode = htmlDocment.DocumentNode;

            string x = "//*[@class='read-content j_readContent']";

            HtmlNode htmlNodeP = htmlNode.SelectSingleNode(x);

            string htmlD = htmlNodeP.InnerText;

            #endregion

        }

只是拿一个例子而已。

C#使用xpath简单爬取网站的内容的更多相关文章

Python入门,以及简单爬取网页文本内容
最近痴迷于Python的逻辑控制,还有爬虫的一方面,原本的目标是拷贝老师上课时U盘的数据.后来发现基础知识掌握的并不是很牢固.便去借了一本Python基础和两本爬虫框架的书.便开始了自己的入坑之旅言 ...
Python简单爬取Amazon图片-其他网站相应修改链接和正则
简单爬取Amazon图片信息这是一个简单的模板,如果需要爬取其他网站图片信息,更改URL和正则表达式即可 1 import requests 2 import re 3 import os 4 de ...
requests 使用免费的代理ip爬取网站
import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxx ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
Java - XPath解析爬取内容
code { margin: 0; padding: 0; white-space: pre; border: none; background: transparent; } pre { backg ...
Golang+chromedp+goquery 简单爬取动态数据
目录 Golang+chromedp+goquery 简单爬取动态数据 Golang的安装下载golang软件解压golang 配置golang 重新导入配置 chromedp框架的使用实际的代 ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...
requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...

随机推荐

Python基础-列表推导式、匿名函数、os/sys/time/datetime/pymysql/xlwt/hashlib模块
列表推导式 [表达式 for 变量 in range(n) if 条件] 等效于 for 变量 in in range(n): if 条件: 表达式优点:书写方便,缺点:不易读注意:用的是方括号 ...
Jmeter接口测试实例2-获取所有学生信息
Jmeter实例2:获取所有学生信息添加http协议—添加IP.路径.方法,添加信息头管理器,察看结果树,运行如下图所示,响应结果中获取到所有学生信息
Install latest git on CentOS 6/7
Assuming you have sudo/root permission. Try rpmforge-extras first. yum --disablerepo=base,updates -- ...
jQuery中动画常用的样式获取并改变方法-
(1)Top 和 left 经常要用到jquery获取对象的位置,jquery top left,jquery css left是相对于父级元素中第一个position为relative或absolu ...
ssh-keygen 基本用法
ssh-keygen命令用于为"ssh"生成.管理和转换认证密钥,它支持RSA和DSA两种认证密钥. ssh-keygen(选项) -b:指定密钥长度: -e:读取openssh的 ...
SpringCloud无废话入门02：Ribbon负载均衡
1.白话负载均衡在上一篇的介绍中,我们创建了两个一模一样的服务提供者:Provider1和Provider2,然后它们提供的服务也一模一样,都叫Hello-Service.为什么一样的服务我们要部署 ...
NOIP2012 普及组寻宝
题目描述 Description 传说很遥远的藏宝楼顶层藏着诱人的宝藏.小明历尽千辛万苦终于找到传说中的这个藏宝楼,藏宝楼的门口竖着一个木板,上面写有几个大字:寻宝说明书.说明书的内容如下: 藏宝楼共 ...
Linux安装NET CORE
Linux安装.NET CORE 1.Add the dotnet apt-get feed 为了在Ubuntu或Linux Mint上安装.NET,您需要首先设置托管所需软件包的apt-get fe ...
Charles配置问题
1. 手机访问chls.pro/ssl下载证书时候,用常用安卓手机不同的浏览器(可以多试几种浏览器) 会出现两种情况,一种是直接打开下载getssl.crt文件一种是没有反应,直接打开网页了这时候 ...
MYSQL数据库高可用方案探究
MySQL作为最关键的应用数据存储中心,如何保证MySQL服务的可靠性和持续性,是我们不得不细致考虑的一个问题.当master宕机的时候,我们如何保证数据尽可能的不丢失,如何保证快速的获知master ...

C#使用xpath简单爬取网站的内容

C#使用xpath简单爬取网站的内容的更多相关文章

随机推荐

热门专题