.net 使用HtmlAgilityPack做爬虫

HtmlAgilityPack官网：https://html-agility-pack.net/?z=codeplex

.net中使用HtmlAgilityPack做爬虫步骤:

1、在nuget中安装HtmlAgilityPack

安装好之后我们就可以开始我们的爬虫之旅了

2、抓取网页源代码

 var web = new HtmlWeb();

 var doc = web.Load("要抓取的网页链接");

至此，我们就得到了网页的源代码了，然后用HtmlDocument来操作

还有一些特殊性质的需要填装验证数据的抓取，我们可以通过HttpWebRequest或者HttpClient来获取网页源代码

 var htmlTxt =获取html的string的方法;

 var doc = new HtmlDocument();

 doc.LoadHtml(htmlTxt);

3、进行数据筛选清洗

举个栗子：

我们现在抓取电影天堂的数据：https://www.dytt8.net

我们先抓取他的分类，我们打开https://www.dytt8.net 然后右键查看源代码，发现分类处于div class 为contain中，这样我们就好办了

直接用HtmlDocument获取 class为contain的所有a标签

 var list =doc.DocumentNode.SelectNodes("//div[@class='contain']/ul/li/a");

  foreach (var item in list)

 {

     //获取a标签下面的href

      var url = item.Attributes["href"].Value;

       // 获取a标签的文本

      var txt =item.InnerHtml;

 }

这样，我们就获取电影天堂的影片分类啦。

.net 使用HtmlAgilityPack做爬虫的更多相关文章

用HttpClient和用HttpURLConnection做爬虫发现爬取的代码少了的问题
最近在学习用java来做爬虫但是发现不管用那种方式都是爬取的代码比网页的源码少了很多在网上查了很多都说是inputStream的缓冲区太小而爬取的网页太大导致读取出来的网页代码不完整,但是后面发现并不 ...
手把手教你做爬虫---基于NodeJs
前言: 趁着北京今儿天气格外的蓝,我觉得我得干点什么,于是乎,卷起袖子,整理一下最近做爬虫的那些事儿. 目标:爬取北京大学软件与微电子学院的所有新闻,并将内容及图片存储到本地. 设计思路:经过对北京大 ...
在做爬虫或者自动化测试时新打开一个新标签页，必须使用windows切换
在做爬虫或者自动化测试时,有时会打开一个新的标签页或者新的窗口,直接使用xpath定位元素会发现找不到元素,在firefox中定位了元素还是找不到, 经过多次发现,在眼睛视野内看到这个窗口是在最前面, ...
JS如何做爬虫
JS如何做爬虫,JS做爬虫要靠node节点环境,cheerio(主要是解析下载的网页可以像jquery一样,这是必要的,使用它在npm上查看文档也很简单). Iconv-lite(主要解决下载资源的乱 ...
Python3.0版本从听说python可以做爬虫到自己第一成功做出爬虫的经历
前言我自己是个python小白,工作也不是软件行业,但是日常没事时喜欢捣鼓一些小玩意,自身有点C语言基础. 听说python很火,可以做出爬虫去爬一些数据图片视频之类的东东,我的兴趣一下子就来了.然 ...
C#使用HtmlAgilityPack快速爬虫
HtmlAgilityPack真是一把网抓利器,可以迅速地从网页抓到想要的文本或数据,使用起来十分方便,引用时在NuGet安装添加并在头部引用using HtmlAgilityPack;即可. 针对网 ...
用python做爬虫的例子
主要就是用了两个库,urllib和BeautifulSoup. 作用是从HTML中解析出解梦的查询词和具体的解释. # -*- coding: utf-8 -*- import urllib, url ...
学习做爬虫-vs2017
最近新装了vs2017,安装过程发生了很大的变化,操作变的更加容易了. 下载vs安装程序进行安装.更新界面如图所示,我选择了安装免费个人版(这个是已安装的更新界面,和安装界面差不多) 如图所示,这样的 ...
Java做爬虫也很方便
首先我们封装一个Http请求的工具类,用HttpURLConnection实现,也可以用HttpClient, 或者直接用Jsoup来请求. 工具类实现比较简单,就一个get方法,读取请求地址的响应内 ...

随机推荐

PHP使用swoole来实现实时异步任务队列
转载来自第七星尘的技术博客的<PHP使用swoole来实现实时异步任务队列> 关于异步任务队列用户打开了我们的网站.他要做的就是勾选需要发邮件的代理商列表,然后把结算邮件发出去.假如我们 ...
虚函数与bind 实现设计模式的练习
相同模式使用虚函数与bind function进行实现对比 #include "stdafx.h" #include <iostream> #include <f ...
学习python 多进程和多线程
''' 学习多进程和多线程 ''' import multiprocessing def deadLoop(): while True: pass if __name__ == '__main__': ...
带token的get和post方法
GET和POST传值失败,多半是传输的字符串和URL的事 public static string ExcuteGetToken(string serviceUrl, string ReqInfo, ...
提升HTML5的性能体验系列之二列表流畅滑动
App的顶部一般有titlebar,下面是list.常见的一个需求是要在list滚动时,titlebar不动.这个简单的需求,实现起来其实并不简单. 在普通web上的做法是使用div的滚动条,把lis ...
lower_case_table_names
http://blog.csdn.net/jesseyoung/article/details/40617031 1 简介在MySQL中,数据库对应数据目录中的目录.数据库中的每个表至少对应数 ...
将爬取的网页数据保存到数据库时报错不能提交JPA，Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\xB6 \xE2...' for column 'content' at row 1
错误原因:我们可以看到错误提示中的字符0xF0 0x9F 0x98 0x84 ,这对应UTF-8编码格式中的4字节编码(UTF-8编码规范).正常的汉字一般不会超过3个字节,为什么为出现4个字节呢?实 ...
ThinkPHP redirect 传参
重定向带参 $this->redirect('pay/under_line_success',array('order_id'=>$stuInfo),5,'页面跳转中….'); 第一个参数 ...
Oracle修改数据库的日期
---Oracle数据库更新时间字段数据时的sql语句---格式化时间插入 update t_invite_activityinfo set endtime=to_date('2019-10-30 1 ...
第24章：MongoDB-聚合操作--MapReduce
①MapReduce 在MongoDB的聚合框架中,还可以使用MapReduce,它非常强大和灵活,但具有一定的复杂性,专门用于实现一些复杂的聚合功能. MongoDB中的MapReduce使用Jav ...

.net 使用HtmlAgilityPack做爬虫

.net 使用HtmlAgilityPack做爬虫的更多相关文章

随机推荐

热门专题