C#解析HTML利器-Html Agility Pack
今天刚开始做毕设....好吧,的确有点晚。我的毕设设计需要爬取豆瓣的电影推荐,于是就需要解析爬取下来的html,之前用Python玩过解析,但目前我使用的是C#,我觉得C#不比python差,有微软大大在,这个不需要担心,主要还是生态问题。查了下资料,发现Html Agility Pack是比较好的,当然还有其他的,我就不说了,主要使用它做的。
官网地址(可以自己去下载dll):
http://html-agility-pack.net/select-nodes
代码设计:
static void complete(object o, AsyncCompletedEventArgs e)
{
// 开始解析html
var doc = new HtmlDocument();
doc.Load( "E:\程序文件\C#程序代码\Validate\ConsoleApplication1\movie.txt", Encoding.UTF8);
List<string> movie = new List<string>(); //
HtmlNodeCollection nodeCollection = doc.DocumentNode.SelectNodes("//ul/li[ class=\"title\"]");
foreach (HtmlNode n in nodeCollection)
{
Console.WriteLine(n.InnerHtml.Trim());
movie.Add(n.InnerText.Trim());
} //获取豆瓣最受欢迎影评
HtmlNodeCollection nodeCollection1 = doc.DocumentNode.SelectNodes("//div[ class=\"review-bd\"]/h3");
foreach (HtmlNode n in nodeCollection1)
{
Console.WriteLine(n.InnerHtml.Trim());
movie.Add(n.InnerText.Trim());
} foreach(var m in movie)
{
Console.WriteLine(m);
} File.Delete( "E:\程序文件\C#程序代码\Validate\ConsoleApplication1\movie.txt");
} static void Main(string[] args)
{
Console.BufferHeight = ;
Console.BufferWidth = ;
string moviePath = "E:\程序文件\C#程序代码\Validate\ConsoleApplication1\movie.txt";
WebClient wc = new WebClient();
wc.UseDefaultCredentials = true;
wc.DownloadFileAsync(new Uri("https://movie.douban.com/"), moviePath);
wc.DownloadFileCompleted += new AsyncCompletedEventHandler(complete); Console.Read();
}
对于WebClient文档,请看https://msdn.microsoft.com/zh-cn/library/system.net.webclient(v=vs.110).aspx
不得不说,微软官网的系列文档真是良心!以前也是听人说过,微软的解决方案以及文档很全,但是一直查资料都是直接百度,现在换了一种,直接上微软官网查....真是良心!而且例子是比较经典的!
C#解析HTML利器-Html Agility Pack的更多相关文章
- C#解析HTML神器 Html Agility Pack
曾经,我傻乎乎的用正则表达式成功的解析了学校的新闻网.教务管理系统.图书馆管理系统中我想要的所有的内容.那时候废了好大的劲写那正则啊,而且最后还是各种不给力,经常会有意想不到的bug出现,最后经过无数 ...
- html解析器:Html Agility Pack
去掉注释.样式.和js代码: foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) scr ...
- Html Agility Pack解析Html(C#爬虫利器)
有个需求要写网络爬虫,以前接触过一个叫Html Agility Pack这个解析html的库,这次又要用到,然而发现以前咋用的已经不记得了,现在从头开始记录一下使用过程. Html Agility P ...
- Html Agility Pack 解析Html
Hello 好久不见 哈哈,今天给大家分享一个解析Html的类库 Html Agility Pack.这个适用于想获取某网页里面的部分内容.今天就拿我的Csdn的博客列表来举例. 打开页面 用Fir ...
- 开源项目Html Agility Pack实现快速解析Html
这是个很好的的东西,以前做Html解析都是在用htmlparser,用的虽然顺手,但解析速度较慢,碰巧今天找到了这个,就拿过来试,一切出乎意料,非常爽,推荐给各位使用. 下面是一些简单的使用技巧,希望 ...
- Html Agility Pack解析HTML页
文章来源:Html Agility Pack解析HTML页 现在,在不少应用场合中都希望做到数据抓取,特别是基于网页部分的抓取.其实网页抓取的过程实际上是通过编程的方法,去抓取不同网站网页后,再进行分 ...
- 强大而灵活的的Html解析器——Html Agility Pack
一.概述 Html Agility Pack 简称HAP,是一个强大而灵活的解析Html DOM的.Net类库. 二.官方链接 官网:http://html-agility-pack.net/ NuG ...
- C# 网络爬虫利器之Html Agility Pack如何快速实现解析Html
简介 现在越来越多的场景需要我们使用网络爬虫,抓取相关数据便于我们使用,今天我们要讲的主角Html Agility Pack是在爬取的过程当中,能够高效的解析我们抓取到的html数据. 优势 在.NE ...
- 使用Html Agility Pack快速解析Html内容
Html Agility Pack 是一个开源的.NET 方案HTML解析器. 开源地址:https://github.com/zzzprojects/html-agility-pack 用法:vs上 ...
随机推荐
- 电脑hash破解
我一直在想,到底用什么样的方式才能较长时间地控制已经得到了权限的目标呢?留后门,种木马,甚至是Rootkit?留的Webshell痕迹太明显,哪怕是一句话的Webshell,都极容易被管理员清除.放了 ...
- 用API给用户添加职责
DECLARE lc_user_name VARCHAR2(100) := 'PRAJ_TEST'; lc_resp_appl_short_name VARCHAR2(100) := 'FND' ...
- Android Demo---实现从底部弹出窗口
在前面的博文中,小编简单的介绍了如何制作圆角的按钮以及圆角的图片,伴着键盘和手指之间的舞步,迎来新的问题,不知道小伙伴有没有这样的经历,以App为例,点击头像的时候,会从底部弹出一个窗口,有从相册中选 ...
- 【OpenGL】详解第一个OpenGL程序
写在前面 OpenGL能做的事情太多了!很多程序也看起来很复杂.很多人感觉OpenGL晦涩难懂,原因大多是被OpenGL里面各种语句搞得头大,一会gen一下,一会bind一下,一会又active一下. ...
- 开源项目——小Q聊天机器人V1.5
小Q聊天机器人V1.0 http://blog.csdn.net/baiyuliang2013/article/details/51386281 小Q聊天机器人V1.1 http://blog.csd ...
- jquery实战---标签页效果
在前面的博客中,小编主要简单的介绍了jquery的一些基本知识,今天这篇博文,小编继续来学习jquery的相关知识,今天我们来学习一个标签页的小例子,相关源码小编已经上传,有需要的小伙伴可以自己去下载 ...
- 高斯函数 --> 高斯分布(正态分布)
具有如下形式的函数就是高斯函数. 其中a,b,c都是实数常数,a大于0 .由于在博客中写数学公式比较麻烦,还是直接放照片吧. 字写的很难看,不过应该可以看清楚.:(
- J2EE进阶(三)struts2 <s:action>标签的用法
J2EE进阶(三)struts2 <s:action>标签的用法 前言 使用action标签,可以允许在jsp页面中直接调用Action,(类似AJAX页面调用)在调用Action时候,可 ...
- 【IOS 开发】Object - C 数组使用详解
. 一. 一维数组 1. 一维数组定义 (1) 数组定义 数组定义格式 : type arrayName[len]; -- 默认初始化 : 注意 数组定以后, 如果是 int 数组默认初始化为 0, ...
- iOS中 Swift初级入门学习(二)
// Copyright (c) 2015年 韩俊强. All rights reserved. // import Foundation /* // 控制语句 // for - in // 遍历字符 ...