最近经常需要下载一些东西,而这个下载地址又会经过层层跳转,每个页面上都有很多广告,烦不胜烦,所以做了一个一键获得最终下载地址的小工具.使用C#,来获取网页内容,然后通过HtmlAgilityPack获取某a标签的href,不断循环,层层跳转,最后获得最终下载地址. 下面,介绍HtmlAgilityPack的使用方法,这个方法也是从网上很多篇文章中拼凑摸索出来的,因为找了一大圈根本找不到HtmlAgilityPack的文档…… 首先,using HtmlAgilityPack; 代码片段: str…
哎~本来这些总结是作为使用时的快速备注,但是用不上了.实际应用当中HtmlAgilityPack的可靠性不太稳定,一主要问题是:-> 一些字符会出现乱码或者变成'?',如韩语字符.由于我是已经有HTML源,只需要Load后解析,所以设置OverrideEncoding的方法不管用.-> 有时候获取到的元素内容会多个换行或空格什么的,然后又要增加代码过滤,然后效率就下来了... ...浪费了不少时间,到头来还是mshtml可靠性高些.而且调用方法也熟悉.不管网上对各种HTML解析器怎么测评,只有…
上一篇博客springMVC源码分析--ViewResolver视图解析器(一)中我们介绍了一些springMVC提供的很多视图解析器ViewResolver,在开发的一套springMVC系统中是可以使用多个视图的,当然就需要配置多个视图解析器了,ViewResolverComposite简单来说就是使用简单的List来保存你配置使用的视图解析器. ViewResolverComposite中定义了两个变量: (1)private final List<ViewResolver> viewR…
上一篇博客springMVC源码分析--HandlerMethodArgumentResolver参数解析器(一)中我们已经介绍了参数解析相关的东西,并且也提到了HandlerMethodArgumentResolverComposite,其简单来说就是所有的参数解析器的链表,保存了springMVC提供的所有的参数解析器,采用职责链的模式来完成参数解析器的查找,并完成参数解析生成目标对象. 完整源码及说明如下: public class HandlerMethodArgumentResolve…
1.android下junit测试框架配置 单元测试需要在手机中进行安装测试 (1).在清单文件中manifest节点下配置如下节点 <instrumentation android:name="android.test.InstrumentationTestRunner" android:targetPackage="com.example.demo1" /> 上面targetPackage指定的包要和应用的package相同. (2)在清单文件中ap…
需要下载jsoup-1.8.1.jar包 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据. 网页获取和解析速度飞快,推荐使用.主要功能如下: 1. 从一个URL,文件或字符串中解析HTML: 2. 使用DOM或CSS选择器来查找.取出数据: 3. 可操作HTML元素.属性.文本: 范例代码如下: package cn.ysh.studio.crawler.…
Crawlspider 一:Crawlspider简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能.其中最显著的功能就是”LinkExtractors链接提取器“.Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适. 二:CrawlSpider整体的爬取流程: a)爬虫文件首先根据其实url,获…
一.获取数据 想弄一个数据库,由于需要一些人名,所以就去百度一下,然后发现了360图书馆中有很多人名 然后就像去复制一下,发现复制不了,需要登陆 此时f12查看源码是可以复制的,不过就算可以复制想要插入数据也是很麻烦的.既然复制走不通,于是我抱着探索知识的精神,打开了Visual Studio 首先我们需要先拿到整个页面的数据,此时的话可以使用WebClient对象来获取数据(HttpWebRequest方式稍微有点麻烦),然后使用byte数组来接受一下返回值 public static voi…
jsoup 的作用:是一款 Java 的HTML 解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据 1.jsoup的主要功能如下: 从一个URL,文件或字符串中解析HTML: 使用DOM或CSS选择器来查找.取出数据: 可操作HTML元素.属性.文本: jsoup解析 1.Jsoup提供一系列的静态解析方法生成Document对象 static Document parse(File in, S…
一.背景:个人喜欢在网上看小说,但是,在浏览器中阅读小说不是很方便,喜欢找到小说的txt版下载到手机上阅读,但是有些小说不太好找txt版本,考虑自己从网页上爬一爬,自己搞定小说的txt版本.正好学习一下有关爬虫技术. 二.环境及爬取目标 1.linux centos7系统 2.小说网站:http://www.xbiquge.la/15/15158 ,小说名称<汉乡>. 三.爬取思路 1.爬取目录页面,生成小说章节标题和链接网址形成的字典. 2.根据上一步得到的字典中的章节链接网址,逐一爬取各章…