注意!仅供学习交流使用,请勿用在歪门邪道的地方!技术只是工具!关键在于用途!


今天接触了一款有意思的框架,作用是网络爬虫,他可以像操作JS一样对网页内容进行提取

初体验Jsoup

<!-- Maven坐标地址 -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>

我们先来找到博客园的个人首页做一个简单的小练习:https://www.cnblogs.com/hanzhe

调用Jsoup的connect静态函数创建连接,将爬取的目标网站作为参数传递过去:

public class Demo {
public static void main(String[] args) {
Connection connect = Jsoup.connect("https://www.cnblogs.com/hanzhe");
}
}

为了防止爬虫受到限制,这里设置请求头来模仿浏览器客户端,可以参照请求进行修改,例如:

public class Demo {
public static void main(String[] args) {
Connection connect = Jsoup.connect("https://www.cnblogs.com/hanzhe")
// 我这里只设置了一个,如果爬取遇到问题随时添加头信息即可
.header("user-agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56");
}
}

然后调用execute方法开始进行爬取,通过body取出爬取到的数据:

public class Demo {
public static void main(String[] args) throws IOException {
Connection connect = Jsoup.connect("https://www.cnblogs.com/hanzhe")
.header("user-agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56");
String body = connect.execute().body();
System.out.println(body);
}
}

可以看到已经爬取到了首页的内容:

但是之前说Jsoup可以向操作JS一样对网页内容进行提取,所以我们在获取爬取内容之前要先对内容进行解析:

public class Demo {
public static void main(String[] args) throws IOException {
Connection connect = Jsoup.connect("https://www.cnblogs.com/hanzhe")
.header("user-agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56");
// 使用parse函数对爬取到的内容进行解析
Element body = connect.execute().parse().body();
System.out.println(body);
}
}

明显看到解析后的HTML被格式化过,看着非常整齐,而且返回值也从字符串变成了ELement实例,可以通过操作实例实现内容筛选

测试爬取页面随笔

打开F12开发者工具,尝试获取到与随笔标题相关的信息:

观察发现每个随笔的标题都使用postTitle2 vertical-middle两个class进行修饰的,我们可以使用选择器来找到所有标题:

我们就用该选择器在Jsoup中爬取所有随笔标题:

public class Demo {
public static void main(String[] args) throws IOException {
Connection connect = Jsoup.connect("https://www.cnblogs.com/hanzhe")
.header("user-agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56");
Element body = connect.execute().parse().body();
Elements elementsByClass = body.getElementsByClass("postTitle2 vertical-middle");
elementsByClass.forEach(item->{
System.out.println(item.text());
});
}
}

实战:爬取笔趣阁小说:

被选中的幸运儿:http://www.paoshuzw.com/26/26874/

具体Java代码:

public class 笔趣阁爬取小说 {

    // 爬取目标网址:从第一章开始爬取,直至最后一章
private static String url = "http://www.paoshuzw.com/26/26874/13244872.html";
// 输出文件名称(一般为书名),如果仅仅是想拿来用改这两个参数就够了
private static String fileName = "仓元图"; // 空格,四格位置
private static String space = " ";
// 文件输出流
private static FileWriter writer;
// 计数器
private static int pageCount = 1; // 启动类函数
public static void main(String[] args) throws Exception {
// 初始化程序
getWriter();
long l = System.currentTimeMillis();
// 循环爬取小说
do {
Element element = nextPage(url);
outputToFile(element);
url = hasNext(element);
} while (url != null);
writer.close();
long time = (System.currentTimeMillis() - l) / 1000;
System.out.println("\n\n 成功爬取所有章节!耗时" + time + "秒");
} // 爬取页面
private static Element nextPage(String url) throws Exception{
// 获取连接实例,伪造浏览器身份
Connection conn = Jsoup.connect(url)
.header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9")
.header("Accept-Encoding", "gzip, deflate")
.header("Accept-Language", "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6")
.header("Cache-Control", "max-age=0")
.header("Connection", "keep-alive")
.header("Host", url)
.header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56");
return conn.execute().parse().body();
} // 获取当前章节标题
private static String getTitle(Element element) {
return element.select(".bookname h1").text();
} // 获取章节具体内容
private static String getContent(Element element) {
// 删除底部P标签的广告内容
element.getElementsByTag("p").remove();
// 获取到ID为content的所有HTML内容
String body = element.select("#content").html();
// 对body进行处理,返回正常格式的内容
body = body.replace("&nbsp;&nbsp;&nbsp;&nbsp;", space);
body = body.replace("<br>", "");
return body.replace(" \n \n", "\r\n");
} // 是否有下一页?有返回下一页URL地址,没有就返回NULL
private static String hasNext(Element element) {
// 找到"下一章"的按钮,获取跳转的目标地址
Elements div = element.getElementsByClass("bottem2");
Element a = div.get(0).getElementsByTag("a").get(3);
String href = a.attr("href");
// 通过观察存在下一章的时候URL会以.html结尾,不存在时会跳转到首页,通过这个特点判断是否存在下一章
return href.endsWith(".html") ? "http://www.paoshuzw.com" + href : null;
} // 获取输出流
private static void getWriter() throws IOException {
String path = "D:/" + fileName + ".txt";
File file = new File(path);
if (file.exists()) {
System.out.println("目标书籍已存在!请修改文件名称或删除原书籍:" + path);
System.exit(0);
}
writer = new FileWriter(file);
} // 输出到文件
private static void outputToFile(Element element) throws IOException {
String title = getTitle(element);
String content = getContent(element);
String text = space + title + "\r\n\r\n" + content;
writer.write(text);
writer.flush();
System.out.println("==>>【" + title + "】爬取完成,正在爬取下一章(第" + pageCount++ + "次操作)");
} }

Jsoup-基于Java实现网络爬虫-爬取笔趣阁小说的更多相关文章

  1. bs4爬取笔趣阁小说

    参考链接:https://www.cnblogs.com/wt714/p/11963497.html 模块:requests,bs4,queue,sys,time 步骤:给出URL--> 访问U ...

  2. scrapycrawl 爬取笔趣阁小说

    前言 第一次发到博客上..不太会排版见谅 最近在看一些爬虫教学的视频,有感而发,大学的时候看盗版小说网站觉得很能赚钱,心想自己也要搞个,正好想爬点小说能不能试试做个网站(网站搭建啥的都不会...) 站 ...

  3. Python爬取笔趣阁小说,有趣又实用

    上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...

  4. python应用:爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说

    使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...

  5. scrapy框架爬取笔趣阁

    笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...

  6. HttpClients+Jsoup抓取笔趣阁小说,并保存到本地TXT文件

    前言 首先先介绍一下Jsoup:(摘自官网) jsoup is a Java library for working with real-world HTML. It provides a very ...

  7. scrapy框架爬取笔趣阁完整版

    继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...

  8. 爬虫入门实例:利用requests库爬取笔趣小说网

    w3cschool上的来练练手,爬取笔趣看小说http://www.biqukan.com/, 爬取<凡人修仙传仙界篇>的所有章节 1.利用requests访问目标网址,使用了get方法 ...

  9. 如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

    前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...

随机推荐

  1. WPF -- DataTemplate与ControlTemplate结合使用

    如深入浅出WPF中的描述,DataTemplate为数据的外衣,ControlTemplate为控件的外衣.ControlTemplate控制控件的样式,DataTemplate控制数据显示的样式,D ...

  2. MySql数据库列表数据分页查询、全文检索API零代码实现

    数据条件查询和分页 前面文档主要介绍了元数据配置,包括表单定义和表关系管理,以及表单数据的录入,本文主要介绍数据查询和分页在crudapi中的实现. 概要 数据查询API 数据查询主要是指按照输入条件 ...

  3. SpringCloud里面切换数据源无效的问题

    问题描述: 调用链:controller1的接口A->service1的方法A->service2的方法B 方法A开启了事务,且指定了数据库A的数据源 方法B也开启了事务,使用了默认的事务 ...

  4. net5 中 后台任务利器之Hangfire 的使用

    什么是Hangfire Hangfire 是一个开源的.NET任务调度框架,目前1.6+版本已支持.NET Core.它最大特点在于内置提供集成化的控制台,方便后台查看及监控: 另外,Hangfire ...

  5. 选择 FreeBSD 而不是 Linux 的技术性原因3

    选择 FreeBSD 而不是 Linux 的技术性原因3 jail FreeBSD Jails 系统是另一个惊人的工程壮举. 在 2000 年 3 月 14 日的 4.0 版本中,FreeBSD 引入 ...

  6. Navicat 121版本激活工具

    以下是工具的链接: https://github.com/DoubleLabyrinth/navicat-keygen/blob/windows/README_FOR_WINDOWS.zh-CN.md ...

  7. apk、dex完整性验证

    对Dex进行完整性的检查,可通过CRC,或者Hash值.可将校验值放到String资源文件里,或者放到服务器中. 1. 在代码中完成校验值对比逻辑,此部分代码后续不能再改变,否则CRC值会发生变化: ...

  8. POJ - 1163 The Triangle 【动态规划】

    一.题目 The Triangle 二.分析 动态规划入门题. 状态转移方程$$DP[i][j] = A[i][j] + max(DP[i-1][j], DP[i][j])$$ 三.AC代码 1 #i ...

  9. python-实现双链表

    双链表和单链表进行比较的优点与不同 节点多了一个前驱指针域 在很多基本操作上,多了一种选择,因为双链表可以向前进行移动寻位 如果给每个节点添加一个对应的下标,那么在寻找节点时,我们可以使用二分发来进行 ...

  10. 1-认识c指针

    1.指针和内存 c程序在编译后,会以三种形式使用内存 1静态/全局内存 静态声明的变量分配在这里,全局变量也使用这部分内存.这些变量在程序开始运行时分配,直到程序终止时才会消失 2.自动内存 这些变量 ...