【反反爬】使用Jsoup爬取数据保存Excel

　　本文主要使用Jsoup爬取XXX房屋信息，抓取一些房屋信息，比如房屋楼盘、户型、价格、地址等信息，然后保存到Excel，便于对比和筛选，选出符合预期的好房。

　　注意，有些网站有防爬取机制，需要设置动态更换代理IP进行重试。

 1         <dependency>

 2             <groupId>org.slf4j</groupId>

 3             <artifactId>slf4j-api</artifactId>

 4             <version>1.7.25</version>

 5         </dependency>

 6         <dependency>

 7             <groupId>org.slf4j</groupId>

 8             <artifactId>slf4j-simple</artifactId>

 9             <version>1.7.25</version>

10         </dependency>

11

12         <dependency>

13             <groupId>org.jsoup</groupId>

14             <artifactId>jsoup</artifactId>

15             <version>1.11.3</version>

16         </dependency>

17

18         <dependency>

19             <groupId>com.squareup.okhttp3</groupId>

20             <artifactId>okhttp</artifactId>

21             <version>3.3.0</version>

22         </dependency>

23

24         <dependency>

25             <groupId>org.apache.poi</groupId>

26             <artifactId>poi</artifactId>

27             <version>4.1.2</version>

28         </dependency>

29

30         <dependency>

31             <groupId>org.apache.poi</groupId>

32             <artifactId>poi-ooxml</artifactId>

33             <version>4.1.2</version>

34         </dependency>

pom.xml

爬取数据的部分代码

 1 public static List<List<String>> getData(String urls) throws Exception {

 2

 3         // 读取数据

 4         List<List<String>> data = Lists.newArrayList();

 5

 6         // 代理ip和端口，需动态替换（可以本地新建一个ip列表，动态读取，获取失败替换代理ip即可）

 7         String ip = "xxx.xxx.xxx.xxx";

 8         int port = 80;

 9

10         Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ip, port));

11         URL url = new URL(urls);

12         URLConnection urlConnection = url.openConnection(proxy);

13         urlConnection.setUseCaches(false);

14         urlConnection.connect();

15         InputStream is = urlConnection.getInputStream();

16         BufferedReader buffer = new BufferedReader(new InputStreamReader(is));

17         StringBuffer bs = new StringBuffer();

18         String l = null;

19         while ((l = buffer.readLine()) != null) {

20             bs.append(l);

21         }

22         System.out.println(bs.toString());

23

24         Document doc = Jsoup.parse(bs.toString());

25         Elements els = doc.body().getElementsByClass("list-item");

26         for (Element el : els) {

27             List<String> rowData = Lists.newArrayList();

28             Elements titleEls = el.getElementsByClass("house-title");

29             log.info("# 标题:{}", titleEls.get(0).getElementsByTag("a").text());

30             rowData.add(titleEls.get(0).getElementsByTag("a").text());

31

32             Elements itemEls = el.getElementsByClass("details-item");

33             Elements itemSpanEls = itemEls.get(0).getElementsByTag("span");

34             log.info("# 户型:{}", itemSpanEls.get(0).text());

35             rowData.add(itemSpanEls.get(0).text());

36             log.info("# 面积:{}", itemSpanEls.get(1).text());

37             rowData.add(itemSpanEls.get(1).text());

38             log.info("# 楼层:{}", itemSpanEls.get(2).text());

39             rowData.add(itemSpanEls.get(2).text());

40             log.info("# 年限:{}", itemSpanEls.get(3).text());

41             rowData.add(itemSpanEls.get(3).text());

42

43             String[] address = itemEls.get(1).getElementsByTag("span").text().split(" ");

44             if (address==null || address.length == 0) {

45                 continue;

46             }

47             log.info("# 楼盘:{}", address[0]);

48             log.info("# 地址:{}", address[1]);

49             rowData.add(address[0]);

50             rowData.add(address[1]);

51

52             Elements priceEls = el.getElementsByClass("pro-price");

53             Elements priceSpanEls = priceEls.get(0).getElementsByTag("span");

54             log.info("# 总价:{}", priceSpanEls.get(0).getElementsByTag("strong").text());

55             rowData.add(priceSpanEls.get(0).getElementsByTag("strong").text());

56             log.info("# 单价:{}", priceSpanEls.get(1).text());

57             rowData.add(priceSpanEls.get(1).text());

58             data.add(rowData);

59         }

60

61         return data;

62     }

数据写入excel的代码

 1 public static void writeExcel(List<String> titleList, List<List<String>> dataList) throws Exception {

 2         //open file.

 3         File excel = new File("D:\\Users\\Desktop\\data.xls");

 4         excel.deleteOnExit();

 5         excel.createNewFile();

 6         FileOutputStream fos = new FileOutputStream(excel);

 7

 8         Workbook book = new HSSFWorkbook();

 9

10         //create Sheet named "Sheet_1". 0 means this is 1st page.

11         Sheet sheet = book.createSheet("安居客房源信息");

12

13         // 写入标题

14         Row titleRow = sheet.createRow(0);

15         for (int x = 0; x < titleList.size(); x++) {

16             Cell cell0 = titleRow.createCell(x);

17             cell0.setCellValue(titleList.get(x));

18         }

19

20         // 写入数据

21         for (int i = 0; i < dataList.size(); i++) {

22             int row = i + 1;

23             Row dataRow = sheet.createRow(row);

24             List<String> rowData = dataList.get(i);

25             for (int j = 0; j < titleList.size(); j++) {

26                 Cell dataCell = dataRow.createCell(j);

27                 dataCell.setCellValue(rowData.get(j));

28             }

29         }

30

31         book.write(fos);

32         book.close();

33

34         log.info("# write data success");

35     }

运行方法（建议第一次先不获取所有数据，只获取第一页数据，用来看实际效果，不然ip被封了无法继续使用）

 1 public static void main(String[] args) {

 2         try {

 3             String url = "file:///D:/Users/Desktop/test.html";

 4 //            url = "https://hanchuanshi.anjuke.com/sale/p1-rd1/#filtersort";

 5

 6             List<List<String>> data = Lists.newArrayList();

 7             for (int i = 1; i <= 50; i++) {

 8                 url = "https://hanchuanshi.anjuke.com/sale/p" + i + "-rd1/#filtersort";

 9                 data.addAll(getData(url));

10             }

11

12             List<String> titleList = Arrays.asList("标题", "户型", "面积", "楼层", "年限", "楼盘", "地址", "总价", "单价");

13             writeExcel(titleList, data);

14         } catch (Exception e) {

15             e.printStackTrace();

16         }

17     }

【反反爬】使用Jsoup爬取数据保存Excel的更多相关文章

ASP.NET网络爬虫小研究 HtmlAgilityPack基础，爬取数据保存在数据库中再显示再自己的网页中
1.什么是网络爬虫关于爬虫百度百科这样定义的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些 ...
python爬取数据保存入库
import urllib2 import re import MySQLdb class LatestTest: #初始化 def __init__(self): self.url="ht ...
scrapy爬取数据保存csv、mysql、mongodb、json
目录前言 Items Pipelines 前言用Scrapy进行数据的保存进行一个常用的方法进行解析 Items item 是我们保存数据的容器,其类似于 python 中的字典.使用 item ...
jsoup抓取数据
jsoup的主要功能如下: 1. 从一个URL,文件或字符串中解析HTML: 2. 使用DOM或CSS选择器来查找.取出数据: 3. 可操作HTML元素.属性.文本: 接下来介绍jsoup 是如何优雅 ...
python 抓取数据存入 excel
import requestsimport datetimefrom random import choicefrom time import timefrom openpyxl import loa ...
UIPath踩坑记一UIpath中抓取数据后在tableau中无表头
UIpath抓取数据存在Excel中(Excel 应用程序范围),且已设置表头,但是放到tableau中无表头更换为"写入范围(工作簿)",同时属性设置必须勾选"添加标 ...
python反反爬，爬取猫眼评分
python反反爬,爬取猫眼评分.解决网站爬取时,内容类似:$#x12E0;样式,且每次字体文件变化.下载FontCreator . 用FontCreator打开base.woff.查看对应字体关系 ...
jsoup爬取某网站安全数据
jsoup爬取某网站安全数据 package com.vfsd.net; import java.io.IOException; import java.sql.SQLException; impor ...
爬取豆瓣电影储存到数据库MONGDB中以及反反爬虫
1.代码如下: doubanmoive.py # -*- coding: utf-8 -*- import scrapy from douban.items import DoubanItem cla ...
Jsoup爬取网上数据完成翻译
Jsoup使用首先进入Jsoup下载jar包然后打开IDEA创建一个普通的java项目在项目结构里创建 lib 目录但是我们这样并不能直接进行使用需要添加路径右键点击然后添加路径选择模 ...

随机推荐

Python基础 - 比较运算符
以下假设变量a为10,变量b为20: 运算符描述实例 == 等于 - 比较对象是否相等 (a == b) 返回 False. != 不等于 - 比较两个对象是否不相等 (a != b) 返回 tr ...
Kafka 杂谈
开始之前首先,此篇文章会有很多地方会和 RocketMQ 比较,不太熟悉 RocketMQ 可以去看看我之前写的RocketMQ基础概念剖析&源码解析,先有个大概的印象,可能会帮助你更好的理 ...
MAUI Android 关联文件类型
实现效果打开某个文件,后缀是自己想要的类型,在弹出的窗口(用其它应用打开)的列表中显示自己的应用图标点击后可以获得文件信息以便于后续的操作实现步骤以注册.bin后缀为例,新建一个MAUI项目 ...
逍遥自在学C语言 | 揭开while循环的神秘面纱
前言循环是一种重要的控制结构,可以使程序重复执行一段代码,直到满足特定条件为止. 在C语言中,while和do-while是两种常用的循环结构,本文将详细介绍这两种循环的用法. 一.人物简介第一位 ...
cve_2020_6507分析
poc $ cat poc.js array = Array(0x40000).fill(1.1); args = Array(0x100 - 1).fill(array); args.push(Ar ...
Python潮流周刊#4：Python 2023 语言峰会
你好,我是猫哥.这里记录每周值得分享的 Python 及通用技术内容,本期是特别加更版,聚焦于 Python 官方 2023 年语言峰会的系列博客. 博客原文:https://pythoncat.to ...
聊聊Flink必知必会(二)
Checkpoint与Barrier Flink是一个有状态的流处理框架,因此需要对状态做持久化,Flink定期保存状态数据到存储空间上,故障发生后从之前的备份中恢复,这个过程被称为Checkpoin ...
一分钟学一个 Linux 命令 - find 和 grep
前言大家好,我是 god23bin.欢迎来到<一分钟学一个 Linux 命令>系列,每天只需一分钟,记住一个 Linux 命令不成问题.今天需要你花两分钟时间来学习下,因为今天要介绍的是 ...
Custom directive is missing corresponding SSR transform and will be ignored
背景最近在给业务组件库集成指令库,将各个项目中常用的指令如一键复制.元素和弹窗拖拽等封装到一起,进行统一发版维护. 业务组件库项目架构采用的是pnpm+vite+vue3+vitepress,其中v ...
一文了解Go语言的I/O接口设计
1. 引言 I/O 操作在编程中扮演着至关重要的角色.它涉及程序与外部世界之间的数据交换,允许程序从外部,如键盘.文件.网络等地方读取数据,也能够将外界输入的数据重新写入到目标位置中.使得程序能够与外 ...

【反反爬】使用Jsoup爬取数据保存Excel

本文主要使用Jsoup爬取XXX房屋信息，抓取一些房屋信息，比如房屋楼盘、户型、价格、地址等信息，然后保存到Excel，便于对比和筛选，选出符合预期的好房。

【反反爬】使用Jsoup爬取数据保存Excel的更多相关文章

随机推荐

热门专题

　　本文主要使用Jsoup爬取XXX房屋信息，抓取一些房屋信息，比如房屋楼盘、户型、价格、地址等信息，然后保存到Excel，便于对比和筛选，选出符合预期的好房。