本文主要分享的是关于Java爬虫技术其中一个方式 ==> Jsoup

1、Jsoup简介

　　推开技术大门，爬虫技术琳琅满目，而今天要分享的Jsoup是一款Java的HTML解析神器，，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API。可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

。关于Jsoup的详细介绍，不赘述，以下是官方文档，自行查阅。我们直接上代码。

2、代码分享（真实爬取一个政府采购网：中国政府采购网，按照关键词搜索的公告）

注意的点：爬虫的是要爬取大量列表信息的，这就要考虑到判断总页数，翻开每一页，遍历每一条数据，还要在F12模式下，查看网页发起请求的格式，查看URL传递参数的加密方式，如果请求失败了，如何处理等等

package com.Utill;

import com.alibaba.fastjson.JSONObject;

import com.ckms.comp.manager.im.govManage.service.GovManageServiceImpl;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

import java.io.*;

import java.util.*;

/**

 * @Author:

 * @Date: 2019/10/1 13:43

 * @Describe:

 */

public class JsoupDemo {

    private static final Logger logger = LoggerFactory.getLogger(JsoupDemo.class);

    private String keyword = null;

    private String endtime = null;

    private String begintime = null;

    private String zzUrl = null;

    private boolean start = false;

    int isSize = 1;

    Integer pageSize = 0;

    Integer timeType = 6;  // 时间类型   6: 指定时间  5：近半年  0：今日  4：近3月

    /**

     * 爬虫调用主方法

     *

     * @param id        关键词的饿id

     * @param kw        关键词

     * @param startTime 开始时间

     * @param endTime   结束时间

     */

    public void fetch(Integer id, String kw, String startTime, String endTime) {

        logger.info("开始拉取网站数据》》》》》》》》》》》》》》》》》》》》》》》》》》》");

        Integer totalSize = null;

        try {

            keyword = toUtf8String(kw);

            begintime = startTime.replace("/", "%3A");

            endtime = endTime.replaceAll("/", "%3A");

            pageSize = 1;

            zzUrl = "http://search.ccgp.gov.cn/bxsearch?searchtype=1&page_index=" + pageSize + "&bidSort=0&buyerName=&projectId=&pinMu=0&bidType=0&dbselect=bidx&kw=" + keyword + "&start_time=" + begintime + "&end_time=" + endtime + "&timeType=" + timeType + "&displayZone=&zoneId=&pppStatus=0&agentName=";

            start = true;

            //获取总页数

            totalSize = fetchHomePageUrl(zzUrl);

            if (totalSize != null && totalSize > 0) {

                while (start) {

                    if (isSize > totalSize) {

                        start = false;

                    } else {

                        pageSize = isSize;

                        zzUrl = "http://search.ccgp.gov.cn/bxsearch?searchtype=1&page_index=" + isSize + "&bidSort=0&buyerName=&projectId=&pinMu=0&bidType=0&dbselect=bidx&kw=" + keyword + "&start_time=" + begintime + "&end_time=" + endtime + "&timeType=" + timeType + "&displayZone=&zoneId=&pppStatus=0&agentName=";

                        //开始遍历每一页数据

                        fetchingPageUrl(id, isSize, zzUrl);

                        isSize++;

                    }

                }

            } else {

                logger.info("关键词：" + kw + "没有查询到相关数据-" + new Date());

                isSize = 1;

            }

        } catch (Exception er) {

            logger.error("========================获取数据失败，重新获取中.....=================================");

        }

    }

    //URL汉字转码

    public static String toUtf8String(String s) {

        StringBuffer sb = new StringBuffer();

        for (int i = 0; i < s.length(); i++) {

            char c = s.charAt(i);

            if (c >= 0 && c <= 255) {

                sb.append(c);

            } else {

                byte[] b;

                try {

                    b = String.valueOf(c).getBytes("utf-8");

                } catch (Exception ex) {

                    System.out.println(ex);

                    b = new byte[0];

                }

                for (int j = 0; j < b.length; j++) {

                    int k = b[j];

                    if (k < 0)

                        k += 256;

                    sb.append("%" + Integer.toHexString(k).toUpperCase());

                }

            }

        }

        return sb.toString();

    }

    // 首次访问url ,需查找当前查询词所在的总页数

    public Integer fetchHomePageUrl(String ur) {

        Integer size = null;

        try {

            //maxBodySize : 0  不限制大小， 1： 1m    userAgent: 伪装成浏览器

            Document doc = Jsoup.connect(ur).header("Accept-Encoding", "gzip, deflate")

                    .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31")

                    .maxBodySize(0).timeout(600000).get();

            Elements eli = doc.select(".vT-srch-result-list-con2 .vT-srch-result-list .vt-srch-result-list-bid>li");

            if (eli.size() > 0) {

                //获取分页html

                Elements allElements = doc.select(".vT_z .pager>script");

                if (allElements.size() > 0) {

                    String pager = allElements.get(0).childNodes().toString();

                    String startStr = pager.substring(7, pager.length());

                    String objectStr = startStr.substring(0, startStr.lastIndexOf(")"));

                    //string转json对象

                    JSONObject jsonObject = JSONObject.parseObject(objectStr);

                    //  共有多少页

                    size = Integer.valueOf((Integer) jsonObject.get("size"));

                }

            }

        } catch (IOException e1) {

            e1.printStackTrace();

        }

        return size;

    }

    // 遍历页数

    public void fetchingPageUrl(Integer id, Integer pageSize, String fetchUrl) {

        Integer is_homePage = 1;  // 0 ： 首页  1： 否

        String noticeOutline = null;

        try {

            Document pDoc = Jsoup.connect(fetchUrl).header("Accept-Encoding", "gzip, deflate")

                    .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31")

                    .maxBodySize(0)

                    .timeout(600000).get();

            //根据css样式 获取当前页的所有url

            Elements elements = pDoc.select(".vT_z .vT-srch-result-list-bid>li");

            // Elements hrefs = doc.select("a[href]");

            //遍历当前页的所有url

            for (Element element : elements) {

                //根据Jsoup解析，解析每一页的详细数据，见下一篇博客

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

初识Java爬虫之Jsoup，提供参考代码的更多相关文章

java爬虫中jsoup的使用
jsoup可以用来解析HTML的内容,其功能非常强大,它可以向javascript那样直接从网页中提取有用的信息例如1: 从html字符串中解析数据 //直接从字符串中获取 public stati ...
java爬虫框架jsoup
1.java爬虫框架的api jsoup:https://www.open-open.com/jsoup/
Java爬虫框架Jsoup学习记录
Jsoup的作用当你想获得某网页的内容,可以使用此框架做个爬虫程序,爬某图片网站的图片(先获得图片地址,之后再借助其他工具下载图片)或者是小说网站的小说内容我使用Jsoup写出的一款小说下载器,小 ...
Java爬虫利器HTML解析工具-Jsoup
Jsoup简介 Java爬虫解析HTML文档的工具有:htmlparser, Jsoup.本文将会详细介绍Jsoup的使用方法,10分钟搞定Java爬虫HTML解析. Jsoup可以直接解析某个URL ...
Java爬虫系列三：使用Jsoup解析HTML
在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...
Java阶段性测试--第四五六大题参考代码
第四题:.此题要求用IO流完成使用File类在D盘下创建目录myFiles, 并在myFiles目录下创建三个文件分别为:info1.txt, info2.txt, info3.txt . 代码: ...
初识Java程序，编写简单代码？
Dear All: 初识Java程序,编写简单代码? 首先小编在这里说下我们今天编写Java程序使用的是 eclipse 开发工具! 1.下载eclipse 官网地址:http://www.eclip ...
福利贴——爬取美女图片的Java爬虫小程序代码
自己做的一个Java爬虫小程序废话不多说.先上图. 目录命名是用标签缩写,假设大家看得不顺眼能够等完成下载后手动改一下,比方像有强迫症的我一样... 这是挂了一个晚上下载的总大小,只是还有非常多由于 ...
JAVA爬虫挖取CSDN博客文章
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...

随机推荐

ubuntu set up 7 - power
https://askubuntu.com/questions/1078939/ubuntu-18-04-battery-life http://tipsonubuntu.com/2018/11/18 ...
[CF1303E] Erase Subsequences - dp
Solution 不由分说地枚举分割点令 $f[i][j]$ 表示原串处理到 $i$ ,$s_1$ 处理到 $j$,$s_2$ 最多能处理到哪里采用主动转移任意情况, \(f ...
中文 json_encode之后字符长度问题
问题描述: 将某个字符串$str 进行json编码,即json_encode($str)后变成Unicode字符存入数据库,会发现中文的长度明明没有超过设置的字符长度最大值,但是却抛出字段长度过长错误 ...
转： OSIP协议栈使用入门
转自百度文库很长时间之前,简单粗略地看了下Osip,eXosip,ortp等并快速“封装”了一个Windows下的基于VC6的MFC的SIP软电话(全部源代码VC6工程文件及Lib库可在本Blog共 ...
自主开发编程语言被指Python套壳，中科院开发者道歉
中科院计算所团队“完全自主设计.开发和实现”的“木兰”编程语言是Python语言的套壳产品?针对近日这一网络质疑,1月17日,项目负责人.中科院计算所编译实验室员工刘雷在科学网上发表回应称,木兰语言在 ...
浅谈C#委托的用法-delegate[转]
一.委托的概念委托和类一样是一种用户自定义类型,它存储的就是一系列具有相同签名和返回类型的方法的地址,调用委托的时候,它所包含的所有方法都会被执行. 借用百度上的一句话概括:委托是一个类,它定义了方 ...
vue(一)--监听事件
1.vue-on:监听事件: demo:点击按钮,number+1 v-on 还可以缩写为 @ 2.事件修饰符 .stop:等同于JavaScript中的event.stopPropagation() ...
Python 高维数组“稀疏矩阵”scipy sparse学习笔记
scipy 里面的sparse函数进行的矩阵存储可以节省内存主要是scipy包里面的 sparse 这里目前只用到两个稀疏矩阵的读取 sparse.load() 转稀疏矩阵为普通矩阵 spars ...
markdwon编辑公式入门
上标与下标上标和下标分别使用^ 与_ ,例如$x_i^2$表示的是:. 默认情况下,上.下标符号仅仅对下一个组起作用.一个组即单个字符或者使用{..} 包裹起来的内容.如果使用\(10^ ...
java面试记录二：spring加载流程、springmvc请求流程、spring事务失效、synchronized和volatile、JMM和JVM模型、二分查找的实现、垃圾收集器、控制台顺序打印ABC的三种线程实现
注:部分答案引用网络文章简答题 1.Spring项目启动后的加载流程 (1)使用spring框架的web项目,在tomcat下,是根据web.xml来启动的.web.xml中负责配置启动spring ...

初识Java爬虫之Jsoup，提供参考代码

本文主要分享的是关于Java爬虫技术其中一个方式 ==> Jsoup

1、Jsoup简介

2、代码分享（真实爬取一个政府采购网：中国政府采购网，按照关键词搜索的公告）

初识Java爬虫之Jsoup，提供参考代码的更多相关文章

随机推荐

热门专题