Java 爬取 51job 数据

一、项目Maven环境配置

相关依赖 jar 包配置

<parent>

    <groupId>org.springframework.boot</groupId>

    <artifactId>spring-boot-starter-parent</artifactId>

    <version>2.0.2.RELEASE</version>

</parent>

<properties>

    <java.version>1.8</java.version>

</properties>

<dependencies>

    <!--SpringMVC-->

    <dependency>

        <groupId>org.springframework.boot</groupId>

        <artifactId>spring-boot-starter-web</artifactId>

    </dependency>

    <!--SpringData Jpa-->

    <dependency>

        <groupId>org.springframework.boot</groupId>

        <artifactId>spring-boot-starter-data-jpa</artifactId>

    </dependency>

    <!--MySQL连接包-->

    <dependency>

        <groupId>mysql</groupId>

        <artifactId>mysql-connector-java</artifactId>

    </dependency>

    <!--WebMagic核心包-->

    <dependency>

        <groupId>us.codecraft</groupId>

        <artifactId>webmagic-core</artifactId>

        <version>0.7.3</version>

        <exclusions>

            <exclusion>

                <groupId>org.slf4j</groupId>

                <artifactId>slf4j-log4j12</artifactId>

            </exclusion>

        </exclusions>

    </dependency>

    <!--WebMagic扩展-->

    <dependency>

        <groupId>us.codecraft</groupId>

        <artifactId>webmagic-extension</artifactId>

        <version>0.7.3</version>

    </dependency>

    <!--WebMagic对布隆过滤器的支持-->

    <dependency>

        <groupId>com.google.guava</groupId>

        <artifactId>guava</artifactId>

        <version>16.0</version>

    </dependency>

    <!--工具包-->

    <dependency>

        <groupId>org.apache.commons</groupId>

        <artifactId>commons-lang3</artifactId>

    </dependency>

</dependencies>

application.properties 配置文件

#DB Configuration:

spring.datasource.driverClassName=com.mysql.jdbc.Driver

spring.datasource.url=jdbc:mysql://127.0.0.1:3306/crawler

spring.datasource.username=root

spring.datasource.password=root

#JPA Configuration:

spring.jpa.database=MySQL

spring.jpa.show-sql=true

二、相关类

pojo 类

@Entity

public class JobInfo {

@Id

@GeneratedValue(strategy = GenerationType.IDENTITY)

private Long id;

private String companyName;

private String companyAddr;

private String companyInfo;

private String jobName;

private String jobAddr;

private String jobInfo;

private Integer salaryMin;

private Integer salaryMax;

private String url;

private String time;

... toString() 、 get/set()方法略    

}

dao 类

public interface JobInfoDao extends JpaRepository<JobInfo,Long> {}

Service 类

public interface JobInfoService {

    /**

     * 保存工作信息

     *

     * @param jobInfo

     */

    public void save(JobInfo jobInfo);

    /**

     * 根据条件查询工作信息

     *

     * @param jobInfo

     * @return

     */

    public List<JobInfo> findJobInfo(JobInfo jobInfo);

}

ServiceImpl 类

@Service

public class JobInfoServiceImpl implements JobInfoService {

    @Autowired

    private JobInfoDao jobInfoDao;

    //  查询原有的数据

    //  判断数据库是否有已存在的数据

    //  如果存在，就执行更新

    //  不存在，就执行新增

    @Override

    @Transactional

    public void save(JobInfo jobInfo) {

        //  根据查询结果是否为空

        JobInfo param = new JobInfo();

        param.setUrl(jobInfo.getUrl());

        param.setTime(jobInfo.getTime());

        //  执行查询

        List<JobInfo> list = this.findJobInfo(param);

        //  判断查询结果是否为空

        if (list.size()==0){

            //  如果查询结果为空，表示招聘信息数据不存在，或者已经更新了，需要新增或更新数据库

            this.jobInfoDao.saveAndFlush(jobInfo);  //  新增或更新方法

        }

    }

    @Override

    public List<JobInfo> findJobInfo(JobInfo jobInfo) {

        //  设置查询条件

        Example example = Example.of(jobInfo);

        //  执行查询

        List list = this.jobInfoDao.findAll(example);

        return list;

    }

}

功能实现类 Task

@Component

public class JobProcessor implements PageProcessor {

    private String url = "https://search.51job.com/list/000000,000000,0000,32%252C01,9,99,java,2,1.html?lang=c&stype=&postchannel=0000" +

            "&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0" +

            "&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=";

    @Override

    public void process(Page page) {

        //  解析页面，获取招聘信息详情的url地址

        List<Selectable> list = page.getHtml().css("div#resultList div.el").nodes();

        //  判断获取到的集合是否为空

        if (list.size()==0){

            //  如果为空，表示这是招聘详情页,解析页面，获取招聘详情信息，保存数据

            this.saveJobInfo(page);

        }else {

            //  如果不为空，表示这是列表页，解析出详情页的url地址，放到任务队列中

            for (Selectable selectable : list) {

                //  获取到url地址

                String JobInfoUrl = selectable.links().toString();

                //  把获取到url地址放到任务队列中

                page.addTargetRequest(JobInfoUrl);

            }

            //  获取下一列功能的url

            String nextUrl = page.getHtml().css("div.p_in li.bk").nodes().get(1).links().toString();

            //  把url放到任务队列中

            page.addTargetRequest(nextUrl);

        }

    }

		/**

     * 解析页面，获取招聘详情信息，保存数据

     * @param page

     */

    private void saveJobInfo(Page page) {

		//  创建招聘详情对象

        JobInfo jobInfo = new JobInfo();

        //  解析页面

        Html html = page.getHtml();

		//  获取数据，封装到对象中

    	//  公司名字

        jobInfo.setCompanyName(html.css("div.cn p.cname a", "text").toString());

		//  公司地址

        String cAddr = Jsoup.parse(html.css("div.cn p.ltype", "text").toString()).text().replace("-","");

        cAddr = cAddr.substring(0,6);

        jobInfo.setCompanyAddr(cAddr);

		//  公司信息

        jobInfo.setCompanyInfo(Jsoup.parse(html.css("div.tmsg", "text").toString()).text());

		//  工作名字

        jobInfo.setJobName(html.css("div.cn h1", "text").toString());

		//  工作地址

        String jAddr = Jsoup.parse(html.css("div.bmsg").nodes().get(1).toString()).text();

        //	部分公司暂没有填写公司详细地址，得非空判断

        if (StringUtils.isBlank(jAddr)){

            jobInfo.setJobAddr(jobInfo.getCompanyAddr());

        }else {

            jAddr = jAddr.replace("地图","");

            jobInfo.setJobAddr(jAddr);

        }

		//  工作信息

        jobInfo.setJobInfo(Jsoup.parse(html.css("div.job_msg").toString()).text());

		//  个人薪水

        Integer[] salary = MathSalarys.getSalary(html.css("div.cn strong", "text").toString());

        jobInfo.setSalaryMin(salary[0]);

        jobInfo.setSalaryMax(salary[1]);

		//  发布时间

        String time = Jsoup.parse(html.css("div.cn p.msg", "text").toString()).text();

        int length = time.lastIndexOf("发布");

        jobInfo.setTime(time.substring(length-5,length));

		//  url地址

        jobInfo.setUrl(page.getUrl().toString());

		//  把结果保存起来，等待 ResultItem获取 获取

        page.putField("jobInfo",jobInfo);

    }

    private Site site = Site.me()

            .setCharset("gbk")      //  设置字符集

            .setTimeOut(10*1000)     // 设置超时时间

            .setRetrySleepTime(3000) // 设置重试时间的间隔

            .setRetryTimes(3);  // 设置重试次数

    @Override

    public Site getSite() {

        return site;

    }

    @Autowired

    private SpringDataPipeline pipeline;

    //  initialDelay：当任务启动后，等等多久执行方法

    //  fixedDelay：每隔多久执行方法

    @Scheduled(initialDelay = 1000,fixedDelay = 10000)

    public void process(){

        Spider.create(new JobProcessor())

                .addUrl(url)

                .setScheduler(new QueueScheduler().setDuplicateRemover(new BloomFilterDuplicateRemover(100000)))

                .thread(10)

                .addPipeline(pipeline)

                .run();

    }

}

这里面用到了一个统计工资的工具类 MathSalary

public class MathSalary {

    /**

     * 获取薪水范围

     *

     * @param salaryStr

     * @return

     */

    public static Integer[] getSalary(String salaryStr) {

        //声明存放薪水范围的数组

        Integer[] salary = new Integer[2];

        //"500/天"

        //0.8-1.2万/月

        //5-8千/月

        //5-6万/年

        String date = salaryStr.substring(salaryStr.length() - 1, salaryStr.length());

        //如果是按天，则直接乘以240进行计算

        if (!"月".equals(date) && !"年".equals(date)) {

            salaryStr = salaryStr.substring(0, salaryStr.length() - 2);

            salary[0] = salary[1] = str2Num(salaryStr, 240);

            return salary;

        }

        String unit = salaryStr.substring(salaryStr.length() - 3, salaryStr.length() - 2);

        String[] salarys = salaryStr.substring(0, salaryStr.length() - 3).split("-");

        salary[0] = mathSalary(date, unit, salarys[0]);

        salary[1] = mathSalary(date, unit, salarys[1]);

        return salary;

    }

    //根据条件计算薪水

    private static Integer mathSalary(String date, String unit, String salaryStr) {

        Integer salary = 0;

        //判断单位是否是万

        if ("万".equals(unit)) {

            //如果是万，薪水乘以10000

            salary = str2Num(salaryStr, 10000);

        } else {

            //否则乘以1000

            salary = str2Num(salaryStr, 1000);

        }

        //判断时间是否是月

        if ("月".equals(date)) {

            //如果是月，薪水乘以12

            salary = str2Num(salary.toString(), 12);

        }

        return salary;

    }

    private static int str2Num(String salaryStr, int num) {

        try {

            // 把字符串转为小数，必须用Number接受，否则会有精度丢失的问题

            Number result = Float.parseFloat(salaryStr) * num;

            return result.intValue();

        } catch (Exception e) {

        }

        return 0;

    }

}

导出数据到数据库相关类 Pipeline

@Component

public class SpringDataPipeline implements Pipeline {

    @Autowired

    private JobInfoService jobInfoService;

    @Override

    public void process(ResultItems resultItems, Task task) {

        //  获取我们封装好的招聘详情对象

        JobInfo jobInfo = resultItems.get("jobInfo");

        //  判断我们的数据是否不为空

        if (jobInfo != null){

            //   不为空就保存到数据库中

            this.jobInfoService.save(jobInfo);

        }

    }

}

引导类 Application

@SpringBootApplication

@EnableScheduling// 开启定时任务

public class Application {

    public static void main(String[] args) {

        SpringApplication.run(Application.class,args);

    }

}

结果展示：

整理了以下，可能会出现以下问题，可自行修改

//  String index out of range: -1: 存在部分字符串越界问题，应该是截取那里除了问题

//  Data too long for column 'job_addr' at row 1: 数据库的字符集出错，将数据库数据类型换成了longtext  长度不用设置

//  failed: connect timed out: 有可能是网络问题，网络不畅通会有超时的现象

//  could not execute statement: 数据库中有字段不允许为空，而我们提交的数据中却没有提交该字段的值，就会造成这个异常。

Java 爬取 51job 数据 WebMagic实现的更多相关文章

Java爬取51job保存到MySQL并进行分析
大二下实训课结业作业,想着就爬个工作信息,原本是要用python的,后面想想就用java试试看, java就自学了一个月左右,想要锻炼一下自己面向对象的思想等等的, 然后网上转了一圈,拉钩什么的是动态 ...
Java爬取同花顺股票数据（附源码）
最近有小伙伴问我能不能抓取同花顺的数据,最近股票行情还不错,想把数据抓下来自己分析分析.我大A股,大家都知道的,一个概念火了,相应的股票就都大涨. 如果能及时获取股票涨跌信息,那就能在刚开始火起来的时 ...
python之爬取网页数据总结（一）
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
Java爬取校内论坛新帖
Java爬取校内论坛新帖为了保持消息灵通,博主没事会上上校内论坛看看新帖,作为爬虫爱好者,博主萌生了写个爬虫自动下载的想法. 嗯,这次就选Java. 第三方库准备 Jsoup Jsoup是一款比较好 ...
Python的scrapy之爬取51job网站的职位
今天老师讲解了Python中的爬虫框架--scrapy,然后带领我们做了一个小爬虫--爬取51job网的职位信息,并且保存到数据库中用的是Python3.6 pycharm编辑器爬虫主体: im ...
Node.js爬取豆瓣数据
一直自以为自己vue还可以,一直自以为webpack还可以,今天在慕课逛node的时候,才发现,自己还差的很远.众所周知,vue-cli基于webpack,而webpack基于node,对node不了 ...
MinerHtmlThread.java 爬取页面线程
MinerHtmlThread.java 爬取页面线程 package com.iteye.injavawetrust.miner; import org.apache.commons.logging ...

随机推荐

redis BLPOP命令阻塞，非阻塞（读了好久才懂）
来源于:http://redisdoc.com/list/blpop.html#id1BLPOP key [key -] timeout 可用版本: >= 2.0.0 时间复杂度: O(1) B ...
理解ASP.NET Core - [02] Middleware
注:本文隶属于<理解ASP.NET Core>系列文章,请查看置顶博客或点击此处查看全文目录中间件先借用微软官方文档的一张图: 可以看到,中间件实际上是一种配置在HTTP请求管道中,用 ...
Nginx版本平滑升级方案
背景:由于负载均衡测试服务器中nginx版本过低,存在安全漏洞,查询相关修复漏洞资料,需要采取nginx版本升级形式对漏洞进行修复. Nginx平滑升级方案 1.案例采用版本介绍旧版本 nginx- ...
[考试总结]noip模拟40
最近真的是爆炸啊... 到现在还是有不少没改出来.... 所以先写一下 \(T1\) 的题解.... 送花我们移动右端点,之后我们用线段树维护全局最大值. 之后还要记录上次的位置和上上次的位置. 之 ...
Junit5快速入门指南-3
Fixtures 是测试中非常重要的一部分.他们的主要目的是建立一个固定/已知的环境状态以确保测试可重复并且按照预期的方式运行.比如在app测试中基类@BeforeClass 配置初始化,初始化d ...
一篇文章搞懂Nginx
Nginx 的产生 Nginx 同 Apache 一样都是一种 Web 服务器.基于 REST 架构风格,以统一资源描述符(Uniform Resources Identifier)URI 或者统一资 ...
从零开始学习SQL SERVER（1）--- 了解SQL
SQL是什么 SQL (发音为 sequal [' sikwəl ' ]) SQL指 Structured Query Language 结构化查询语言,是用于访问和处理数据库的标准的计算机语言. ...
clickonce的密钥到期问题处理
最近clickonce的密钥到期了,在网上找了些文章用来修改密钥的到期时间,已成功生成新密钥,好不好使暂时未测. 在此小结一下,以备参考: 1.在原密钥所属电脑上cmd执行如下命令 renewcert ...
FastAPI（4）- get 请求 - 路径参数 Path Parameters
什么是路径假设一个 url 是: http://127.0.0.1:8080/items/abcd 那么路径 path 就是 /items/abcd 路径参数就是将路径上的某一部分变成参数,可通过 ...
Django学习day11随堂笔记
今日考题 """ 今日考题 1.简述自定义分页器的使用 2.forms组件是干什么用的,它的主要功能有哪些功能,你能否具体说说每个功能下都有哪些经常用到的方法及注意事项( ...

Java 爬取 51job 数据 WebMagic实现

Java 爬取 51job 数据

一、项目Maven环境配置

二、相关类

Java 爬取 51job 数据 WebMagic实现的更多相关文章

随机推荐

热门专题