两年前，朋友想知道 Boss 直聘上关于自动驾驶的岗位有哪些，于是，笔者写了一个简单的爬虫 crawler-boss ，将岗位的信息收集起来。

这篇文章，笔者想分享爬虫 crawler-boss 的设计思路。

1 基本原理 Selenium + chromedriver

对于很多动态渲染的网页而言，想要抓取它的数据，就需要对网页的 JS 代码以及 Ajax 接口等进行分析。

而当 JS 代码混乱，难以分析，Ajax 的接口又含有很多加密参数的时候，就非常难以直接找出规律，那么上述过程会花费大量的时间和精力。

上图中， Boss 直聘接口参数比较多，笔者并不想花太多时间研究这些参数，于是笔者选择了另一种方案： Selenium + chromedriver 。

Selenium 是 web 浏览器自动化测试的工具，它可以模拟用户与所有主流浏览器之间的交互，比如点击，输入，抓取，拖拽等等。

但是 Selenium 与网络爬虫又有千丝万缕的关系，由于现在的网页大多采用是JavaScript动态渲染，使得爬虫返回的结果可能与用户实际看到的网页并不一致。我们看到的网页可能是经过Ajax加载，或者是JavaScript以及其他算法计算后生成的。

因此，我们可以使用 Selenium 直接模拟浏览器运行，我们肉眼看到的是什么样，能够抓取的数据就是什么样。

2 安装 chromedriver

WebDriver 是 Selenium 的核心组件，负责控制浏览器进行各种操作。WebDriver 可以通过不同的驱动程序与不同的浏览器进行通信，比如 ChromeDriver、FirefoxDriver 等。

1、查看当前Google浏览器版本

打开Google浏览器，网址栏输入：chrome://settings/help

2、下载对应版本的chromedriver

对照你的版本下载，当你使用的是 Chrome 版本 115 或更高版本，就点最上面的链接：

https://chromedriver.chromium.org/downloads/

找到你对应的版本，我这里是122.0.6261.129

下载完成之后，将文件解压后，拷贝到 /usr/local/bin/ 目录。

安装完 chromedriver 后，Java 应用中添加如下依赖：

<dependency>

    <groupId>org.seleniumhq.selenium</groupId>

    <artifactId>selenium-server</artifactId>

    <version>3.141.59</version>

</dependency>

然后通过如下代码，测试环境是否 OK 。

public static void main(String[] args) {

      WebDriver webDriver = new ChromeDriver();

      webDriver.get("https://juejin.cn");

}

点击运行，如果打开了掘金网页说明环境配置成功。

3 流程分析

1、进入搜索页面 , 搜索框中输入‘自动驾驶’

2、搜索结果若出现登录浮窗，则关闭，将页面中职位列表通过 class 截取出来，保存到数据库

3、点击下一页

4 写到最后

当我们将 Selenium 作为爬虫工具时，尽管它有很多优点，但也存在明显的缺点。

Selenium 模拟浏览器动作，除了加载需要的数据外，还会加载图片、JS、CSS等不必要的内容，导致网络资源和计算资源消耗增加，爬取速度变慢，爬取规模受限。

因此，长期大规模使用 Selenium 作为生产工具不是一个明智的选择。

然而，如果只是想在个人电脑上快速抓取少量数据，Selenium 确实是一个非常方便的工具。

最后， crawler-boss 的源码实现非常简单，假如同学们感兴趣，可以关注公众号，回复「爬虫」即可获取。

参考文档：

https://zhuanlan.zhihu.com/p/137710454

https://juejin.cn/post/7284318118993068051

如果我的文章对你有所帮助，还请帮忙点赞、在看、转发一下，你的支持会激励我输出更高质量的文章，非常感谢！

写了个简单爬虫，分析 Boss 直聘自动驾驶岗位的更多相关文章

用BeautifulSoup简单爬取BOSS直聘网岗位
用BeautifulSoup简单爬取BOSS直聘网岗位爬取python招聘 import requests from bs4 import BeautifulSoup def fun(path): ...
python分析BOSS直聘的某个招聘岗位数据
前言毕业找工作,在职人员换工作,离职人员找工作……不管什么人群,应聘求职,都需要先分析对应的招聘岗位,岗位需求是否和自己匹配,常见的招聘平台有:BOSS直聘.拉钩招聘.智联招聘等,我们通常的方法都是 ...
Scrapy 爬取BOSS直聘关于Python招聘岗位
年前的时候想看下招聘Python的岗位有多少,当时考虑目前比较流行的招聘网站就属于boss直聘,所以使用Scrapy来爬取下boss直聘的Python岗位. 1.首先我们创建一个Scrapy 工程 s ...
Python爬虫——Scrapy整合Selenium案例分析（BOSS直聘）
概述本文主要介绍scrapy架构图.组建.工作流程,以及结合selenium boss直聘爬虫案例分析架构图组件 Scrapy 引擎(Engine) 引擎负责控制数据流在系统中所有组件中流动,并 ...
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗零.致谢感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅. 由于爬虫持续爬取 www.zhipin.com 网 ...
scrapy——7 scrapy-redis分布式爬虫，用药助手实战，Boss直聘实战，阿布云代理设置
scrapy——7 什么是scrapy-redis 怎么安装scrapy-redis scrapy-redis常用配置文件 scrapy-redis键名介绍实战-利用scrapy-redis分布式爬 ...
基于‘BOSS直聘的招聘信息’分析企业到底需要什么样的PHP程序员
原文地址:http://www.jtahstu.com/blog/scrapy_zhipin_php.html 基于'BOSS直聘的招聘信息'分析企业到底需要什么样的PHP程序员标签(空格分隔): ...
爬虫系列---scrapy post请求、框架组件和下载中间件+boss直聘爬取
一 Post 请求在爬虫文件中重写父类的start_requests(self)方法父类方法源码(Request): def start_requests(self): for url in se ...
iOS开发之功能模块--高仿Boss直聘的常用语的开发
首先上Boss直聘的功能界面截图,至于交互请读者现在Boss直聘去交互体验: 本人的公司项目要高仿Boss直聘的IM常用语的交互功能,居然花费了我前后17个小时完成,这回自己测试了很多遍,代码 ...
打造IP代理池，Python爬取Boss直聘，帮你获取全国各类职业薪酬榜
爬虫面临的问题不再是单纯的数据一把抓多数的网站还是请求来了,一把将所有数据塞进去返回,但现在更多的网站使用数据的异步加载,爬虫不再像之前那么方便很多人说js异步加载与数据解析,爬虫可以做到啊,恩 ...

随机推荐

零基础入门Vue之皇帝的新衣——样式绑定
回顾大致掌握了上一节的插值语法我已经可以把想要的数据显示到页面上,并且仅需要修改变量,页面就会跟着实时改变但如果对于已经熟悉前端的人来说,单单有数据还是不太行,还需要css对数据进行样式的修饰 ...
.NET 云原生架构师训练营（模块二基础巩固 HTTP管道与中间件）--学习笔记
2.3.2 Web API -- HTTP管道与中间件管道中间件 ASP.NET Core 中间件:https://docs.microsoft.com/zh-cn/aspnet/core/fun ...
Hadoop-Operation category READ is not supported in state standby 故障解决
在查询hdfs时或者执行程序向hdfs写入数据时遇到报错:Operation category READ is not supported in state standby 意思是:该主机状态为待机, ...
UUID算法：独一无二的标识符解决方案
引言在分布式系统和大数据环境下,唯一标识符的生成和管理是一项关键任务.UUID(Universally Unique Identifier)算法应运而生,成为了解决重复数据和标识符冲突的有效工具.本 ...
JS Leetcode 33. 搜索旋转排序数组题解，图解旋转数组中的二分法
壹 ❀ 引本来今天(2021.4.7)的每日一题是81. 搜索旋转排序数组 II,但今天工作很忙,下班人基本累个半死,题目别说按照二分法的思路做不出来,连题解看了会都没法沉下心去看,不过得到的信息是 ...
Windows也能拥有好用的命令行吗？Powershell+Terminal折腾记录（v1.0版本）
PS:本文写于2021年,现在已经是2024年,有了很多新变化,我在接下来的文章里会继续更新. 前言 Windows一向以图形化操作入门容易著称,所以对于命令行的支持一直为人所诟病,比起Linux或者 ...
【Unity3D】选中物体描边特效
1 前言描边的难点在于如何检测和识别边缘,当前实现描边特效的方法主要有以下几种: 1)基于顶点膨胀的描边方法在 SubShader 中开 2 个 Pass 渲染通道,第一个 Pass ...
SpringBoot使用git-commit-id-maven-plugin打包
简介 git-commit-id-maven-plugin 是一个maven 插件,用来在打包的时候将git-commit 信息打进jar中. 这样做的好处是可以将发布的某版本和对应的代码关联起来,方 ...
Vue+SpringBoot+ElementUI实战学生管理系统-6.院系管理模块
1.章节介绍前一篇介绍了用户管理模块,这一篇编写院系管理模块,需要的朋友可以拿去自己定制.:) 2.获取源码源码是捐赠方式获取,详细请QQ联系我 :)! 3.实现效果院系列表修改院系 4.模块 ...
Java Enumeration接口详解
二话不说,来看官方文档: public interface Enumeration<E> An object that implements the Enumeration interfa ...