爬虫工程师JD归纳

核心能力归纳

负责：多平台信息的抓取，清洗和分析工作

要求：

熟悉常用开源爬虫框架，如 scrapy / pyspider 
了解基于Cookie的登录原理，熟悉常用的信息抽取技术，如正则表达式、XPath
熟悉常见的反爬虫技术，有一定的对抗能力
分布式爬虫架构经验*

字节跳动 python爬虫工程师 22-40k

负责：

设计和开发分布式网络爬虫系统，进行多平台信息的抓取和分析工作，实时监控爬虫的进度和警报反馈
网页信息和APP数据抽取、清洗、消重等工作

要求：

有扎实的算法和数据结构能力
熟悉爬虫原理，熟悉常见的反爬虫技术
掌握http协议，熟悉html、dom、xpath等常见的数据抽取技术
有大规模数据处理、数据挖掘、信息提取等经验者优先

小米数据爬虫工程师 20-40k

负责：

负责设计和开发分布式网络爬虫系统，进行多平台信息的抓取和分析工作
负责网页搜索的页面内容提取，搜索领域下的滤重（simhash/minhash）、聚类、反垃圾、页面分析、标签、分类器（贝叶斯/Bayes/LR/SVM）、数据挖掘等工作，提升平台的抓取效率
参与爬虫核心算法和策略优化，熟悉采集系统的调度策略
实时监控爬虫的进度和警报反馈

要求：

熟悉Linux系统，掌握Python等语言
掌握网页抓取原理及技术，了解基于Cookie的登录原理，熟悉基于正则表达式、XPath、CSS等网页信息抽取技术
熟悉整个爬虫的设计及实现流程，有大规模网页信息抽取开发经验，熟悉各种反爬虫技术，有分布式爬虫架构经验
有链接分析（pagerank、trustrank）、特征提取（页面质量、权威度、topic、线性/非线性回归、LDA）等能力优先

网易爬虫工程师 12-24k

负责：

负责设计和开发通用爬虫系统，提取分析各种千形万态的平台页面内容；
研究各种网站、链接的形态，发现它们的特点和规律；
解决技术疑难问题，包括反反爬、压力控制等，提升网页抓取的效率和质量；

要求：

精通python、计算机网络，熟练使用多线程，熟悉Scrapy等常用爬虫框架；
熟悉Linux操作、正则表达式，MySQL、MongoDB等常用数据库，了解各种Web前端技术；
能够解决封账号、封IP、验证码识别、图像识别等问题；

扇贝爬虫工程师 8-16k

负责：

开发分布式网络爬虫系统，进行多平台信息的抓取和分析工作 
负责网页信息和 App 数据抽取、消重等工作 
配合算法岗完成ETL 相关任务

要求：

掌握网页抓取原理及技术，了解基于 Cookie 的登录原理，熟悉基于正则表达式、XPath 等网页信息抽取技术 
熟悉常用开源爬虫框架，如 scrapy / pyspider 
扎实的编码能力与算法基础，熟悉 Linux 下的 Python / Shell 开发

高级岗位

千里马-北京爬虫leader 30-40k

要求：

深度参与过至少一个‘分布式网络爬虫系统’的架构设计
扎实的数据结构与算法功底，有迭代开发经验
精通反爬对抗，Ajex网页抓取，浏览器模拟抓取、多平台抓取等技术
熟悉分布式系统，多线程
对主流爬虫架构有深入研究，具有成熟爬虫工具的设计及运维经验

爬虫工程师JD归纳的更多相关文章

一个Python爬虫工程师学习养成记
大数据的时代,网络爬虫已经成为了获取数据的一个重要手段. 但要学习好爬虫并没有那么简单.首先知识点和方向实在是太多了,它关系到了计算机网络.编程基础.前端开发.后端开发.App 开发与逆向.网络安全. ...
高级爬虫工程师（Spider）-美团网-拉勾网-最专业的互联网招聘平台
高级爬虫工程师(Spider)-美团网-拉勾网-最专业的互联网招聘平台高级爬虫工程师(Spider)
专业的“python爬虫工程师”需要学习哪些知识？
学到哪种程度暂且把目标定位初级爬虫工程师,简单列一下吧: (必要部分) 熟悉多线程编程.网络编程.HTTP协议相关开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到) 反爬相关,cookie. ...
python爬虫工程师各个阶段需要掌握的技能和知识介绍
本文主要介绍,想做一个python爬虫工程师,或者也可以说是,如何从零开始,从初级到高级,一步一步,需要掌握哪些知识和技能. 初级爬虫工程师: Web前端的知识:HTML, CSS, JavaScri ...
从零起步系统入门Python爬虫工程师 ✌✌
从零起步系统入门Python爬虫工程师 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 大数据时代,python爬虫工程师人才猛增,本课程专为爬虫工程师打造, ...
Python爬虫工程师必学——App数据抓取实战 ✌✌
Python爬虫工程师必学——App数据抓取实战 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统 ...
为什么每一个爬虫工程师都应该学习 Kafka
这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色. 一个简单的需求假设我们需要写一个微博爬虫,老板给的需求如下: 开发爬虫对你来说非常简 ...
从零起步系统入门Python爬虫工程师✍✍✍
从零起步系统入门Python爬虫工程师爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 原则上,只要是浏览器(客户端) ...
Python爬虫工程师必学APP数据抓取实战✍✍✍
Python爬虫工程师必学APP数据抓取实战整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...

随机推荐

SpringBoot打包成war
关于SpringBoot打成jar包以及jar包如何在Linux持久运行,我在前面已经说过了,所以本次不再赘述. 关于SpringBoot打包成war,其实步骤特别简单,如下图所示(如果是jar,通常 ...
python第九章：面向对象--小白博客
面向对象介绍一.面向对象和面向过程面向过程:核心过程二字,过程即解决问题的步骤,就是先干什么后干什么基于该思想写程序就好比在这是一条流水线,是一种机械式的思维方式优点:复杂的过程流程化缺点 ...
ES7
本文是自己所学的ES7的一些常用的新特性: 一.padStart()方法,padEnd()方法: 如果某个字符串不够指定长度,有两个方法可以在头部或尾部补全.padStart()用于头部补全,padE ...
P1196 [NOI2002]银河英雄传说(带权并查集)
这个题的题目背景很是宏大,什么宇宙战舰的都出来了.但细细一看,我们就会发现,这是带权并查集的题目,首先我们还是像之前在并查集中的操作一样,但在这里我们还是应该开数组来维护所要加的权值,两个战舰是否在同 ...
linux的挂载含义
Linux下,mount挂载的作用,就是将一个设备(通常是存储设备)挂接到一个已存在的目录上.访问这个目录就是访问该存储设备.linux操作系统将所有的设备都看作文件,它将整个计算机的资源都整合成一个 ...
数据交换格式与SpringIOC底层实现
1.数据交换格式 1.1 有哪些数据交换格式客户端与服务器常用数据交换格式xml.json.html 1.2 数据交换格式应用场景 1.2.1 移动端(安卓.iOS)通讯方式采用http协议+JSO ...
STS启动springboot项目，加载不了resources下的配置文件的问题
从这篇博客的评论中找到了解决方案答案: eclipse的设置中,它默认是不包括resources下的文件的,把它改了就行了原本用idea没这些事的,不过idea旗舰版到期了,社区版的话,对前端又没 ...
三、调试IIS启动域名配置
一.IIS配置启动VS以及域名 1.hosts配置 2.配置注意: 1.Web和Api 端口在IIS都设置80即可,都可以同时运行不冲突,与vs的IIS express启动方式不同vs会指定不同的两 ...
【Spring】Spring bean的实例化
Spring实现HelloWord 前提: 1.已经在工程中定义了Spring配置文件beans.xml 2.写好了一个测试类HelloWorld,里面有方法getMessage()用于输出" ...
【CF1151E】Number of Components
[CF1151E]Number of Components 题面 CF 题解联通块个数=点数-边数. 然后把边全部挂在较小的权值上. 考虑从小往大枚举左端点,等价于每次删掉一个元素,那么删去点数,加 ...

爬虫工程师JD归纳

核心能力归纳

字节跳动 python爬虫工程师 22-40k

小米 数据爬虫工程师 20-40k

网易 爬虫工程师 12-24k

扇贝 爬虫工程师 8-16k

高级岗位

千里马-北京 爬虫leader 30-40k

爬虫工程师JD归纳的更多相关文章

随机推荐

热门专题

小米数据爬虫工程师 20-40k

网易爬虫工程师 12-24k

扇贝爬虫工程师 8-16k

千里马-北京爬虫leader 30-40k