爬虫工程师JD归纳
核心能力归纳
负责:多平台信息的抓取,清洗和分析工作
要求:
- 熟悉常用开源爬虫框架,如 scrapy / pyspider
- 了解基于Cookie的登录原理,熟悉常用的信息抽取技术,如正则表达式、XPath
- 熟悉常见的反爬虫技术,有一定的对抗能力
- 分布式爬虫架构经验*
字节跳动 python爬虫工程师 22-40k
负责:
- 设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作,实时监控爬虫的进度和警报反馈
- 网页信息和APP数据抽取、清洗、消重等工作
要求:
- 有扎实的算法和数据结构能力
- 熟悉爬虫原理,熟悉常见的反爬虫技术
- 掌握http协议,熟悉html、dom、xpath等常见的数据抽取技术
- 有大规模数据处理、数据挖掘、信息提取等经验者优先
小米 数据爬虫工程师 20-40k
负责:
- 负责设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
- 负责网页搜索的页面内容提取,搜索领域下的滤重(simhash/minhash)、聚类、反垃圾、页面分析、标签、分类器(贝叶斯/Bayes/LR/SVM)、数据挖掘等工作,提升平台的抓取效率
- 参与爬虫核心算法和策略优化,熟悉采集系统的调度策略
- 实时监控爬虫的进度和警报反馈
要求:
- 熟悉Linux系统,掌握Python等语言
- 掌握网页抓取原理及技术,了解基于Cookie的登录原理,熟悉基于正则表达式、XPath、CSS等网页信息抽取技术
- 熟悉整个爬虫的设计及实现流程,有大规模网页信息抽取开发经验,熟悉各种反爬虫技术,有分布式爬虫架构经验
- 有链接分析(pagerank、trustrank)、特征提取(页面质量、权威度、topic、线性/非线性回归、LDA)等能力优先
网易 爬虫工程师 12-24k
负责:
- 负责设计和开发通用爬虫系统,提取分析各种千形万态的平台页面内容;
- 研究各种网站、链接的形态,发现它们的特点和规律;
- 解决技术疑难问题,包括反反爬、压力控制等,提升网页抓取的效率和质量;
要求:
- 精通python、计算机网络,熟练使用多线程,熟悉Scrapy等常用爬虫框架;
- 熟悉Linux操作、正则表达式,MySQL、MongoDB等常用数据库,了解各种Web前端技术;
- 能够解决封账号、封IP、验证码识别、图像识别等问题;
扇贝 爬虫工程师 8-16k
负责:
- 开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作
- 负责网页信息和 App 数据抽取、消重等工作
- 配合算法岗完成ETL 相关任务
要求:
- 掌握网页抓取原理及技术,了解基于 Cookie 的登录原理,熟悉基于正则表达式、XPath 等网页信息抽取技术
- 熟悉常用开源爬虫框架,如 scrapy / pyspider
- 扎实的编码能力与算法基础,熟悉 Linux 下的 Python / Shell 开发
高级岗位
千里马-北京 爬虫leader 30-40k
要求:
- 深度参与过至少一个‘分布式网络爬虫系统’的架构设计
- 扎实的数据结构与算法功底,有迭代开发经验
- 精通反爬对抗,Ajex网页抓取,浏览器模拟抓取、多平台抓取等技术
- 熟悉分布式系统,多线程
- 对主流爬虫架构有深入研究,具有成熟爬虫工具的设计及运维经验
爬虫工程师JD归纳的更多相关文章
- 一个Python爬虫工程师学习养成记
大数据的时代,网络爬虫已经成为了获取数据的一个重要手段. 但要学习好爬虫并没有那么简单.首先知识点和方向实在是太多了,它关系到了计算机网络.编程基础.前端开发.后端开发.App 开发与逆向.网络安全. ...
- 高级爬虫工程师(Spider)-美团网-拉勾网-最专业的互联网招聘平台
高级爬虫工程师(Spider)-美团网-拉勾网-最专业的互联网招聘平台 高级爬虫工程师(Spider)
- 专业的“python爬虫工程师”需要学习哪些知识?
学到哪种程度 暂且把目标定位初级爬虫工程师,简单列一下吧: (必要部分) 熟悉多线程编程.网络编程.HTTP协议相关 开发过完整爬虫项目(最好有全站爬虫经验,这个下面会说到) 反爬相关,cookie. ...
- python爬虫工程师各个阶段需要掌握的技能和知识介绍
本文主要介绍,想做一个python爬虫工程师,或者也可以说是,如何从零开始,从初级到高级,一步一步,需要掌握哪些知识和技能. 初级爬虫工程师: Web前端的知识:HTML, CSS, JavaScri ...
- 从零起步 系统入门Python爬虫工程师 ✌✌
从零起步 系统入门Python爬虫工程师 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 大数据时代,python爬虫工程师人才猛增,本课程专为爬虫工程师打造, ...
- Python爬虫工程师必学——App数据抓取实战 ✌✌
Python爬虫工程师必学——App数据抓取实战 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统 ...
- 为什么每一个爬虫工程师都应该学习 Kafka
这篇文章不会涉及到Kafka 的具体操作,而是告诉你 Kafka 是什么,以及它能在爬虫开发中扮演什么重要角色. 一个简单的需求 假设我们需要写一个微博爬虫,老板给的需求如下: 开发爬虫对你来说非常简 ...
- 从零起步 系统入门Python爬虫工程师✍✍✍
从零起步 系统入门Python爬虫工程师 爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 原则上,只要是浏览器(客户端) ...
- Python爬虫工程师必学APP数据抓取实战✍✍✍
Python爬虫工程师必学APP数据抓取实战 整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...
随机推荐
- 【Topcoder 1879】Scheduling
题意:给一个\(dag\),每一个点有一个访问时间. 现在可以同时访问两个点,但当连向这个点的所有点都被访问完成后才可以访问这个点. 问最短访问时间. 思路:一眼贪心.可惜是错的. 第二眼暴搜.就这么 ...
- springBoot集成redisCluster
本文主要内容:springBoot简介,在SpringBoot中如何集成Redis,可配置Redis集群. 关于SpringBoot 你想要的,这里都有:https://spring.io/proje ...
- 迷茫<第二篇:回到老家湖南长沙>
2014年8月初,我买了回老家的火车票,当时没有买到坐票,卧铺贵了买不起,所以我就选择了站票,准备站回老家.我现在还记得我当时买的是T1列火车,北京西站到长沙火车站,全程16个小时.当时我就在火车上站 ...
- git branch --set-upstream 本地关联远程分支
最近使用git pull的时候多次碰见下面的情况: There is no tracking information for the current branch.Please specify whi ...
- 2015年旧闻 CNNIC发布伪造CA证书
谷歌称CNNIC发布伪造CA证书 2015-3-24 15:6:17 | 作者: 月光 | 分类: 业界动态 | 评论: 64 | 浏览: 6755 根据谷歌官方安全博客报道和Mozilla官方博 ...
- AI佳作解读系列(一)——深度学习模型训练痛点及解决方法
1 模型训练基本步骤 进入了AI领域,学习了手写字识别等几个demo后,就会发现深度学习模型训练是十分关键和有挑战性的.选定了网络结构后,深度学习训练过程基本大同小异,一般分为如下几个步骤 定义算法公 ...
- Linux operating system basic knowleadge
1.Linux目录系统结构 It makes sense to explore the Linux filesystem from a terminal window. In fact, that ...
- Python中的 一些常用技巧函数[.join()]
1.str.join(item)字符串操作函数,参数item可以是字符串.元组.字典,示例 ','.join('abc') [','.join('abc')] 输出: 'a,b,c'['a', 'b' ...
- 【C/C++】Dijkstra算法的简洁实现
Dijkstra的实现有很多种,下面给出一种较为简洁和高效的实现,可以作为模板快速使用. 1. 使用邻接表存储图: 2. 使用标准STL的vector存储每个点的所有邻接边: 3. 使用pair记录当 ...
- kubernetes 安装metrics-server
metrics-server文件下载: https://github.com/kubernetes/kubernetes/tree/master/cluster/addons/metrics-serv ...