【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线!

我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。
案情介绍
2018年10月,北京市公安局海淀分局警务支援大队接到辖区某互联网公司报案称,发现有人在互联网上兜售疑似为该公司的用户信息。根据这条线索,警方迅速开展调查,巧达科技(北京)有限公司非法窃取信息的犯罪事实逐渐浮出水面。2019年3月,巧达科技被查封,涉案员工被警方依法刑事拘留。目前还没有从公开数据中查到此案件的判决文书。
警方查明,与正规招聘网站的简历由用户自己上传不同,巧达科技的简历数据库全部是通过非法手段爬取而来。“嫌疑人通过利用大量代理IP地址、伪造设备标识等技术手段,绕过招聘网站服务器防护策略,窃取存放在服务器上的用户数据。”网安总队办案民警李文涛说,从不同网站窃取来的信息被重新合并、排列,重名或是信息不全的信息经过“再比对”后形成完整的简历和用户画像。
针对爬虫获取简历的手段,一位巧达科技前员工告诉燃财经,巧达在智联、猎聘等网站上,建立了上千个企业账户,每天访问智联、猎聘的网站次数百万次,都是机器在模拟人工操作。这位员工称,他去年离开巧达之前,巧达依然在用爬虫手段获取简历。
据悉,巧达科技非法获取的简历超过2亿条。基于这些数据,公司开发了“72招浏览器”,将其简历数据库以13800元每年的价格卖给有需求的企业客户,客户就可以在浏览器上直接调取简历信息。
办案民警介绍,在巧达科技窃取数据过程中,还因传输数据量过大导致报案公司服务器数十次中断服务,影响上千万用户正常访问,带来严重的经济损失。
据网络上暴露的一份巧达数据给客户的商务合作BP(商业计划书)。这份文件宣称:巧达科技旗下有38个B端招聘产品、超过170万招聘者用户,巧达科技数据库有2.2亿自然人的简历、简历累计总数37亿份。此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。也就是说,超过57%的中国人的信息都在巧达科技的数据库里面。

根据文件介绍,巧达科技将这些数据用在教培、保险、招聘等行业,某大型地产公司、某职业教育培训机构、某分类信息网站和几家招聘网站在这份文件里被列为典型案例。数据生意为巧达科技带来了大量收入。2016年,巧达科技全年收入1.2亿元,净利润4800万元;2017年,巧达科技全年收入4.11亿元,净利润1.86亿元,净利润率超过45%。
此外,这份商业计划书中单独有5页来讲述业务合规性,其中展示了数据的获取来源于3个途径,巧达科技自称都是合法取得:
1,自有招聘网站:求职者用户直接授权,包括简历中敏感数据和非敏感数据;
2,招聘工具产品:HR/猎头用户授权,包括简历中敏感数据和非敏感数据;
3,第三方数据源:合作方授权,包括用户ID组合,通讯录,行为标签和偏好画像。
获得数据后,巧达科技将简历中敏感数据、用户ID组合、通讯录进行MD5脱敏,以及简历中非敏感数据、行为标签、偏好画像,一并放入数据库中。数据通过建模计算,结合用户的认知引擎,最后提供给客户。

巧达科技提供的多项服务都指向用户个人,不论是通过自有渠道还是第三方渠道,没有经过用户同意和违反用户意愿的数据交易,都属于擅自利用用户信息并可能侵犯隐私。

反思总结
我们知道招聘网站,普通用户是无法查看他人简历的,所以巧达科技建立了上千个企业账户,通过企业账户能看到投递人或网站上全量求职者的完整简历,这很正常,也完全合法,重点在于巧达科技通过爬虫技术使用几千个企业账户大批量检索并获取招聘网站上的简历数据,并未经求职者本人同意,将原始数据及其多项未经授权的关联数据合并加工后对第三方开放交易且获取巨额利润。
此业务的合法前提:一是,要有求职者本人的授权,即便巧达科技是通过自有招聘入口合法获取求职者的简历,使用用户信息也必须限于求职者投递简历的目的范围之内。超过为求职者直接推荐工作机会之外的行为都是违反用户意愿,属于擅自利用用户信息并侵犯用户隐私。
二是,巧达科技是从第三方获取求职者的简历数据,第三方既要合法获得求职者的简历,同时需要取得求职者对公开和转售简历的许可,这两个条件缺乏其一都会导致其获取、购买和再利用求职者简历数据的行为不具有合法性。
我们还注意到,在巧达科技获取数据过程中,还因爬取的数据量过大导致报案公司的服务器数十次中断服务,影响上千万用户正常访问,带来严重的经济损失,这和K哥前期的案例《【k哥爬虫普法】程序员183并发爬取官方网站,直接获刑3年?》中介绍的一样,里面的反思总结同样适用于本案例。
个人用户的隐私数据碰不得,这句话已经说了千百遍了,更何况求职者简历中包含了大量的个人和曾任职企业的隐私和商业信息。了解规则,敬畏法律,利用爬虫技术获取信息,应该严格遵守相关法律、行政法规、部门规章的规定,否则极易落入“非法获取”公民个人信息的法律风险范畴。
还值得一提的是,类似智联、猎聘、boss直聘等涉及到求职者个人隐私信息的平台,应当重视对客户信息的保护工作,boss直聘前段时间因某些原因还被审查过。对于求职者个人用户信息的下载、获取,应当设置严格的权限,对于企业客户的注册应当严格审查,对于后台大量获取简历的行为应当做好严格监控和反制,官方理应及时介入处理。巧达科技之所以能够在这些平台建立上千个企业账户肆无忌惮的大批量检索、爬取、下载简历,无疑和平台的监管机制缺漏脱不了关系。

【k哥爬虫普法】简历大数据公司被查封,个人隐私是红线!的更多相关文章
- 中国大数据企业排行榜V6.0- 5 年后再去看看中几个大数据公司的发展状况
2019年5月27日,首席数据官联盟在贵阳举办的2019中国国际大数据产业博览会上正式发布了<中国大数据企业排行榜V6.0> 本次排行榜新增8个垂直行业和领域.上榜企业是从全国五千多家 ...
- 从Hadoop Summit 2016看大数据行业与Hadoop的发展
前言: 好吧我承认已经有四年多没有更新博客了.... 在这四年中发生了很多事情,换了工作,换了工作的方向.在工作的第一年的时候接触机器学习,从那之后的一年非常狂热的学习机器学习的相关技术,也写了一些自 ...
- 大数据全栈式开发语言 – Python
前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用JavaScript进行前端.服务器端,甚至数据库(MongoDB) ...
- 终于有人把云计算、大数据和 AI 讲明白了
最近学习hadoop以及生态,顺便看到了这篇文章,总结的很到位,转载下. 我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之 ...
- 【ZZ】终于有人把云计算、大数据和人工智能讲明白了!
终于有人把云计算.大数据和人工智能讲明白了! https://mp.weixin.qq.com/s/MqBP0xziJO-lPm23Bjjh9w 很不错的文章把几个概念讲明白了...图片拷不过来... ...
- 云计算、大数据和 AI
我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提 ...
- 从技术 Leader 的招聘需求看,如何转岗为当前紧缺的大数据相关人才?
前段时间,跟候选人聊天的时候,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识.他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不 ...
- 量化派基于Hadoop、Spark、Storm的大数据风控架构--转
原文地址:http://www.csdn.net/article/2015-10-06/2825849 量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人 ...
- 云计算openstack——云计算、大数据、人工智能(16)
一.互联网行业及云计算 在互联网时代,技术是推动社会发展的驱动,云计算则是一个包罗万象的技术栈集合,通过网络提供IAAS.PAAS.SAAS等资源,涵盖从数据中心底层的硬件设置到最上层客户的应用.给我 ...
- 云计算OpenStack---云计算、大数据、人工智能(14)
一.互联网行业及云计算 在互联网时代,技术是推动社会发展的驱动,云计算则是一个包罗万象的技术栈集合,通过网络提供IAAS.PAAS.SAAS等资源,涵盖从数据中心底层的硬件设置到最上层客户的应用.给我 ...
随机推荐
- Solon 开发进阶,二、体外扩展机制
Solon 开发进阶 一.插件扩展机制 二.体外扩展机制 三.常用配置说明 四.启动参数说明 五.全局异常订阅 Solon 的一个特色:体外扩展机制,用于解决 fatjar 模式部署时的扩展需求.比如 ...
- Hugging News #0203: 3.3 MB 的文生图模型、RHLF 训练框架、手机上能跑的 Transformer
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...
- IDEA整合SSM框架:简易图书操作模块
这个SSM整合文章,以图书的增删改查为例 本篇文章源码已上传: Github:https://github.com/RivTian/University-coursework/tree/master/ ...
- 厄拉多塞筛法的 Python 实现以及复杂度计算
想要得到一个不大于N的数所有素数,可以先找到不超过根号N的所有素数,设2 = p1 < p2 < ......<pk ≤√N,然后在2,3,4......N里面进行下面的操作: 留下 ...
- django动态创建表和动态选择实体
开发有时需要动态创建表,创建完成后需要动态选择model对应的表,该需求如何实现 1.model层 TestBlock为了动态创建表.getBlockModel为了动态选择表 from djang ...
- P1825 诡异的题
一道不难的题,可是挑了好久也没调好!因为最开始写的代码太复杂了,一大堆嵌套括号,其中有一个ny写成了nx一直没发现.后来用新定义变量取代了那些复杂的用函数."."和方括号表达出来的 ...
- 接口自动化复习第四天利用正则和faker提取替换变量值
在做接口自动化测试的时候,我们经常会遇到,有些字段利用随机生成数据就行了,不需要自己去构造测试数据.今天我就是要python中的第三方库faker来构造随机数,其次使用正则表达式来提取变量. 首先在接 ...
- mybatis plus 中增删改查及Wrapper的使用
本文为博主原创,未经允许不得转载: mybatis plus 通过封装 baseMapper 以及 ServiceImpl ,实现对数据库的增删改查操作,baseMapper 是我们通常所说的 da ...
- crypto常用算法
欧几里得算法(辗转相除法) def gcd(a, b): if b == 0: return a else: return gcd(b, a % b) 扩展欧几里得算法 def ext_euclid( ...
- JMS微服务开发示例(四)把配置文件appsettings.json 部署在网关,共享给其他相同的微服务
通常,多个相同的微服务器,它们的appsettings.json配置文件的内容都是一样的,如果,每次修改配置文件,都要逐个替换,那就太繁琐了,我们可以利用网关的文件共享功能,实现配置文件的统一更新. ...