我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。

案情简介

2017 年 2 月至 5 月,被告人彭中正利用其在成都市知数科技有限公司(以下简称知数公司)从事技术工作的便利,非法获取公民个人信息数十万条,伙同被告人吕雷,通过 QQ 向被告人周敏、“123 哥”(身份不详)、“49 哥”(身份不详)等人出售,违法获利约 50 万元。被告人周敏以 0.35 元/条、0.4 元/条等价格,从彭中正、吕雷处持续购买约 40 万条公民个人信息用于转卖获利,通过支付宝向吕雷给付对价 161731 元。

2017 年 5 月 16 日,阿里巴巴集团公司以用户数据泄露为由报案。

警察于同年 5 月 18 日 20 时许,在本市天府新区伏龙西街暂住地门口将彭中正挡获;于同日 14 时许许在云南省临沧市临翔区团山村租住房内将吕雷挡获;于 2017 年 6 月 6 日 19 时许,在湖北省武汉市江夏区高新大道湖口社区将周敏挡获。

供述情况

被告人供述与辩解

彭中正(出售个人信息)

2017 年 2 月底,他加入一个 QQ 群,有人在群内发布消息称可以用现金购买电商数据,他认为这是一条快速挣钱的渠道,且这些买家需要的电商信息,他很方便就能获取,本来当时也没什么钱,就打算做这个事情。这些数据都是他从公司盗取的。公司专门有个信息采集部,通过采集程序对淘宝网页上的买家评论信息进行采集,再拿到“社工库”进行再次分配,通过对淘宝账号的匹配,就能把账号对应的注册姓名和联系方式匹配出来。他们公司成立至今从淘宝网采集用户评价信息的数量在百亿条左右,收集社工库信息有两亿条左右,采集这些信息并没有经过阿里巴巴公司同意。

他通过 QQ 联系网友 “123”,对方需要大量购买淘宝女装买家的数据。谈好价格为 1.5 角/条,为了不让公司发现他盗取信息,他就让对方将钱打到同学吕雷的支付宝上,再由吕雷转给他。盈利大约十万元。后来 “123” 需要一批百万量级的数据,考虑到有风险,就只给对方导入了大概三十万条数据信息,为规避风险,他特意把数据里的电话号码作了修改,并将恢复的方法告诉了 “123”,对方收到数据后说质量一般,没给他钱,就在QQ上把他删了。

后来认识了“支付宝哥”,与对方发生大概七八次数据交易,数据总量约在二三十万条,获利大概在十万元左右。数据是淘宝网上购买女装、化妆品、女鞋的买家数据,这些数据包含买家姓氏、电话,所购商品名称、价格、购买时间

在 QQ 群里还有一个 “49哥” 与他交易。对方购买了大约一万条淘宝女装买家信息,包含买家姓氏、电话、购买商品内容、购买价格和时间。几乎每天都有交易,金额从 6 角至 8 角每条不等。“49哥” 提出叫他买几张黑卡,规避交易风险,他就从 “49哥” 那里以 800 元一张的价格购买了 8 张黑卡。他共计卖给 “49哥” 三十余万条淘宝买家数据,共计获利二十余万。

吕雷(中间人)

2017 年 2 月 20 日左右,高中同学彭中正提出向让他帮忙转账,说这个事情不想让其公司知情。此后,有人向他支付宝账号转账 5000 元,他又通过支付宝转给彭中正。此后彭中正将一个客户交给他做,对方有数据需求,彭中正就把数据发给他,他再卖给客户来赚钱。前两次,二人平分,后几次他就没有支付差价。大概做了一个月,侵犯公民个人信息的司法解释出台后,他们就没做了。他售卖的数据包括淘宝卖家的姓、电话号码、购物内容、物品分类信息、交易金额、购买时间。经他手的客户与彭中正的转账金额大约有 60 来万。他在这之中没有提成,前后彭中正给过他共计 1 万 6 千左右。单卖后,他共向支付宝哥卖过十来次,大概八、九万条信息,他从中获利两、三万元。因售卖信息他总共获利五万左右。

周敏(个人信息买家)

从 2017 年 2 月份之后到 5 月份,他从网上购买数据,大约 5 万条左右,支付了 5 万元左右。数据就是一些个人信息,包括姓名、电话、地址、一些购物的信息,信息买来后也是卖给网上的 QQ 好友,通过贩卖信息他获利有 3、4 万左右。基本每天都有信息需求,几千条到几万条不等。信息单价是 3.5 毛一条,到最后几次是按照 4 毛一条。他购买的信息总价大约是 12 万左右,按照这个单价和总结计算,售卖的信息条数在三四十万条左右。

证人证言

郭某(知数公司股东之一)

知数公司系 2014 年由王某1、王某2、彭中正和他创建,主要是做信贷系统,给审批人员提供查询,通过大数据分析对用户进行征信调查,另外就是给公司提供数据采集分析服务。彭中正负责数据处理、清洗、入库、算法,他负责系统开发、运维、数据采集。采集的数据类型有微博、新闻、招聘信息、电商数据(含店铺信息、商品信息、商品评价)。公司通过程序采集网页、手机 APP 数据,如淘宝评价信息,征信信息来源源于公开的黑名单、最高法执行信息、多平台借贷,及第三方平台提供的用户登录授权,可以直接登录进行采集,如采集手机通话详单和淘宝用户购物记录。公司采集的淘宝信息用来做数据分析,没有出售过。

王某1(知数公司股东之一,现任法人)

爬虫组会爬取电商的评论、商品价格、商品详细情况、销量;爬取微博的内容、关注关系、注册基本信息;爬取招聘网站的公司招聘信息、注册信息;也爬过淘宝网上的数据,包括一些淘宝网页上的买家用户名,购物后的评价,淘宝买家购买的商品价格。公司客户主要是一些金融机构,如银行、消费金融公司、小贷公司。他们购买或售卖的数据中不包括公民个人信息,全是他们爬取的公开数据,或是其他数据公司爬取的公开数据。

吴某(知数公司员工)

知数公司主要业务是运用公司大数据信息,为客户提供数据分析并收费。公司所有相关淘宝平台上的数据都是由第三方平台提供给他们的,主要有购物具体时间、金额、购物者的收货地址、联系电话等信息。

法院观点

根据《中华人民共和国网络安全法》及《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》相关规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。彭中正无论是从公司窃取还是自己加工获取,未征得他人同意收集信息,均系非法手段,不影响本罪的构成。

被告人彭中正、吕雷系共同犯罪,二人分工合作,彭中正负责提供相关信息并与买家联系,吕雷负责售卖信息、收取非法获利并与买家周敏联系,二人在犯罪中的地位大致相当,不区分主从犯。

本院认为,被告人彭中正、吕雷、周敏违反国家有关规定,向他人出售或者以非法方法获取公民个人信息,情节特别严重,其行为已构成侵犯公民个人信息罪。

判决情况

一、被告人彭中正,犯侵犯公民个人信息罪,判处有期徒刑五年,并处罚金人民币五十万元;

二、被告人吕雷,犯侵犯公民个人信息罪,判处有期徒刑四年,并处罚金人民币十万元;

三、被告人周敏,犯侵犯公民个人信息罪,判处有期徒刑三年六个月,并处罚金人民币四万元。

裁判文书

  • 一审:(2018)川 0191 刑初 94 号
  • 二审:(2018)川 01 刑终 454 号

案例分析

本案被告人彭中正利用职务之便,私自将公司获取的个人隐私数据对外售卖,这是明显缺乏职业素养且严重违法的行为。还值得注意的是,知数公司的几个证人对获取淘宝相关个人隐私数据途径的描述是不一致的,股东郭某称是公司采集的,但没售卖过;而员工吴某则称是通过第三方平台购买的;另一股东王某更表示公司购买或售卖的数据中不包括公民个人信息,可是如果不包括的话,被告人彭中正手中的数据又是从何而来的呢?

不过不论是自己采集还是第三方购买,都涉及到了个人隐私信息,根据《中华人民共和国网络安全法》及《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》相关规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息,这属于违法行为,但是本案中提及对知数公司的相关处理行为只有:查处 65 份合同、2 台台式机主机箱。

本案也很好的提醒了我们,就算是朋友、熟人请求帮助,也要先分析帮这个忙是否合理合法,后续是否可能对自己造成影响,不然这个情分给的可就太大了。切记不要为一些蝇头小利而铤而走险,这前面可能是万丈深渊。

最重要的一点,本案很好的验证了触及公民个人信息的情节严重性,从售卖者到中间人再到买家都属于共同犯罪,法网恢恢疏而不漏,还是在此忠告各位爬虫工程师,公民个人信息是万万不能触碰的,这是绝对的 "红线"!不要被一时的利益冲昏了头脑,法律的重锤砸下来的那一刻,可就没有后悔的机会了。

【K哥爬虫普法】百亿电商数据,直接盗取获利,被判 5 年!的更多相关文章

  1. [NewLife.XCode]分表分库(百亿级大数据存储)

    NewLife.XCode是一个有15年历史的开源数据中间件,支持netcore/net45/net40,由新生命团队(2002~2019)开发完成并维护至今,以下简称XCode. 整个系列教程会大量 ...

  2. 爬虫抓取5大门户网站和电商数据day1:基础环境搭建

    最新想用爬虫实现抓取五大门户网站(搜狐.新浪.网易.腾讯.凤凰网)和电商数据(天猫,京东,聚美等), 今天第一天先搭建下环境和测试. 采用maven+xpath+ HttpClient+正则表达式. ...

  3. 简单3步快速生成千万级别mysql测试数据库,模拟电商数据

    https://blog.csdn.net/wuda0112/article/details/88387735 github项目地址:https://github.com/wuda0112/mysql ...

  4. [NewLife.XCode]百亿级性能

    NewLife.XCode是一个有10多年历史的开源数据中间件,支持nfx/netcore,由新生命团队(2002~2019)开发完成并维护至今,以下简称XCode. 整个系列教程会大量结合示例代码和 ...

  5. 案例实战:每日上亿请求量的电商系统,JVM年轻代垃圾回收参数如何优化?

    出自:http://1t.click/7TJ 目录: 案例背景引入 特殊的电商大促场景 抗住大促的瞬时压力需要几台机器? 大促高峰期订单系统的内存使用模型估算 内存到底该如何分配? 新生代垃圾回收优化 ...

  6. 每日上亿请求量的电商系统,JVM年轻代垃圾回收参数如何优化? ----实战教会你如何配置

    目录: 案例背景引入 特殊的电商大促场景 抗住大促的瞬时压力需要几台机器? 大促高峰期订单系统的内存使用模型估算 内存到底该如何分配? 新生代垃圾回收优化之一:Survivor空间够不够 新生代对象躲 ...

  7. 重学 Java 设计模式:实战模版模式「模拟爬虫各类电商商品,生成营销推广海报场景」

    作者:小傅哥 博客:https://bugstack.cn - 原创系列专题文章 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言 黎明前的坚守,的住吗? 有人举过这样一个例子,先给你张北大的录 ...

  8. 手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取

    版权声明:本文为博主原创文章,未经博主允许不得转载. 系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 看完两篇,相信大家已经从开始的 ...

  9. 手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染

    版权声明:本文为博主原创文章,未经博主允许不得转载. 系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 ...

  10. java亿级流量电商详情页系统的大型高并发与高可用缓存架构实战视频教程

    亿级流量电商详情页系统的大型高并发与高可用缓存架构实战 完整高清含源码,需要课程的联系QQ:2608609000 1[免费观看]课程介绍以及高并发高可用复杂系统中的缓存架构有哪些东西2[免费观看]基于 ...

随机推荐

  1. 重磅!Github宣布面向团队免费

    GitHub CEO Nat Friedman 宣布已面向全体 GitHub 用户和团队提供不限制协作人数的私有仓库,并宣称 GitHub 的全部核心功能现已对所有人免费提供. 公告称: 到目前为止, ...

  2. 在线一键生成安卓证书keystore 文件

    在线一键生成安卓证书 keystore 文件 一般的打包工具都会有默认的安卓证书提供,但如果你需要上架需要用自己申请安卓证书 keystore 文件打包 apk 现有方便方便的工具,直接在网页就可以申 ...

  3. SQL Server 2016 自动备份、收缩数据库

    一般策略为:Oracle: 周一.二 增量备份,周三差异备份,周四.五.六增量备份,周日完整备份(建多计划) MsSQL: 周一.六差异备份,周日完整备份(建多计划) 打开SQL server配置管理 ...

  4. 32. 干货系列从零用Rust编写正反向代理,关于堆和栈以及如何解决stack overflow

    wmproxy wmproxy已用Rust实现http/https代理, socks5代理, 反向代理, 静态文件服务器,四层TCP/UDP转发,七层负载均衡,内网穿透,后续将实现websocket代 ...

  5. 思考:Https情况下前端密码是否需要加密

    例子: 不加密例子: image-20210719153550042 加密例子: image-20210719153812653 结论:前端账号密码需要加密. 论点一:https是否真的"安 ...

  6. 同步时间,为什么我选 Chrony 而不是 NTP ?

    初识 chrony chrony 是网络时间协议(Network Time Protocol )的通用实现 它不但可以提供保持系统时间与 NTP 时钟服务器同步的服务,还能作为 NTP 服务器对其他服 ...

  7. Codeforces Round #650 (Div. 3) F1经典离散化DP

    比赛链接:Here 1367A. Short Substrings Description 一个字符串 abac,然后把所有长度为2的子串加起来变成新串,abbaac,由 ab ba ac组成.现在给 ...

  8. vue用qrcodejs2生成二维码,解决多个二维码追加的问题

    vue使用qrcodejs2生成二维码 1.安装qrcodejs2 npm install qrcodejs2 2.代码 //导入组件 import QRCode from 'qrcodejs2' / ...

  9. <vue 基础知识 9、v-model使用 input、radio、checkbox、select、修饰符>

    代码结构 一.     01-v-model的基本使用 Vue中使用v-model指令来实现表单元素和数据的双向绑定 1.效果 2.代码 01-v-model的基本使用.html <!DOCTY ...

  10. 高级数据结构---B树和B+树及mysql索引分析

    mysql索引数据结构:https://www.cnblogs.com/nijunyang/p/11406688.html 几种树结构的对比: 二叉查找树:二叉搜索树,二叉排序树,优点查找快,但是在某 ...