我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。

案情介绍

江苏省无锡市梁溪区人民法院审结了一起提供侵入计算机信息系统程序罪案件,也就是网上传遍的“首例短视频平台领域网络爬虫案”,案情原文(源自最高人民法院):https://mp.weixin.qq.com/s/P8j_XEiqoEkcerV-tpiIVQ

2021年9月,丁某在网上结识了丁某某,丁某某表示其有一款“爬虫”软件可以获取某短视频平台用户数据,通过输入关键词搜索,可以快速抓取用户信息,主要包括用户名、评论、账户UID等。如果丁某感兴趣,可以购买代理权,做软件的推广,从中赚取差价。

丁某在试用后觉得不错,便决定代理,并对软件“改头换面”后对外进行销售。

某信息公司员工吴先生在网上巡查时发现有人在兜售一款“爬虫”软件,该软件居然可以“爬取”自己公司后台数据和直播间用户的相关信息,随即报警。经侦查,公安机关很快锁定了丁某。

梁溪法院经审理查明,被告人丁某在经营公司期间,从丁某某(另案处理)处购买一款“爬虫”软件代理权后,在明知该款软件系未经授权、专门用于入侵某短视频服务器后非法获取用户昵称、UID 等数据的情况下对外销售。2021年10月至12月期间,丁某组织公司销售人员通过网络向多人销售上述软件,违法所得共计24360元。

判决情况

法院认为,被告人丁某伙同他人提供专门用于侵入计算机信息系统的程序,情节严重,其行为已构成提供侵入计算机信息系统程序罪。最后,法院判处被告人丁某有期徒刑1年6个月,缓刑2年,并处罚金3万元,没收丁某的违法所得。同时,禁止丁某在缓刑考验期内从事互联网相关经营活动。

反思总结

根据视频中梁溪公安局网安大队民警介绍,被告主要是用这款软件抓取了直播间的用户昵称、UID 等信息,通过这些信息去精准联系客户,进行精准营销,视频中展示了该爬虫的相关功能,虽然不是很清晰,但还是可以依稀看到主要有以下信息:UID、SEC_UID、抖音号、姓名、性别、消费总数、排名、消费等级等,此外还有采集视频、采集同城视频、查询用户、搜索用户、监控粉丝/评论、监控用户作品、热门话题、采集好物、采集直播榜单、采集直播间弹幕等等,值得注意的是,视频中我们看到软件采集的姓名,包含了一些特殊符号、字符串也很长,可以猜测并不是用户真实姓名,有可能是昵称之类的。

作为程序员,相信大家都看得出来案情中描述的入侵短视频服务器这种说法,实际上并不是一种专业的描述,“入侵”应该是黑客行为,目的是拿到一些内部人员、或者需要权限才能拿到的信息,而本案中 UID、昵称等信息,事实上打开浏览器自带的开发者工具,抓包到接口就可以直接看到的,所以并不存在“入侵”这种说法,突破反爬措施,破解请求参数,这种说法更合理一些。值得注意的是,法院判决是非法侵入计算机,按道理来说侵入的是短视频平台的服务器,然而本案中,全程并没有看到短视频平台的官方人员介入,也没有看到短视频平台向警方提供了什么有力的入侵证据,难道就凭借一个软件就判断入侵了对方服务器吗?这显然是不合理的。

从工程师的角度来说,本案的重点其实应该是采集了用户信息之后,去精准联系客户,进行精准营销,这相当于侵犯了公民个人隐私,K哥认为本案判处侵犯公民个人信息罪更加合理,本案在网上的文章有很多,大多是一些非技术人员编辑的,文章弱化了对精准联系客户、精准营销的描述,过于强调了爬虫,并且使用了不专业的“入侵”词汇来描述爬虫。

对于爬虫工程师来讲,凡是涉及到个人信息,哪怕是虚拟的个人信息(指用户在互联网产品上的唯一标识、昵称等信息),都得注意,一旦你的业务涉及到个人信息数据,或者通过这些数据盈利,或者通过这些数据对人家造成骚扰,那么必然是违法的,在个人信息方面一定要有这个意识。

而且还有一点需要注意,本案中报警的人是公司员工,甚至不是公司发现了爬虫行为进行报警,即只要你的爬虫行为切实侵犯了个人隐私、他人利益,那么无论是数据的发布方,又或者是数据的生产者,都可以对工程师进行举报,所以谨记,爬虫切勿违法违规操作!

【k哥爬虫普法】爬虫第一案,侵犯个人隐私,“入侵”短视频服务器!的更多相关文章

  1. 谈谈哥的python爬虫书写之路

    为了做一个百度网盘搜索引擎,哥开始研究爬虫,从此迷上爬虫而一发不可收拾,现在就大概谈谈哥的爬虫之路,顺便给出引擎:http://www.quzhuanpan.com 首先基本的 Python 语法你要 ...

  2. 手把手教你如何新建scrapy爬虫框架的第一个项目(上)

    前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy,还有Scrapy安装过程中常见的问题总结及其对应的解决方法,感兴趣的小伙伴可以戳链接进去查看.关于Scrapy的介绍 ...

  3. Python爬虫---爬取抖音短视频

    目录 前言 抖音爬虫制作 选定网页 分析网页 提取id构造网址 拼接数据包链接 获取视频地址 下载视频 全部代码 实现结果 待解决的问题 前言 最近一直想要写一个抖音爬虫来批量下载抖音的短视频,但是经 ...

  4. 【java爬虫】---爬虫+基于接口的网络爬虫

    爬虫+基于接口的网络爬虫 上一篇讲了[java爬虫]---爬虫+jsoup轻松爬博客,该方式有个很大的局限性,就是你通过jsoup爬虫只适合爬静态网页,所以只能爬当前页面的所有新闻.如果需要爬一个网站 ...

  5. [爬虫]Python爬虫基础

    一.什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网 ...

  6. (Pyhton爬虫03)爬虫初识

    原本的想法是这样的:博客整理知识学习的同时,也记录点心情...集中式学习就没这么多好记录的了! 要学习一门技术,首先要简单认识一下爬虫!其实可以参考爬虫第一章! 整体上介绍该技术包含技能,具体能做什么 ...

  7. [转帖]中国 GPL 诉讼第一案:关于 GPL 问题的探讨

    中国 GPL 诉讼第一案:关于 GPL 问题的探讨 https://linux.cn/article-11683-1.html 2019 年 11 月初,数字天堂(北京)网络技术有限公司(下称:数字天 ...

  8. GPL协议中国第一案尘埃落定,相关开源软件应如何风控?

    导读:2019年11月6日,数字天堂(北京)网络技术有限公司(以下简称 “数字天堂公司”)诉柚子(北京)科技有限公司.柚子(北京)移动技术有限公司(以下简称 “柚子公司”)侵犯计算机软件著作权纠纷一案 ...

  9. Python 爬虫1——爬虫简述

    Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...

  10. python爬虫实战:利用scrapy,短短50行代码下载整站短视频

    近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法.这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解决了这个小问题 ...

随机推荐

  1. maven中引入CDH依赖包,Cannot resolve org.apache.hadoop:hadoop-hdfs:3.0.0-cdh6.3.2

    POM文件加入仓库 cloudera https://repository.cloudera.com/artifactory/cloudera-repos/ 修改MAVEN配置文件 nexus-ali ...

  2.  iOS代码混淆-从入门到放弃

    ​ iOS代码混淆-从入门到放弃 目录 1. 什么是iOS代码混淆? 2. iOS自动代码混淆的方法是什么? 3. iOS代码混淆的作用是什么? 4. 怎么样才能做到更好的iOS代码混淆? 总结 参考 ...

  3. JWT token验证后,通过 ThreadLocal 进行传值

    Spring Boot JWT 用户认证 JWT token验证后,通过 ThreadLocal 进行传值,在服务层直接使用 Threadlocal 获取当前用户,的Id.姓名,进行行为记录 定义一个 ...

  4. Asp .Net Core 系列:集成 Ocelot+Consul实现网关、服务注册、服务发现

    什么是Ocelot? Ocelot是一个开源的ASP.NET Core微服务网关,它提供了API网关所需的所有功能,如路由.认证.限流.监控等. Ocelot是一个简单.灵活且功能强大的API网关,它 ...

  5. mybatis-plus数据批量插入

    为了提高数据处理效率,大量数据需要插入数据时可以采用批量数据插入的策略提高数据插入的效率. 如下是实现方法 1.代码结构 2.实体类 package little.tiger.one.applicat ...

  6. 五、mycat水平分库

    系列导航 一.Mycat实战---为什么要用mycat 二.Mycat安装 三.mycat实验数据 四.mycat垂直分库 五.mycat水平分库 六.mycat全局自增 七.mycat-ER分片 一 ...

  7. vue路由模块化

    https://www.bilibili.com/video/BV1Tg411u7oy?from=search&seid=5098139115981575542&spm_id_from ...

  8. C#设计模式16——中介者模式的写法

    是什么: 中介者模式是一种行为型设计模式,它定义了一个中介者对象来封装一系列对象之间的交互.中介者模式可以使得对象间的交互更加松耦合,避免了对象之间的直接依赖,从而使系统更加灵活.易于扩展和维护. 为 ...

  9. java进阶(18)--Enum枚举

    一.枚举基本概念 1.引用数据类型 2.每一个值可看作一个常量 3.方法返回结果>2时建议使用枚举,=2建议使用boolean   二.举例说明 1.程序1,方法返回为数字

  10. WIN32 动态 UAC 提权

    UAC(User Account Control) 是 Windows 平台的用户权限控制.它可以让程序使用管理员权限执行某些操作. 静态 UAC 提权 静态 UAC 提权让程序一直运行在管理员权限下 ...