我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。

案情介绍

江苏省无锡市梁溪区人民法院审结了一起提供侵入计算机信息系统程序罪案件,也就是网上传遍的“首例短视频平台领域网络爬虫案”,案情原文(源自最高人民法院):https://mp.weixin.qq.com/s/P8j_XEiqoEkcerV-tpiIVQ

2021年9月,丁某在网上结识了丁某某,丁某某表示其有一款“爬虫”软件可以获取某短视频平台用户数据,通过输入关键词搜索,可以快速抓取用户信息,主要包括用户名、评论、账户UID等。如果丁某感兴趣,可以购买代理权,做软件的推广,从中赚取差价。

丁某在试用后觉得不错,便决定代理,并对软件“改头换面”后对外进行销售。

某信息公司员工吴先生在网上巡查时发现有人在兜售一款“爬虫”软件,该软件居然可以“爬取”自己公司后台数据和直播间用户的相关信息,随即报警。经侦查,公安机关很快锁定了丁某。

梁溪法院经审理查明,被告人丁某在经营公司期间,从丁某某(另案处理)处购买一款“爬虫”软件代理权后,在明知该款软件系未经授权、专门用于入侵某短视频服务器后非法获取用户昵称、UID 等数据的情况下对外销售。2021年10月至12月期间,丁某组织公司销售人员通过网络向多人销售上述软件,违法所得共计24360元。

判决情况

法院认为,被告人丁某伙同他人提供专门用于侵入计算机信息系统的程序,情节严重,其行为已构成提供侵入计算机信息系统程序罪。最后,法院判处被告人丁某有期徒刑1年6个月,缓刑2年,并处罚金3万元,没收丁某的违法所得。同时,禁止丁某在缓刑考验期内从事互联网相关经营活动。

反思总结

根据视频中梁溪公安局网安大队民警介绍,被告主要是用这款软件抓取了直播间的用户昵称、UID 等信息,通过这些信息去精准联系客户,进行精准营销,视频中展示了该爬虫的相关功能,虽然不是很清晰,但还是可以依稀看到主要有以下信息:UID、SEC_UID、抖音号、姓名、性别、消费总数、排名、消费等级等,此外还有采集视频、采集同城视频、查询用户、搜索用户、监控粉丝/评论、监控用户作品、热门话题、采集好物、采集直播榜单、采集直播间弹幕等等,值得注意的是,视频中我们看到软件采集的姓名,包含了一些特殊符号、字符串也很长,可以猜测并不是用户真实姓名,有可能是昵称之类的。

作为程序员,相信大家都看得出来案情中描述的入侵短视频服务器这种说法,实际上并不是一种专业的描述,“入侵”应该是黑客行为,目的是拿到一些内部人员、或者需要权限才能拿到的信息,而本案中 UID、昵称等信息,事实上打开浏览器自带的开发者工具,抓包到接口就可以直接看到的,所以并不存在“入侵”这种说法,突破反爬措施,破解请求参数,这种说法更合理一些。值得注意的是,法院判决是非法侵入计算机,按道理来说侵入的是短视频平台的服务器,然而本案中,全程并没有看到短视频平台的官方人员介入,也没有看到短视频平台向警方提供了什么有力的入侵证据,难道就凭借一个软件就判断入侵了对方服务器吗?这显然是不合理的。

从工程师的角度来说,本案的重点其实应该是采集了用户信息之后,去精准联系客户,进行精准营销,这相当于侵犯了公民个人隐私,K哥认为本案判处侵犯公民个人信息罪更加合理,本案在网上的文章有很多,大多是一些非技术人员编辑的,文章弱化了对精准联系客户、精准营销的描述,过于强调了爬虫,并且使用了不专业的“入侵”词汇来描述爬虫。

对于爬虫工程师来讲,凡是涉及到个人信息,哪怕是虚拟的个人信息(指用户在互联网产品上的唯一标识、昵称等信息),都得注意,一旦你的业务涉及到个人信息数据,或者通过这些数据盈利,或者通过这些数据对人家造成骚扰,那么必然是违法的,在个人信息方面一定要有这个意识。

而且还有一点需要注意,本案中报警的人是公司员工,甚至不是公司发现了爬虫行为进行报警,即只要你的爬虫行为切实侵犯了个人隐私、他人利益,那么无论是数据的发布方,又或者是数据的生产者,都可以对工程师进行举报,所以谨记,爬虫切勿违法违规操作!

【k哥爬虫普法】爬虫第一案,侵犯个人隐私,“入侵”短视频服务器!的更多相关文章

  1. 谈谈哥的python爬虫书写之路

    为了做一个百度网盘搜索引擎,哥开始研究爬虫,从此迷上爬虫而一发不可收拾,现在就大概谈谈哥的爬虫之路,顺便给出引擎:http://www.quzhuanpan.com 首先基本的 Python 语法你要 ...

  2. 手把手教你如何新建scrapy爬虫框架的第一个项目(上)

    前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy,还有Scrapy安装过程中常见的问题总结及其对应的解决方法,感兴趣的小伙伴可以戳链接进去查看.关于Scrapy的介绍 ...

  3. Python爬虫---爬取抖音短视频

    目录 前言 抖音爬虫制作 选定网页 分析网页 提取id构造网址 拼接数据包链接 获取视频地址 下载视频 全部代码 实现结果 待解决的问题 前言 最近一直想要写一个抖音爬虫来批量下载抖音的短视频,但是经 ...

  4. 【java爬虫】---爬虫+基于接口的网络爬虫

    爬虫+基于接口的网络爬虫 上一篇讲了[java爬虫]---爬虫+jsoup轻松爬博客,该方式有个很大的局限性,就是你通过jsoup爬虫只适合爬静态网页,所以只能爬当前页面的所有新闻.如果需要爬一个网站 ...

  5. [爬虫]Python爬虫基础

    一.什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网 ...

  6. (Pyhton爬虫03)爬虫初识

    原本的想法是这样的:博客整理知识学习的同时,也记录点心情...集中式学习就没这么多好记录的了! 要学习一门技术,首先要简单认识一下爬虫!其实可以参考爬虫第一章! 整体上介绍该技术包含技能,具体能做什么 ...

  7. [转帖]中国 GPL 诉讼第一案:关于 GPL 问题的探讨

    中国 GPL 诉讼第一案:关于 GPL 问题的探讨 https://linux.cn/article-11683-1.html 2019 年 11 月初,数字天堂(北京)网络技术有限公司(下称:数字天 ...

  8. GPL协议中国第一案尘埃落定,相关开源软件应如何风控?

    导读:2019年11月6日,数字天堂(北京)网络技术有限公司(以下简称 “数字天堂公司”)诉柚子(北京)科技有限公司.柚子(北京)移动技术有限公司(以下简称 “柚子公司”)侵犯计算机软件著作权纠纷一案 ...

  9. Python 爬虫1——爬虫简述

    Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...

  10. python爬虫实战:利用scrapy,短短50行代码下载整站短视频

    近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法.这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解决了这个小问题 ...

随机推荐

  1. Gzip之后继者Brotli浅析之CDN厂商的智能压缩,服务器Brotli设置

    "智能压缩"按照又拍云的说法是,同时支持 Gzip 和 Brotli 压缩算法.根据用于浏览器开启自动选择不同压缩方式. Gzip 压缩算法 Gzip 基于 DEFLATE 算法, ...

  2. docker镜像列表存在但删除显示 No such image问题解决

    近期使用了docker,但删除镜像时候遇到了无法删除问题.提示:No such Image.原因有两个,解决方法如下: 原因1: 容器还存在是无法删除镜像的 解决步骤: 1.停掉容器(docker s ...

  3. 火山引擎云原生数据仓库 ByteHouse 技术白皮书 V1.0(上)

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 近日,<火山引擎云原生数据仓库 ByteHouse 技术白皮书>正式发布.白皮书简述了 ByteHou ...

  4. 页面滚动,打包,appium工具

    ''' 移动到元素element对象的"底端",与当前窗口的"底部"对齐: 我们需要将页面下拉一个滑轮 ''' for y in range(3): js = ...

  5. 在 SDXL 上用 T2I-Adapter 实现高效可控的文生图

    T2I-Adapter 是一种高效的即插即用模型,其能对冻结的预训练大型文生图模型提供额外引导.T2I-Adapter 将 T2I 模型中的内部知识与外部控制信号结合起来.我们可以根据不同的情况训练各 ...

  6. VMware Workstation centos7 虚拟机桥接方式联网,获取动态IP

    在VMware中安装 Centos7 虚拟机,日常需要带着电脑外出.因此在远程连接虚拟机时,就要求与宿主机在同一网段.在不修改路由器的情况下,让宿主与centos7都动态从路由器获取IP地址,就能解决 ...

  7. Arch Linux 更换国内镜像源

    自己用的 Arch Linux 在使用 pacman -Syu 更新系统时出现了连接超时的问题,看来又需要换个镜像源了.趁着今天还没想好要分享的内容,那就干脆以此为主题,总结一下如何给 Arch Li ...

  8. PySpark 入门:通过JDBC连接数据库(DataFrame)

    这里以关系数据库MySQL为例.首先,本博客教程(Ubuntu 20.04 安装MySQL 8.X),在Linux系统中安装好MySQL数据库.这里假设你已经成功安装了MySQL数据库.下面我们要新建 ...

  9. JSP | IDEA 配置 JSP 模板

    新建 jsp 文件时的模板 在第 5 步输入下面模板代码: <%-- Created by IntelliJ IDEA. User: ${USER} Date: ${DATE} Time: ${ ...

  10. vue-cli3title标签中的htmlWebpackPlugin.options.title

    https://blog.csdn.net/weixin_56650035/article/details/119355625