我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。

案情介绍

2017年以来,被告人王世杰工作期间,为利用自己所学计算机网络技术建立网站赚钱,租用云服务器开办了一个名为“酷奇XX视频”的视频网站。利用爬虫技术在互联网上爬取未经著作权人授权许可的电影、电视剧、综艺、动漫等各类视频资源,包括《流浪地球》、《复仇者联盟4》、《大闹天空》等最新影视剧,以及淫秽主播视频表演等视频。

此后,王世杰通过在视频网站网页上挂载“广告位招租”招商广告,招商广告中载明自己的QQ号码,伺机通过视频资源牟利。且王世杰通过网站设置了一个会员注册信息,用户可以用手机号或者邮箱账号注册成为会员,会员可以通过在线支付现金购买充值卡,1元兑换1积分,不同积分可升级为阶梯式包时段的会员,享受该网站提供的各种VIP会员服务。

2019年5月8日,勉县公安局受案后,民警依法对“酷奇XX视频”网站的信息进行了在线提取,其中提取各类涉嫌侵犯著作权影视作品601部,疑似淫秽物品视频238部。

同年5月18日,阿里云公司工作人员因发现“酷奇XX视频”网站信息与备案不符,将“酷奇XX视频”网站关停。

同年5月21日,经汉中市公安局对从“酷奇XX视频”网站中提取的45部福利视频鉴定,意见为:送检的2张DVD光盘内视频文件名称01至45的45部视频录像为淫秽及色情物品。

同年5月30日,民警在上海市易果电子商务有限公司办公室将被告人王世杰抓获,在其家中扣押黑色台式组装电脑主机一台,并依法提取了电子数据。

同年9月6日,经汉中市公安局对从“酷奇XX视频”网站中提取的总计238部福利视频鉴定,意见为:移动硬盘内视频文件名称编号为001至238的238部视频录像为淫秽及色情物品。

截止“酷奇XX视频”网站被关停时,该网站共有会员55人,提供各类视频总计13万余部,其中有电影5.1万余部,电视剧2.2万余部,综艺2.3万余部,动漫2.4万余部等,福利其它9085部,其中已提取固定视频839部(含福利视频238部,普通电影视频601部)。

截止案发,未发现有注册会员支付款项。同时,网站转载的部分视频中存在镶嵌式广告,在案件侦查过程中也没有发现王世杰有实际广告收入。

公诉机关据此认为被告人王世杰的行为构成侵犯著作权罪、传播淫秽物品罪,建议对其判处二年以上三年以下有期徒刑,可适用缓刑,并处罚金。

被告人王世杰对起诉书指控的犯罪事实无异议,自愿认罪,请求对其从轻处罚。

供辩情况

本案重点在供述的时候,辩护人对犯罪事实无异议,但辩称:1、本案中,被告人王世杰没有营利目的;2、对公诉机关指控被告人王世杰构成侵犯著作权罪有异议。建立链接不同于复制发行,亦不属于提供作品,王世杰没有侵犯著作权的主观故意和客观行为,且侵犯著作权罪是数额犯,王世杰并没有实际获利,故不构成侵犯著作权罪;3、被告人王世杰没有传播淫秽物品的故意,只是因为没有做好网站的管理工作,疏忽大意。爬虫技术是对访问行为的模仿,无法自我识别、甄别淫秽视频;

但实际上法院也一一驳回了

因为法院认为被告人在网站网页上挂载“广告位招租”窗口,招商广告中载明自己的QQ号码为联系方式;还在网站中设置了会员注册、在线支付、积分兑换等,其具有营利目的、且其行为属于复制发行。以营利为目的,未经著作权人、录音录像制作者许可,通过互联网向公众传播他人电影、电视作品601部,情节严重,其行为构成侵犯著作权罪;

其次,被告人王世杰作为视频网站的创建人和管理者,理应加强网站的管理和维护,其在采用爬虫技术时,未对相关影视进行甄别,对淫秽视频的传播持放任态度,其主观上具有传播淫秽物品的故意,利用互联网传播淫秽音像视频238部,情节严重,其行为亦构成传播淫秽物品罪

判决情况

被告人王世杰犯侵犯著作权罪,判处有期徒刑一年零六个月,并处罚金人民币5000元;犯传播淫秽物品罪,判处有期徒刑八个月。

二罪并罚,决定执行有期徒刑二年,缓刑二年零六个月,并处罚金人民币5000元。

反思总结

很明显,案例中的当事人就是想爬一些电影视频资源放到自己网站,通过会员制度和广告来盈利,除了这种爬取视频资源的情况,还有不少人通过爬虫技术爬取技术博主的原创文章,放到自己的网站上,这种做法通常也会在网站上植入广告来盈利,还有的是为了给网站做 SEO 优化,提高网站权重,也有的给文章设置付费内容、扫码关注公众号才解锁内容等,这种未经过原作者允许进行恶意采集并盈利的行为,无疑都是侵犯著作权的,也是可以被判刑的。

不少人想将爬虫作为副业赚钱,也有很多人信奉“技术无罪”,要知道“技术无罪”论,自从快播案后就是不存在的,利用爬虫赚钱,应走正道,目的和手段都要合法合规,也一定要注意是否侵犯了别人的隐私权和著作权,切莫心存歪念,因小失大。当然利用爬虫技术传播淫秽物品更是我们不能触及的红线!

常见的“仅用于内部学习交流,不得传播”的避风港原则,在人人影视案之后也不存在了,因此公司如果有类似的项目,技术和运营团队都有义务对所爬取的内容进行甄别,利用人工智能、NLP等技术,对文本、图片、视频进行合法性鉴别,甚至要有专门的数据治理部门,对于违法内容理应立即销毁。

爬虫技术基本上来说是一个加速便捷工具,如果你业务不合规,手动执行都是违法的,那么大规模高效获取只会加速灭亡,因此在使用效率技术前一定要想清楚自己业务的商业模式是否合法合规,要么就不做,要做就得加强合规建设。

【k哥爬虫普法】Python程序员爬取视频资源13万部,一分钱没挣,获刑2年!的更多相关文章

  1. 第K个数 牛客网 程序员面试金典 C++ Python

    第K个数 牛客网 程序员面试金典 C++ Python 题目描述 有一些数的素因子只有3.5.7,请设计一个算法,找出其中的第k个数. 给定一个数int k,请返回第k个数.保证k小于等于100. 测 ...

  2. Python爬虫学习三------requests+BeautifulSoup爬取简单网页

    第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...

  3. Python程序员的进化史

    各种程序员所写的阶乘算法代码 # -*- coding: utf-8 -*- #新手程序员(递归) def factorial(x): if x == 0: return 1 else: return ...

  4. 介绍Python程序员常用的IDE和其它开发工具

    概述 “工欲善其事,必先利其器”,如果说编程是程序员的手艺,那么IDE就是程序员的吃饭家伙了. IDE 的全称是Integration Development Environment(集成开发环境), ...

  5. Python程序员去上海工作有多难?

    我只能说,也要看你掌握的技术可以打多少分.技术熟练度跟找工作的难易程度是成正比的:你掌握得越好,找工作就越容易(难度系数越低):反之越高. Python程序员这种技术类的工作岗位,当然还是要有扎实的技 ...

  6. 做为一个Python程序员的基本素养

    今天在学习的过程中,明白了一些不是Python标准所必须要做的事情,二是做为一个合格的Python程序员应该所遵从的一些规范 分享给大家,有不足的地方请大家指正,此下是我学习的一点心得: 1.在给变量 ...

  7. Python程序员常用的IDE和其它开发工具

    概述 “工欲善其事,必先利其器”,如果说编程是程序员的手艺,那么IDE就是程序员的吃饭家伙了. IDE的全称是Integration Development Environment(集成开发环境),一 ...

  8. 5款Python程序员高频使用开发工具推荐

    很多Python学习者想必都会有如下感悟:最开始学习Python的时候,因为没有去探索好用的工具,吃了很多苦头.后来工作中深刻体会到,合理使用开发的工具的便利和高效.今天,我就把Python程序员使用 ...

  9. 月薪3万的python程序员都看了这本书

    想必大家都看过吧 Python编程从入门到实践 全书共有20章,书中的简介如下: 本书旨在让你尽快学会 Python ,以便能够编写能正确运行的程序 —— 游戏.数据可视化和 Web 应用程序,同时掌 ...

  10. Python 程序员都会喜欢的 6 个库

    在编程时,小挫折可能与大难题一样令人痛苦.没人希望在费劲心思之后,只是做到弹出消息窗口或是快速写入数据库.因此,程序员都会喜欢那些能够快速处理这些问题,同时长远来看也很健壮的解决方案. 下面这6个Py ...

随机推荐

  1. 火山引擎 ByteHouse:如何提升 18000 节点的 ClickHouse 可用性?

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 ClickHouse 是业内被广泛使用的 OLAP 引擎.当集群规模过大时,ClickHouse 则面临使用局限性 ...

  2. 火山引擎DataLeap的Catalog系统搜索实践(三):Learning to rank与后续工作

    Learning to rank Learning to rank主要分为数据收集,离线训练和在线预测三个部分.搜索系统是一个Data-driven system,因此火山引擎DataLeap的Cat ...

  3. 白话文解析LiteFlow的理念是什么?什么时候用该怎么用?干货满满

    官网:https://liteflow.cc/ Gitee:https://gitee.com/dromara/liteFlow Github:https://github.com/dromara/l ...

  4. 【LibCurl】C++使用libcurl实现HTTP POST和GET、PUT

    libcurl简介 libcurl是一个跨平台的网络协议库,支持http, https, ftp, gopher, telnet, dict, file, 和ldap 协议.libcurl同样支持HT ...

  5. Spring 学习笔记(1)文章导读

    <Spring 学习笔记>系列文章是博主在学习过 Spring 后对其进行总结的入门系列博文,适合初入 Spring 的小白,如果你最近正在学习或者打算学习 Spring 的话,不妨随着本 ...

  6. 2021暑假训练赛1 基于Codeforce#479(div3)

    A - Xor Sum 似乎是很明显的字典树问题(不会啊,最后搬了一个板子修修改改以后才过了 AcWing 相似题目:143. 最大异或对 最后得吐槽一下 memset 为什么能这么慢啊 Kora! ...

  7. 区间dp专题小结

    区间DP是一类在区间上进行动态规划的最优问题,一般是根据问题设出一个表示状态的 dp,可以是二维的也可以是三维的,一般情况下为二维.然后将问题划分成两个子问题,也就是一段区间分成左右两个区间,然后将左 ...

  8. L1-018 大笨钟 (10分)

    开始天梯赛专项训练 微博上有个自称"大笨钟V"的家伙,每天敲钟催促码农们爱惜身体早点睡觉.不过由于笨钟自己作息也不是很规律,所以敲钟并不定时.一般敲钟的点数是根据敲钟时间而定的,如 ...

  9. 详解 Serverless 架构的 6 大应用场景

    导读 Serverless 架构将成为未来云计算领域重要的技术架构,将会被更多的业务所采纳.进一步深究,Serverless 架构在什么场景下有优秀的表现,在什么场景下可能表现得并不是很理想呢?或者说 ...

  10. Docker 魔法解密:探索 UnionFS 与 OverlayFS

    本文主要介绍了 Docker 的另一个核心技术:Union File System.主要包括对 overlayfs 的演示,以及分析 docker 是如何借助 ufs 实现容器 rootfs 的. 如 ...