1.背景介绍

某周末闲来无事，顺手打开了CSDN，看到了一个人发布的收费GIS资源，售价是￥19.9，POI数据也有人买吗？这些都是免费的啊，打开了博主的主页。看到她上传的资源数量，被吓到了：

这个博主，一共上传了8900个文件？我随意点开了她的一个资源，发现都是几个浏览，0下载：

这位博士师姐不是白费劲吗？

不对！

天下熙熙,皆为利来;天下攘攘,皆为利往。

如果不赚钱，也不至于上传这么多啊？何况她是一位博士，不至于浪费自己的时间。

我想弄明白，她能从这里面到底获利多少？付出的时间是否和收益成正比？

因此我写了几个python脚本，用以回答上诉两个问题。

2.技术路线

在这个爬虫中，使用到的环境与工具有：Python3.6、notepad++、BeautifulSoup模块包。唯一需要用到的外部模块包是BeautifulSoup，这是一个网页分析工具，可以准确提取网页标签。其他的都是Python内置的函数。

整体的技术路线图如下所示：

在进行编程中，需要注意的三个技术难点：

1.CSDN的个人主页资源介绍是一个瀑布流网页，最多加载100个list，因此需要找到该瀑布流网页的规律；

2.CSDN网页有反爬机制，因此需要频繁更换浏览器标识，；

3.几千个网线，使用多线程函数，比如700个线程同时爬；

上面是大致的思路，详细的技术流程与代码，我会分享在下一篇博客中。

3.数据结果

通过爬虫，我最后得到了所有网页。我选取的时间段是2020/11/24-2021/7/12，累计是7700个资源详细信息。整理得到的资源由：数据名称、资源类型、数据大小、数据浏览量、数据下载量、单价、总价、浏览下载比：

4.数据分析

待数据清洗完毕后，我迫不及待的计算了一下7700个文件，

一共赚了多少:17670.99元。

好像也不是很多吧？这可是7700个资源啊，多费时间，看起来不值得。待我继续往下分析，就觉得很值。

（1）上传文件名称云图

一共是两个云图，

第一个是名称没有数据清洗的云图：

第二个是名称经过数据清洗的云图：

主观看上去，都是地信、交通类的资源，免费获取大部分都可以做到。

（2）上传文件定价

根据7700个资源进行单价分析，制作了定价频率图，如下所示：

可以看到，大部分定价都是14.9，是比较亲民的价格，对于不擅长找资源的顾客，花这点钱，真的很经济。

（3）浏览量与下载量

博主一共上传了7700个文件，其中，有下载的只占7.4%，可转化率是比较低的。

（4）上传时间分析

我们来看看这位博主，喜欢什么时候上传文件：

都是工作日的下午，正是上班的时候。除了学生，应该也没人会有空余时间。下面是上传天数分析，就很有意思了。为什么，请往下看：

从2020年11月24日开始上传文件，到2021年7月12日，总共只花费了15天时间。相当于每一天净赚1000元，而且这个是被动收入。以后即使不做任何事，每年都有2w左右的收入。

5.总结

结论：

1.花费了共计15天，每天下午上传资源，获得了每年不少于2W的被动收入（往后即使不做任何事情），这个很值！

2.你所知道的免费资源，别人不一定知道，即使是收智商税，也是方便了大家。

3.作为学地信的学生，之前没有想到这么轻松的赚钱方式，汗颜。

讨论：

1.我统计的博主投入时间，只是上传时间，实际上找资源的时间可能更多。

2.这个博主也不是普通人，即使发布的资源大部分是网上可以找到的免费资源，但是能上传到快1W个资源了，这份耐心让人敬佩。这一份恒心，不管去哪都能赚到钱。

6.后记

我和这个博主加上微信了，她给我说：

1.她不是学生（我猜应该是国企或者事业单位吧，工作日上传资源，普通的996没有这么闲）；

2.做资源上传，很累人；

3.网站会抽成,而且还得交税,到手大概是50%左右。

不管怎么说，她始终方便了别人，也方便了自己。希望大家都能找到合法合理的生财之道。

欢迎关注公众号：锐多宝的地理空间；

我爬取交通学博士付费的GIS资源，每年被动收入2w很简单？的更多相关文章

python爬虫实践（二）——爬取张艺谋导演的电影《影》的豆瓣影评并进行简单分析
学了爬虫之后,都只是爬取一些简单的小页面,觉得没意思,所以我现在准备爬取一下豆瓣上张艺谋导演的“影”的短评,存入数据库,并进行简单的分析和数据可视化,因为用到的只是比较多,所以写一篇博客当做笔记. 第 ...
手把手教你爬取B站弹幕！
效果输入要爬取的视频的BV号即可爬取该视频的弹幕. 过程基本思路基本的思路很简单,还是老步骤: 1.构造爬取的url 2.解析返回的数据 3.使用json或Xpath或正则表达式提取数据 4.保 ...
Scrapy-redis分布式爬虫爬取豆瓣电影详情页
平时爬虫一般都使用Scrapy框架,通常都是在一台机器上跑,爬取速度也不能达到预期效果,数据量小,而且很容易就会被封禁IP或者账号,这时候可以使用代理IP或者登录方式爬,然而代理IP很多时候都很鸡肋, ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
Python爬虫-爬取科比职业生涯高清图集
前面学习了Python爬取豆瓣电影Top250的数据,爬取的信息是电影信息的文本信息,但是在互联网上流行的图片才有更大的吸引力,本篇我们来使用python爬取网页上的图片并保存在本地硬盘上,很兴奋吧, ...
利用Python爬取电影网站
#!/usr/bin/env python #coding = utf-8 ''' 本爬虫是用来爬取6V电影网站上的电影资源的一个小脚本程序,爬取到的电影链接会通过网页的形式显示出来 ''' impo ...
Scrapy爬取女神照片
使用Scrapy趴一趴美女图 Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自 ...

随机推荐

Gnucash的投资记录
投资活动主要涉及3个账户:资产(Asset)下的子账户记录投资金额,收入(Income)下的子账户记录投资收入,支出(Expense)下的子账户记录投资费用支出(例如银行手续费,证券交易费等). 以购 ...
ESP32-S2原生USB 烧录 TinyUF2 bootloader 加 CircuitPython
概述 ESP32-S2最令我心仪的改进是原生支持USB,即带有一个集成了收发器的全速 USB OTG 外设,符合 USB 1.1 规范,理论速度1.5m/s,利用得当将会是一个非常巨大的进步. 目前E ...
SpringBoot开发一
项目介绍牛客高级项目课,主要是完成牛客网的讨论社区的搭建.项目在github上. 涉及到的技术架构: Spring,SpringBoot,SpringMVC,MyBatis,Redis,Kafka( ...
012 基于FPGA的网口通信实例设计【转载】
一.网口通信设计分类通过上面其他章节的介绍,网口千兆通信,可以使用TCP或者UDP协议,可以外挂PHY片或者不挂PHY片,总结下来就有下面几种方式完成通信: 图8‑17基于FPGA的网口通信实例设计 ...
Docker源码安装附内网镜像安装演示
Docker源码安装附内网镜像安装演示系统版本要求当前系统版本:CentOS Linux release 7.9.2009 (Core) 内核版本:3.10.0-1160.el7.x86_64 注 ...
asp.net MVC 的路由匹配
二、vue组件化开发（轻松入门vue）
轻松入门vue系列 Vue组件化开发五.组件化开发 1. 组件注册组件命名规范组件注册注意事项全局组件注册局部组件注册 2. Vue调试工具下载 3. 组件间数据交互父组件向子组件传值 p ...
MySQL 实例空间使用率过高的原因和解决方法
用户在使用 MySQL 实例时,会遇到空间使用告警甚至超过实例限额被锁定的情况.在 RDS 控制台的实例基本信息中,即会出现如下信息: 本文将介绍造成空间使用率过高的常见原因及其相应的解决方法.对于M ...
【Spring 持久层】Spring 与 Mybatis 整合
持久层整合总述 1.Spring 框架为什么要与持久层技术进行整合? JavaEE开发需要持久层进行数据库的访问操作 JDBC.Hibernate.MyBatis 进行持久开发过程存在大量的代码冗余 ...
Spring boot中注册Servlet
Spring boot中注册Servlet 如何在spring boot项目中注册Servlet呢? 如何在spring boot项目中注册Servlet呢? 由于没有web.xml,无法直接在xml ...

我爬取交通学博士付费的GIS资源，每年被动收入2w很简单？

目录

1.背景介绍

2.技术路线

3.数据结果

4.数据分析

5.总结

6.后记

1.背景介绍

2.技术路线

3.数据结果

4.数据分析

（1）上传文件名称云图

（2）上传文件定价

（3）浏览量与下载量

（4）上传时间分析

5.总结

6.后记

我爬取交通学博士付费的GIS资源，每年被动收入2w很简单？的更多相关文章

随机推荐

热门专题