目录

1.背景介绍

2.技术路线

3.数据结果

4.数据分析

5.总结

6.后记

1.背景介绍

某周末闲来无事,顺手打开了CSDN,看到了一个人发布的收费GIS资源,售价是¥19.9,POI数据也有人买吗?这些都是免费的啊,打开了博主的主页。看到她上传的资源数量,被吓到了:

这个博主,一共上传了8900个文件?我随意点开了她的一个资源,发现都是几个浏览,0下载:



这位博士师姐不是白费劲吗?

不对!

天下熙熙,皆为利来;天下攘攘,皆为利往。

如果不赚钱,也不至于上传这么多啊?何况她是一位博士,不至于浪费自己的时间。

我想弄明白,她能从这里面到底获利多少?付出的时间是否和收益成正比?

因此我写了几个python脚本,用以回答上诉两个问题。

2.技术路线

在这个爬虫中,使用到的环境与工具有:Python3.6、notepad++、BeautifulSoup模块包。唯一需要用到的外部模块包是BeautifulSoup,这是一个网页分析工具,可以准确提取网页标签。其他的都是Python内置的函数。

整体的技术路线图如下所示:



在进行编程中,需要注意的三个技术难点:

1.CSDN的个人主页资源介绍是一个瀑布流网页,最多加载100个list,因此需要找到该瀑布流网页的规律;

2.CSDN网页有反爬机制,因此需要频繁更换浏览器标识,;

3.几千个网线,使用多线程函数,比如700个线程同时爬;

上面是大致的思路,详细的技术流程与代码,我会分享在下一篇博客中。

3.数据结果

通过爬虫,我最后得到了所有网页。我选取的时间段是2020/11/24-2021/7/12,累计是7700个资源详细信息。整理得到的资源由:数据名称、资源类型、数据大小、数据浏览量、数据下载量、单价、总价、浏览下载比

4.数据分析

待数据清洗完毕后,我迫不及待的计算了一下7700个文件,

一共赚了多少:17670.99元。

好像也不是很多吧?这可是7700个资源啊,多费时间,看起来不值得。待我继续往下分析,就觉得很值。

(1)上传文件名称云图

一共是两个云图,

第一个是名称没有数据清洗的云图:



第二个是名称经过数据清洗的云图:



主观看上去,都是地信、交通类的资源,免费获取大部分都可以做到。

(2)上传文件定价

根据7700个资源进行单价分析,制作了定价频率图,如下所示:



可以看到,大部分定价都是14.9,是比较亲民的价格,对于不擅长找资源的顾客,花这点钱,真的很经济。

(3)浏览量与下载量



博主一共上传了7700个文件,其中,有下载的只占7.4%,可转化率是比较低的。

(4)上传时间分析

我们来看看这位博主,喜欢什么时候上传文件:



都是工作日的下午,正是上班的时候。除了学生,应该也没人会有空余时间。下面是上传天数分析,就很有意思了。为什么,请往下看:

从2020年11月24日开始上传文件,到2021年7月12日,总共只花费了15天时间。相当于每一天净赚1000元,而且这个是被动收入。以后即使不做任何事,每年都有2w左右的收入。

5.总结

结论:

1.花费了共计15天,每天下午上传资源,获得了每年不少于2W的被动收入(往后即使不做任何事情),这个很值!

2.你所知道的免费资源,别人不一定知道,即使是收智商税,也是方便了大家。

3.作为学地信的学生,之前没有想到这么轻松的赚钱方式,汗颜。

讨论:

1.我统计的博主投入时间,只是上传时间,实际上找资源的时间可能更多。

2.这个博主也不是普通人,即使发布的资源大部分是网上可以找到的免费资源,但是能上传到快1W个资源了,这份耐心让人敬佩。这一份恒心,不管去哪都能赚到钱。

6.后记

我和这个博主加上微信了,她给我说:





1.她不是学生(我猜应该是国企或者事业单位吧,工作日上传资源,普通的996没有这么闲);

2.做资源上传,很累人;

3.网站会抽成,而且还得交税,到手大概是50%左右。

不管怎么说,她始终方便了别人,也方便了自己。希望大家都能找到合法合理的生财之道。

欢迎关注公众号:锐多宝的地理空间;

我爬取交通学博士付费的GIS资源,每年被动收入2w很简单?的更多相关文章

  1. python爬虫实践(二)——爬取张艺谋导演的电影《影》的豆瓣影评并进行简单分析

    学了爬虫之后,都只是爬取一些简单的小页面,觉得没意思,所以我现在准备爬取一下豆瓣上张艺谋导演的“影”的短评,存入数据库,并进行简单的分析和数据可视化,因为用到的只是比较多,所以写一篇博客当做笔记. 第 ...

  2. 手把手教你爬取B站弹幕!

    效果 输入要爬取的视频的BV号即可爬取该视频的弹幕. 过程 基本思路 基本的思路很简单,还是老步骤: 1.构造爬取的url 2.解析返回的数据 3.使用json或Xpath或正则表达式提取数据 4.保 ...

  3. Scrapy-redis分布式爬虫爬取豆瓣电影详情页

    平时爬虫一般都使用Scrapy框架,通常都是在一台机器上跑,爬取速度也不能达到预期效果,数据量小,而且很容易就会被封禁IP或者账号,这时候可以使用代理IP或者登录方式爬,然而代理IP很多时候都很鸡肋, ...

  4. 教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

    本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...

  5. 【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

    原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

  6. 爬虫系列(1)-----python爬取猫眼电影top100榜

    对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...

  7. Python爬虫-爬取科比职业生涯高清图集

    前面学习了Python爬取豆瓣电影Top250的数据,爬取的信息是电影信息的文本信息,但是在互联网上流行的图片才有更大的吸引力,本篇我们来使用python爬取网页上的图片并保存在本地硬盘上,很兴奋吧, ...

  8. 利用Python爬取电影网站

    #!/usr/bin/env python #coding = utf-8 ''' 本爬虫是用来爬取6V电影网站上的电影资源的一个小脚本程序,爬取到的电影链接会通过网页的形式显示出来 ''' impo ...

  9. Scrapy爬取女神照片

    使用Scrapy趴一趴美女图 Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自 ...

随机推荐

  1. Linux下的USB总线驱动(一)

    版权所有,转载请说明转自 http://my.csdn.net/weiqing1981127 一.USB理论 1.      USB概念概述 USB1.0版本速度1.5Mbps(低速USB) USB1 ...

  2. tomcat及springboot实现Filter、Servlet、Listener

    tomcat实现: 核心类org.apache.catalina.startup.ContextConfig //支持注解 see:org.apache.catalina.deploy.WebXml ...

  3. MySQL-16-主从复制进阶

    延时从库 介绍 延时从库: 是我们人为配置的一种特殊从库,人为配置从库和主库延时N小时 为什么要有延时从库 数据库故障 物理损坏,普通的主从复制非常擅长解决物理损坏 逻辑损坏,普通主从复制没办法解决逻 ...

  4. 开发一个分布式IM(即时通信)系统!

    作者:小傅哥 博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言 这知识学的,根本没有忘的快呀?! 是不是感觉很多资料,点收藏起来爽.看视频时候嗨.读 ...

  5. Python 赋值、浅拷贝、深拷贝之间区别

    赋值 不会开辟新的内存空间,是对原对象值的引用 当原对象值,改变后,赋值的变量也会随之改变 浅拷贝 只会拷贝最外层的对象,会开辟新的内存空间,和原对象是互相独立的 如果这个对象有嵌套对象的话,浅拷贝只 ...

  6. http扩展小插件

    支持.net framework4.5.1,.net core2.0及以上 应用层需要引用包Kogel.Net,Nuget上可以下载安装. 或者使用Nuget命令添加包 Install-Package ...

  7. Windows安装Svn客户端

    一.下载程序 官网地址,选择最新64位下载. 下载完成 二.安装过程 点击下一步 点击下一步 选择安装目录 点击安装 安装完成 三.修改中文 下载中文包 下载完成 点击下一步 安装完成 点击设置 选择 ...

  8. RHEL 7 “There are no enabled repos” 的解决方法

    RHEL 7 "There are no enabled repos"  的解决方法 [root@system1 Desktop]# yum install squidLoaded ...

  9. 如果被问到 HTTP 协议,你真的能讲清楚吗?

    前段时间,在和许久未见的老同学聊天时,突然被问到 http 协议到底是什么?脑海里面第一时间想起来的就是 request 请求.response 响应之类的词汇,但是这样讲他真的能知道是什么吗?我反问 ...

  10. WPF 实现完全可控制的漂亮自定义窗口

    在WPF界面开发中,有时候不想用系统的死板的窗口,想要来点新花样,常会自定义窗口. 那么,先抛出问题,想搞出下面这样的窗口,该咋整 ? aa  下面看一个啥也没设置过的普通窗口,这样的窗口,我们只能控 ...