Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨
2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下 一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒

数据分析
官方网址为 https://www.clouderwork.com/
进入全部项目列表页面,很容易分辨出来项目的分页方式
get异步请求
Request URL:https://www.clouderwork.com/api/v2/jobs/search?ts=1546395904852&keyword=&budget_range=&work_status=&pagesize=20&pagenum=3&sort=1&scope=
Request Method:GET
Status Code:200 OK
参数如下
ts:1546395904852 # 时间戳
keyword: # 搜索关键字,查找全部,使用空即可
budget_range: # 暂时无用
work_status:
pagesize:20 # 每页数据量
pagenum:3 # 页码
sort:1 # 排序规则
scope:
下面就是拼接请求了,确定一下 request 相关参数
Accept:application/json, text/javascript, */*; q=0.01
Accept-Encoding:gzip, deflate, br
Accept-Language:zh-CN,zh;q=0.9
Connection:keep-alive
Cookie:
Host:www.clouderwork.com
Referer:https://www.clouderwork.com/jobs?keyword=
User-Agent:Mozilla/5.0 你自己的UA QQBrowser/10.3.3006.400
X-Requested-With:XMLHttpRequest
爬虫采用scrapy
这个网站没有反爬措施,所以直接上就可以了
# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
import time
import json
class CloudeworkSpider(scrapy.Spider):
name = 'cloudework'
allowed_domains = ['www.clouderwork.com']
start_url = 'https://www.clouderwork.com/api/v2/jobs/search?ts={times}&keyword=&budget_range=&work_status=&pagesize={pagesize}&pagenum={pagenum}&sort=1&scope='
def start_requests(self):
for page in range(1,353):
yield Request(self.start_url.format(times=time.time(),pagesize=20,pagenum=page))
def parse(self, response):
json_data = json.loads(response.text)
for item in json_data["jobs"]:
yield item
数据存储到 mongodb中,合计爬取到 7000+ 数据
数据分析
从mongdo读取数据
import pymongo
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
# 连接数据库
client = pymongo.MongoClient("localhost",27017)
cloud = client["cloud"]
collection = cloud["cloudework"]
# 加载数据
data = DataFrame(list(collection.find()))
结果显示为 [7032 rows x 35 columns]
查看数据基本情况
直接使用data.shape 可以查看一下数据的基本情况
查看一下工期的分布
periods = data.groupby(["period"]).size()
x = periods.index
y = periods.values
plt.figure()
plt.scatter(x,y, color="#03a9f4", alpha = 0.5) # 绘制图表
plt.xlim((0, 360))
plt.ylim((0, 2000))
plt.xlabel("工期")
plt.ylabel("项目数")
plt.show()
可以看到数据散点集中在0~50天
过滤一下40天以内的数据
periods = data.groupby(["period"]).size().reset_index(name="count")
df = periods[periods["period"]<=40]
x = df["period"]
y = df["count"]
plt.figure()
plt.scatter(x,y,label='项目数折线',color="#ff44cc")
plt.title("工期对应项目数")
plt.xlim((0, 360))
plt.ylim((0, 500))
plt.show()
发现竟然有1天工期的任务,可以瞅瞅都是什么任务
periods = data.groupby(["period"]).size()
data[data["period"]==1][["name","period"]]
果然比较简单唉~~不过也没有多少钱,有个急活,1000¥
查看阅览量Top10
views = data["views_count"]
top10 = views.sort_values(ascending=False)[:10]
top10 = data[data.views_count.isin(top10.values)][["name","views_count","period","summary"]]
top10
查阅一下开发模式
看一下什么类型的项目比较多???数据上反应,Web网站和APP最多了,所以这方面的技能的大神么,可以冲一波了
其实还有很多比较有意思的数据分析结果,有需要数据集的可以给我个评论 我发给你
新年第一篇博客结束liao~~
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy的更多相关文章
- Python爬虫入门教程 41-100 Fiddler+夜神模拟器+雷电模拟器配置手机APP爬虫部分
爬前叨叨 从40篇博客开始,我将逐步讲解一下手机APP的爬虫,关于这部分,我们尽量简化博客内容,在这部分中可能涉及到一些逆向,破解的内容,这部分尽量跳过,毕竟它涉及的东西有点复杂,并且偏离了爬虫体系太 ...
- Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
- Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程 爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
- Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...
- Python爬虫入门教程 3-100 美空网数据爬取
美空网数据----简介 从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...
- Python基础入门教程
Python基础入门教程 Python基础教程 Python 简介 Python环境搭建 Python 基础语法 Python 变量类型 Python 运算符 Python 条件语句 Python 循 ...
- 【网络爬虫入门05】分布式文件存储数据库MongoDB的基本操作与爬虫应用
[网络爬虫入门05]分布式文件存储数据库MongoDB的基本操作与爬虫应用 广东职业技术学院 欧浩源 1.引言 网络爬虫往往需要将大量的数据存储到数据库中,常用的有MySQL.MongoDB和Red ...
- Web开发入门教程:Pycharm轻松创建Flask项目
Web开发入门教程:Pycharm轻松创建Flask项目 打开Pycharm的file,选择创建新的项目,然后弹出对话框,我们可以看到里面有很多的案例,Flask.Django等等,我们选择生成Fla ...
- Python爬虫入门教程 4-100 美空网未登录图片爬取
美空网未登录图片----简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可 ...
随机推荐
- System Error. Code:1722. RPC服务器不可用解决办法
原文链接(转载请注明出处):System Error. Code:1722. RPC服务器不可用解决办法 问题 最近在软件设计上机课的时候,使用 starUML 建模工具画UML图的时候总是弹出一条如 ...
- 第三次 orm自动建表及遇到的问题
Hibernate支持自动建表,在开发阶段很方便,可以保证hbm与数据库表结构的自动同步. 方法很简单,在hibernate.cfg.xml内加入 <property name="hi ...
- TensorFlow-谷歌深度学习库 文件I/O Wrapper
这篇文章主要介绍一下TensorFlow中相关的文件I/O操作,我们主要使tf.gfile来完成. Exists tf.gfile.Exists(filename) 用来判断一个路径是否存在,如果存在 ...
- CDN及CDN加速原理
本想自己写这个主题的文章,但网上已经有人写了一篇非常好的文章,觉得难以望其项背.就没有必要再写,直接转载如下: 在不同地域的用户访问网站的响应速度存在差异,为了提高用户访问的响应速度.优化现有Inte ...
- 消息中间件activemq的使用场景介绍(结合springboot的示例)
一.消息队列概述 消息队列中间件是分布式系统中重要的组件,主要解决应用耦合,异步消息,流量削锋等问题.实现高性能,高可用,可伸缩和最终一致性架构.是大型分布式系统不可缺少的中间件. 目前在生产环境,使 ...
- 关于Linux虚拟化技术KVM的科普 科普一(先用起来!)
是骡子是马是拉出来溜溜,通过<KVM虚拟化技术之使用Qemu-kvm创建和管理虚拟机>跑一遍,就会对KVM.QEMU-KVM有个大概的认识了. qemu-kvm已经不单独存在,qemu加上 ...
- JavaScript-通过原型继承一个对象
<script> //通过原型继承一个对象 //inherit()返回了一个继承原自原型对象P的属性的新对象 //這裡使用ECMAScript5中的object.create()函數(如果 ...
- Spring Webflux: Kotlin DSL [片断]
原文链接:https://dzone.com/articles/spring-webflux-kotlin-dsl-snippets 作者:Biju Kunjummen 译者:Jackie Tang ...
- Access Logging Tomcat
73.6 Configure Access Logging server.tomcat.accesslog.buffered=true # Buffer output such that it is ...
- thinter中lable标签控件(二)
lable控件 对于tkinter来说,学起来很简单,只要设置好相应的参数即可出结果,所以不用刻意去记住这些参数.学习一遍后理解每个参数的作用是什么即可. 当下次用到的时候来笔记上看一下就行. 内容很 ...