爬前叨叨

2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下 一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒

![python3爬虫入门教程](https://img-blog.csdnimg.cn/20190102101929924.gif#pic_center =220x200)

数据分析

官方网址为 https://www.clouderwork.com/

进入全部项目列表页面,很容易分辨出来项目的分页方式

get异步请求

Request URL:https://www.clouderwork.com/api/v2/jobs/search?ts=1546395904852&keyword=&budget_range=&work_status=&pagesize=20&pagenum=3&sort=1&scope=
Request Method:GET
Status Code:200 OK

参数如下

	ts:1546395904852  # 时间戳
keyword: # 搜索关键字,查找全部,使用空即可
budget_range: # 暂时无用
work_status:
pagesize:20 # 每页数据量
pagenum:3 # 页码
sort:1 # 排序规则
scope:

下面就是拼接请求了,确定一下 request 相关参数

Accept:application/json, text/javascript, */*; q=0.01
Accept-Encoding:gzip, deflate, br
Accept-Language:zh-CN,zh;q=0.9
Connection:keep-alive
Cookie:
Host:www.clouderwork.com
Referer:https://www.clouderwork.com/jobs?keyword=
User-Agent:Mozilla/5.0 你自己的UA QQBrowser/10.3.3006.400
X-Requested-With:XMLHttpRequest

爬虫采用scrapy

这个网站没有反爬措施,所以直接上就可以了

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
import time
import json class CloudeworkSpider(scrapy.Spider):
name = 'cloudework'
allowed_domains = ['www.clouderwork.com']
start_url = 'https://www.clouderwork.com/api/v2/jobs/search?ts={times}&keyword=&budget_range=&work_status=&pagesize={pagesize}&pagenum={pagenum}&sort=1&scope=' def start_requests(self):
for page in range(1,353):
yield Request(self.start_url.format(times=time.time(),pagesize=20,pagenum=page)) def parse(self, response):
json_data = json.loads(response.text)
for item in json_data["jobs"]:
yield item

数据存储到 mongodb中,合计爬取到 7000+ 数据

数据分析

从mongdo读取数据

import pymongo
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
# 连接数据库
client = pymongo.MongoClient("localhost",27017)
cloud = client["cloud"]
collection = cloud["cloudework"] # 加载数据
data = DataFrame(list(collection.find()))

结果显示为 [7032 rows x 35 columns]

查看数据基本情况

直接使用data.shape 可以查看一下数据的基本情况

查看一下工期的分布

periods = data.groupby(["period"]).size()

x = periods.index
y = periods.values
plt.figure()
plt.scatter(x,y, color="#03a9f4", alpha = 0.5) # 绘制图表
plt.xlim((0, 360))
plt.ylim((0, 2000))
plt.xlabel("工期")
plt.ylabel("项目数")
plt.show()

可以看到数据散点集中在0~50天

过滤一下40天以内的数据

periods = data.groupby(["period"]).size().reset_index(name="count")

df = periods[periods["period"]<=40]

x = df["period"]
y = df["count"] plt.figure()
plt.scatter(x,y,label='项目数折线',color="#ff44cc")
plt.title("工期对应项目数")
plt.xlim((0, 360))
plt.ylim((0, 500))
plt.show()

发现竟然有1天工期的任务,可以瞅瞅都是什么任务

periods = data.groupby(["period"]).size()
data[data["period"]==1][["name","period"]]

果然比较简单唉~~不过也没有多少钱,有个急活,1000¥

查看阅览量Top10

views = data["views_count"]
top10 = views.sort_values(ascending=False)[:10] top10 = data[data.views_count.isin(top10.values)][["name","views_count","period","summary"]]
top10

查阅一下开发模式

看一下什么类型的项目比较多???数据上反应,Web网站和APP最多了,所以这方面的技能的大神么,可以冲一波了

其实还有很多比较有意思的数据分析结果,有需要数据集的可以给我个评论 我发给你

新年第一篇博客结束liao~~

Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy的更多相关文章

  1. Python爬虫入门教程 41-100 Fiddler+夜神模拟器+雷电模拟器配置手机APP爬虫部分

    爬前叨叨 从40篇博客开始,我将逐步讲解一下手机APP的爬虫,关于这部分,我们尽量简化博客内容,在这部分中可能涉及到一些逆向,破解的内容,这部分尽量跳过,毕竟它涉及的东西有点复杂,并且偏离了爬虫体系太 ...

  2. Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分

    1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...

  3. Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分

    1. Python爬虫入门教程 爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...

  4. Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy

    爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...

  5. Python爬虫入门教程 3-100 美空网数据爬取

    美空网数据----简介 从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...

  6. Python基础入门教程

    Python基础入门教程 Python基础教程 Python 简介 Python环境搭建 Python 基础语法 Python 变量类型 Python 运算符 Python 条件语句 Python 循 ...

  7. 【网络爬虫入门05】分布式文件存储数据库MongoDB的基本操作与爬虫应用

    [网络爬虫入门05]分布式文件存储数据库MongoDB的基本操作与爬虫应用 广东职业技术学院  欧浩源 1.引言 网络爬虫往往需要将大量的数据存储到数据库中,常用的有MySQL.MongoDB和Red ...

  8. Web开发入门教程:Pycharm轻松创建Flask项目

    Web开发入门教程:Pycharm轻松创建Flask项目 打开Pycharm的file,选择创建新的项目,然后弹出对话框,我们可以看到里面有很多的案例,Flask.Django等等,我们选择生成Fla ...

  9. Python爬虫入门教程 4-100 美空网未登录图片爬取

    美空网未登录图片----简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可 ...

随机推荐

  1. Django入门二之模板语法

    一. 模板变量 Context传入的可以是一个str,dict,list,甚至是一个实例对象 在html中如何调用这些对象进行取值呢 1. 变量名 {{ variable }} 返回字符串,无论是st ...

  2. 在C++98基础上学习C++11新特性

    自己一直用的是C++98规范来编程,对于C++11只闻其名却没用过其特性.近期因为工作的需要,需要掌握C++11的一些特性,所以查阅了一些C++11资料.因为自己有C++98的基础,所以从C++98过 ...

  3. QT5:C++实现基于Multimedia的音乐播放器(序)

    前段时间C++课设,决定做个播放器,于是参考了网上的代码后,做了个很简陋的音乐播放器(只写了MP3格式)出来,虽然功能甚少,但还是决定把过程记录一下. 成品如下图: 播放器功能: 上.下一首,音量控制 ...

  4. 杨老师课堂之JavaScript定时器_农夫山泉限时秒杀案例

    预览效果图: 使用到的知识点: 定时器 setInterval(函数,毫秒):在指定的毫秒数后调用函数或执行一段代码 取消定时器 clearInterval:取消由setInterval设置的定时器 ...

  5. js创建数组

    var a1 =  new Array(); var a2 =  new Array(7); var a3 =  new Array(100,"0",true); var a4 = ...

  6. 对于Javascript 执行上下文的理解

    转载无源头地址 在这篇文章中,将比较深入地阐述下执行上下文 – JavaScript中最基础也是最重要的一个概念.相信读完这篇文章后,你就会明白javascript引擎内部在执行代码以前到底做了些什么 ...

  7. 阅读GIC-500 Technical Reference Manual笔记

    GIC-500是ARM GICv3的一个实现,它只支持ARMv8核和实现了GIC Stream协议的GIC CPU Interface,比如Cortex-A53. 关于GIC有四份相关文档:<C ...

  8. Python 字典(Dictionary) has_key()方法

    描述 Python 字典(Dictionary) has_key() 函数用于判断键是否存在于字典中,如果键在字典dict里返回true,否则返回false. 语法 has_key()方法语法:dic ...

  9. Python 下载win32api 模块

    终端输入 pip install pypiwin32

  10. Java 读书笔记 (十七) Java 重写(Override)与重载(Overload)

    重写(Override) 重写是子类对父类的允许访问的方法的实现过程重新编写,返回值和形参都不能改变,即外壳不变,核心重写. // 如果重写不是相当于重新定义了一个方法?那为什么不直接写,还要exte ...