练习: bs4 简单爬取 + matplotlib 折线图显示 (关键词,职位数量、起薪)
要看一种技术在本地的流行程度,最简单的就是找招聘网站按关键词搜索。
比如今天查到的职位数量是vue 1296个,react 1204个,angular 721个。国际上比较流行的是react,本地市场中vue倒更受欢迎。所以学习的话可以先考虑前两个。
比如我们可以功利化一点:某些语言的薪资中值比较低,或者某些语言职位数比较少,那么我们做做比较,去学点别的吗。
分为两步,第一步爬取并保存成文本文件;第二步读取和解析文本文件显示折线图。(数据存在本地更好,免得频繁扒着玩,对方网站恨我。所以分为两步)
第一个文件:
按关键词,扒取页面 https://sou.zhaopin.com/jobs/searchresult.ashx?jl=北京
按薪资区间分为几挡:1~6000, 6001~12000, 12001~20000, 20001~30000, 30001~99999
# -*- coding: utf-8 -*-
# coding=utf-8 import requests
import bs4
import urllib def getPageTxt(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
r = requests.get(url, headers=headers)
soup = bs4.BeautifulSoup(r.content.decode("utf-8"), "lxml")
mylist = soup.select('.search_yx_tj em')
counts = mylist[0].text
return counts def getUrl(word, moneymin=0, moneymax=99999):
url = "http://sou.zhaopin.com/jobs/searchresult.ashx?jl=北京&kw="
url += word + "&p=1&isadv=0&isfilter=1&sf=" + str(moneymin) + "&st=" + str(moneymax)
return url # 一、查询关键词
word000 = "前端,python" #限最多6个值,中间半角逗号分隔
#word000 = "前端,python,php"
words = word000.split(",") # 二、工资区间(最小值为0,最大值为99999)
moneys = [0, 6000, 12000, 20000, 30000, 99999]
money_min = list(map(lambda x: x+1, moneys[:-1])) #[1, 6001, 12001, 20001, 30001]
money_max = list(map(lambda x: x, moneys[1:])) #[6000, 12000, 20000, 30000, 99999]
print(money_min)
print(money_max) # 三、url拼串,扒取页面,生成字典文件
'''
字典文件的结构为:(counts是职位数量,startmoney是起薪。这两个list,后面将用于生成折线图)
[
{'key': '前端', 'counts': [1105, 4485, 4394, 1549, 393], 'startmoney': [1, 6001, 12001, 20001, 30001]},
{'key': 'python', 'counts': [700, 2945, 4467, 2454, 984], 'startmoney': [1, 6001, 12001, 20001, 30001]}
] '''
ulist = []
for word in words:
li = {}
counts = []
for k in money_min:
idx = money_min.index(k) # 索引
url = getUrl(word, money_min[idx], money_max[idx]) # 拼串
counts.append(int(getPageTxt(url))) # 扒取 ,并转换为数字,存入counts列表
li["key"] = word
li["counts"] = counts
li["startmoney"] = money_min
ulist.append(li)
print(ulist)
f = open("counts000.txt", "w")
f.write(str(ulist))
f.close()
第二个文件:
注意这里有个坑:json载入的字符串,必须是双引号
# -*- coding: utf-8 -*-
# coding=utf-8 import json
f = open('counts000.txt', 'r+')
ulliststring = f.read()
f.close() ulliststring = ulliststring.replace("'", '"') # 注意这里有个坑!! json的标准格式:要求必须 只能使用双引号作为键 或者 值的边界符号,不能使用单引号,而且“键”必须使用边界符(双引号)
ullist = json.loads(ulliststring) import matplotlib
import matplotlib.pyplot as plt
matplotlib.rcParams['font.sans-serif'] = ['SimHei']# 为了能显示中文(而不是显示一个框)
matplotlib.rcParams['font.family']='sans-serif'
matplotlib.rcParams['axes.unicode_minus'] = False # 为了能显示负号(而不是显示一个框) colornames = ['#ff0000', '#ccee00', '#00aa00','#0000ff', '#9900ff', '#ff0099'] plt.title('bj薪资、职位数量折线表', color='#ff33a0')
plt.xlabel('薪资区间') # 设置X坐标轴标题
plt.ylabel('职位数量') # 设置Y坐标轴表
plt.xlim(0, 35000) # 设置坐标轴的范围
plt.ylim(0, 5000)
# plt.xticks([2,4])#设置x轴的标签间隔
# plt.yticks([4,16])#设置y轴的标签间隔 i = 0
for li in ullist:
x = li["startmoney"]
y = li["counts"]
plt.plot(x, y, colornames[i])
i += 1
plt.show()
写在后面:
可能会有些小bug,不做处理了:
比如colornames颜色我只设了6个,y轴最大值才设了5000,
折线图的x轴,代表的是起薪点。理想的应该是薪资区间的中值。
..
练习: bs4 简单爬取 + matplotlib 折线图显示 (关键词,职位数量、起薪)的更多相关文章
- 用BeautifulSoup简单爬取BOSS直聘网岗位
用BeautifulSoup简单爬取BOSS直聘网岗位 爬取python招聘 import requests from bs4 import BeautifulSoup def fun(path): ...
- java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
- Golang+chromedp+goquery 简单爬取动态数据
目录 Golang+chromedp+goquery 简单爬取动态数据 Golang的安装 下载golang软件 解压golang 配置golang 重新导入配置 chromedp框架的使用 实际的代 ...
- Python简单爬取Amazon图片-其他网站相应修改链接和正则
简单爬取Amazon图片信息 这是一个简单的模板,如果需要爬取其他网站图片信息,更改URL和正则表达式即可 1 import requests 2 import re 3 import os 4 de ...
- 一、python简单爬取静态网页
一.简单爬虫框架 简单爬虫框架由四个部分组成:URL管理器.网页下载器.网页解析器.调度器,还有应用这一部分,应用主要是NLP配合相关业务. 它的基本逻辑是这样的:给定一个要访问的URL,获取这个ht ...
- 用python爬虫简单爬取 笔趣网:类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...
- python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下 使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
- 网DAI之家简单爬取
用requests和bs做个简单的爬取网DAI之家的例子. 只做笔记用. #!/usr/bin/python3 import requestsfrom bs4 import BeautifulSoup ...
- python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
随机推荐
- idea打开dashboard
1.编辑workspace.xml文件,搜索 “RunDashboard” 节点 2.在component节点下增加option <option name="configuration ...
- web爬虫,requests请求
requests请求,就是用yhthon的requests模块模拟浏览器请求,返回html源码 模拟浏览器请求有两种,一种是不需要用户登录或者验证的请求,一种是需要用户登录或者验证的请求 一.不需要用 ...
- HttpClient设置连接超时时间
https://www.cnblogs.com/winner-0715/p/7087591.html 使用HttpClient,一般都需要设置连接超时时间和获取数据超时时间.这两个参数很重要,目的是为 ...
- Ubuntu 16.04 LTS 安装 miniconda
Ubuntu 16.04 LTS 安装 miniconda 下载 miniocnda 的 bash 文件下载链接 https://conda.io/miniconda.html ,我选择的是 64-b ...
- Scrapy 原理
Scrapy 原理 一.原理 scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架.可以应用在包括数据挖掘,信息处理或存储历史数据等一系列程序中. 二.工作流程 Scrapy Engi ...
- zabbix自定义监控主机
目的: 从头开始自定义监控主机的磁盘.CPU.运行内存等 配置自动发现主机:设置ip地址范围,检查类型为zabbix客户端,端口未10050,键值为system.uname,设置唯一性准则为ip地址 ...
- C 函数传参问题
1. 传指针 传入指针时会改变指针指向的内容 2. 传变量 传入变量,不会改变变量的内容,只是使用变量的数据
- 剑指offer 5.栈和队列 用两个栈实现队列
题目描述 用两个栈来实现一个队列,完成队列的Push和Pop操作. 队列中的元素为int类型. 解题思路:1,整体思路是元素先依次进入栈1,再从栈1依次弹出到栈2,然后弹出栈2顶部的元素,整个过程 ...
- 浅析MSIL中间语言——基础篇(转)
来自:https://www.cnblogs.com/dwlsxj/p/MSIL.html 一.开篇 研究MSIL纯属于个人喜好,说在前面MSIL应用于开发的地方很少,但是很大程度上能够帮着我们理解底 ...
- ros的一些设置
端口映射规则,dst-address填写你的公网地址,乱写也可以,到后面会通过定时脚本自动更新 /ip firewall nat add action=dst-nat chain=dstnat com ...