python3抓取到的拉勾数据统计】的更多相关文章

趁着最近有时间写了个拉勾爬虫抓取了后端.前端和移动端技术岗位的数据,总共大约6多万条记录,对其取前十名进行统计 按地域划分: 可以看出北上广深杭的数量远远超出其它城市,机会相对较多 2. 按融资阶段来看: 初创型未融资的居多,已上市及A轮的差不多,C轮是最少的,难道就是传说中的C轮魔咒 3. 按所需最低学历来看: 本科占绝对主力,大专次之,看来这行还是有一定的门槛 4. 按行业领域来看: 移动互联网占绝对统治地位,这是响应"大众创业,万众创新"的互联网+? 5. 按职位类型来看: 0,…
import pymssql #导入sqlserver连接池模块 import csv #导出csv文件使用模块 conn=pymssql.connect('服务器ip','用户名','密码','数据库名')#连接数据库 cursor=conn.cursor() #打开数据库连接池 #执行sql命令 cursor.execute('select interest from Apply where interest is not null and interest<>%s',"非微信导…
#-*- coding:utf-8 -*- __author__ = "carry" import requests,json for x in range(1, 15): url ='http://www.lagou.com/jobs/positionAjax.json' #proxies = {"http":"http://125.105.17.229:808"} headers={'User-Agent':'Mozilla/5.0 (Win…
今天在用python实现爬虫的时候,就想看一下用c#实现同样的功能到底会多出来多少code,结果写着写着干脆把页面也简单的写一个出来,方便调试, 大致流程如下: 1.分析拉勾数据 2.查找拉勾做了哪些反爬虫限制 3.抓取数据,show page 过程中用到一个HtmlAgilityPack第三方库,获取热门城市的时候使用XPath表达式抓取数据 解析JSON使用的是JSON.NET,一如既往的好用 github:https://github.com/hxd1230/XD.Job.Spider.g…
上回说到我们如何如何把拉勾的数据抓取下来的,既然获取了数据,就别放着不动,把它拿出来分析一下,看看这些数据里面都包含了什么信息.(本次博客源码地址:https://github.com/MaxLyu/Lagou_Analyze) 一.前期准备 由于上次抓的数据里面包含有 ID 这样的信息,我们需要将它去掉,并且查看描述性统计,确认是否存在异常值或者缺失值. read_file = "analyst.csv" # 读取文件获得数据 data = pd.read_csv(read_file…
拉勾因其结构化的数据比较多因此过去常常被爬,所以在其多次改版之下变得难爬.不过只要清楚它的原理,依然比较好爬.其机制主要就是AJAX异步加载JSON数据,所以至少在搜索页面里翻页url不会变化,而且数据也不会出现在源代码里. 数据解析 这是深圳地区的数据分析师页面,用Chrome检查打开.在XHR中可以看到一个以postionAjax.json开头的脚本,打开Preview看一下,可以看到: 可以发现这些数据与前端的数据一致,此时我们已经找到了数据入口,就可以开始爬了. 数据爬取 在Header…
最近开始找工作,本人苏州,面了几家都没有结果很是伤心.在拉勾上按照城市苏州关键字.NET来搜索一共才80来个职位,再用薪水一过滤,基本上没几个能投了.再加上最近苏州的房价蹭蹭的长,房贷压力也是非常大,所以有点想往上海去发展.闲来无聊写了个小爬虫,爬了下苏州跟上海的.NET职位的信息,然后简单对比了一下. 是的小弟擅长.NET,为啥用nodejs?因为前几天有家公司给了个机会可以转nodejs,所以我是用来练手的,不过后来也泡汤了,但是还是花两晚写完了.刚学,代码丑轻喷哈! 一:如何爬取拉勾的数据…
前些天, 用 Xamarin.Forms (XF) 将就着写了个拉勾的 UWP 和 Android 的客户端. XF 对 Android  和 IOS 的支持做的很到位, 但是对 UWP 的支持目前仅限于预览版, "预留" 了很多BUG. 本想着等 Xamarin 团队尽快发部更新, 我好改掉这些 BUG, 但是苦等了个把月, 发部的 DLL 不但没有修改我所遇到的这些 BUG, 反而 BUG 越来越多了... 算鸟, 我也不等你了, 直接新开个项目, 直接写个 UWP 的... 源码…
使用Excel可以完成很多专业软件才能完成的数据统计.分析工作,比如:直方图.相关系数.协方差.各种概率分布.抽样与动态模拟.总体均值判断,均值推断.线性.非线性回归.多元回归分析.时间序列等.本专题将教您完成几种最常用的专业数据分析工作. 注意:所有操作将通过Excel“分析数据库”工具完成,如果您没有安装这项功能,请依次选择“工具”-“加载宏”,在安装光盘中加载“分析数据库”.加载成功后,可以在“工具”下拉菜单中看到“数据分析”选项.     直方图     某班进行期中考试后,需要统计各分…
文章大纲 一.多渠道打包与数据统计介绍二.友盟实现多渠道打包实战三.友盟数据统计实战四.项目源码下载五.参考文章   一.多渠道打包与数据统计介绍   多渠道打包,相信很多同学都知道.在Android Studio中只要经过配置,就能打出对应市场的渠道包.打过包的同学可能都会有这样的感受:散热器疯狂地转.打包速度那叫一个慢.这时候除了无奈,还是无奈.  app上线后,一般公司都希望跟踪app在市场上的使用情况.包括新增用户.活跃用户.渠道信息.错误信息等,还有例如商城类的app,需要跟踪用户最喜…