ruby 爬虫爬取拉钩网职位信息，产生词云报告

思路：1.获取拉勾网搜索到职位的页数

2.调用接口获取职位id

3.根据职位id访问页面，匹配出关键字

url访问采用unirest，由于拉钩反爬虫，短时间内频繁访问会被限制访问，所以没有采用多线程，而且每个页面访问时间间隔设定为10s，通过nokogiri解析页面，正则匹配只获取技能要求中的英文单词，可能存在数据不准确的情况

数据持久化到excel中，采用ruby erb生成word_cloud报告

爬虫代码：

require 'unirest'

require 'uri'

require 'nokogiri'

require 'json'

require 'win32ole'

@position = '测试开发工程师'

@city = '杭州'

# 页面访问

def query_url(method, url, headers:{}, parameters:nil)

  case method

    when :get

      Unirest.get(url, headers:headers).body

    when :post

      Unirest.post(url, headers:headers, parameters:parameters).body

  end

end

# 获取页数

def get_page_num(url)

  html = query_url(:get, url).force_encoding('utf-8')

  html.scan(/<span class="span totalNum">(\d+)<\/span>/).first.first

end

# 获取每页显示的所有职位的id

def get_positionsId(url, headers:{}, parameters:nil)

  response = query_url(:post, url, headers:headers, parameters:parameters)

  positions_id = Array.new

  response['content']['positionResult']['result'].each{|i| positions_id << i['positionId']}

  positions_id

end

# 匹配职位英文关键字

def get_skills(url)

  puts "loading url: #{url}"

  html = query_url(:get, url).force_encoding('utf-8')

  doc = Nokogiri::HTML(html)

  data = doc.css('dd.job_bt')

  data.text.scan(/[a-zA-Z]+/)

end

# 计算词频

def word_count(arr)

  arr.map!(&:downcase)

  arr.select!{|i| i.length>1}

  counter = Hash.new(0)

  arr.each { |k| counter[k]+=1 }

  # 过滤num=1的数据

  counter.select!{|_,v| v > 1}

  counter2 = counter.sort_by{|_,v| -v}.to_h

  counter2

end

# 转换

def parse(hash)

  data = Array.new

  hash.each do |k,v|

    word = Hash.new

    word['name'] = k

    word['value'] = v

    data << word

  end

  JSON data

end

# 持久化数据

def save_excel(hash)

  excel = WIN32OLE.new('Excel.Application')

  excel.visible = false

  workbook = excel.Workbooks.Add()

  worksheet = workbook.Worksheets(1)

  # puts hash.size

  (1..hash.size+1).each do |i|

    if i == 1

      # puts "A#{i}:B#{i}"

      worksheet.Range("A#{i}:B#{i}").value = ['关键词', '频次']

    else

      # puts i

      # puts hash.keys[i-2], hash.values[i-2]

      worksheet.Range("A#{i}:B#{i}").value = [hash.keys[i-2], hash.values[i-2]]

    end

  end

  excel.DisplayAlerts = false

  workbook.saveas(File.dirname(__FILE__)+'\lagouspider.xls')

  workbook.saved = true

  excel.ActiveWorkbook.Close(1)

  excel.Quit()

end

# 获取页数

url = URI.encode("https://www.lagou.com/jobs/list_#@position?city=#@city&cl=false&fromSearch=true&labelWords=&suginput=")

num = get_page_num(url).to_i

puts "存在 #{num} 个信息分页"

skills = Array.new

(1..num).each do |i|

  puts "定位在第#{i}页"

  # 获取positionsid

  url2 = URI.encode("https://www.lagou.com/jobs/positionAjax.json?city=#@city&needAddtionalResult=false")

  headers = {Referer:url, 'User-Agent':i%2==1?'Mozilla/5.0':'Chrome/67.0.3396.87'}

  parameters = {first:(i==1), pn:i, kd:@position}

  positions_id = get_positionsId(url2, headers:headers, parameters:parameters)

  positions_id.each do |id|

    # 访问具体职位页面,提取英文技能关键字

    url3 = "https://www.lagou.com/jobs/#{id}.html"

    skills.concat get_skills(url3)

    sleep 10

  end

end

count = word_count(skills)

save_excel(count)

@data = parse(count)

效果展示：

ruby 爬虫爬取拉钩网职位信息，产生词云报告的更多相关文章

selelinum+PhantomJS 爬取拉钩网职位
使用selenium+PhantomJS爬取拉钩网职位信息,保存在csv文件至本地磁盘拉钩网的职位页面,点击下一页,职位信息加载,但是浏览器的url的不变,说明数据不是发送get请求得到的. 我们不 ...
21天打造分布式爬虫-Selenium爬取拉钩职位信息（六）
6.1.爬取第一页的职位信息第一页职位信息 from selenium import webdriver from lxml import etree import re import time c ...
Python3 Scrapy + Selenium + 阿布云爬取拉钩网学习笔记
1 需求分析想要一个能爬取拉钩网职位详情页的爬虫,来获取详情页内的公司名称.职位名称.薪资待遇.学历要求.岗位需求等信息.该爬虫能够通过配置搜索职位关键字和搜索城市来爬取不同城市的不同职位详情信息, ...
爬取拉钩网上所有的python职位
# 2.爬取拉钩网上的所有python职位. from urllib import request,parse import json,random def user_agent(page): #浏览 ...
通俗易懂的分析如何用Python实现一只小爬虫，爬取拉勾网的职位信息
源代码:https://github.com/nnngu/LagouSpider 效果预览思路 1.首先我们打开拉勾网,并搜索"java",显示出来的职位信息就是我们的目标. 2 ...
使用request爬取拉钩网信息
通过cookies信息爬取分析header和cookies 通过subtext粘贴处理header和cookies信息处理后,方便粘贴到代码中爬取拉钩信息代码 import requests c ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
拉钩网爬取所有python职位信息
最近在找工作,所以爬取了拉钩网的全部python职位,以便给自己提供一个方向.拉钩网的数据还是比较容易爬取的,得到json数据直接解析就行,废话不多说, 直接贴代码: import json impo ...
python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...

随机推荐

ansible之基本原理及命令
什么是ansible ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具($puppet.chef.func.fabric$)的优点,实现了批量系统配置.批量程序部署 ...
shell 脚本中后台执行命令 &
最近遇到一个问题, 执行脚本,脚本调用一个命令,命令(deamon)是一个守护进程,为了调试,取消了守护进程模式.导致命令后边的其他命令(echo "456")都无法执行. de ...
大数据平台搭建：Hadoop
To construct big data distributed platform based on Hadoop is a common method. Hadoop comes fron Goo ...
RBTree和AVL
红黑树和AVL的相同:都是平衡二叉树,所以插入删除修改查询都非常高效. 红黑树和AVL的区别: 红黑树: 不是要求绝对平衡,付出的代价是要着色,查询次数可能会多一层,好处是减少旋转次数. AVL ...
July 15th 2017 Week 28th Saturday
If I can't hear your heartbeat, you are too far away. 如果我听不见你的心跳,那是因为你离我太远了. Only when the two tight ...
C#图解教程读书笔记（第3章类型、存储及变量）
1.C#的中的数值不具有bool特性. 2.dynamic在使用动态语言编写的程序集时使用,这个不太明白,看到后面需要补充!! 动态化的静态类型 3.对于引用类型,引用是存放在栈中,而数据是存放在堆里 ...
vim使用常看
原网址http://www.runoob.com/linux/linux-vim.html 补充参考https://blog.csdn.net/w178191520/article/details/8 ...
如何使用Excel选择整列排序
在excel中,排序的时候弹窗提示“若要执行此操作,所有合并单元格需大小相同”,该怎么操作才能实现排序呢?接下来,小编就和大家分享具体操作. 工具/原料 excel 方法/步骤打开出 ...
Jenkins报错Caused: java.io.IOException: Cannot run program "sh" (in directory "D:\Jenkins\Jenkins_home\workspace\jmeter_test"): CreateProcess error=2, 系统找不到指定的文件。
想在本地执行我的python文件,我本地搭建了一个Jenkins,使用了execute shell来运行我的脚本,发现报错 [jmeter_test] $ sh -xe D:\tomcat\apach ...
2spring注解：@Lazy，@Conditional，@import，FactoryBean接口
大致的工程内容也来源于上一篇博文! https://www.cnblogs.com/Mrchengs/p/10108603.html 1.@Lazy懒加载懒加载:针对单实例的单实例bean,默认在 ...

ruby 爬虫爬取拉钩网职位信息，产生词云报告

ruby 爬虫爬取拉钩网职位信息，产生词云报告的更多相关文章

随机推荐

热门专题