爬虫_拉勾网(selenium)

使用selenium进行翻页获取职位链接，再对链接进行解析

会爬取到部分空列表，感觉是网速太慢了，加了time.sleep()还是会有空列表

 from selenium import webdriver

 import requests

 import re

 from lxml import etree

 import time

 from selenium.webdriver.support.ui import WebDriverWait

 from selenium.webdriver.support import expected_conditions as EC

 from selenium.webdriver.common.by import By

 class LagouSpider(object):

     def __init__(self):

         opt = webdriver.ChromeOptions()

         # 把chrome设置成无界面模式

         opt.set_headless()

         self.driver = webdriver.Chrome(options=opt)

         self.url = 'https://www.lagou.com/jobs/list_爬虫?px=default&city=北京'

         self.headers = {

             'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'

         }

     def run(self):

         self.driver.get(self.url)

         while True:

             html = ''

             links = []

             html = self.driver.page_source

             links = self.get_one_page_links(html)

             for link in links:

                 print('\n' + link+'\n')

                 self.parse_detail_page(link)

             WebDriverWait(self.driver, 10).until(

                 EC.presence_of_element_located((By.CLASS_NAME, 'pager_next')))

             next_page_btn = self.driver.find_element_by_class_name('pager_next')

             if 'pager_next_disabled' in next_page_btn.get_attribute('class'):

                 break

             else:

                 next_page_btn.click()

             time.sleep(1)

     def get_one_page_links(self, html):

         links = []

         hrefs = self.driver.find_elements_by_xpath('//a[@class="position_link"]')

         for href in hrefs:

             links.append(href.get_attribute('href'))

         return links

     def parse_detail_page(self, url):

         job_information = {}

         response = requests.get(url, headers=self.headers)

         time.sleep(2)

         html = response.text

         html_element = etree.HTML(html)

         job_name = html_element.xpath('//div[@class="job-name"]/@title')

         job_description = html_element.xpath('//dd[@class="job_bt"]//p//text()')

         for index, i in enumerate(job_description):

             job_description[index] = re.sub('\xa0', '', i)

         job_address = html_element.xpath('//div[@class="work_addr"]/a/text()')

         job_salary = html_element.xpath('//span[@class="salary"]/text()')

         # 字符串处理去掉不必要的信息

         for index, i in enumerate(job_address):

             job_address[index] = re.sub('查看地图', '', i)

         while '' in job_address:

             job_address.remove('')

         job_information['job_name'] = job_name

         job_information['job_description'] = job_description

         job_information['job_address'] = job_address

         job_information['job_salary'] = job_salary

         print(job_information)

 def main():

     spider = LagouSpider()

     spider.run()

 if __name__ == '__main__':

     main()

运行结果

爬虫_拉勾网(selenium)的更多相关文章

爬虫_拉勾网(解析ajax)
拉勾网反爬虫做的比较严,请求头多添加几个参数才能不被网站识别找到真正的请求网址,返回的是一个json串,解析这个json串即可,而且注意是post传值通过改变data中pn的值来控制翻页 job_ ...
python爬虫动态html selenium.webdriver
python爬虫:利用selenium.webdriver获取渲染之后的页面代码! 1 首先要下载浏览器驱动: 常用的是chromedriver 和phantomjs chromedirver下载地址 ...
scrapy爬虫框架和selenium的配合使用
scrapy框架的请求流程 scrapy框架? Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架.因此Scrapy使用了一种非阻塞(又名异步)的 ...
Python爬虫之设置selenium webdriver等待
Python爬虫之设置selenium webdriver等待 ajax技术出现使异步加载方式呈现数据的网站越来越多,当浏览器在加载页面时,页面上的元素可能并不是同时被加载完成,这给定位元素的定位增加 ...
# Python3微博爬虫[requests+pyquery+selenium+mongodb]
目录 Python3微博爬虫[requests+pyquery+selenium+mongodb] 主要技术站点分析程序流程图编程实现数据库选择代理IP测试模拟登录获取用户详细信息获取 ...
爬虫_淘宝（selenium）
总体来说代码还不是太完美实现了js渲染网页的解析的一种思路主要是这个下拉操作,不能一下拉到底,数据是在中间加载进来的, 具体过程都有写注释 from selenium import webdriv ...
爬虫基础(三)-----selenium模块应用程序
摆脱穷人思维 <三> : 培养"目标导向"的思维: 好项目永远比钱少,只要目标正确,钱总有办法解决. 一 selenium模块什么是selenium?seleni ...
PYTHON 爬虫笔记七:Selenium库基础用法
知识点一:Selenium库详解及其基本使用什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...
python3[爬虫实战] 使用selenium，xpath爬取京东手机
使用selenium ,可能感觉用的并不是很深刻吧,可能是用scrapy用多了的缘故吧.不过selenium确实强大,很多反爬虫的都可以用selenium来解决掉吧. 思路: 入口: 关键字搜索入口 ...

随机推荐

C++ string中的find()函数
1.string中find()返回值是字母在母串中的位置(下标记录),如果没有找到,那么会返回一个特别的标记npos.(返回值可以看成是一个int型的数) #include<cstring> ...
NFV论文集（二）
一文章名称:VNF Placement with Replication for Load Balancing in NFV Networks 发表时间:2017 期刊来源:ICC: IEEE In ...
Atcoder F - LCS (DP-最长公共子序列，输出字符串)
F - LCS Time Limit: 2 sec / Memory Limit: 1024 MB Score : 100100 points Problem Statement You are gi ...
Python爬虫：爬取人人都是产品经理的数据
爬取内容: 人人都是产品经理首页(www.woshipm.com)左侧[最新文章]下如图样式的文章标题.浏览量和缩略图. 思路: 1. 用BeautifulSoup解析网页变量名 = Beautif ...
C# DataTable详解
添加引用 using System.Data; 创建表 //创建一个空表 DataTable dt = new DataTable(); //创建一个名为"Table_New"的空 ...
PostgreSQL 安装了contrib 之后登录失败的问题
1. 自己之前只是安装了 pg 10.6 2. 开发同事需要用到一个extensions 叫做 uuid-ossp 3. 执行报错详情见昨天的blog 4. 然后执行了升级操作结果 pg10 ...
剑指offer（7）
今天的几道题目都是关于斐波那契数列的. 题目1: 大家都知道斐波那契数列,现在要求输入一个整数n,请你输出斐波那契数列的第n项(从0开始,第0项为0). n<=39 传统的方法采用递归函数,这种 ...
CBV源码分析+APIVIew源码分析
{drf,resful,apiview,序列化组件,视图组件,认证组件,权限组件,频率组件,解析器,分页器,响应器,URL控制器,版本控制} 一.CBV源码分析准备工作: 新建一个Django项目写 ...
python爬虫scrapy之如何同时执行多个scrapy爬行任务
背景: 刚开始学习scrapy爬虫框架的时候,就在想如果我在服务器上执行一个爬虫任务的话,还说的过去.但是我不能每个爬虫任务就新建一个项目吧.例如我建立了一个知乎的爬行任务,但是我在这个爬行任务中,写 ...
Linux的基础命令, django的安装与使用
一. Linux一些基础指令 cat命令, 用于查看纯文本文件(常用于内容较少的) cat 校花的故事.txt # 查看文件 cat -n 校花的故事.txt # 查看文件并显示行号 -n 显示行号 ...

爬虫_拉勾网(selenium)

爬虫_拉勾网(selenium)的更多相关文章

随机推荐

热门专题