# 有问题

from selenium import webdriver
import time
from lxml import etree class LagouSpider(object):
driver_path = r"G:\Crawler and Data\chromedriver.exe" def __init__(self):
self.driver = webdriver.Chrome(executable_path=self.driver_path)
self.url = "https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position="
self.positions = []
self.position_dict = {}
self.detail_url_list = []
def run(self):
# 访问首页
self.driver.get(self.url)
# 获取页面信息
# page_source可以获取页面的所有数据,包括每个职位的链接
source= self.driver.page_source
self.parse_list_page(source) def parse_list_page(self,source):
# 每个职位的链接
tree = etree.HTML(source) # 获取职位的链接 ******
li_list = tree.xpath("//div[@class='job-box']/div[@class='job-list']/ul/li")
for li in li_list:
detail_url = li.xpath('.//div[@class="info-primary"]/h3/a/@href')[0]
detail_url = "https://www.zhipin.com"+detail_url
print(detail_url)
self.detail_url_list.append(detail_url)
title = li.xpath('.//div[@class="info-primary"]/h3/a/div[@class="job-title"]/text()')[0]
salary = li.xpath('.//div[@class="info-primary"]/h3/a/span[@class="red"]/text()')[0]
company = li.xpath('.//div[@class="info-company"]//h3/a/text()')[0]
self.position_dict["title"]=title
self.position_dict["salary"]=salary
self.position_dict["company"]=company self.detail_page(detail_url)
# break def detail_page(self,url):
for url in self.detail_url_list:
# self.driver.get(url) # 直接访问这个url
self.driver.execute_script('window.open("%s")'%url) # 新打开一个窗口
self.driver.switch_to.window(self.driver.window_handles[1]) # 切换到新窗口
source = self.driver.page_source
tree = etree.HTML(source)
desc = tree.xpath("//div[@id='main']/div[3]/div/div[2]/div[2]/div[1]/div")
# 获取一个标签(含有其他标签)下所有的文本
desc_text = desc[0].xpath('string()').strip()
self.position_dict['desc_text'] = desc_text
print(self.position_dict)
time.sleep(2)
self.driver.close() # 关闭页面
self.driver.switch_to.window(self.driver.window_handles[0]) # 切换到新窗口 if __name__ == '__main__':
spider = LagouSpider()
spider.run()

selenium 爬boss的更多相关文章

  1. Java+selenium 爬Boss直聘中职位信息,薪资水平和职位描述

      需要下载合适的selenium webdirver jar包和对应浏览器的驱动jar包 import org.openqa.selenium.By; import org.openqa.selen ...

  2. [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

    转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...

  3. selenium爬取煎蛋网

    selenium爬取煎蛋网 直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...

  4. 利用selenium爬取京东商品信息存放到mongodb

    利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...

  5. 利用Selenium爬取淘宝商品信息

    一.  Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...

  6. Scrapy 框架 使用 selenium 爬取动态加载内容

    使用 selenium 爬取动态加载内容 开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...

  7. 使用selenium爬取网站动态数据

    处理页面动态加载的爬取 selenium selenium是python的一个第三方库,可以实现让浏览器完成自动化的操作,比如说点击按钮拖动滚轮等 环境搭建: 安装:pip install selen ...

  8. scrapy框架 + selenium 爬取豆瓣电影top250......

    废话不说,直接上代码..... 目录结构 items.py import scrapy class DoubanCrawlerItem(scrapy.Item): # 电影名称 movieName = ...

  9. 爬虫学习06用selenium爬取空间

    用selenium爬取空间 from selenium import webdriver from lxml import etree import time pro = webdriver.Chro ...

随机推荐

  1. MAC地址和IP地址是否缺一不可

    答案是肯定的,我们来具体分析: 在网络传输的过程中,第一次将信息从A端发往B端时,首先在A端需要将信息从应用层开始到物理层进行逐层封装,到达B端后再从物理层到应用层进行逐层分用解包,最后拿到信息. 信 ...

  2. VSTO开发Excel 2013/2016工作簿项目

    范例下载:(下载后直接双击扩展名为.vsto的文件,或者双击扩展名为.xlsx的工作簿,按提示操作) ExcelWorkbook_Everything.rar

  3. Memcached的批量删除方案总结

    Memcached的批量删除,向来是Memcached使用者很头疼的事情,因为Memcached采取的缓存方案是哈希表结构,所以没有办法实现delete from tablename where ke ...

  4. FPGA底层的时钟布线以及内部layout

    https://wenku.baidu.com/view/441549fef111f18582d05a70.html 全局时钟是最简单的最可预测的时钟,时钟方案:有专用的时钟输入(提供最短的始终输出延 ...

  5. linux kill进程没有立刻停止

    前些天在执行restart脚本的时候遇到了一个奇怪的问题:1.第一次执行进程不见了,启动失败2.第二次重启进程成功,但是在kill的时候提示进程不存在需要重启两次进程才能成功 查看日志文件:第一次重启 ...

  6. t-检验

    https://wenku.baidu.com/view/3954f9d9a58da0116c17497b.html介绍的挺好的,可以查看~ 应用方面:用于推断差异发生的概率,与f检验,卡方检验并列 ...

  7. php结合Redis实现高并发下的秒杀抢购功能

    实现思路 准备两个队列A和B,假设A队列的名称为stock,用于存放商品总库存信息,B队列的名称为users,用于存放抢购成功后的用户信息.每当有用户进行抢购操作时,先从A队列弹出一个元素,如果该元素 ...

  8. redis保存dataset

    公司统一走redis缓存,也将之前的memcache迁移到redis碰到问题是redis的dataset缓存. memcache底层封装了dataset的序列化. 而redis引的DLL包,未支持.所 ...

  9. 默认的Settings.xml文件(无修改过)-Maven

    Tip: 当什么都不作修改时,默认是从Maven中央仓库进行下载,https://repo.maven.apache.org/maven2. 打开maven源码下的lib文件夹,找到maven-mod ...

  10. django中间件和auth模块

    Django中间件 由django的生命周期图我们可以看出,django的中间件就类似于django的保安,请求一个相应时要先通过中间件才能到达django后端(url.views.template. ...