selenium 爬boss

# 有问题

from selenium import webdriver

import time

from lxml import etree

class LagouSpider(object):

    driver_path = r"G:\Crawler and Data\chromedriver.exe"

    def __init__(self):

        self.driver = webdriver.Chrome(executable_path=self.driver_path)

        self.url = "https://www.zhipin.com/job_detail/?query=python&city=101010100&industry=&position="

        self.positions = []

        self.position_dict = {}

        self.detail_url_list = []

    def run(self):

        # 访问首页

        self.driver.get(self.url)

        # 获取页面信息

        # page_source可以获取页面的所有数据,包括每个职位的链接

        source= self.driver.page_source

        self.parse_list_page(source)

    def parse_list_page(self,source):

        # 每个职位的链接

        tree = etree.HTML(source)

        # 获取职位的链接 ******

        li_list = tree.xpath("//div[@class='job-box']/div[@class='job-list']/ul/li")

        for li in li_list:

            detail_url = li.xpath('.//div[@class="info-primary"]/h3/a/@href')[0]

            detail_url = "https://www.zhipin.com"+detail_url

            print(detail_url)

            self.detail_url_list.append(detail_url)

            title = li.xpath('.//div[@class="info-primary"]/h3/a/div[@class="job-title"]/text()')[0]

            salary = li.xpath('.//div[@class="info-primary"]/h3/a/span[@class="red"]/text()')[0]

            company = li.xpath('.//div[@class="info-company"]//h3/a/text()')[0]

            self.position_dict["title"]=title

            self.position_dict["salary"]=salary

            self.position_dict["company"]=company

            self.detail_page(detail_url)

            # break

    def detail_page(self,url):

        for url in self.detail_url_list:

            # self.driver.get(url) # 直接访问这个url

            self.driver.execute_script('window.open("%s")'%url) # 新打开一个窗口

            self.driver.switch_to.window(self.driver.window_handles[1])  # 切换到新窗口

            source = self.driver.page_source

            tree = etree.HTML(source)

            desc = tree.xpath("//div[@id='main']/div[3]/div/div[2]/div[2]/div[1]/div")

            # 获取一个标签(含有其他标签)下所有的文本

            desc_text = desc[0].xpath('string()').strip()

            self.position_dict['desc_text'] = desc_text

            print(self.position_dict)

            time.sleep(2)

            self.driver.close()  # 关闭页面

            self.driver.switch_to.window(self.driver.window_handles[0])  # 切换到新窗口

if __name__ == '__main__':

    spider = LagouSpider()

    spider.run()

selenium 爬boss的更多相关文章

Java+selenium 爬Boss直聘中职位信息，薪资水平和职位描述
需要下载合适的selenium webdirver jar包和对应浏览器的驱动jar包 import org.openqa.selenium.By; import org.openqa.selen ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
使用selenium爬取网站动态数据
处理页面动态加载的爬取 selenium selenium是python的一个第三方库,可以实现让浏览器完成自动化的操作,比如说点击按钮拖动滚轮等环境搭建: 安装:pip install selen ...
scrapy框架 + selenium 爬取豆瓣电影top250......
废话不说,直接上代码..... 目录结构 items.py import scrapy class DoubanCrawlerItem(scrapy.Item): # 电影名称 movieName = ...
爬虫学习06用selenium爬取空间
用selenium爬取空间 from selenium import webdriver from lxml import etree import time pro = webdriver.Chro ...

随机推荐

手机遥控Office，变身演讲达人
编者按:在商业演讲中,需要在PPT/Word/Excel文件中切换以达到最佳演讲效果-Office Remote可帮助Windows Phone变身Office的智能遥控.以蓝牙控制电脑,触屏操作多种 ...
Jumpserver 一键部署(支持离线安装)
1.教程介绍1.1::通过本教程起到抛砖引玉效果,希望各位喜爱Jumpserver堡垒机的朋友受益良多. 1.2::以下提供的任何软件仅供学习交流使用. 2.下载链接2.1::centos_1810最 ...
乐观锁（Optimistic Lock）
乐观锁(非阻塞)指不通过锁表来解决并发问题,一般情况下表数据都会加入一个version字段,对该字段进行比较更新来保证数据的一致性. 这里写了个demo,应该可以说明乐观锁的问题. public cl ...
Mysql主从同步原理简介
1.定义:当master(主)库的数据发生变化的时候,变化会实时的同步到slave(从)库. 2.好处: 1)水平扩展数据库的负载能力. 2)容错,高可用.Failover(失败切换)/High Av ...
ionic2踩坑之兼容android4.3及以下版本
一个命令就行了 ionic plugin add cordova-plugin-crosswalk-webview --save 执行完之后重新打包. 但是如果要兼容4.0及以下的话.... 帮不了你 ...
python读取配置文件报keyerror-文件路径不正确导致的错误
- 在其他模块使用反射读取配置文件报错,但是在反射模块中读取GetData.check_list又是正确的反射模块如下: # get_data.py from API_AUTO.p2p_projec ...
Java实用教程系列之对象的转型
体现: 父类的引用可以指向子类的对象接口的引用可以指向实现类的对象转型: 向上转型由子类类型转型为父类类型,或者由实现类类型转型为接口类型向上转型一定会成功,是一个隐式转换向上转型后的对象,将只能访问 ...
JS做深度学习2——导入训练模型
JS做深度学习2--导入训练模型改进项目前段时间,我做了个RNN预测金融数据的毕业设计(华尔街),当时TensorFlow.js还没有发布,我不得已使用了keras对数据进行了训练,并且拟合好了不 ...
论文笔记[Slalom: Fast, Verifiable and Private Execution of Neural Networks in Trusted Hardware]
作者:Florian Tramèr, Dan Boneh [Standford University] [ICLR 2019] Abstract 为保护机器学习中隐私性和数据完整性,通常可以利用可信 ...
Go基础学习(二)
数组[array] 数组定义[定义后长度不可变] 12 symbol := [...]string{USD: "$", EUR: "€", GBP: " ...

selenium 爬boss

selenium 爬boss的更多相关文章

随机推荐

热门专题