python3爬虫-通过selenium登陆拉钩，爬取职位信息

from selenium import webdriver

from selenium.common.exceptions import NoSuchElementException

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.common.by import By

from selenium.webdriver.support.wait import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.chrome.options import Options

from selenium.webdriver import ActionChains

import time

import json

import os

LG_URL_Login = "https://passport.lagou.com/login/login.html"

cookies_path = "./cookies.json"

class MyException(Exception):

    def __init__(self, status, msg):

        self.status = status

        self.msg = msg

class LaGou:

    def __init__(self):

        self.login_status = False

        self.browser = None

        self.__init_browser()

    def __init_browser(self):

        '''初始化浏览器配置'''

        options = Options()

        options.add_experimental_option('excludeSwitches', ['enable-automation'])

        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})

        self.browser = webdriver.Chrome(options=options)

        self.browser.maximize_window()

        self.browser.implicitly_wait(3)

        self.wait = WebDriverWait(self.browser, 10)

        self.ac = ActionChains(self.browser)

        self.browser.get(LG_URL_Login)

    def __choose_login_mode(self):

        '''通过用户名，密码去登陆'''

        # 虽然默认是用户名密码登陆去，确保无误，还是自己点击一下

        self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@data-lg-tj-id='1Us0']")))

        self.browser.find_element_by_xpath("//*[@data-lg-tj-id='1Us0']").click()

    def __input_user_pwd(self, username, password):

        self.wait.until(EC.presence_of_element_located((By.XPATH, '//input[@placeholder="请输入密码"]')))

        self.wait.until(EC.presence_of_element_located((By.XPATH, '//input[@placeholder="请输入常用手机号/邮箱"]')))

        if not username:

            username = input("请输入常用手机号/邮箱>>:").strip()

        if not password:

            password = input("请输入密码>>:").strip()

        phone_ele = self.browser.find_element_by_xpath('//input[@placeholder="请输入常用手机号/邮箱"]')

        pwd_ele = self.browser.find_element_by_xpath('//input[@placeholder="请输入密码"]')

        # 输入账号

        phone_ele.clear()

        phone_ele.send_keys(username)

        # 输入密码

        pwd_ele.clear()

        pwd_ele.send_keys(password)

    def __chick_submit(self):

        self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@data-lg-tj-id='1j90']")))

        self.browser.find_element_by_xpath("//*[@data-lg-tj-id='1j90']").click()

    def __judge_login_successful(self):

        '''判断是否登陆成功'''

        # 判断class属性 user_dropdown

        try:

            self.browser.find_element_by_xpath("//*[@class='user_dropdown']")

            return True

        except NoSuchElementException:

            return False

    def __pull_down_page(self):

        '''首先拉钩它是没有懒加载的，所以我们只需要下拉一次就好了，所以while循环可以注释掉'''

        height = self.browser.execute_script("return document.body.scrollHeight;")

        js = "window.scrollTo(0, {});".format(height)

        self.browser.execute_script(js)

        return self.browser.page_source

        # while True:

        #     now_height = self.browser.execute_script("return document.body.scrollHeight;")

        #     if height == now_height:

        #         return self.browser.page_source

        #     js = "window.scrollTo({}, {});".format(height, now_height)

        #     self.browser.execute_script(js)

        #     height = now_height

    def __judge_ele_exist_by_xpath(self, xpath):

        '''通过xpath，判断是否存在这个元素'''

        try:

            self.browser.find_element_by_xpath(xpath)

            return True

        except NoSuchElementException:

            return False

    def __click_next_page(self):

        '''点击下一页'''

        self.wait.until(EC.presence_of_element_located((By.XPATH, "//span[@class='pager_next ']")))

        self.browser.find_element_by_xpath("//span[@class='pager_next ']").click()

    def __search_job(self, job_name):

        '''输入查询的job信息'''

        # 首先在搜索职位之前呢，会弹回一个框框，默认选择全国站，

        # 之所以会有这个框框，那是因为你不是在登陆状态下访问这个url，如果是登陆的，那么不会出现

        try:

            self.browser.find_element_by_link_text("全国站").click()

        except NoSuchElementException:

            pass

        # 搜索职位

        try:

            # self.wait.until(EC.presence_of_element_located((By.XPATH, "//*[@id='search_input']")))

            search_ele = self.browser.find_element_by_xpath("//*[@id='search_input']")

        except NoSuchElementException:

            search_ele = self.browser.find_element_by_xpath("//*[@id='keyword']")

        search_ele.click()

        search_ele.clear()

        search_ele.send_keys(job_name, Keys.ENTER)

    def __del__(self):

        # 10秒之后，关闭一些资源

        self.browser.close()

    def login(self, username: str = None, password: str = None, load_cookies: bool = True):

        if load_cookies and os.path.exists(cookies_path):

            # 使用保存再文件中的cookies去访问页面

            with open(cookies_path, "r", encoding="utf-8") as f:

                cookies = json.loads(f.read())

            # 将cookies添加进去

            for cookie in cookies:

                self.browser.add_cookie(cookie)

            # 访问登陆页面，如果是登陆页面表示cookie失效了，cookies没有的失效的情况就是重定向到首页

            self.browser.get(LG_URL_Login)

            if self.__judge_login_successful():

                print("登陆成功....")

                return True

            else:

                print("cookies已经失效....")

                # 删除刚刚添加的cookies

                self.browser.delete_all_cookies()

        self.browser.refresh()

        self.__choose_login_mode()

        self.__input_user_pwd(username, password)

        self.__chick_submit()

        # 判断是否有极验验证码

        # 如果你多试几次，你会发现某次登陆不需要滑动验证码，所以说我们就利用这个，虽然并没有完全解决破解，但是目的最终还是达到了

        while True:

            time.sleep(1)

            if self.__judge_ele_exist_by_xpath("//div[@class='geetest_panel_box geetest_panelshowslide']"):

                self.browser.find_element_by_xpath("//a[@class='geetest_close']").click()

                time.sleep(1)

                self.browser.find_element_by_xpath("//*[@data-lg-tj-id='1j90']").click()

                continue

            else:

                break

        if self.__judge_login_successful():

            self.login_status = True

            # 登陆成功，将cookies保存起来

            with open("./cookies.json", "w", encoding="utf-8") as f:

                f.write(json.dumps(self.browser.get_cookies()))

            print("登陆成功")

            return True

        else:

            print("登陆失败，请检查你的用户名或密码")

            return False

    def get_job_info(self, job_name: str = None, is_filter: bool = False):

        '''用于获取到查询的job'''

        if not self.login_status:

            self.browser.get("https://www.lagou.com/")

        if not job_name:

            job_name = input("请输入查询job的名称>>:").strip()

        self.__search_job(job_name)

        if is_filter:

            # 过滤这个功能不忙实现

            pass

        # 这里开始就是进行翻页操作了，以及对数据的处理

        page = 1

        while True:

            print("爬取工作职位为>>{}   第{}页数据".format(job_name, page))

            # 获取到完毕的页面源码，然后进行提取信息的操作

            page_source = self.__pull_down_page()

            print(page_source)

            # 信息提取完毕，进行翻页操纵

            if not self.__judge_ele_exist_by_xpath("//span[@class='pager_next ']"):

                print("{} 工作职位爬取完毕...".format(job_name))

                break

            self.__click_next_page()

            time.sleep(2)

            # 点击完毕下一页，可能遇到一些反扒措施

            if self.browser.current_url == "https://passport.lagou.com/login/login.html":

                self.login()

            page += 1

if __name__ == '__main__':

    lagou = LaGou()

    username = ""

    password = ""

    lagou.login()

保存的cookies只能适用于本次浏览器访问，你关闭浏览器后，再使用cookies登陆，会显示失效。

但我手动登陆拉钩，关闭浏览器。再次访问还是能够访问到我自己的信息。cookies是没有失效的，那估计就是我设置cookies那里有问题吧。

python3爬虫-通过selenium登陆拉钩，爬取职位信息的更多相关文章

利用python3 爬虫定制版妹子图mzitu爬取
在刚开始学爬虫的时候,用来练手的基础爬虫就是爬取各种妹子图片,前几天同时说了这个,便准备随便写一个...最后发现真是三天不练..什么都记不住了!!所以花了政治一天重新写了一个爬虫程序,并且支持按照时间 ...
【Python3 爬虫】06_robots.txt查看网站爬取限制情况
大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息例如: 我们以[CSDN博客]的限制信息为例子在浏览器输入:http ...
python3爬虫-通过requests获取拉钩职位信息
import requests, json, time, tablib def send_ajax_request(data: dict): try: ajax_response = session. ...
爬虫之Selenium 动态渲染页面爬取
Selenim 是一个自动化测试工具,可以利用它驱动浏览器执行特定的动作,如点击.下拉等操作,同时可以获取浏览器当前呈现的页面的源代码,做到可见及可爬 1.使用流程 1)声明浏览器对象 Seleniu ...
selenium 模拟登陆豆瓣，爬取武林外传的短评
selenium 模拟登陆豆瓣,爬去武林外传的短评: 在最开始写爬虫的时候,抓取豆瓣评论,我们从F12里面是可以直接发现接口的,但是最近豆瓣更新,数据是JS异步加载的,所以没有找到合适的方法爬去,于是 ...
Python爬虫之selenium爬虫，模拟浏览器爬取天猫信息
由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ...
使用selenium+phantomJS实现网页爬取
有些网站反爬虫技术设计的非常好,很难采用WebClient等技术进行网页信息爬取,这时可以考虑采用selenium+phantomJS模拟浏览器(其实是真实的浏览器)的方式进行信息爬取.之前一直使用的 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...

随机推荐

linux 文件搜索命令find、-name、-iname、通配符*？、-size、-user、-group、-amin、-cmin、-mmin、-a、-o、-exec/-ok、-inum
尽可能规划好目录结构,少用文件搜索操作,因为它会占用大量的系统资源 find /bin/find find [搜索范围] [匹配条件] find /etc -name initfind /etc -n ...
回归JavaScript基础（二）
主题:在HTML中使用JavaScript. 要想把JavaScript放到网页中,就必须涉及到Web的核心语言HTML.向HTML页面中插入JavaScript的主要方法,就是使用<scrip ...
leetCode题解寻找最短字符路径
1.题目描述 2.分析最简单的方案,对每一个字符,向两边寻找. 3.代码 vector<int> shortestToChar(string S, char C) { vector< ...
使用SDWebImage淡入淡出的方式加载图片
使用SDWebImage淡入淡出的方式加载图片效果: 请通过以下方式下载源码: 找到它修改文件的地方: 以下是使用源码: // // ViewController.m // SDWebImageFa ...
django配置连接多个数据库，自定义表名称
在项目tt下新建两个app,分别为app01.app02.配置app01使用default节点数据库:app02使用hvdb节点数据库(也可以配置app01下的model既使用default,也可以使 ...
Python（二）列表的增删改查
一,列表的增删改查列表中增加元素: 1,从列表的末尾增加一个元素:append("") 2,从列表中插入一个元素:insert(下标位置,插入的元素) 合并列表: 1,name. ...
IntelliJ IDEA2017/2018 激活方法破解补丁激活(亲测可用)（注册码方法以和谐）
IntelliJ IDEA2017 激活方法(注册码方法以和谐): 搭建自己的授权服务器,对大佬来说也很简单,我作为菜鸟就不说了,网上有教程. 我主要说第二种,现在,直接写入注册码,是不能成功激活的( ...
【转】什么是JavaScript
转自mdn学习网站-什么是JavaScript 什么是JavaScript? 欢迎来到 MDN JavaScript 初学者的课程! 在第一篇文章中,我们将会站在一定的高度来俯看 JavaScript ...
Paxos算法简单陈述
上文二段式和三段式提交协议是相对比较容易理解的.1990年Leslie Lamport 提出的Paxos算法是一种基于消息传递且具有高度容错特性的一致性算法.但是Paxos算法比较复杂,对于不能沉心学 ...
css中的相对定位与绝对定位的区别
1.绝对定位 position: absolute;绝对定位:绝对定位是相对于元素最近的已定位的祖先元素(即是设置了绝对定位或者相对定位的祖先元素).如果元素没有已定位的祖先元素,那么它的位置则是相对 ...

python3爬虫-通过selenium登陆拉钩，爬取职位信息

python3爬虫-通过selenium登陆拉钩，爬取职位信息的更多相关文章

随机推荐

热门专题