python爬虫之Selenium

Selenium的使用

#!/usr/bin/env python

# -*- coding:utf-8 -*-

"""

Selenium是一个第三方模块，可以完全模拟用户在浏览器上操作（在浏览器上点点点）。

    安装：

        pip3 install selenium

    优缺点：

        优：无需再自己操作cookie和header

        缺：慢

    依赖驱动：

        Firefox

            https://github.com/mozilla/geckodriver/releases

        Chrome

            http://chromedriver.storage.googleapis.com/index.html

"""

from selenium import webdriver

# 配置驱动

option = webdriver.ChromeOptions()

driver = webdriver.Chrome('/Users/wupeiqi/drivers/chromedriver', chrome_options=option)

# 1. 控制浏览器打开指定页面

driver.get("https://dig.chouti.com/all/hot/recent/1")

# 2. 找到登录按钮

btn_login = driver.find_element_by_xpath('//*[@id="login-link-a"]')

# 3. 点击按钮

btn_login.click()

# 4. 找到手机标签

input_user = driver.find_element_by_xpath('//*[@id="mobile"]')

# 5. 找到密码标签

input_pwd = driver.find_element_by_xpath('//*[@id="mbpwd"]')

# 6. 输入用户名

input_user.send_keys('')

# 7. 输入密码

input_pwd.send_keys('woshiniba')

# 8. 点击登录按钮

input_submit = driver.find_element_by_xpath(

    '//*[@id="footer-band"]/div[5]/div/div/div[1]/div[2]/div[4]/div[2]/div/span[1]')

input_submit.click()

print(driver.get_cookies())

# 9. 点击跳转

news = driver.find_element_by_xpath('//*[@id="newsContent20646261"]/div[1]/a[1]')

# news.click()

driver.execute_script("arguments[0].click();", news)

# 10.管理浏览器

driver.close()

路飞学城破解极验

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

import os

import shutil

from PIL import Image

import time

def get_snap(driver):

    driver.save_screenshot('full_snap.png')

    page_snap_obj = Image.open('full_snap.png')

    return page_snap_obj

def get_image(driver):

    img = driver.find_element_by_class_name('geetest_canvas_img')

    time.sleep(2)

    location = img.location

    size = img.size

    left = location['x']

    top = location['y']

    right = left + size['width']

    bottom = top + size['height']

    page_snap_obj = get_snap(driver)

    image_obj = page_snap_obj.crop((left * 2, top * 2, right * 2, bottom * 2))

    # image_obj.show()

    with open('code.png', 'wb') as f:

        image_obj.save(f, format='png')

    return image_obj

def get_distance(image1, image2):

    # start = 0

    # threhold = 70

    # for i in range(start, image1.size[0]):

    #     for j in range(0, image1.size[1]):

    #         rgb1 = image1.load()[i, j]

    #         rgb2 = image2.load()[i, j]

    #         res1 = abs(rgb1[0] - rgb2[0])

    #         res2 = abs(rgb1[1] - rgb2[1])

    #         res3 = abs(rgb1[2] - rgb2[2])

    #         # print(res1,res2,res3)

    #         if not (res1 < threhold and res2 < threhold and res3 < threhold):

    #             print(111111, i, j)

    #             return i - 13

    # print(2222, i, j)

    # return i - 13

    start = 0

    threhold = 70

    v = []

    for i in range(start, image1.size[0]):

        for j in range(0, image1.size[1]):

            rgb1 = image1.load()[i, j]

            rgb2 = image2.load()[i, j]

            res1 = abs(rgb1[0] - rgb2[0])

            res2 = abs(rgb1[1] - rgb2[1])

            res3 = abs(rgb1[2] - rgb2[2])

            if not (res1 < threhold and res2 < threhold and res3 < threhold):

                print(i)

                if i not in v:

                    v.append(i)

    stop = 0

    for i in range(0, len(v)):

        val = i + v[0]

        if v[i] != val:

            stop = v[i]

            break

    width = stop - v[0]

    print(stop, v[0], width)

    return width

def get_tracks(distance):

    import random

    exceed_distance = random.randint(0, 5)

    distance += exceed_distance  # 先滑过一点，最后再反着滑动回来

    v = 0

    t = 0.2

    forward_tracks = []

    current = 0

    mid = distance * 3 / 5

    while current < distance:

        if current < mid:

            a = random.randint(1, 3)

        else:

            a = random.randint(1, 3)

            a = -a

        s = v * t + 0.5 * a * (t ** 2)

        v = v + a * t

        current += s

        forward_tracks.append(round(s))

    # 反着滑动到准确位置

    v = 0

    t = 0.2

    back_tracks = []

    current = 0

    mid = distance * 4 / 5

    while abs(current) < exceed_distance:

        if current < mid:

            a = random.randint(1, 3)

        else:

            a = random.randint(-3, -5)

            a = -a

        s = -v * t - 0.5 * a * (t ** 2)

        v = v + a * t

        current += s

        back_tracks.append(round(s))

    return {'forward_tracks': forward_tracks, 'back_tracks': list(reversed(back_tracks))}

def crack(driver):  # 破解滑动认证

    # 1、点击按钮，得到没有缺口的图片

    button = driver.find_element_by_xpath('//*[@id="embed-captcha"]/div/div[2]/div[1]/div[3]')

    button.click()

    # 2、获取没有缺口的图片

    image1 = get_image(driver)

    # 3、点击滑动按钮，得到有缺口的图片

    button = driver.find_element_by_class_name('geetest_slider_button')

    button.click()

    # 4、获取有缺口的图片

    image2 = get_image(driver)

    # 5、对比两种图片的像素点，找出位移

    distance = get_distance(image1, image2)

    print(distance)

    #

    # 6、模拟人的行为习惯，根据总位移得到行为轨迹

    tracks = get_tracks(int(distance / 2))

    # 7、按照行动轨迹先正向滑动，后反滑动

    button = driver.find_element_by_class_name('geetest_slider_button')

    ActionChains(driver).click_and_hold(button).perform()

    # 正常人类总是自信满满地开始正向滑动，自信地表现是疯狂加速

    for track in tracks['forward_tracks']:

        ActionChains(driver).move_by_offset(xoffset=track, yoffset=0).perform()

    # 结果傻逼了，正常的人类停顿了一下，回过神来发现，卧槽，滑过了,然后开始反向滑动

    time.sleep(0.5)

    for back_track in tracks['back_tracks']:

        ActionChains(driver).move_by_offset(xoffset=back_track, yoffset=0).perform()

    #

    # # 小范围震荡一下，进一步迷惑极验后台，这一步可以极大地提高成功率

    ActionChains(driver).move_by_offset(xoffset=3, yoffset=0).perform()

    ActionChains(driver).move_by_offset(xoffset=-3, yoffset=0).perform()

    # # 成功后，骚包人类总喜欢默默地欣赏一下自己拼图的成果，然后恋恋不舍地松开那只脏手

    time.sleep(0.5)

    ActionChains(driver).release().perform()

def login_luffy(username, password):

    driver = webdriver.Chrome('/Users/wupeiqi/drivers/chromedriver')

    driver.set_window_size(960, 800)

    try:

        # 1、输入账号密码回车

        driver.implicitly_wait(3)

        driver.get('https://www.luffycity.com/login')

        input_username = driver.find_element_by_xpath('//*[@id="router-view"]/div/div/div[2]/div[2]/input[1]')

        input_pwd = driver.find_element_by_xpath('//*[@id="router-view"]/div/div/div[2]/div[2]/input[2]')

        input_username.send_keys(username)

        input_pwd.send_keys(password)

        # 2、破解滑动认证

        crack(driver)

        time.sleep(10)  # 睡时间长一点，确定登录成功

    finally:

        pass

        # driver.close()

if __name__ == '__main__':

    login_luffy(username='wupeiqi', password='')

python爬虫之Selenium的更多相关文章

[Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...
Python爬虫之selenium的使用（八）
Python爬虫之selenium的使用一.简介二.安装三.使用一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...
Python爬虫之selenium高级功能
Python爬虫之selenium高级功能原文地址表单操作元素拖拽页面切换弹窗处理表单操作表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...
Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解本章内容如下: 什么是Selenium selenium基本使用声明浏览器对象访问页面查找元素多个元素查找元素交互操作交互动作执行JavaS ...
python爬虫利器Selenium使用详解
简介: 用pyhon爬取动态页面时普通的urllib2无法实现,例如下面的京东首页,随着滚动条的下拉会加载新的内容,而urllib2就无法抓取这些内容,此时就需要今天的主角selenium. Sele ...
Python爬虫初探 - selenium+beautifulsoup4+chromedriver爬取需要登录的网页信息
目标之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户.详细介绍了第一次探索python爬虫的坑. 准 ...
python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
1,引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第二部分,第一 ...

随机推荐

转：svn 更新指定文件夹
通常由于创建很多个branch和tag,当我们要去checkout指定tag和branch的时候,会不得不把整个branch/tag目录checkout出来.是不是有点傻??!!! 那么如何有选择ch ...
Material Design （二），TextInputLayout的使用
前言一般登录注冊界面都须要EditText这个控件来让用户输入信息,同一时候我们通常会设置一个标签(使用TextView)和EditText的hint属性来提示用户输入的内容,而设计库中高级组件T ...
android:Cordova Android, hello Cordova ,PhoneGap android
文章来自:http://blog.csdn.net/intbird 官方文档: http://cordova.apache.org/docs/en/5.0.0//index.html intbird的 ...
phpcms前台任意代码执行漏洞(php<5.3)
phpcms v9 中 string2array()函数使用了eval函数,在多个地方可能造成代码执行漏洞 /phpsso_server/phpcms/libs/functions/global.fu ...
微信公众号 - js传入时间戳换算（以前几天、几小时...）
// 获取当前时间戳 function timestamps() { return Math.round(new Date().getTime() / 1000).toString() } // 距离 ...
react-native Image resizeMode
resizeMode (默认为 cover)该属性用来设置图片的缩放模式,对应值如下 cover 保持图片宽高比,直到宽度和高度都大于等于容器视图的尺寸(参考下图效果)contain 在保持图片宽高比 ...
TCP/IP详解卷一（第二十章 TCP的成块数据流）
本章将介绍TCP所使用的被称为滑动窗口协议的一种流量控制方法. 该协议允许发送方在停止并等待确认前可以连续发送多个分组,这样就可以加速数据的传输. 滑动窗口下图用可视化的方法显示了滑动窗口协议我们 ...
Java种八种常用排序算法
1 直接插入排序经常碰到这样一类排序问题:把新的数据插入到已经排好的数据列中. 将第一个数和第二个数排序,然后构成一个有序序列将第三个数插入进去,构成一个新的有序序列. 对第四个数.第五个数……直 ...
Docker iptables failed: iptables -t nat -A DOCKER -p tcp
Dokcer网络问题因为操作或修该过iptables导致docker容器出现如下错误: [root@mysqlserver ~]# docker restart cvnavi-centos-tomc ...
IIS7应用程序池集成和经典的区别对IIS7经典模式和集成模式的理解程序池经典和集成的区别
IIS7应用程序池集成和经典的区别 IIS7应用程序池集成和经典的区别 IIS7应用程序池有集成和经典两种模式,根据微软官方的介绍, 集成模式,如果托管应用程序在采用集成模式的应用程序池中运行,服 ...

python爬虫之Selenium

Selenium的使用

路飞学城破解极验

python爬虫之Selenium的更多相关文章

随机推荐

热门专题