selenium实现并发

for循环和多线程 + selenium

实例一

for循环

# -*- coding: utf-8 -*-

"""

Datetime: 2019/6/22

Author: Zhang Yafei

Description:

"""

import time

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from concurrent.futures import ThreadPoolExecutor

import functools

chrome_options = Options()

chrome_options.add_argument("--headless")

chrome_options.add_argument('--disable-gpu')

def timeit(func):

    """

    装饰器： 判断函数执行时间

    :param func:

    :return:

    """

    @functools.wraps(func)

    def inner(*args, **kwargs):

        start = time.time()

        ret = func(*args, **kwargs)

        end = time.time() - start

        if end < 60:

            print(f'花费时间：\t{round(end, 2)}秒')

        else:

            min, sec = divmod(end, 60)

            print(f'花费时间\t{round(min)}分\t{round(sec, 2)}秒')

        return ret

    return inner

class PolicyUrlDownload(object):

    """ 政策数据下载 """

    def __init__(self, url, pages_num, output_file, a_xpath, headless: bool=True):

        self.url_list = [url.format(page) for page in range(1, pages_num+1)]

        self.output_file = output_file

        self.a_xpath = a_xpath

        if headless:

            self.driver = webdriver.Chrome(options=chrome_options)

        else:

            self.driver = webdriver.Chrome()

    def start(self, page, url):

        with open(self.output_file, mode='a', encoding='utf-8') as file:

            print(f"make request to {url}")

            self.driver.get(url)

            titles = self.driver.find_elements_by_xpath(self.a_xpath)

            for title in titles:

                href = title.get_attribute('href')

                file.write(f'{page}\t{href}\n')

            print(f'{url} download completed')

    def run(self):

        for page, url in enumerate(self.url_list):

            self.start(page+1, url)

        self.driver.close()

@timeit

def main(setting):

    policy_data = PolicyUrlDownload(**setting)

    policy_data.run()

if __name__ == '__main__':

    start_time = time.time()

    print('######################## 开始下载 #########################')

    # 多配置页面地址下载

    settings = [

        {

            'output_file': '药品供应保障综合的管理.txt',

            'url': 'http://cdsip.nhfpc.gov.cn/work/0-{}.html',

            'pages_num': 8,

            'a_xpath': '//div[@id="active0"]/ul/li/a'

        },

        {

            'output_file': '药品供应保障综合的管理.txt',

            'url': 'http://cdsip.nhfpc.gov.cn/policy/0-{}-0.html',

            'pages_num': 9,

            'a_xpath': '//div[@class="infoContent box-body"]/ul/li/a'

        }

    ]

    for setting in settings:

        main(setting)

    print('下载成功, 共花费时间 ', round(time.time() - start_time, 2), '秒')

结果

下载成功, 共花费时间  28.46 秒

多线程

# -*- coding: utf-8 -*-

"""

Datetime: 2019/6/22

Author: Zhang Yafei

Description:

"""

import time

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from concurrent.futures import ThreadPoolExecutor

import functools

chrome_options = Options()

chrome_options.add_argument("--headless")

chrome_options.add_argument('--disable-gpu')

def timeit(func):

    """

    装饰器： 判断函数执行时间

    :param func:

    :return:

    """

    @functools.wraps(func)

    def inner(*args, **kwargs):

        start = time.time()

        ret = func(*args, **kwargs)

        end = time.time() - start

        if end < 60:

            print(f'花费时间：\t{round(end, 2)}秒')

        else:

            min, sec = divmod(end, 60)

            print(f'花费时间\t{round(min)}分\t{round(sec, 2)}秒')

        return ret

    return inner

class PolicyUrlDownload(object):

    """ 政策数据下载 """

    def __init__(self, url, pages_num, output_file, a_xpath, headless: bool=True):

        self.url_list = [url.format(page) for page in range(1, pages_num+1)]

        self.output_file = output_file

        self.a_xpath = a_xpath

        if headless:

            self.driver = webdriver.Chrome(options=chrome_options)

        else:

            self.driver = webdriver.Chrome()

    def start(self, page, url):

        with open(self.output_file, mode='a', encoding='utf-8') as file:

            print(f"make request to {url}")

            self.driver.get(url)

            titles = self.driver.find_elements_by_xpath(self.a_xpath)

            for title in titles:

                href = title.get_attribute('href')

                file.write(f'{page}\t{href}\n')

            print(f'{url} download completed')

    def run(self):

        for page, url in enumerate(self.url_list):

            self.start(page+1, url)

        self.driver.close()

@timeit

def main(setting):

    policy_data = PolicyUrlDownload(**setting)

    policy_data.run()

if __name__ == '__main__':

    start_time = time.time()

    print('######################## 开始下载 #########################')

    # 多配置页面地址下载

    settings = [

        {

            'output_file': '药品供应保障综合的管理.txt',

            'url': 'http://cdsip.nhfpc.gov.cn/work/0-{}.html',

            'pages_num': 8,

            'a_xpath': '//div[@id="active0"]/ul/li/a'

        },

        {

            'output_file': '药品供应保障综合的管理.txt',

            'url': 'http://cdsip.nhfpc.gov.cn/policy/0-{}-0.html',

            'pages_num': 9,

            'a_xpath': '//div[@class="infoContent box-body"]/ul/li/a'

        }

    ]

    with ThreadPoolExecutor() as pool:

        pool.map(main, settings)

    print('下载成功, 共花费时间 ', round(time.time() - start_time, 2), '秒')

结果

花费时间：      18.04秒

实例二

顺序执行

# -*- coding: utf-8 -*-

import os

import time

from concurrent.futures import ThreadPoolExecutor

from hashlib import md5

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from selenium.webdriver.chrome.service import Service

import numpy as np

class PolicyPageDownload(object):

    """ 政策数据下载 """

    def __init__(self, file, dir_name, url_list):

        self.file = file

        self.dir_name = dir_name

        self.urls = url_list

        self.chrome_options = Options()

        self.chrome_options.add_argument("--headless")

        self.chrome_options.add_argument('--disable-gpu')

        self.driver = webdriver.Chrome(options=self.chrome_options)

        # self.driver = webdriver.Chrome()

    def start(self, url):

        """

        开始下载

        :param url:

        :return:

        """

        self.driver.get(url)

        response = self.driver.page_source

        print(f'make request to {url}')

        file_name = md5(bytes(url, encoding='utf-8')).hexdigest() + '.html'

        print('11111111111')

        with open(f'{self.dir_name}/{file_name}', 'w', encoding='utf-8') as file:

            file.write(response)

        print(f'{url} download completed')

    def run(self):

        """ 入口函数 """

        [self.start(url) for url in self.urls]

        self.driver.quit()

def filter_urls(dir_name, urls):

    """

    过滤url

    :param urls:

    :return:

    """

    encode_urls = [md5(bytes(url, encoding='utf-8')).hexdigest() + '.html' for url in urls]

    has_file = [file for file in os.listdir(dir_name) if os.path.getsize(os.path.join(dir_name, file)) > 0]

    encode_urls = set(encode_urls) - set(has_file)

    down_urls = list(

        filter(lambda url: md5(bytes(url, encoding='utf-8')).hexdigest() + '.html' in encode_urls, urls))

    print(f'共{len(set(urls))}\t已下载{len(set(has_file))}\t 还需下载{len(encode_urls)}')

    return down_urls

def run(url_list):

    policy = PolicyPageDownload(url_list=url_list, **setting)

    policy.run()

def main(file, dir_name):

    if not os.path.exists(dir_name):

        os.mkdir(dir_name)

    inputfile = open(file, 'r', encoding='utf-8')

    urls = [line.strip().split('\t')[1] for index, line in enumerate(inputfile)]

    if os.path.exists(dir_name):

        urls = filter_urls(dir_name, urls)

    run(urls)

if __name__ == '__main__':

    start_time = time.time()

    setting = {

        'file': '药品供应保障综合的管理.txt',

        'dir_name': '药品供应保障综合的管理'

        }

    main(**setting)

    print('下载成功, 共花费时间 ', round(time.time() - start_time, 2), '秒')

多线程

# -*- coding: utf-8 -*-

import os

import time

from concurrent.futures import ThreadPoolExecutor

from hashlib import md5

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from selenium.webdriver.chrome.service import Service

import numpy as np

class PolicyPageDownload(object):

    """ 政策数据下载 """

    def __init__(self, file, dir_name, url_list):

        self.file = file

        self.dir_name = dir_name

        self.urls = url_list

        self.chrome_options = Options()

        self.chrome_options.add_argument("--headless")

        self.chrome_options.add_argument('--disable-gpu')

        self.driver = webdriver.Chrome(options=self.chrome_options)

        # self.driver = webdriver.Chrome()

    def start(self, url):

        """

        开始下载

        :param url:

        :return:

        """

        self.driver.get(url)

        response = self.driver.page_source

        print(f'make request to {url}')

        file_name = md5(bytes(url, encoding='utf-8')).hexdigest() + '.html'

        print('11111111111')

        with open(f'{self.dir_name}/{file_name}', 'w', encoding='utf-8') as file:

            file.write(response)

        print(f'{url} download completed')

    def run(self):

        """ 入口函数 """

        [self.start(url) for url in self.urls]

        self.driver.quit()

def filter_urls(dir_name, urls):

    """

    过滤url

    :param urls:

    :return:

    """

    encode_urls = [md5(bytes(url, encoding='utf-8')).hexdigest() + '.html' for url in urls]

    has_file = [file for file in os.listdir(dir_name) if os.path.getsize(os.path.join(dir_name, file)) > 0]

    encode_urls = set(encode_urls) - set(has_file)

    down_urls = list(

        filter(lambda url: md5(bytes(url, encoding='utf-8')).hexdigest() + '.html' in encode_urls, urls))

    print(f'共{len(set(urls))}\t已下载{len(set(has_file))}\t 还需下载{len(encode_urls)}')

    return down_urls

def run(url_list):

    policy = PolicyPageDownload(url_list=url_list, **setting)

    policy.run()

def main(file, dir_name):

    if not os.path.exists(dir_name):

        os.mkdir(dir_name)

    inputfile = open(file, 'r', encoding='utf-8')

    urls = [line.strip().split('\t')[1] for index, line in enumerate(inputfile)]

    if os.path.exists(dir_name):

        urls = filter_urls(dir_name, urls)

    with ThreadPoolExecutor() as pool:

        pool.map(run, np.array_split(urls, 4))

if __name__ == '__main__':

    start_time = time.time()

    setting = {

        'file': '药品供应保障综合的管理.txt',

        'dir_name': '药品供应保障综合的管理'

        }

    main(**setting)

    print('下载成功, 共花费时间 ', round(time.time() - start_time, 2), '秒')

运行结果

#  50 for循环： 下载成功, 共花费时间  48.62 秒

# 150 for循环： 共花费时间  150.22 秒

# 150 多线程： 共花费时间  80.84 秒

结论：建立driver的花销较大，尽量创建一次，多次使用，并发的话不能共用一个driver，必须重新创建
使用技巧总结：创建多个线程，个数最好和cpu个数相同，每个线程创建一个driver

selenium实现并发的更多相关文章

使用jenkins pipeline，并发selenium测试 --- 你值得了解
一.契机相信很多使用selenium进行UI测试,再对接jenkins时,都是简单的在jenkins上将命令输入就完事了. 但是,相信你一定会遇到以下问题: 1.你需要同时跑不同文件或不同类的用例, ...
selenium 并发执行测试用例
转帖: 要想多线程并发的运行WebDriver,必须同时满足2个条件,首先你的测试程序是多线程,其次需要用到Selenium Server(selenium-server-standalone-XXX ...
Selenium & Webdriver 远程测试和多线程并发测试
Selenium & Webdriver 远程测试和多线程并发测试 Selenium Webdriver自动化测试,初学者可以使用selenium ide录制脚本,然后生成java程序导入ec ...
selenium从入门到应用 - 8，selenium+testNG实现多线程的并发测试
本系列所有代码 https://github.com/zhangting85/simpleWebtest本文将介绍一个Java+TestNG+Maven+Selenium的web自动化测试脚本环境下s ...
Selenium 2 & WebDriver &多线程并发
我用的是Selenium2,至于它的背景和历史就不赘述了.Selenium2也叫WebDriver.下面讲个例子,用WebDriver+java来写个自动化测试的程序.(如果能用firefox去测试的 ...
selenium grid解决多台电脑进行并发执行测试脚本
1 两台计算机,一台计算机既做HUB,又做Node 机器A设置HUB的步骤: 1 运行---输入cmd 2 输入: cd c:/ 3 输入: java -jar selenium-server-st ...
selenium 常见面试题以及答案（Java版）
1.怎么判断元素是否存在? 判断元素是否存在和是否出现不同, 判断是否存在意味着如果这个元素压根就不存在, 就会抛出NoSuchElementException 这样就可以使用try catch,如 ...
搭建selenium grid简单配置
1.使用selenium提供的服务端独立jar包 :服务端.客户端都是运行于java7环境. 2.启动hub: hub配置文件如下: Java -jar selenium-server-standal ...
关于selenium的CI、框架……
这段时间除了项目测试外,主要在做web自动化的事情,大致总结一下吧,总体的设计模式pageobject+pagefactory+testng的数据驱动,项目用maven来构建,使用jenkins集成, ...

随机推荐

【笔记】草履虫也能看懂的ELK搭建流程
环境需要 Elasticsearch需要JAVA环境,至少是JDK1.8 elasticsearch 不允许root用户使用,需要新增个elk用户如果觉得官网下载太慢,可以使用这个 https:// ...
ASP.NET VS 调试提示：指定的端口正在使用中，建议切换到xxx之外并大于1024的端口
问题描述使用 Visual Studio 开发 ASP.NET 网站的过程中,突然提示端口被占用: 解决方式在启动项目上右键→属性,切换到 Web .直接修改服务器栏目里面的端口号,解决!
sublime打开中文文件乱码以及打开文件出现.dump
一.中文乱码原因:中文文件由gbk编码,刚安装的sublime不支持转码解决方法:调用ctrl+shift+p,输入:install package,回车,在稍后弹出的安装包框中搜索:Conver ...
Codeforces GYM 100876 J - Buying roads 题解
Codeforces GYM 100876 J - Buying roads 题解才不是因为有了图床来测试一下呢,哼( 题意给你\(N\)个点,\(M\)条带权边的无向图,选出\(K\)条边,使得 ...
文本处理的命令，三剑客之sed
文本处理的命令 1.sort命令 "用于将文件内容加以排序" 参数: -n :按照数值的大小排序 -r :以相反的顺序来排序 -k :以某列进行排序 -t :指定分隔符,默认是以空 ...
LuoguB2075 幂的末尾题解
Content 求 \(a^b\) 的末三位. 数据范围:\(1\leqslant a\leqslant 100\),\(1\leqslant b\leqslant 10^4\). Solution ...
LuoguP4759 [CERC2014]Sums 题解
Content 给定 \(t\) 组数据,每组数据给定一个数 \(n\),判断 \(n\) 是否能够分解成连续正整数和,能的话给出最小数最大的方案. 数据范围:\(1\leqslant n\leqsl ...
java 多线程：线程死锁,如何判断程序是否有死锁代码块儿
线程死锁死锁是指两个或两个以上的线程在执行过程中,由于竞争资源或者由于彼此通信而造成的一种阻塞的现象,若无外力作用,它们都将无法推进下去(百度百科). 代码示例: /** * @ClassName ...
什么是协程？与线程和进程对比优劣在哪？gevent协程示例代码
协程协程,又称微线程,纤程.英文名Coroutine..一句话说明什么是线程:协程是一种用户态的轻量级线程. 协程拥有自己的寄存器上下文和栈.协程调度切换时,将寄存器上下文和栈保存到其他地方,在 ...
AcWing1264. 动态求连续区间和 (树状数组做法)
1.题目给定 n 个数组成的一个数列,规定有两种操作,一是修改某个元素,二是求子数列 [a,b] 的连续和. 输入格式第一行包含两个整数 n 和 m,分别表示数的个数和操作次数. 第二行包含 n ...

selenium实现并发

for循环和多线程 + selenium

实例一

for循环

多线程

实例二

顺序执行

多线程

selenium实现并发的更多相关文章

随机推荐

热门专题