使用Selenium慢慢向下滚动页面

我正试图从航班搜索页面抓取一些数据.

此页面以这种方式工作：

你填写一个表格,然后你点击按钮搜索 – 这没关系.当您单击该按钮时,您将被重定向到包含结果的页面,这就是问题所在.这个页面连续添加结果,例如一分钟,这不是什么大问题 – 问题是得到所有这些结果.当您使用真正的浏览器时,您必须向下滚动页面并显示这些结果.所以我试图使用Selenium向下滚动.它可能在页面底部向下滚动可能非常快,或者是跳转而不是滚动页面不会加载任何新结果.

当你慢慢向下滚动时,它会重新加载结果,但是如果你这么做就会停止加载.

我不确定我的代码是否有助于理解,所以我附上它.

SEARCH_STRING = """URL"""

class spider():

    def __init__(self):

        self.driver = webdriver.Firefox()

    @staticmethod

    def prepare_get(dep_airport,arr_airport,dep_date,arr_date):

        string = SEARCH_STRING%(dep_airport,arr_airport,arr_airport,dep_airport,dep_date,arr_date)

        return string

    def find_flights_html(self,dep_airport, arr_airport, dep_date, arr_date):

        if isinstance(dep_airport, list):

            airports_string = str(r'%20').join(dep_airport)

            dep_airport = airports_string

        wait = WebDriverWait(self.driver, 60) # wait for results

        self.driver.get(spider.prepare_get(dep_airport, arr_airport, dep_date, arr_date))

        wait.until(EC.invisibility_of_element_located((By.XPATH, '//img[contains(@src, "loading")]')))

        wait.until(EC.invisibility_of_element_located((By.XPATH, u'//div[. = "Poprosíme o trpezlivosť, hľadáme pre Vás ešte viac letov"]/preceding-sibling::img')))

        self.driver.execute_script("window.scrollTo(0,document.body.scrollHeight);")

        self.driver.find_element_by_xpath('//body').send_keys(Keys.CONTROL+Keys.END)

        return self.driver.page_source

    @staticmethod

    def get_info_from_borderbox(div):

        arrival = div.find('div',class_='departure').text

        price = div.find('div',class_='pricebox').find('div',class_=re.compile('price'))

        departure = div.find_all('div',class_='departure')[1].contents

        date_departure = departure[1].text

        airport_departure = departure[5].text

        arrival = div.find_all('div', class_= 'arrival')[0].contents

        date_arrival = arrival[1].text

        airport_arrival = arrival[3].text[1:]

        print 'DEPARTURE: '

        print date_departure,airport_departure

        print 'ARRIVAL: '

        print date_arrival,airport_arrival

    @staticmethod

    def get_flights_from_result_page(html):

        def match_tag(tag, classes):

            return (tag.name == 'div'

                    and 'class' in tag.attrs

                    and all([c in tag['class'] for c in classes]))

        soup = mLib.getSoup_html(html)

        divs = soup.find_all(lambda t: match_tag(t, ['borderbox', 'flightbox', 'p2']))

        for div in divs:

            spider.get_info_from_borderbox(div)

        print len(divs)

spider_inst = spider() 

print spider.get_flights_from_result_page(spider_inst.find_flights_html(['BTS','BRU','PAR'], 'MAD', '2015-07-15', '2015-08-15'))

因此,我认为主要问题是滚动太快而无法触发新的结果加载.

你知道如何使它工作吗？

最佳答案

这是一个不同的方法,对我有用,包括滚动到最后一个搜索结果的视图,并等待再次滚动之前加载其他元素：

# -*- coding: utf-8 -*-

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.common.exceptions import StaleElementReferenceException

from selenium.webdriver.support import expected_conditions as EC

class wait_for_more_than_n_elements(object):

    def __init__(self, locator, count):

        self.locator = locator

        self.count = count

    def __call__(self, driver):

        try:

            count = len(EC._find_elements(driver, self.locator))

            return count >= self.count

        except StaleElementReferenceException:

            return False

driver = webdriver.Firefox()

dep_airport = ['BTS', 'BRU', 'PAR']

arr_airport = 'MAD'

dep_date = '2015-07-15'

arr_date = '2015-08-15'

airports_string = str(r'%20').join(dep_airport)

dep_airport = airports_string

url = "https://www.pelikan.sk/sk/flights/list?dfc=C%s&dtc=C%s&rfc=C%s&rtc=C%s&dd=%s&rd=%s&px=1000&ns=0&prc=&rng=1&rbd=0&ct=0" % (dep_airport, arr_airport, arr_airport, dep_airport, dep_date, arr_date)

driver.maximize_window()

driver.get(url)

wait = WebDriverWait(driver, 60)

wait.until(EC.invisibility_of_element_located((By.XPATH, '//img[contains(@src, "loading")]')))

wait.until(EC.invisibility_of_element_located((By.XPATH,

                                               u'//div[. = "Poprosíme o trpezlivosť, hľadáme pre Vás ešte viac letov"]/preceding-sibling::img')))

while True:  # TODO: make the endless loop end

    results = driver.find_elements_by_css_selector("div.flightbox")

    print "Results count: %d" % len(results)

    # scroll to the last element

    driver.execute_script("arguments[0].scrollIntoView();", results[-1])

    # wait for more results to load

    wait.until(wait_for_more_than_n_elements((By.CSS_SELECTOR, 'div.flightbox'), len(results)))

笔记：

>你需要弄清楚何时停止循环 – 例如,在特定的len(结果)值
> wait_for_more_than_n_elements是一个custom Expected Condition,它有助于确定何时加载下一部分,我们可以再次滚动

转自： https://www.cnblogs.com/yipianshuying/p/10040461.html

使用Selenium慢慢向下滚动页面的更多相关文章

向下滚动页面加载图片的js
js代码 scroll.photo.js : window.imgscroll = { options: { target: null, //插入图片的目标位置 img_list: null, //图 ...
利用python+selenium在pycharm下进行页面登陆的半自动测试
很久没有写了,现在正式入职,准备好好干,加油! 我的第一个较正式的测试代码: from selenium import webdriverimport unittestimport sysimport ...
selenium从入门到应用 - 5，页面对象设计模式下的页面模块
本系列所有代码 https://github.com/zhangting85/simpleWebtest 本文将介绍一个Java+TestNG+Maven+Selenium的web自动化测试脚本环境下 ...
hexo next 主题 : 实现点击跳转到文章的时候文章的页面自动实现滚轮效果，向下滚动到阅读的位置。
个人博客:https://mmmmmm.me 源码:https://github.com/dataiyangu/dataiyangu.github.io 背景: 博主的博客希望实现能够在点击到某个文章 ...
js-scroll判断页面是向上滚动还是向下滚动
原理:那当前的scrollTop和之前的scrollTop对比如果变大了,表示向下滚动(scrollTop值变大): 如果变小了,表示向上滚动(scrollTop值变小). 方法一:js代码: $( ...
js 页面向下滚动
向下滚动一段距离距离顶部距离 var scrollTop=document.documentElement.scrollTop||document.body.scrollTop; <scrip ...
抓取Js动态生成数据且以滚动页面方式分页的网页
代码也可以从我的开源项目HtmlExtractor中获取. 当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢? 如类似今日头条这样的网 ...
向上滚动或者向下滚动分页异步加载数据(Ajax + lazyload)[上拉加载组件]
/**** desc : 分页异步获取列表数据,页面向上滚动时候加载前面页码,向下滚动时加载后面页码 ajaxdata_url ajax异步的URL 如data.php page_val_name a ...
jQuery带控制按钮向上和向下滚动文本列表
效果:http://hovertree.com/texiao/jquery/64/ 效果图如下: 代码如下: <!DOCTYPE html> <html> <head&g ...

随机推荐

Python 发送邮件案例
文件形式的邮件 #!/usr/bin/env python #coding: utf-8 import smtplib from email.mime.text import MIMEText fro ...
【重构.改善既有代码的设计】14、总结&读后感
14.总结首先,这是一本太老的书,很多观点已经被固化或者过时了.但核心观点没有问题,虽然大多数观点已经被认为是理所当然的事情了. 重构的定义重构分几种: 1.狭义的代码重构就是本书讲的, ...
Production-Ready Beanstalkd with Laravel 4 Queues
原文地址:http://fideloper.com/ubuntu-beanstalkd-and-laravel4 Note: TL;DR version at the bottom! Queues a ...
PostgreSQL 常用的命令
连接数据库: psql -h ip -U usrname查看所有库: \l查看所有表: \dt查看某个表的结构: \d 表名查看数据库中所有的表: select * from pg_tables;查看 ...
【[GDOI2014]拯救莫莉斯】
可能我的状态比较鬼畜,应该没有人这么写设$dp[i][j][k]$表示在第$i$行,放置油库的状态为$j$,实际上周围已经有油库或者本身有油库的状态为$k$的时候的最小花费由于我们 ...
VirtualBox操作总结
1. VirtualBox安装下载rpm,rpm -ivh 安装 2. 在图形界面打开virtual box virtualbox 3. vboxmanage打开虚拟机 vboxmanage sta ...
MySQL 分库分表方案，总结的非常好！
前言公司最近在搞服务分离,数据切分方面的东西,因为单张包裹表的数据量实在是太大,并且还在以每天60W的量增长. 之前了解过数据库的分库分表,读过几篇博文,但就只知道个模糊概念, 而且现在回想起来什么 ...
ascll方便查询
String 的字面量、常量池、构造函数和intern()函数
一.内存中的 String 对象 Java 的堆和栈对于基本数据类型变量和对象的引用,也就是局部变量表属于栈内存: 而通过 new 关键字和 constructor 创建的对象存放在堆内存: 直接的 ...
ArcSDE 数据迁移 Exception from HRESULT: 0x80041538问题及解决方案
一.问题描述 1.采用gdb模板文件,在ArcSDE(数据服务器)中批量创建数据库表(数据迁移)时,用到接口ESRI.ArcGIS.Geodatabase.IGeoDBDataTransfer的方法T ...

使用Selenium慢慢向下滚动页面

使用Selenium慢慢向下滚动页面的更多相关文章

随机推荐

热门专题