记录几个爬取动态网页时的问题(下拉框，旧的元素无法获取，获取的源代码和f12看到的不一致，爬取延迟)

更新。。。。。这个动态网页其实直接抓取ajax请求就可以了，很简单，我之前想复杂了，虽然也实现了，但是效率极低，不过没关系，就当作是对Selenium的一次学习吧

1.最近在爬取一个动态网页，其中为了更新页面，需要选择不同的选项，即对下拉框进行处理，这里的下拉框是用input实现的假的下拉框，但是他后面又有一个隐藏的select，我原本想着是将隐藏的select使用js脚本进行修改变得可见，之后进行点击等操作，但是使用网上方法之后，发现select可见到是可见了，但是点击之后却没有任何效果，各方搜索无果，最后决定自己解决这个问题，解决方案如下

思路使用selenium完全模拟人类的操作，一步一步点击可见的按钮

，一，定位下拉框按钮，并进行点击，

二，点击下拉框按钮之后会出现一个列表，定位这个列表之中的某一项元素，进行点击，注意这一步必须在下拉框按钮点击之后才能进行(使用time.sleep() 等待几秒，不然会提示点击内容不存在)

通过这两步，我们就可以改变动态网页的信息了，代码如下

def getButton(browser):

    # 获取下拉框按钮

    Button = browser.find_elements_by_class_name("textbox-icon")  # 定位哪一栋楼按钮

    buildButton = Button[]

    floorButton = Button[]

    buildingsAndFloors = browser.find_elements_by_class_name("combobox-item")  # 楼选项

    floors = buildingsAndFloors[:]

    buildings = buildingsAndFloors[:]

    info = dict()

    info['floors'] = floors

    info['buildings'] = buildings

    info['buildButton'] = buildButton

    info['floorButton'] = floorButton

    return info

2.还有就是在爬取的时候，经常会提示点击的按钮或者什么不存在之类的，所以必须设置延迟才行，

3.动态网页有的你获取到的源代码和在网页上f12看到的不一样，我的解决方案是你先在网页上进行一次操作，之后再获取源代码就正常了

4.动态网页存在不断刷新问题，但是每次刷新之后，会提示你旧的元素不能够使用，所以这时你必须重新获取一次不能使用的信息才行，如下,getButton() 函数获取按钮信息，每次页面刷新后需要点击按钮时都重新进行获取，

# 获取某一栋楼某一层的信息所对应页面的源代码

def getSoup(buildNumber, floor):

    info = getButton(browser)

    info['buildButton'].click()      # 点击指定楼

    info['buildings'][buildNumber].click()

    time.sleep()

    info = getButton(browser)        # 重新获取信息

    time.sleep()

    info['floorButton'].click()      # 点击指定楼层

    info['floors'][floor].click()

    soup = BeautifulSoup(browser.page_source, 'html.parser')

    return soup

记录几个爬取动态网页时的问题(下拉框，旧的元素无法获取，获取的源代码和f12看到的不一致，爬取延迟)的更多相关文章

InstallShield Limited Edition for Visual Studio 国内注册时国家无下拉框解决方法
注册地址:http://learn.flexerasoftware.com/content/IS-EVAL-InstallShield-Limited-Edition-Visual-Studio 火狐 ...
jquery+html三级联动下拉框及详情页面加载时的select初始化问题
html写的三个下拉框,如下: <select name="ddlQYWZYJ" id="ddl_QYWZYJ" class="fieldsel ...
QTP测试.NET程序的时候，ComboBox下拉框控件选择后，运行时对象不可见解决方案
解决方法: 录制时,选择下拉框数据的时候,不要鼠标单击选择,而是要用ENTER(回车键)来选择,才能完成选择,这样录制就OK了.
R语言爬取动态网页之环境准备
在R实现pm2.5地图数据展示文章中,使用rvest包实现了静态页面的数据抓取,然而rvest只能抓取静态网页,而诸如ajax异步加载的动态网页结构无能为力.在R语言中,爬取这类网页可以使用RSele ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
使用scrapy-selenium, chrome-headless抓取动态网页
在使用scrapy抓取网页时, 如果遇到使用js动态渲染的页面, 将无法提取到在浏览器中看到的内容. 针对这个问题scrapy官方给出的方案是scrapy-selenium, 这是一个把sel ...
scrapy和selenium结合抓取动态网页
1.安装python (我用的是2.7版本的) 2.安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 ...

随机推荐

sk-learn 决策树的超参数
一.参数criterion:特征选择标准,[entropy, gini].默认gini,即CART算法. splitter:特征划分标准,[best, random].best在特征的所有划分点中找出 ...
python类的两种创建方式
参考: https://blog.csdn.net/likunkun__/article/details/81949479
SSM框架中，controller的action返回参数给vue.js
在SSM框架中,controller的action中,返回的是视图,即jsp页面或是ModelAndView,若是通过axios给vue传值的话,需要转换为字符串或是user实体类对象. 使用@Res ...
Hadoop-2.7.3-src 源码编译
Hadoop-2.7.3 编译 1.需要环境梳理 BUILDING JDK1.7+ maven 3.0 or later findbugs 1.3.9 protocolBuffer 2.5.0 cma ...
背包九讲PDF
本资料仅限个人学习交流使用,不得用于商业用途. 背包九讲PDF:https://pan.baidu.com/s/17rTxMwCo9iSTOW77yucdXQ 提取码:xbqa
[Android] Android Build 时报错： java.io.IOException: Could not parse XML from android/accounts/annotations.xml
Android构建时报错: app:lintVitalRelease[Fatal Error] :3:214: 与元素类型 “item” 相关联的 “name” 属性值不能包含 ‘<’ 字符. ...
linux常用系统指令
[linux常用系统指令] 查看内核版本:cat /proc/version 查看发行版本:cat /etc/issue 通过安装lsb的方式查看发行版本: yum provides */lsb_re ...
WordPress Plugin Form Maker [CSRF → LFI] vulnerable 2019-03-17
# Title: Form Maker by WD [CSRF → LFI]# Date: 2019-03-17# Exploit Author: Panagiotis Vagenas# Vendor ...
【转】Java 通过JDBC连接Mysql数据库的方法和实例【图文说明】
JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口 ...
IntelliJ Idea 第一次使用
概括程序员每次电脑重新安装或者新的电脑上进行开发时都会安装一些开发软件,这时候基本都是去官网下载,然后破解(中国程序员啊哈哈)进行快乐使用,为了让自己方便小编也写一个,不用去别人那里找来找去安装I ...

记录几个爬取动态网页时的问题(下拉框，旧的元素无法获取，获取的源代码和f12看到的不一致，爬取延迟)

记录几个爬取动态网页时的问题(下拉框，旧的元素无法获取，获取的源代码和f12看到的不一致，爬取延迟)的更多相关文章

随机推荐

热门专题