selenium在爬虫中的应用之动态数据爬取

一、selenium概念

　　selenium 是一个基于浏览器自动化的模块

　　selenium爬虫之间的关联：

　　　　1.便捷的获取动态加载的数据

　　　　2.实现模拟登录

　　基本使用

　　　　pip install selenium

　　　　获取浏览器的驱动程序

　　google驱动地址下载链接：http://chromedriver.storage.googleapis.com/index.html

selenium基本使用

from selenium import webdriver

from time import sleep

#实例化一个浏览器对象

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

#发送请求

bro.get('https://www.jd.com/')

sleep(2)

#定位标签

search_tag = bro.find_elements_by_xpath('//*[@id="key"]')[0]

search_tag.send_keys('mac pro')

#定位搜索按钮

btn = bro.find_element_by_xpath('//*[@id="search"]/div/div[2]/button')

btn.click()

#js注入

bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

sleep(3)

bro.quit()

基于selenium爬取动态加载的数据

from selenium import webdriver

from time import sleep

from lxml import etree

#实例化一个浏览器对象

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

bro.get('http://125.35.6.84:81/xk/')

sleep(1)

#当前浏览器显示对应的所有的页面数据

page_text = bro.page_source

all_page_text = [page_text]

for i in range(1,4):

    next_page_tag = bro.find_element_by_xpath('//*[@id="pageIto_next"]')

    next_page_tag.click()

    sleep(1)

    all_page_text.append(bro.page_source)

for page_text in all_page_text:

    tree = etree.HTML(page_text)

    li_list = tree.xpath('//*[@id="gzlist"]/li')

    for li in li_list:

        title = li.xpath('./dl/a/text()')

        print(title)

sleep(3)

bro.quit()

selenium在爬虫中的应用之动态数据爬取的更多相关文章

爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
Python爬虫：用BeautifulSoup进行NBA数据爬取
爬虫主要就是要过滤掉网页中没用的信息.抓取网页中实用的信息一般的爬虫架构为: 在python爬虫之前先要对网页的结构知识有一定的了解.如网页的标签,网页的语言等知识,推荐去W3School: W3s ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
爬虫1.5-ajax数据爬取
目录爬虫-ajax数据爬取 1. ajax数据 2. selenium+chromedriver知识准备 3. selenium+chromedriver实战拉勾网爬虫代码爬虫-ajax数据爬取 ...
Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...
[Python3网络爬虫开发实战] 7-动态渲染页面爬取
在前一章中,我们了解了Ajax的分析和抓取方式,这其实也是JavaScript动态渲染的页面的一种情形,通过直接分析Ajax,我们仍然可以借助requests或urllib来实现数据爬取. 不过Jav ...

随机推荐

Android 屏幕适配之dimens适配
Android 屏幕适配之dimens适配转 https://blog.csdn.net/github_2011/article/details/72636851 在过去多个项目中一直使用 ...
MySQL 临时表和复制表
MySQL 临时表在我们需要保存一些临时数据时是非常有用的.临时表只在当前连接可见,当关闭连接时,Mysql会自动删除表并释放所有空间. 临时表在MySQL 3.23版本中添加,如果你的MySQL版本 ...
python爬虫简单实现,并在java中调用python脚本,将数据保存在json文件中
# coding:utf-8 import urllib2 from bs4 import BeautifulSoup import json import sys reload(sys) sys.s ...
linux下mysql下载安装
1.下载地址 https://www.mysql.com/downloads/ 选择community server 点击DOWLOAD 选择版本,当前选择的5.6版本点击下载mysql-5.6. ...
阶段5 3.微服务项目【学成在线】_day05 消息中间件RabbitMQ_6.RabbitMQ研究-入门程序-消费者
我们在consumer这个功能下进行代码的编写首先是新建这个层级的包创建入门程序的消费者消费者也需要和mq建立通道.建立连接创建通道在顶部都声明这个队列下面写核心代码监听队列.basicCo ...
java+大文件分段上传
一. 功能性需求与非功能性需求要求操作便利,一次选择多个文件和文件夹进行上传:支持PC端全平台操作系统,Windows,Linux,Mac 支持文件和文件夹的批量下载,断点续传.刷新页面后继续传输. ...
Reset Password 重置密码 (CentOS 5,6,7 ; Juniper Networks: SRX100 )
一些重置root 密码的文档分享(来自官网): CentOS 5,6,7 Juniper Networks : SRX100 链接:https://share.weiyun.com/5BM4kwK ...
ivy使用Maven阿里云镜像的问题
ivy默认使用的Maven仓库下载速度有点慢,所以想改成国内的,添加如下resolver: <ibiblio name="working-chinese-mirror" ro ...
记录下关于RabbitMQ常用知识点（持续更新）
1.端口及说明: 4369 -- erlang发现口 5672 --client端通信口 15672 -- 管理界面ui端口 25672 -- server间内部通信口举例说明我们访问Rabbit ...
01.04 linux命令（2
======================Linux下的用户管理==============用户信息保存/etc/passwd ,一般用户都有读的权限真正的用户:修改密码,可以登录伪用户:应用程序在 ...

selenium在爬虫中的应用之动态数据爬取

selenium在爬虫中的应用之动态数据爬取的更多相关文章

随机推荐

热门专题