使用selenium爬取网站动态数据

处理页面动态加载的爬取

selenium

selenium是python的一个第三方库，可以实现让浏览器完成自动化的操作，比如说点击按钮拖动滚轮等

环境搭建：
- 安装:pip install selenium
- 获取浏览器的驱动程序：下载地址http://chromedriver.storage.googleapis.com/index.html
- 驱动与浏览器版本对应：https://blog.csdn.net/ezreal_tao/article/details/80808729
  
  设置chorme浏览器无界面模式：
编码流程：

from selenium import  webdriver

import time

# 创建一个浏览器对象 executable_path:驱动路径

bro = webdriver.Chrome(executable_path='./chromedriver')

# get方法可以指定一个url，让浏览器进行请求

bro.get('https://www.baidu.com')

# 让浏览器进行指定词条搜索

'''

#使用下面的方法，查找指定的元素进行操作即可

    find_element_by_id            根据id找节点

    find_elements_by_name         根据name找

    find_elements_by_xpath        根据xpath查找

    find_elements_by_tag_name     根据标签名找

    find_elements_by_class_name   根据class名字查找

'''

text = bro.find_element_by_id('kw')

text.send_keys('人民币') # send_keys表示向文本框中录入指定内容

time.sleep(3)

button = bro.find_element_by_id('su')

button.click()# click表示的是点击操作

time.sleep(5)

bro.quit()

phantomJs

phantomJs是一个无界面的浏览器，其自动化流程与上述操作谷歌自动化流程是一模一样的

from selenium import webdrvier

使用selenium爬取豆瓣电影搞笑排行榜动态数据

from selenium import webdriver

import time

from lxml import etree

bro = webdriver.Chrome('./chromedriver')

url = 'https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action='

bro.get(url)

# 等待五秒页面加载完毕

time.sleep(5)

# 重复20次使用页面滚轮

for i in range(20):

    time.sleep(2)

    bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

# 获取页面源代码，可以使用三种解析方式进行解析，这里使用xpath解析数据

text = bro.page_source

tree = etree.HTML(text)

div_list = tree.xpath('//div[@class="movie-info"]')

f = open('豆瓣喜剧电影排行榜.txt','w',encoding='utf-8')

count = 0

for div in div_list:

    # 获取电影具体数据，并进行持久化存储

    try:

        name = div.xpath('./div[@class="movie-name"]/span/a/text()')[0]

        link = div.xpath('./div[@class="movie-name"]/span/a/@href')[0]

        man = div.xpath('./div[@class="movie-crew"]/text()')[0]

        country = div.xpath('./div[@class="movie-misc"]/text()')[0]

        num = div.xpath('./div[@class="movie-rating"]/span[2]/text()')[0]

    except IndexError:

        continue

    f.write('电影名：'+name+'\n链接'+link+'\n'+'导演：'+man+'\n国家：'+country+'\n评分：'+num+'\n-----------------------------\n\n\n')

    print('写入成功:',name)

    count += 1

print('爬取完毕,共抓取%s跳数据'%count)

f.close()

time.sleep(5)

bro.quit()

使用selenium爬取网站动态数据的更多相关文章

使用Selenium爬取网站表格类数据
本文转载自一下网站:Python爬虫(5):Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需 ...
爬虫(十七)：Scrapy框架(四) 对接selenium爬取京东商品数据
1. Scrapy对接Selenium Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态谊染的页面.在前面的博客中抓取Ja ...
如何使用python爬取网页动态数据
我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据. 以某电影网站为例:我们要获取到电影名称以 ...
利用selenium 爬取豆瓣武林外传数据并且完成数据可视化情绪分析
全文的步骤可以大概分为几步: 一:数据获取,利用selenium+多进程(linux上selenium 多进程可能会有问题)+kafka写数据(linux首选必选耦合)windows直接采用的是写my ...
python selenium爬取自如租房数据保存到TXT文件
# -*- coding: utf-8 -*-"""Created on Fri Aug 31 2018 @author: chenlinlab"" ...
scrapy框架 + selenium 爬取豆瓣电影top250......
废话不说,直接上代码..... 目录结构 items.py import scrapy class DoubanCrawlerItem(scrapy.Item): # 电影名称 movieName = ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
selenium跳过webdriver检测并爬取天猫商品数据
目录简介编写思路使用教程演示图片源代码 @(文章目录) 简介现在爬取淘宝,天猫商品数据都是需要首先进行登录的.上一节我们已经完成了模拟登录淘宝的步骤,所以在此不详细讲如何模拟登录淘宝.把关 ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...

随机推荐

Python sqlalchemy orm 多对多外键关联
多对多外键关联注:使用三张表进行对应关联实现代码: # 创建3个表配置外键关联 # 调用Column创建字段加类型 from sqlalchemy import Table, Column, ...
java excel大数据量导入导出与优化
package com.hundsun.ta.utils; import java.io.File; import java.io.FileOutputStream; import java.io.I ...
★Pandas 零碎知识
1 修改属性 1.1 修改1列的类型属性: df['总金额'] = pd.to_numeric(df['总金额']) #转变dataframe的1列为数值型 1.2 多列设为数值型:(使用DataFr ...
01：open-falcon入门篇
open-falcon其他篇目录: 1.1 openfalcon介绍 1.2 open-falcon架构 1.1 openfalcon介绍返回顶部 openfalcon官网: https://b ...
【常见错误】Quartz常见错误
1.集群之后把其中一个Quartz服务停了,其他的也不接手工作问题描述集群之后,A节点执行了大多数任务,B节点大部分时间处于空闲,停掉A节点,B节点也不会接手工作. 解决方式修改Quartz的配 ...
Bytom信息上链教程
比原项目仓库: Github地址:https://github.com/Bytom/bytom Gitee地址:https://gitee.com/BytomBlockchain/bytom 用比原链 ...
数组toString()方法，数组常用操作
int[] arr ={1,2,3,4,5}; String arrString = Arrays.toString(arr); //输出[I@7150bd4d System.out.println( ...
vxlan中vtep角色，以及通过GRE隧道进行流镜像
1. 交换机上建立gre隧道,对端ip为ip12. 交换机上报gre隧道的OF逻辑端口port id,这里gre tunnel的id实际就是OF逻辑端口id3. 控制器建立流ipflow1的镜像配置, ...
JAVA文件操作类和文件夹的操作代码示例
JAVA文件操作类和文件夹的操作代码实例,包括读取文本文件内容, 新建目录,多级目录创建,新建文件,有编码方式的文件创建, 删除文件,删除文件夹,删除指定文件夹下所有文件, 复制单个文件,复制整个文件 ...
python中得公有和私有——私有函数和公开函数_补充完整
包括实例属性.类属性,私有成员和公有成员,公有方法.私有方法和静态方法. 类似_xxx和__xxx这样的函数或变量就是非公开的,不应该被直接引用.如下: # python私有函数 def _abc_1 ...

使用selenium爬取网站动态数据

selenium

phantomJs

使用selenium爬取豆瓣电影搞笑排行榜动态数据

使用selenium爬取网站动态数据的更多相关文章

随机推荐

热门专题