利用selenium并使用gevent爬取动态网页数据

首先要下载相应的库

gevent协程库：pip install gevent

selenium模拟浏览器访问库：pip install selenium

selenium库相应驱动配置 https://www.cnblogs.com/Niuxingyu/p/10490882.html

#导包

import gevent

#猴子补丁

from gevent import monkey

monkey.patch_all()

import requests

import os

import re

from lxml import etree

#模拟浏览器行为

from selenium import webdriver

#定义全局变量

global_url_list = []

#定义类

class GeventSpider(object):

    #定义类属性

    encloseing_url_list = []

    #定义抓取方法

    def run(self,url):

        # 抓取写文件

        if url == 'http://military.cctv.com/' :

            file_name = 'test_cctv.html'

        else:

            file_name = 'inner_cctv.html'

        html_content = ''

        if not os.path.exists(file_name) :

            #定义浏览器对象

            browser = webdriver.Chrome()

            browser.get(url)

            #解码赋值

            html = browser.page_source.encode('utf-8').decode()

            time.sleep(1)

            #解码

            # html = r.content.decode('utf-8')

            #写文件  指定文件编码

            with open('./'+file_name,'w',encoding='utf-8') as f:

                f.write(html)

            #关闭浏览器

            browser.quit()

            html_content =  html

        else:

            #读取文件返回

            with open('./'+file_name,encoding='utf-8') as f:

                content = f.read()

            html_content = content

        self.get_xpath(html_content)

    #定义数据匹配方法

    def get_xpath(self,html):

        #转换格式

        html = etree.HTML(html)

        #匹配url

        html_data_url = html.xpath('//span[@class="l"]/a/@href')

        #声明修改全局变量

        global global_url_list

        global_url_list = html_data_url

        #修改类属性

        self.encloseing_url_list = html_data_url

    #定义爬取内页逻辑

    def get_inner(self,url):

        #发送请求

        r = requests.get(url)

        html = r.content.decode('utf-8')

        #正则匹配标题

        regex = re.compile('<h1>(.+?)</h1>',re.I)

        print(regex.findall(html))

if __name__ == "__main__":

    #实例化一个对象

    geventspider = GeventSpider()

    #定义一个urllist

    url_list = ['http://military.cctv.com/']

    #请求首页没必要开协程

    geventspider.run(url_list[0])

    #重新赋值 使用协程同时爬取十四个内页  其实这里我们做了两种方法一个使用类属性赋值，还可以使用我们定义好的全局变量global_url_list来进行赋值

    url_list = geventspider.encloseing_url_list

    #url_list = global_url_list

    #列表推倒式将所有创建好的协程写入列表

    job_list = [gevent.spawn(geventspider.get_inner,item) for item in url_list]

    #阻塞协程 等待所有协程完成后在进行关闭

    gevent.joinall(job_list)

利用selenium并使用gevent爬取动态网页数据的更多相关文章

python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
R语言爬取动态网页之环境准备
在R实现pm2.5地图数据展示文章中,使用rvest包实现了静态页面的数据抓取,然而rvest只能抓取静态网页,而诸如ajax异步加载的动态网页结构无能为力.在R语言中,爬取这类网页可以使用RSele ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
爬虫（三）通过Selenium + Headless Chrome爬取动态网页
一.Selenium Selenium是一个用于Web应用程序测试的工具,它可以在各种浏览器中运行,包括Chrome,Safari,Firefox 等主流界面式浏览器. 我们可以直接用pip inst ...
记录几个爬取动态网页时的问题(下拉框，旧的元素无法获取，获取的源代码和f12看到的不一致，爬取延迟)
更新.....这个动态网页其实直接抓取ajax请求就可以了,很简单,我之前想复杂了,虽然也实现了,但是效率极低,不过没关系,就当作是对Selenium的一次学习吧 1.最近在爬取一个动态网页,其中为了 ...
爬取动态网页：Selenium
参考:http://blog.csdn.net/wgyscsf/article/details/53454910 概述在爬虫过程中,一般情况下都是直接解析html源码进行分析解析即可.但是,有一种情 ...
selenium+phantomjs爬取动态页面数据
1.安装selenium pip/pip3 install selenium 注意依赖关系 2.phantomjs for windows 下载地址:http://phantomjs.org/down ...
python爬取动态网页2，从JavaScript文件读取内容
import requests import json head = {"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) ...

随机推荐

Spring boot + mybatis + orcale实战（干货）
废话少说,直接上步骤: 第一步:安装好IDEA(此处省略) 第二步:在IDEA新建springboot工程第三步:在springboot工程的pom.xml添加oracle和mybait依赖 < ...
CSS实现元素水平垂直居中
我们知道,实现元素的水平居中比较简单,在设置了宽度后,设置左右margin为auto就可以. 但是如何设置元素垂直居中呢? 当然,对于单行的文字,可以通过设置line-height来解决, 可以对于一 ...
Java——scoket通讯
Socket 网络上的两个程序通过一个双向的通信连接实现数据的交换,这个连接的一端称为一个socket. Socket是TCP/IP协议通信的抽象层,所以我们还需要了解TCP协议传输层协议 TCP: ...
tensorflow实现基于LSTM的文本分类方法
tensorflow实现基于LSTM的文本分类方法作者:u010223750 引言学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实 ...
static类型的变量
c语言中变量的储存类型有以下四种 auto 如果没有定义储存类型默认就是这个类型比如 int a = 10; 储存类型就是 auto:编译器会跟你定义的位置,以及用途,自动帮你决定使用那 ...
人工智能将继续壮大，两会委员建议增加“AI+教育”支持板块
导读今年上海两会期间,上海市政协委员.上海交通大学机械与动力工程学院教授范秀敏提交提案,建议政府在推进上海人工智能专项建设中,增加“AI+教育”专项支持板块,并鼓励集聚发展AI产业的各个区,在人工智 ...
import logging报错raise notimplementederror 'emit must be implemented ' ^
在导入logging的时候出现这个错误大概看了一下,就是因为python内置里面已经有logging这个模块,所以不需要再安装在site-packages里面找到关于logging的文件,删掉重 ...
H5 history.pushState 在微信内修改url后点击用safari打开/复制链接是修改之前的页面
解决方案:url参数增加随机参数 function wxRefresh() { var replaceQueryParam = (param, newval, search) => { var ...
Kafka消费时报错：Producer connection to xxx:9092 unsuccessful
使用kafka消费数据时报Producer错误,具体错误如下: kafka.producer.SyncProducer:103 Producer connection to xxx:9092 unsu ...
第三十四天 UDP协议并发编程
一.今日内容 1.UDP协议 2.并发编程操作系统的发展史多道技术进程线程 IO模型 socketserver 案例:文件上传下载元类单例 logging filter 二.TCP半连接池 ...

利用selenium并使用gevent爬取动态网页数据

利用selenium并使用gevent爬取动态网页数据的更多相关文章

随机推荐

热门专题