Scrapy学习-16-动态网页技术

Selenium浏览器自动化测试框架

简介

　　Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。

　　支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。

　　这个工具的主要功能包括：测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。

　　测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本

功能

　　框架底层使用JavaScript模拟真实用户对浏览器进行操作。测试脚本执行时，浏览器自动按照脚本代码做出点击，输入，打开，验证等操作，就像真实用户所做的一样，从终端用户的角度测试应用程序。

　　使浏览器兼容性测试自动化成为可能，尽管在不同的浏览器上依然有细微的差别。

　　使用简单，可使用Java，Python等多种语言编写用例脚本

安装

 pip install selenium

官方文档

 http://selenium-python.readthedocs.io/

驱动下载

Chrome  https://sites.google.com/a/chromium.org/chromedriver/downloads

Edge    https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/

Firefox https://github.com/mozilla/geckodriver/releases

基本使用之模拟登陆知乎

from selenium import webdriver

from scrapy.selector import Selector

browser = webdriver.Chrome(

    executable_path="E:\Python Project\scrapyproject\_ArticleSpider\chromedriver_win32\chromedriver.exe"

)

browser.get("https://www.zhihu.com/#signin")

browser.find_element_by_css_selector(".view-signin input[name='account']").send_keys("")

browser.find_element_by_css_selector(".view-signin input[name='password']").send_keys("as15fQAfa")

browser.find_element_by_css_selector(".view-signin button.sign-button").click()

# browser.quit()

基本使用之模拟登陆微博并下拉滚动条

from selenium import webdriver

import time

browser = webdriver.Chrome(

    executable_path="E:\Python Project\scrapyproject\_ArticleSpider\chromedriver_win32\chromedriver.exe"

)

browser.get("https://weibo.com/")

time.sleep(5)

browser.find_element_by_css_selector("#loginname").send_keys("<username>")

browser.find_element_by_css_selector(".info_list.password input[node-type='password']").send_keys("<password>")

browser.find_element_by_css_selector(".info_list.login_btn a[node-type='submitBtn']").click()

for i in range(3):

    browser.execute_script("window.scrollTo(0, document.body.scrollHeight); var lenOfPage=document.body.scrollHeight; return lenOfPage;")

    time.sleep(3)

# browser.quit()

基本使用之不加载图片提升页面加载速度

from selenium import webdriver

chrome_opt = webdriver.ChromeOptions()

prefs = {"profile.managed_default_content_settings.images":2}

chrome_opt.add_experimental_option("prefs", prefs)

browser = webdriver.Chrome(

    executable_path="E:\Python Project\scrapyproject\_ArticleSpider\chromedriver_win32\chromedriver.exe"，

    chrome_options=chrome_opt

)

browser.get("https://www.taobao.com/")

# browser.quit()

基本使用之隐藏chrom图形界面

注意: 目前只能在linux中使用

下载相关模块

 pip install pyvirtualdisplay

相关依赖下载

sudo apt-get install xvfb

pip install xvfbwrapper

使用步骤

from pyvirtualdisplay import Display

display = Display(visible=0, size=(800, 600))

display.start()

browser = webdriver.Chrome(

    executable_path="E:\Python Project\scrapyproject\_ArticleSpider\chromedriver_win32\chromedriver.exe"

)

browser.get(https://www.taobao.com/)

# browser.quit()

基本使用之phantomjs

特点

　　无界面的浏览器，效率高

　　在linux无图形化界面时使用较多

　　多进程下phantomjs性能会严重下降

　　多线程执行时不稳定

下载

 http://phantomjs.org/download.html

简单使用

from selenium import webdriver

browser = webdriver.PhantomJS(

    executable_path="E:\Python Project\scrapyproject\_ArticleSpider\phantomjs-2.1.1-windows\bin\phantomjs.exe"

)

browser.get("https://item.taobao.com/item.htm?id=558638145403&ali_refid=a3_430673_1006:1109358544:N:%E6%89%8B%E6%9C%BA%E8%8B%B9%E6%9E%9C%E6%89%8B%E6%9C%BA:5d77c360cd1e64043b2f430be7531705&ali_trackid=1_5d77c360cd1e64043b2f430be7531705&spm=a2e15.8261149.07626516002.2")

print(browser.page_source)

browser.quit()

集成selenium到scrapy框架中

为每一个spider创建一个chrom浏览器对象

import scrapy

from scrapy.xlib.pydispatch import dispatcher

from scrapy import signals

from selenium import webdriver

class JobboleSpider(scrapy.Spider):

    name = "jobbole"

    allowed_domains = ["blog.jobbole.com"]

    start_urls = ['http://blog.jobbole.com/all-posts/']

    def __init__(self):

        self.browser = webdriver.Chrome(

            executable_path="E:\Python Project\scrapyproject\_ArticleSpider\chromedriver_win32\chromedriver.exe"

        )

        super(JobboleSpider, self).__init__()

        dispatcher.connect(self.spider_closed, signals.spider_closed)

    def spider_closed(self, spider):

        self.browser.quit()

    def parse(self, response):

        pass

编写middleware在下载时使用chrom打开网页

import time

from scrapy.http import HtmlResponse

class JSPageMiddleware(object):

    def process_request(self, request, spider):

        if spider.name == "jobbole":

            spider.browser.get(request.url)

            time.sleep(3)

            return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source, encoding="utf-8", request=request)

配置settings

DOWNLOADER_MIDDLEWARES = {

    'ArticleSpider.middlewares.JSPageMiddleware': 1,

}

重写downloader实现selenium支持异步请求

需要我们熟悉并遵守scrapy编程规范，可以参考

 https://github.com/flisky/scrapy-phantomjs-downloader

其它浏览器自动化测试工具

更加轻量型的加载动态页面的工具splash、grid

特点

　　比chrom和phantomjs性能更优

　　支持分布式爬虫

　　稳定性不如chrom高

splash-github项目

 https://github.com/scrapy-plugins/scrapy-splash

selenium扩展grid

 https://www.oschina.net/question/tag/selenium-grid

其它浏览器自动化测试工具splinter (纯python开发)

 https://github.com/cobrateam/splinter

Scrapy学习-16-动态网页技术的更多相关文章

转！！常用的4种动态网页技术—CGI、ASP、JSP、PHP
1．CGI CGI(Common Gateway Interface,公用网关接口)是较早用来建立动态网页的技术.当客户端向Web服务器上指定的CGI程序发出请求时,Web服务器会启动一个新的进程 ...
动态网页技术---JSP
JSP(全称JavaServer Pages)是由Sun Microsystems公司倡导和许多公司参与共同创建的一种使软件开发者可以响应客户端请求,而动态生成HTML.XML或其他格式文档的Web网 ...
scrapy 抓取动态网页
-- coding: utf-8 -- ''' gouwu.sogou.com Spider, Created on Dec, 2014 version: 1.0 author: chenqx @ht ...
scrapy 动态网页处理——爬取鼠绘海贼王最新漫画
简介 scrapy是基于python的爬虫框架,易于学习与使用.本篇文章主要介绍如何使用scrapy爬取鼠绘漫画网海贼王最新一集的漫画. 源码参见:https://github.com/liudaol ...
使用JSP/Servalet技术开发新闻发布系统------动态网页开发基础
什么是动态网页? 动态网页是指在服务器端运行的程序或者网页,它们会随不同客户.不同时间,返回不同的网页. 动态网页的特点? (1).交互性:即网页会根据用户的要求和选择而动态改变和响应.采用动态网页技 ...
Java Web开发技术教程入门-初识动态网页
这段时间学校搞了一个"阅战阅勇"的阅读活动,奖品还是挺丰富的~于是,奔着这些奖品,我去图书馆借了这本<Java Web开发技术教程>.一是为了那些丰富的奖品,二是为了回 ...
第一章使用JSP/Server技术开发新闻发布系统第一章动态网页开发基础
一:为什么需要动态网页由于静态网页的内容是固定的,不能提供个性化和定制化得服务,使用动态网页可真正地与用户实现互动. 二:什么是动态网页 ①:动态网页是指在服务器端运行的,使用程序语言设 ...
JSP／Servlet开发——第一章动态网页基础
1.动态网页:在服务端运行的使用程序语言设计的交互网页 : ●动态网站并不是指具有动画功能的网站,而是指网站内容可根据不同情况动态变更的网站(股票网站),一般情况下动态网站通过数据库进行架构. ●动态 ...
Java Web开发技术教程入门-静态网页技术
昨天了解了构建动态网站的几种技术:Servlet技术.JSP技术,ASP技术和ASP.NET技术以及PHP技术.昨天的精髓在于JSP技术的运行原理:通过用户请求JSP文件,首先检查JSP文件的 ...

随机推荐

linux系统下的用户文件句柄数限制
linux系统下的用户文件句柄数限制文章来源:企鹅号为什么要修改用户打开的文件数系统默认单个进程可以打开1024个文件,对于一些应用如tomcat.oracle等,运行时经常open成千上万个文 ...
[bzoj]1003: [ZJOI2006]物流运输
Description 物流公司要把一批货物从码头A运到码头B.由于货物量比较大,需要n天才能运完.货物运输过程中一般要转停好几个码头.物流公司通常会设计一条固定的运输路线,以便对整个运输过程实施严格 ...
科技庄园（背包dp）---对于蒟蒻来说死了一大片的奇题
题目描述: Life种了一块田,里面种了一些桃树. Life对PFT说:“我给你一定的时间去摘桃,你必须在规定的时间之内回到我面前,否则你摘的桃都要归我吃!” PFT思考了一会,最终答应了! 由于PF ...
【dsu || 线段树合并】bzoj4756: [Usaco2017 Jan]Promotion Counting
调半天原来是dsu写不熟 Description The cows have once again tried to form a startup company, failing to rememb ...
【贪心】bzoj1592: [Usaco2008 Feb]Making the Grade 路面修整
贪心的经典套路:替换思想:有点抽象 Description FJ打算好好修一下农场中某条凹凸不平的土路.按奶牛们的要求,修好后的路面高度应当单调上升或单调下降,也就是说,高度上升与高度下降的路段不能 ...
洛谷 2023 [AHOI2009]维护序列
洛谷 2023 [AHOI2009]维护序列洛谷原题传送门这个题也是一道经典的线段树模版(其实洛谷的模版二改一下输入顺序就能AC),其中包括区间乘法修改.区间加法修改.区间查询三个操作. 线段树的 ...
javascript实现原生ajax的几种方法介绍
自从javascript有了各种框架之后,比如jquery,使用ajax已经变的相当简单了.但有时候为了追求简洁,可能项目中不需要加载jquery这种庞大的js插件.但又要使用到ajax这种功能该如何 ...
DeepFaceLab小白入门（1）：软件简介！
简介 DeepFaceLab是一种利用深度学习识别和交换图片和视频中的人脸的工具这是一个github上的开源项目,所有人都可以查看源代码也能免费使用.个人认为这个项目的最大优点就是安装超级简单,几乎 ...
Win2008 Server配置PHP环境
Win2008 Server配置PHP环境阅读目录创建一个网站配置PHP环境配置iis的“处理应用程序映射” 在配置PHP环境之前要先配置好IIS. 传送门-> Win2008 Se ...
【markdown】 markdown 语法
介绍几个 markdown 语法学习地址和相关工具参考链接 coding gitlab markdown offical markdown editor markdown editor2

Scrapy学习-16-动态网页技术

Scrapy学习-16-动态网页技术的更多相关文章

随机推荐

热门专题