第8章 scrapy进阶开发(1)

8-1 selenium动态网页请求与模拟登录知乎

Ⅰ、介绍selenium

1.什么是selenium：selenium百度百科

2.selenium的构架图：

如果要操作浏览器，还需要一个drive。

Ⅱ、安装selenium

1.可以 pip install selenium。

2.找selenium的文档（比较难找）。

如图：

找到Drive，下载对应浏览器的drive，推荐用chrome（如果打不开就要VPN下载）

Ⅲ、使用selenium

 # -*- coding: utf-8 -*-

 from selenium import webdriver

 from scrapy.selector import Selector

 #知乎的模拟登录

 browser = webdriver.Chrome(executable_path="E:/chromedriver.exe")  #路径是chromedriver.exe的存放的位置

 browser.get("https://www.zhihu.com/#signin")

 browser.find_element_by_css_selector(".view-signin input[name='account']").send_keys("********") #帐号

 browser.find_element_by_css_selector(".view-signin input[name='password']").send_keys("********") #密码

 browser.find_element_by_id("captcha").send_keys(input('请输入验证码：'))

 browser.find_element_by_css_selector(".view-signin button.sign-button").click() #登录

 browser.quit()

 #可以用selenium得到js加载后的html，比如这样的话可以抓取到本来抓取的不到的一些字段（淘宝的交易量等等）

 browser = webdriver.Chrome(executable_path="E:/chromedriver.exe")

 browser.get("https://detail.tmall.com/item.htm?spm=a230r.1.14.3.yYBVG6&id=538286972599&cm_id=140105335569ed55e27b&abbucket=15&sku_properties=10004:709990523;5919063:6536025")

 print(browser.page_source) #page_source就是js加载完的源代码

 #browser.quit()

 '''

 如果是用selenium本身的选择器（python写的，比较慢），会很慢

 所以现在转换成scrapy中的selector（他是用c语言写的，很快）

 模版，也可以嵌入scrapy中

 '''

 t_selector=Selector(text=browser.page_source)

 print(t_selector.xpath('//*[@id="J_StrPriceModBox"]/dd/span/text()').extract())

有时候取不到内容，看看是不是还没有加载完，在中间sleeep几秒就好了。

8-2 selenium模拟登录微博，模拟鼠标下拉

微博也有开放的API：http://open.weibo.com/wiki/%E9%A6%96%E9%A1%B5

 #selenium 完成微博模拟登录

 browser = webdriver.Chrome(executable_path="E:/chromedriver.exe")

 browser.get("http://weibo.com/")

 import time

 time.sleep(5)

 browser.find_element_by_css_selector("#loginname").send_keys("******")

 browser.find_element_by_css_selector(".info_list.password input[node-type='password']").send_keys("******")

 browser.find_element_by_css_selector(".info_list.login_btn a[node-type='submitBtn']").click()

 #下拉

 for i in range(3):

     '''三次下拉操作，这是javascript的知识'''

     browser.execute_script("window.scrollTo(0, document.body.scrollHeight); var lenOfPage=document.body.scrollHeight; return lenOfPage;")

     time.sleep(3)

8-3 chromedriver不加载图片、phantomjs获取动态网页

chromedriver不加载图片：

 #设置chromedriver不加载图片

 #是固定的模版

 chrome_opt = webdriver.ChromeOptions()

 prefs = {"profile.managed_default_content_settings.images":2}

 chrome_opt.add_experimental_option("prefs", prefs)

 browser = webdriver.Chrome(executable_path="E:/chromedriver.exe",chrome_options=chrome_opt)

 browser.get("http://weibo.com/")

phantomjs获取动态网页：

下载地址：http://phantomjs.org/download.html 如果不能下载，复制链接到迅雷下载

淘宝的详情页实例

 #phantomjs, 无界面的浏览器， 多进程情况下phantomjs性能会下降很严重

 browser = webdriver.PhantomJS(executable_path="F:/迅雷下载/phantomjs-2.1.1-windows/bin/phantomjs.exe")

 browser.get("https://detail.tmall.com/item.htm?spm=a230r.1.14.3.yYBVG6&id=538286972599&cm_id=140105335569ed55e27b&abbucket=15&sku_properties=10004:709990523;5919063:6536025")

 print (browser.page_source)

 browser.quit()

需要代码汇总请移步我的github：https://github.com/pujinxiao/project_pjx/blob/master/s0vkaq/ArticleSpider/tools/selenium_spider.py

关于selenium的我推荐虫师的教程，还是很不错的。「UI 测试自动化selenium」汇总

作者：今孝

出处：http://www.cnblogs.com/jinxiao-pu/p/6809583.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

第8章 scrapy进阶开发(1)的更多相关文章

第8章 scrapy进阶开发(2)
8-4 selenium集成到scrapy中其实也没什么好说的直接上代码这是在middlewares.py中定义的一个class: from selenium.common.exceptions ...
【odoo14】第十三章、网站开发（对外服务）
本章我们将介绍一些关于odoo web服务方面的基础知识.进阶的内容,将在第十四章介绍. odoo中的web请求是由python的werkzeug库驱动的.odoo为了操作方便,对werkzeug进行 ...
【SharePoint学习笔记】第1章 SharePoint Foundation开发基础
SharePoint Foundation开发基础第1章 SharePoint Foundation开发基础 SharePoint能做什么企业信息门户应用程序工具集(文档库.工作空间.工作流.维 ...
SharePoint 2010 最佳实践学习总结------第1章 SharePoint Foundation开发基础
----前言这段时间项目出在验收阶段,不是很忙,就潜心把SharePoint学一下,不求有多深刻,初衷只是先入门再说.后续会发布一系列的学习总结.主要学习的书籍为<SharePoint2010 ...
第一章搭建Qt开发环境
第一章搭建Qt开发环境 1.到http://download.qt-project.org/archive/上下载Qt的源码包.我下载的是qt-everywhere-opensource-src-4 ...
编写高质量代码：改善Java程序的151个建议（第一章：JAVA开发中通用的方法和准则）
编写高质量代码:改善Java程序的151个建议(第一章:JAVA开发中通用的方法和准则) 目录建议1: 不要在常量和变量中出现易混淆的字母建议2: 莫让常量蜕变成变量建议3: 三元操作符的类型务 ...
Android群英传笔记——第二章：Android开发工具新接触
Android群英传笔记--第二章:Android开发工具新接触其实这一章并没什么可讲的,前面的安装Android studio的我们可以直接跳过,如果有兴趣的,可以去看看Google主推-Andr ...
【STM32H7教程】第2章 STM32H7的开发环境搭建
完整教程下载地址:http://forum.armfly.com/forum.php?mod=viewthread&tid=86980 第2章 STM32H7的开发环境搭建本章主要为大 ...
第三百九十四节，Django+Xadmin打造上线标准的在线教育平台—Xadmin后台进阶开发配置2，以及目录结构说明
第三百九十四节,Django+Xadmin打造上线标准的在线教育平台—Xadmin后台进阶开发配置2,以及目录结构说明设置后台列表页面可以直接修改字段内容在当前APP里的adminx.py文件里的 ...

随机推荐

C# PowerPoint操作的基本用法。
代码using System;using System.Collections.Generic;using System.Linq;using System.Text;using OFFICECORE ...
线上日志集中化可视化管理：ELK
本文来自网易云社区作者:王贝为什么推荐ELK: 当线上服务器出了问题,我们要做的最重要的事情是什么?当需要实时监控跟踪服务器的健康情况,我们又要拿什么去分析?大家一定会说,去看日志,去分析日志.是 ...
AHOI2012 信号塔 | 最小圆覆盖模板
题目链接:戳我最小圆覆盖. 1.枚举第一个点,考虑当前圆是否包含了这个点,如果没有,则把圆变成以这个点为圆心,半径为0的圆. 2.枚举第二个点,考虑圆是否包含了这个点,如果没有,则把圆变成以这两个点 ...
python网络编程--TCP连接的三次握手(三报文握手)与四次挥手
一.TCP连接运输连接有三个阶段: 连接建立.数据传送和连接释放. 在TCP连接建立过程中要解决以下三个问题: 1,要使每一方能够确知对方的存在. 2.要允许双方协商一些参数(如最大窗口之,是否使用 ...
bzoj1047理想的正方形
题目链接纪念又双叒叕的一道暴力碾标算的题我们考虑纯暴力 #include<iostream> #include<cstdio> #include<algorithm& ...
脚本：定时释放 Linux/CentOS 缓存【转载自：杭州山不高】
定时释放Linux/CentOS缓存的脚本(yl_dropcaches)如下: #!/bin/bash used=`free -m | awk 'NR==2' | awk '{print $3}'` ...
SpringBoot 异步线程简单三种样式
引用:在Java应用中,绝大多数情况下都是通过同步的方式来实现交互处理的:但是在处理与第三方系统交互的时候,容易造成响应迟缓的情况,之前大部分都是使用多线程来完成此类任务,其实,在Spring 3.x ...
mysql常用日期、时间查询
好记性不如烂笔头 select curdate(); --获取当前日期 select last_day(curdate()); --获取本月最后一天. day); -- 获取本月第一天 ,interv ...
Oracle数据库学习（三）：Oracle数据库的环境配置与安装
1.解压oracle安装包将oracle的安装包和补丁包都存放在/home/oracle/soft目录下,然后对其进行解压,建议以root权限进行解压. unzip p13390677_112040 ...
[BZOJ 5323][Jxoi2018]游戏
传送门 $\color{green}{solution}$ 它每次感染的人是它的倍数,那么我们只需要找出那些除了自己以外在$l$, $r$内没有别的数是它的约数的数,在这里称其为关键数. ...