第八天，scrapy的几个小技巧

一. 微博模拟登陆

1. 百度搜微博开放平台可满足爬取量不大的情况

2. 微博模拟登陆和下拉鼠标应对ajax加载

from selenium import webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.weibo.com')

time.sleep(10)

browser.find_element_by_css_selector("#loginname").send_keys("")

browser.find_element_by_css_selector(".info_list.password input[node-type='password']").send_keys("shiyan823")

browser.find_element_by_css_selector(".info_list.login_btn a[node-type='submitBtn']").click()

# 鼠标下拉

for i in range(3):

    browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

    time.sleep(3)

二. chromedriver不加载图片

from selenium import webdriver

chrome_opt = webdriver.ChromeOptions()

prefs = {"profile.managed_default_content_settings.images": 2}

chrome_opt.add_experimental_option("prefs", prefs)

browser = webdriver.Chrome(chrome_options=chrome_opt)

browser.get("https://www.taobao.com")

三. 把selenium集成到scrapy中

以伯乐在线为例子

1. jobbole.py->JobboleSpider类中添加如下代码，引入了信号量

from scrapy.xlib.pydispatch import dispatcher

from scrapy import signals

from selenium import webdriver

def __init__(self):

    self.browser = webdriver.Chrome()

    super().__init__()

    dispatcher.connect(self.spider_closed, signals.spider_closed)

def spider_closed(self, spider):

    #当爬虫退出的时候关闭chrome

    print ("spider closed")

    self.browser.quit()

2. middleware.py中添加

from selenium import webdriver

from scrapy.http import HtmlResponse

class JSPageMiddleware(object):

    #通过chrome请求动态网页

    def process_request(self, request, spider):

        if spider.name == "jobbole":

            # browser = webdriver.Chrome()

            spider.browser.get(request.url)

            import time

            time.sleep(3)

            print ("访问:{0}".format(request.url))

            return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source, encoding="utf-8", request=request)

3. 修改settings.py中的DOWNLOADER_MIDDLEWARES

'Article.middlewares.JSPageMiddleware': 1,

四. 无界面chrome运行

linux下运行

pip install pyvirtualdisplay

pip install xvfbwrapper

apt-get install xvfb

from pyvirtualdisplay import Display

display = Display(visible=0, size=(800,600)

display.start()

browser = webdirver.Chrome()

browser.get()

scrapy下无界面方式: scrapy-splash

五. scrapy的暂停和重启

以拉钩网为例，测试暂停和重启

1. 在项目目录先新建文件夹job_info，和scrapy.cfg同级

2. 在cmd命令行中，进入项目所在目录，执行如下代码

scrapy crawl lagou -s JOBDIR=job_info/001

3. 按一次ctrl +c ，还会自动执行一些后续命令，等它处理完

4. 同样运行scrapy crawl lagou -s JOBDIR=job_info/001，完成重启。接着之前的继续运行

5. 如果想重头爬scrapy crawl lagou -s JOBDIR=job_info/002

6. 按两次ctrl + c是立刻中断

六. scrapy url去重原理

以伯乐在线为例，首先注释掉之前设置的对接selenium，包括DOWNLOAD_MIDDLEWARES和jobbole.py中的相关代码

默认去重源码在dupefilters.py中

七. scrapy telnet服务

爬虫运行时，会启动一个telent服务，端口一般为6023

在控制面板->程序->启动或关闭windows功能中开启telnet

可在cmd中输入telnet localhost 6023即可连上telnet

telnet相关操作命令

1)输入est（）可查看爬虫状态

2) 获取settings中的值 settings["COOKIES_ENABLED"]

第八天，scrapy的几个小技巧的更多相关文章

关于Scrapy爬虫项目运行和调试的小技巧（下篇）
前几天给大家分享了关于Scrapy爬虫项目运行和调试的小技巧上篇,没来得及上车的小伙伴可以戳超链接看一下.今天小编继续沿着上篇的思路往下延伸,给大家分享更为实用的Scrapy项目调试技巧. 三.设置网 ...
关于Scrapy爬虫项目运行和调试的小技巧（上篇）
扫除运行Scrapy爬虫程序的bug之后,现在便可以开始进行编写爬虫逻辑了.在正式开始爬虫编写之前,在这里介绍四种小技巧,可以方便我们操纵和调试爬虫. 一.建立main.py文件,直接在Pycharm ...
Scrapy 5+1 ——五大坑附送一个小技巧
笔者最近对scrapy的学习可谓如火如荼,虽然但是,即使是一整天地学习下来也会有中间两三个小时的"无效学习",不是笔者开小差,而是掉进了深坑出不来. 在此,给各位分享一下作为一名S ...
【Scrapy(四)】scrapy 分页爬取以及xapth使用小技巧
scrapy 分页爬取以及xapth使用小技巧这里以爬取www.javaquan.com为例: 1.构建出下一页的url: 很显然通过dom树,可以发现下一页所在的a标签 2.使用scrapy的 ...
前端网络、JavaScript优化以及开发小技巧
一.网络优化 YSlow有23条规则,中文可以参考这里.这几十条规则最主要是在做消除或减少不必要的网络延迟,将需要传输的数据压缩至最少. 1)合并压缩CSS.JavaScript.图片,静态资源CDN ...
Git小技巧 - 指令别名及使用Beyond Compare作为差异比较工具
前言本文主要写给使用命令行来操作Git的用户,用于提高Git使用的效率.至于使用命令还是GUI(Tortoise Git或VS的Git插件)就不在此讨论了,大家根据自己的的喜好选择就好.我个人是比较 ...
分享两个BPM配置小技巧
1.小技巧流程图修改后发布的话版本号会+1,修改次数多了之后可能会导致版本号很高,这个时候可以将流程导出,然后删除对应的流程包再导入,发布数据模型和流程图之后,版本清零 2.小技巧有的同事入职后使 ...
linux系统维护时的一些小技巧，包括系统挂载新磁盘的方法！可收藏！
这里发布一些平时所用到的小技巧,不多,不过会持续更新.... 1.需要将history创建硬链接ln 全盘需要备份硬链接 ln /etc/xxx /home/xxx 2.root用户不可以远程 /et ...
JS处理事件小技巧
今天,就分享一下我自己总结的一些JS的小技巧: ①防止鼠标选中事件 <div class="mask" onselectstart="return false&qu ...

随机推荐

PhpStorm 注册相关
网址 http://idea.lanyus.com/ 最新(2017年9月)PhpStorm 2017.3 .WebStorm 2017.2.5.PyCharm 2016.3激活方式打开网址 ht ...
Vue2.0 keep-alive 组件的最佳实践
1.基本用法 vue2.0提供了一个keep-alive组件用来缓存组件,避免多次加载相应的组件,减少性能消耗 <keep-alive> <component> <!-- ...
优质产品需求文档（PRD）写作三大原则
在上一篇文章中有介绍,产品经理的两项主要职责包括:对产品机会进行评估,以及对开发的产品进行评估.而定义即将开发上线的产品,则需要借助产品需求文档,来进行产品的特征和功能描述.PRD文档的写作会因公司. ...
Android系统root破解原理分析
http://dengzhangtao.iteye.com/blog/1543494 root破解过程的终极目标是替换掉系统中的su程序.但是要想替换掉系统中su程序本身就是需要root权限的,怎样在 ...
2018.06.29 洛谷P2890 [USACO07OPEN]便宜的回文（简单dp）
P2890 [USACO07OPEN]便宜的回文Cheapest Palindrome 时空限制 1000ms / 128MB 题目描述 Keeping track of all the cows c ...
CodeForces 611C New Year and Domino （动态规划，DP）
题意:给定一个h*w的网格,里面只有.和#,.表示空的,#表示禁止的,然后有q个询问,询问中给你两个坐标,分别是左上和右下,求在这两者中间的有多少种(竖着和横着)两个相邻的点. 析:一看到这个题目,肯 ...
trsd_extract_EDSD_new
# -*- coding:utf-8 -*- import re ''' 适应新版本 ''' year='17A'#用户自定义 ss='./data/'#根目录 filename = ss+'EDSD ...
Billman_ford货币升值——正权回路
2240和1860那个题目很像啊都是问货币能不能增多,钻社会制度得空子啊哈哈唯一不同得是你的起点是任意一个点,这个比较麻烦了,多了一层循环嘞处理货币名可以用map分配id 然后就是老套的Bill ...
x13 vs md5
x13 vs md5 阅读: 评论: 作者:Rybby 日期: 来源:rybby.com 最近在设计巴巴变时想对用户设计的节点模块添加锁定功能,比如你的网站可以让用户发表文章或评论,而你想让用 ...
mod_pagespeed
https://github.com/pagespeed/mod_pagespeed.git https://developers.google.com/speed/pagespeed/module/ ...

第八天，scrapy的几个小技巧

第八天，scrapy的几个小技巧的更多相关文章

随机推荐

热门专题