scrapy再学习与第二个实例

这周对于Scrapy进一步学习，知识比较零散，需要爬取的网站因为封禁策略账号还被封了/(ㄒoㄒ)/~~

一、信息存储

1、log存储命令：scrapy crawl Test --logfile=test.log——把运行输出存入log当中

　也可以在代码中定义要存储的内容：self.log("Fetch home page: %s" % response.url)

2、将结果存文件

（1）法1：代码里增加如下几条语句

import sys

sys.stdout=open('output.txt','w') ---------------存txt

sys.stdout=open('output.json','W') --------------存json

（2）法2：命令行——scrapy crawl Test -o test.json -t json

二、Rule

　　在有些网络爬取过程中，要爬取的url并非全部是事先定义好的，而是一边爬取网页，一边不停的吸纳新的url，在脑海想象一下虫子爬行四面八方的赶脚...

　　在写爬虫的时候，首先要定义start_urls，它是一个待爬取页面的url队列。

　　当爬取一个页面时，会从这个页面获得n条url信息，有些种类的url需要加入上述url队列中，等待进一步爬取；有些种类的url需要进行立即爬取等等。

　　Rule的作用简单来说就是对不同类型的url定义不同的处理规则。

　　下面是一个小例子，注意几点：

（1）需要引入CrawlSpider和Rule，CrawlSpider是基于最基本的Spider，其定义了一些规则(rule)来提供跟进link的方便的机制。

（2）需要引入LinkExtractor

（3）Rule需要用到正则，正则以'\'作为标记，常用的几种：

　　[A-Z]{2}——两个大写字符

　　\w+ 相当于 [A-Za-z0-9_]+ —— 一到多个字母、数字、下划线（+：一到多个；*：0到多个）

　　\W+ 匹配的正好和\w+相反

（4）第一个Rule：符合正则的，加入url队列

　　第二个Rule：符合正则的，调用函数parseCom

　　 Rule里面有几个参数，其中有一个叫做follow，它是一个布尔(boolean)值，指定了根据该规则从response提取的链接是否需要跟进，即是否加入url队列。如果callback为None（第一个Rule），follow值为True，否则为False。

 # -*- coding: utf-8 -*-

 from scrapy.spiders import CrawlSpider,Rule

 from scrapy.linkextractors import LinkExtractor

 from scrapy.selector import Selector

 from scrapy.item import Item

 from qicha.items import QichaItem

 class QichachaSpider(CrawlSpider):

     name = "qichacha"

     allowed_domains = ["qichacha.com"]

     start_urls = [

         'http://www.qichacha.com/search_hangye',

     ]

     rules=(

         Rule(LinkExtractor(allow=('/search_hangye\?&p=[0-9]+', ),)),

         Rule(LinkExtractor(allow=('/firm\_[A-Z]{2}\w+', )), callback='parseCom'),

     )

     def parseCom(self,response):

         print "********************************"

         print response

         sel=Selector(response)

         items=[]

         item=QichaItem()

         item['name']='test'

         item['website']='test'

         items.append(item)

         return items

三、带cookie的访问

　　有些网站需要登录才可见，换句话说只有登录了才可以去爬数据，在这种情况下，每次爬取页面的时候把cookie带在请求信息里就可以了，即使有验证码也不怕。

　　关于scrapy的cookie机制，我查资料的时候查到了一个cookielib包，因为懒没有去学，就是用最简单粗暴的方式把cookie加入请求信息当中，居然意外的可以。

　（1）首先登陆网站，然后利用浏览器查看一下当前网站的cookie，以豆瓣和chrome浏览器为例

　（2）把cookie那一串拷出来，改成"key":"value"的形式

　（3）再在类中加入下面一段代码，即把cookie放在请求信息当中，就可以了（我下面的cookie是虚构的，换成自己的就可以了）

 def start_requests(self):

         for url in self.start_urls:

             yield Request(url,cookies={'PHPSESSID':'trvet','think_language':'zh-cn','CNZZD':'1916428848-1450-%7676488','pspt':'%722pswd%22%3A%22661bbde70%22%2C%22_cod27%22%7D','SERVERID':'a66d7dffe|145202|1450'})

四、几点注意与疑问

（1）有些网站不让频繁爬取，那就看情况time.sleep(10)一下，具体睡眠时间视情况而定

（2）更严格的要切账号（也就是cookie）和加代理，关于如何切代理我接下来再总结

（3）最恐怖的是把账号给封禁了，就比如我现在爬取的网站，除了多注册几个账号还有其他方式吗？

（4）关于爬取规则，我现在也搞不懂Scrapy是按什么规则进行爬取的，深度优先？广度优先？先不谈加Rule，即使在最初start_urls定义了一串连续的url，结果爬取的时候却不是按序的，不知道为什么？

五、第二个案例

　　第二个案例现在还没弄完，是一个类似博客的网站，就假想成博客吧，第一层页面是博客列表，有n页；第二层页面是博客的具体内容，随便选一个例子。

1、法1：可以利用Rule

　　（1）start_urls只插入一条初始页面的url，strat_urls=['http://www.cnblogs.com/v-July-v/']

（2）定义两个Rule，若是博客正文页面的链接就爬取，若是博客列表的链接就存入url队列

2、法2：不用Rule，分两步爬取

　　（1）爬虫1：先把所有博客正文页面的链接爬取下来存入数据库或者文件中

　　（2）爬虫2：把第一步获取的链接作为strat_urls，进行内容爬取

　　这种方式的好处：可以加一个标记，标记页面是否爬过，这样就会使得整个爬虫过程可控一些，知道哪些爬过哪些没有爬过，第一种方式略乱一点对于我来说.....

scrapy再学习与第二个实例的更多相关文章

Applet再学习
ZLYD团队Apllet学习笔记 Applet再学习 Applet是什么? Applet又称为Java小应用程序,是能够嵌入到一个HTML页面中,并且可通过Web浏览器下载和执行的一种Java类 .A ...
FFmpeg再学习 -- 硬件加速编解码
为了搞硬件加速编解码,用了一周时间来看 CUDA,接下来开始加以总结. 一.什么是 CUDA (1)首先需要了解一下,什么是 CUDA. 参看:百度百科 -- CUDA 参看:CUDA基础介绍参看: ...
Selenium2学习-039-WebUI自动化实战实例-文件上传下载
通常在 WebUI 自动化测试过程中必然会涉及到文件上传的自动化测试需求,而开发在进行相应的技术实现是不同的,粗略可划分为两类:input标签类(类型为file)和非input标签类(例如:div.a ...
Selenium2学习-018-WebUI自动化实战实例-016-自动化脚本编写过程中的登录验证码问题
日常的 Web 网站开发的过程中,为提升登录安全或防止用户通过脚本进行黄牛操作(宇宙最贵铁皮天朝魔都的机动车牌照竞拍中),很多网站在登录的时候,添加了验证码验证,而且验证码的实现越来越复杂,对其进行脚 ...
Selenium2学习-014-WebUI自动化实战实例-012-Selenium 操作下拉列表实例-div+{js|jquery}
之前已经讲过了 Selenium 操作 Select 实现的下拉列表:Selenium2学习-010-WebUI自动化实战实例-008-Selenium 操作下拉列表实例-Select,但是在实际的日 ...
Selenium2学习-010-WebUI自动化实战实例-008-Selenium 操作下拉列表实例-Select
此文主要讲述用 Java 编写 Selenium 自动化测试脚本编写过程中,对下拉列表框 Select 的操作. 下拉列表是 Web UI 自动化测试过程中使用率非常高的,通常有两种形式的下拉列表,一 ...
学习KnockOut第二篇之Counter
学习KnockOut第二篇之Counter 欲看此 ...
《Python基础教程（第二版）》学习笔记 -> 第二章列表和元组
本章将引入一个新的概念:数据结构. 数据结构是通过某种方式阻止在一起的数据元素的集合,这些数据元素可以是数字或者字符,设置可以是其他数据结构. Python中,最基本的数据结构是序列(Sequence ...
Android再学习-20141022-Activity的生命周期
20141022-Android再学习如何在一个应用程序当中定义多个Activity 定义一个类,继承Activity 在该类当中,复写Activity当中的onCreate方法.onCreate( ...

随机推荐

bzoj 1207: [HNOI2004]打鼹鼠（dp）
var n,m,i,j,ans:longint; x,y,time,f:..]of longint; begin readln(n,m); to m do readln(time[i],x[i],y[ ...
在Windows*上编译Tensorflow教程
背景介绍最简单的 Tensorflow 的安装方法是在 pip 一键式安装官方预编译好的包 pip install tensorflow 通常这种预编译的包的编译参数选择是为了最大兼容性而不是为了最 ...
POJ3347：Kadj Squares——题解
http://poj.org/problem?id=3347 题目大意:给定一些正方形的边长,让他们尽可能向左以45°角排列(不能互相重合),求在上面看只能看到哪几个正方形. ———————————— ...
BZOJ3932：[CQOI2015]任务查询系统——题解
http://www.lydsy.com/JudgeOnline/problem.php?id=3932 题面源于洛谷题目描述最近实验室正在为其管理的超级计算机编制一套任务管理系统,而你被安排完成 ...
从MYSQL数据库查出指定格式的日期
1.用SQL语言控制: 格式如下: select DATE_FORMAT(t.startTime,"%Y-%m-%d %H:%i") AS startTime, DATE_FORM ...
ACE反应器(Reactor)模式(1)
转载于:http://www.cnblogs.com/TianFang/archive/2006/12/13/591332.html 1．ACE反应器框架简介反应器(Reactor):用于事件多路分 ...
Educational Codeforces Round 50 (Rated for Div. 2) C. Classy Numbers
C. Classy Numbers 题目链接:https://codeforces.com/contest/1036/problem/C 题意: 给出n个询问,每个询问给出Li,Ri,问在这个闭区间中 ...
洛谷P3065 [USACO12DEC]第一!First!（Trie树+拓扑排序）
P3065 [USACO12DEC]第一!First! 题目链接:https://www.luogu.org/problemnew/show/P3065 题目描述 Bessie一直在研究字符串.她发现 ...
mybatis分页查询需要注意的问题
一般对mybatis的分页查询的关键代码就两行: #currentPage代表当前页,pageSize代表每页的行数 PageHelper.startPage(currentPage, pageSiz ...
iostat和iowait详细解说
简单的说,sar -u看出来的cpu利用率iowait 不实用,iostat -x 中的 svctm 和util 参数命令形式: iostat -x 1 每隔一秒输出下其中的svctm参数代表 ...

scrapy再学习与第二个实例

scrapy再学习与第二个实例的更多相关文章

随机推荐

热门专题