一. Scrapy基础概念

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。Scrapy 使用了 Twisted异步网络框架,可以加快我们的下载速度。

二. 操作

1. 基本操作

1)创建一个scrapy项目

scrapy startproject mySpider

2)生成一个爬虫

scrapy genspider itcast "itcast.cn”

3)提取数据

完善spider,使用xpath等方法

4)保存数据

pipeline中保存数据

2. 完善spdier

3. spdier数据传到pipeline

4. 使用·pipeline

5. 设置log

为了让我们自己希望输出到终端的内容能容易看一些:

我们可以在setting中设置log级别

在setting中添加一行(全部大写):LOG_LEVEL = "WARNING”

默认终端显示的是debug级别的log信息

三. 实行翻页操作

1.    获取地址,使用scrapy.Request方法

需要传递数据时,可以在方法中传递meta:

yield scrapy.Request(next_page_url,callback=self.parse,meta=…)

dont_filter:让scrapy不会过滤当前url

四. 定义Item

1.    方法

2.    实例

3.    在不同的解析函数中传递参数

五. 深入pipeline

可以将一些需要初始化的数值添加在open_spider方法中

而close_spider可以做一些收尾工作

六. CrawlSpider

1.    功能

1)我们把满足某个条件的url地址传给rules,同时能够指定callback函数。不需要手动去找下一页的url地址,达到简化代码的目的

2)生成CrawlSpider的命令

scrapy genspider –t crawl 项目名 “域名”

2.    实例

rules内的几个参数:

1) LinkExtractor 连接提取器,提取url地址

2) callback 提取出来的url地址的response会交给callback来处理

3) follow 当前url地址的响应是否重新进rules来提取url地址

3.    注意点

七. Scrapy模拟登录

1. 携带cookie登录

1)直接携带cookie,在浏览器登录之后获取检查里边cookies的值

2)找到发送post请求的url地址,带上信息,发送请求

可以在settings里边添加参数【COOKIES_DEBUG=True】观察cookies的传递过程。

不能把cookies放在headers中

2.    使用FormRequest

1) scrapy.FormRequest(url,formdata={},callback)  formdata请求体

2) formdata里边的数据,可以试着在浏览器输入用户名和密码之后,在session的Headers里边找到formdata,接着在Elements中查找对应的组件

3)示例

3.    自动寻找Form表单中action的url

1) scrapy.FormRequest.from_response(response,formdata={},callback)

2) 示例

八. 案例分析

1.    贴吧爬虫

1.1   补充不完整的链接

注意:需要导入import urllib

通过urljoin方法自动把链接补全

1.2   对图片解码以及翻页时处理内容覆盖的问题

1) 图片解码:需要import requests

item["img_list"] = [requests.utils.unquote(i).split("src=")[-1] for i in item["img_list"]]

2) 翻页使用extend()来处理

item["img_list"].extend(response.xpath("//img[@class='BDE_Image']/@src").extract())

1.3   spider下的tb.py完整代码
import scrapy

import urllib

import requests

class TbSpider(scrapy.Spider):

    name = 'tb'

    allowed_domains = ['tieba.baidu.com']

    start_urls = ['http://tieba.baidu.com/mo/q----,sz@320_240-1-3---2/m?kw=%E6%9D%8E%E6%AF%85&lp=9001']

    def parse(self, response):

        #根据帖子进行分组

        div_list = response.xpath("//div[contains(@class,'i')]")

        for div in div_list:

            item = {}

            item["href"] = div.xpath("./a/@href").extract_first()

            item["title"] = div.xpath("./a/text()").extract_first()

            item["img_list"] = []

            if item["href"] is not None:

                item["href"] = urllib.parse.urljoin(response.url,item["href"])

                yield scrapy.Request(

                    item["href"],

                    callback=self.parse_detail,

                    meta = {"item":item}

                )

        #列表页的翻页

        next_url = response.xpath("//a[text()='下一页']/@href").extract_first()

        if next_url is not None:

            next_url = urllib.parse.urljoin(response.url,next_url)

            yield scrapy.Request(

                next_url,

                callback=self.parse,

            )

    def parse_detail(self,response):

        item = response.meta["item"]

        # if "img_list" not in item:

        #item["img_list"] = response.xpath("//img[@class='BDE_Image']/@src").extract()

        # else:

       item["img_list"].extend(response.xpath("//img[@class='BDE_Image']/@src").extract())

        next_url = response.xpath("//a[text()='下一页']/@href").extract_first()

        if next_url is not None:  #表示由下一页

            next_url = urllib.parse.urljoin(response.url,next_url)

            yield  scrapy.Request(

                next_url,

                callback=self.parse_detail,

                meta={"item":item}

            )

        else:

            item["img_list"] = [requests.utils.unquote(i).split("src=")[-1] for i in item["img_list"]]

            print(item)

            # yield item

11scrapy的更多相关文章

  1. 11-scrapy(递归解析,post请求,日志等级,请求传参)

    一.递归解析: 需求:将投诉_阳光热线问政平台中的投诉标题和状态网友以及时间爬取下来永久储存在数据库中 url:http://wz.sun0769.com/index.php/question/que ...

随机推荐

  1. JAVA基础--面向对象08

    一.final关键字 有的时候不想别人重写我的方法,使用final关键字修饰该方法,final:最后的,最终的,可以修饰类.修饰函数.修饰变量,修饰类:该类不能被继承:直接写在class关键字前面 修 ...

  2. Unity Transform常识(转)

    Variables   position: Vector3  物体在世界坐标中的位置. transform.position=Vector3(10,10,10)//把物体放到(x=10,y=10,z= ...

  3. the little schemer 笔记(6)

    第六章 Shadows 1 是算术表达式吗 是 3 是算术表达式吗 是的 1+3 是算术表达式吗 是的 1+3×4 是算术表达式吗 当然是 cookie 是算术表达式吗 是啊,你需要来一块吗 e那么 ...

  4. AtCoder Grand Contest 015 E - Mr.Aoki Incubator

    题目传送门:https://agc015.contest.atcoder.jp/tasks/agc015_e 题目大意: 数轴上有\(N\)个点,每个点初始时在位置\(X_i\),以\(V_i\)的速 ...

  5. Codeforces Round #544 (Div. 3) B.Preparation for International Women's Day

    链接:https://codeforces.com/contest/1133/problem/B 题意: 给n个数,和一个k,在n个数中选几对数,保证没对数相加可以整除k. 求最大能选几个数. 思路: ...

  6. MVC模式到传统风格的Spring MVC

    现在我们要做个简单的基于servlet的MVC的模型,我们要有一个Product要从表单处获取. MVC中的M是模型,V是视图,C是控制器.视图负责应用的展示,模型封装了数据和业务逻辑,控制器负责接收 ...

  7. java中的compareto方法以及LIst列表排序的详细介绍【转】

    java中的compareto方法的详细介绍 javacompareTo  java中的compareto方法,返回参与比较的前后两个字符串的asc码的差值,看下面一组代码 String a=&quo ...

  8. sql注入原理及解决方案

    sql注入原理 sql注入原理就是用户输入动态的构造了意外sql语句,造成了意外结果,是攻击者有机可乘 SQL注入攻击指的是通过构建特殊的输入作为参数传入Web应用程序,而这些输入大都是SQL语法里的 ...

  9. maven-ali镜像网站setting.xml

    简述 使用maven管理jar包的时候,有可能会有网络限制,要解决的这个问题的话可以使用ali的镜像网站. 创建文件 创建settings.xml,内容如下 <settings xmlns=&q ...

  10. 2019/05/11 JAVA虚拟机原理堆、栈、方法区概念区别

    Java堆 堆内存用于存放由new创建的对象和数组.在堆中分配的内存,由java虚拟机自动垃圾回收器来管理.在堆中产生了一个数组或者对象后,还可以在栈中定义一个特殊的变量,这个变量的取值等于数组或者对 ...