scrapy框架学习之路

一、基础学习
    - scrapy框架

        介绍：大而全的爬虫组件。

        安装：

            - Win:

                下载：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

                pip3 install wheel

                pip install Twisted‑18.4.‑cp36‑cp36m‑win_amd64.whl

                pip3 install pywin32

                pip3 install scrapy

            - Linux:

                pip3 install scrapy 

        使用：

            Django:

                # 创建project

                django-admin startproject mysite 

                cd mysite

                # 创建app

                python manage.py startapp app01

                python manage.py startapp app02 

                # 启动项目

                python manage.runserver 

            Scrapy：

                # 创建project

                scrapy  startproject xdb 

                cd xdb 

                # 创建爬虫

                scrapy genspider chouti chouti.com

                scrapy genspider cnblogs cnblogs.com 

                # 启动爬虫

                scrapy crawl chouti

            . 创建project

                scrapy startproject 项目名称

                项目名称

                   项目名称/

                        - spiders                # 爬虫文件

                            - chouti.py

                            - cnblgos.py

                            ....

                        - items.py                 # 持久化

                        - pipelines                # 持久化

                        - middlewares.py        # 中间件

                        - settings.py             # 配置文件（爬虫）

                   scrapy.cfg                    # 配置文件（部署）

            . 创建爬虫

                cd 项目名称

                scrapy genspider chouti chouti.com

                scrapy genspider cnblgos cnblgos.com 

            . 启动爬虫

                scrapy crawl chouti

                scrapy crawl chouti --nolog 

        总结：

            - HTML解析：xpath

            - 再次发起请求：yield Request对象

二、eg:爬取抽屉

# -*- coding: utf- -*-

import scrapy

from scrapy.http.response.html import HtmlResponse

# import sys,os,io

# sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

class ChoutiSpider(scrapy.Spider):

    name = 'chouti'

    allowed_domains = ['chouti.com']

    start_urls = ['http://chouti.com/']

    def parse(self, response):

        # print(response,type(response)) # 对象

        # print(response.text)

        """

        from bs4 import BeautifulSoup

        soup = BeautifulSoup(response.text,'html.parser')

        content_list = soup.find('div',attrs={'id':'content-list'})

        """

        # 去子孙中找div并且id=content-list

        f = open('news.log', mode='a+')

        item_list = response.xpath('//div[@id="content-list"]/div[@class="item"]')

        for item in item_list:

            text = item.xpath('.//a/text()').extract_first()

            href = item.xpath('.//a/@href').extract_first()

            print(href,text.strip())

            f.write(href+'\n')

        f.close()

        page_list = response.xpath('//div[@id="dig_lcpage"]//a/@href').extract()

        for page in page_list:

            from scrapy.http import Request

            page = "https://dig.chouti.com" + page

            yield Request(url=page,callback=self.parse) # https://dig.chouti.com/all/hot/recent/2

三、知识点

    第一部分：scrapy框架

        . scrapy依赖twisted

            内部基于事件循环的机制实现爬虫的并发。

            原来的你：

                url_list = ['http://www.baidu.com','http://www.baidu.com','http://www.baidu.com',]

                for item in url_list:

                    response = requests.get(item)

                    print(response.text)

            现在：

                from twisted.web.client import getPage, defer

                from twisted.internet import reactor

                # 第一部分：代理开始接收任务

                def callback(contents):

                    print(contents)

                deferred_list = [] # [(龙泰,贝贝),(刘淞，宝件套),(呼呼,东北)]

                url_list = ['http://www.bing.com', 'https://segmentfault.com/','https://stackoverflow.com/' ]

                for url in url_list:

                    deferred = getPage(bytes(url, encoding='utf8')) # (我,要谁)

                    deferred.addCallback(callback)

                    deferred_list.append(deferred)

                # # 第二部分：代理执行完任务后，停止

                dlist = defer.DeferredList(deferred_list)

                def all_done(arg):

                    reactor.stop()

                dlist.addBoth(all_done)

                # 第三部分：代理开始去处理吧

                reactor.run()

        . scrapy

            命令：

                scrapy startproject xx

                cd xx

                scrapy genspider chouti chouti.com 

                scrapy crawl chouti --nolog 

            编写：

                def parse(self,response):

                    # .响应

                    # response封装了响应相关的所有数据：

                        - response.text

                        - response.encoding

                        - response.body

                        - response.request # 当前响应是由那个请求发起；请求中 封装（要访问的url，下载完成之后执行那个函数）

                    # . 解析

                    # response.xpath('//div[@href="x1"]/a').extract_first()

                    # response.xpath('//div[@href="x1"]/a').extract()

                    # response.xpath('//div[@href="x1"]/a/text()').extract()

                    # response.xpath('//div[@href="x1"]/a/@href').extract()

                    # tag_list = response.xpath('//div[@href="x1"]/a')

                    for tag in tag_list:

                        tag.xpath('.//p/text()').extract_first()

                    # . 再次发起请求

                    # yield Request(url='xxxx',callback=self.parse)

四、持久化

今日内容：scrapy

    - 持久化 pipeline/items

    - 去重 

    - cookie 

    - 组件流程：

        - 下载中间件

    - 深度

内容详细：

    . 持久化

        目前缺点：

            - 无法完成爬虫刚开始：打开连接； 爬虫关闭时：关闭连接；

            - 分工明确

        pipeline/items

            a. 先写pipeline类

                class XXXPipeline(object):

                    def process_item(self, item, spider):

                        return item

            b. 写Item类

                class XdbItem(scrapy.Item):

                    href = scrapy.Field()

                    title = scrapy.Field()

            c. 配置

                ITEM_PIPELINES = {

                   'xdb.pipelines.XdbPipeline': ,

                }

            d. 爬虫，yield每执行一次，process_item就调用一次。

                yield Item对象

        编写pipeline：

            from scrapy.exceptions import DropItem

            class FilePipeline(object):

                def __init__(self,path):

                    self.f = None

                    self.path = path

                @classmethod

                def from_crawler(cls, crawler):

                    """

                    初始化时候，用于创建pipeline对象

                    :param crawler:

                    :return:

                    """

                    print('File.from_crawler')

                    path = crawler.settings.get('HREF_FILE_PATH')

                    return cls(path)

                def open_spider(self,spider):

                    """

                    爬虫开始执行时，调用

                    :param spider:

                    :return:

                    """

                    print('File.open_spider')

                    self.f = open(self.path,'a+')

                def process_item(self, item, spider):

                    # f = open('xx.log','a+')

                    # f.write(item['href']+'\n')

                    # f.close()

                    print('File',item['href'])

                    self.f.write(item['href']+'\n')

                    # return item      # 交给下一个pipeline的process_item方法

                    raise DropItem()# 后续的 pipeline的process_item方法不再执行

                def close_spider(self,spider):

                    """

                    爬虫关闭时，被调用

                    :param spider:

                    :return:

                    """

                    print('File.close_spider')

                    self.f.close()

        注意：pipeline是所有爬虫公用，如果想要给某个爬虫定制需要使用spider参数自己进行处理。

scrapy框架学习之路的更多相关文章

自己的Scrapy框架学习之路
开始自己的Scrapy 框架学习之路. 一.Scrapy安装介绍参考网上资料,先进行安装使用pip来安装Scrapy 在开始菜单打开cmd命令行窗口执行如下命令即可 pip install Scr ...
【SpringCloud之pigx框架学习之路】2.部署环境
[SpringCloud之pigx框架学习之路 ]1.基础环境安装 [SpringCloud之pigx框架学习之路 ]2.部署环境 1.下载代码 git clone https://git.pig4c ...
【SpringCloud之pigx框架学习之路】1.基础环境安装
[SpringCloud之pigx框架学习之路 ]1.基础环境安装 [SpringCloud之pigx框架学习之路 ]2.部署环境 1.Cmder.exe安装 (1) windows常用命令行工具下 ...
go server框架学习之路 - 写一个自己的go框架
go server框架学习之路 - 写一个自己的go框架用简单的代码实现一个go框架代码地址: https://github.com/cw731/gcw 1 创建一个简单的框架代码 packag ...
Scrapy框架学习 - 使用内置的ImagesPipeline下载图片
需求分析需求:爬取斗鱼主播图片,并下载到本地思路: 使用Fiddler抓包工具,抓取斗鱼手机APP中的接口使用Scrapy框架的ImagesPipeline实现图片下载ImagesPipeline实 ...
Scrapy框架学习笔记
1.Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网 ...
Scrapy框架学习（一）Scrapy框架介绍
Scrapy框架的架构图如上. Scrapy中的数据流由引擎控制,数据流的过程如下: 1.Engine打开一个网站,找到处理该网站的Spider,并向该Spider请求第一个要爬取得URL. 2.En ...
scrapy框架学习
一.初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 (更确切来说, 网 ...
Scrapy框架学习参考资料
00.Python网络爬虫第三弹<爬取get请求的页面数据> 01.jupyter环境安装 02.Python网络爬虫第二弹<http和https协议> 03.Python网络 ...

随机推荐

外部调用mvc的api方法时，如何解决跨域请求问题？
首先,创建一个mvc项目(包含webapi),我们模拟一个场景 1)在项目的Controller 创建一个WeiXinApiController public class WeiXinApiContr ...
js如何通过末次月经日期计算预产日期
计算方式有两种 1)直接添加280天 2)添加10月8天(参数传递,可用改成9月7天等) js中引入文件 <script src="js/jquery.min.js"> ...
javascript 多个onclick function 取对应值
方法1: 直接获取值 <button onclick="aa(1)">执行</button> <button onclick="aa(2)& ...
linux下查看运行进程详细信息
通过ps及top命令查看进程信息时,只能查到相对路径,查不到的进程的详细信息,如绝对路径等.这时,我们需要通过以下的方法来查看进程的详细信息: Linux在启动一个进程时,系统会在/proc下创建一个 ...
c语言亲缘线程通过管道通信一些疑问
亲缘线程在使用管道时,发现第一次使用管道进行进行通信完全正常(./a.out 1),但当重新运行并使用新管道文件时候出现数据无法读取的问题(./a.out 2)(./a.out 3),甚至出现子线程部 ...
python 数据如何保存到excel中--xlwt
第一步:下载xlwt 首先要下载xlwt,(前提是你已经安装好了Python) 下载地址: https://pypi.python.org/pypi/xlwt/ 下载第二个第二步:安装xl ...
day31 锁队列前面课程重点总结
今日内容: 1.进程的其他方法 2.僵尸进程和孤儿进程(了解) 3.验证进程之间是空间隔离的 4.守护进程 5.进程锁重点(又叫同步锁,互斥锁) 6.进程队列(重点) Queue 7.生产者消费者 ...
SpringMVC防止表单重复提交
最近公司上线,有同志进行攻击,表当防重复提交也没有弄,交给我 ,本人以前也没弄过,知道大概的思路,但是那样实在是太麻烦了,虽然后面试过使用过滤器加拦截器实现,不过还是有点小麻烦. 后来在网上搜索后发现 ...
C++基础知识：类的静态成员
1.普通成员变量通过对象名能够访问public成员变量每个对象都可以有只属于自己的成员变量成员变量不能在对象之间共享 2.从命名空间的角度:类的静态成员只是类这个命名空间中的全局变量和全局函数不同之处 ...
oracle语句优化
摘录来自https://blog.csdn.net/sap_jack/article/details/3766703 1.选用适合的Oracle优化器 Oracle的优化器共有3种: a.RULE(基 ...

scrapy框架学习之路

二、eg:爬取抽屉

三、知识点

四、持久化

scrapy框架学习之路的更多相关文章

随机推荐

热门专题