Scrapy爬虫框架的使用

#_author:来童星
#date:2019/12/24
# Scrapy爬虫框架的使用
#1.安装Twisted模块    https://www.lfd.uci.edu/~gohlke/pythonlibs/
#2.单击Twisted索引
import scrapy
from scrapy.crawler import CrawlerProcess
# 导入获取项目设置信息
from scrapy.utils.project import get_project_settings
class QuotesSpider(scrapy.Spider):
    name='quotes'# 定义爬虫名称
    def start_requests(self):
        # 设置爬虫目标的地址
        urls=['http://quotes.toscrape.com/page/1/',
              'http://quotes.toscrape.com/page/2/'

        ]
        #获取所有地址，有几个地址发送几次请求
        for url in urls:
            #发送网络请求
            yield scrapy.Request(url=url,callback=self.parse)
    def parse(self, response):
        #获取页数
        page=response.url.split('/')[-2]
        # 根据页数设置文件名称
        filename='quotes-%s.html'%page
        #写入文件的模式打开文件，如果没有该文件则创建文件
        with open(filename,'wb')as f:
            # 向文件中写入获取的html代码
            f.write(response.body)
            #输出保存文件的名称
        self.log('saved file %s'%filename)
if __name__=='__main__':
    #创建CrawlerProcess类对象并传入项目设置信息参数
    process=CrawlerProcess(get_project_settings())
    # 设置需要启动的爬虫名称
    process.crawl('quotes')
    process.start()

Scrapy爬虫框架的使用的更多相关文章

Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
scrapy爬虫框架学习笔记(一)
scrapy爬虫框架学习笔记(一) 1.安装scrapy pip install scrapy 2.新建工程: (1)打开命令行模式 (2)进入要新建工程的目录 (3)运行命令: scrapy sta ...
Scrapy爬虫框架中的两个流程
下面对比了Scrapy爬虫框架中的两个流程—— ① Scrapy框架的基本运作流程:② Spider或其子类的几个方法的执行流程. 这两个流程是互相联系的,可对比学习. 1 ● Scrapy框架的基本 ...
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环 ...
Python-S9-Day126——Scrapy爬虫框架
01 今日内容概要 02 内容回顾和补充:scrapy 03 内容回顾和补充:网络和并发编程 04 Scrapy爬虫框架:pipeline做持久化(一) 05 Scrapy爬虫框架:pipeline做 ...
第十七节：Scrapy爬虫框架之item.py文件以及spider中使用item
Scrapy原理图: item位于原理图的最左边 item.py文件是报存爬取数据的容器,他使用的方法和字典很相似,但是相比字典item多了额外的保护机制,可以避免拼写错误或者定义错误. 1.创建it ...
手把手教你如何新建scrapy爬虫框架的第一个项目（上）
前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy,还有Scrapy安装过程中常见的问题总结及其对应的解决方法,感兴趣的小伙伴可以戳链接进去查看.关于Scrapy的介绍 ...
Scrapy爬虫框架与常用命令
07.08自我总结一.Scrapy爬虫框架大体框架 2个桥梁二.常用命令全局命令 startproject 语法:scrapy startproject <project_name> ...

随机推荐

PHP 利用 curl 发送 post get del put patch 请求
因为需要在 php 开发中对接其它接口需要用 php curl 去对接其它接口我把他们封装成函数希望能对大家有所帮助. 这里面是封装好的会自动把 data 进行转成 json 格式,同时解码成 p ...
远程仓库（GitHub）的使用
1.注册登录在 GitHub 上注册登录暂时忽略不讲 2.创建新的远程仓库在GitHub网站上创建新的仓库.不管你是先在本地创建仓库还是先在远程创建仓库,要想把代码提交到远程仓库都是要先手动创建 ...
React学习笔记-生命周期函数
定义: 生命周期函数指在某一个时刻组件会自动调用执行的函数
【Java】Java引用maven私服jar包及jar包提交私服问题
pom.xml中加入以下配置即可 1.引用私服jar包  <repositories> <repository> ...
Spring 官方文档笔记---Bean
In Spring, the objects that form the backbone of your application and that are managed by the Spring ...
使用UI Automation实现自动化测试--5-7
使用UI Automation实现自动化测试--5 (Winfrom和WPF中弹出和关闭对话框的不同处理方式) 在使用UI Automation对Winform和WPF的程序测试中发现有一些不同的地方 ...
spring注解开发：ComponentScan组件扫描
在使用xml方式配置时,我们只需要在xml中配置如下代码: <context:component-scan base-package="包名"></context ...
mybatis关联查询之一对一查询
一对一也就是 A 表的一条记录对应 B 表的一条记录,下面的测试数据中,从employee 表来看,一个员工对应一个部门,是一对一关系,如果从部门角度来看,则是一对多的关系,一个部门对应多个员工,本节 ...
Volatile 只保证可见性，并不保证原子性
[尊重原创,转载请注明出处]http://blog.csdn.net/guyuealian/article/details/52525724 在说明Java多线程内存可见性之前,先来简单了解一下J ...
组件化框架设计之阿里巴巴开源路由框架——ARouter原理分析（一）
阿里P7移动互联网架构师进阶视频(每日更新中)免费学习请点击:https://space.bilibili.com/474380680 背景当项目的业务越来越复杂,业务线越来越多的时候,就需要按照业 ...

Scrapy爬虫框架的使用

Scrapy爬虫框架的使用的更多相关文章

随机推荐

热门专题