Scrapy框架的简单使用

一.安装依赖

#Windows平台

    1、pip3 install wheel

    3、pip3 install lxml

    4、pip3 install pyopenssl

    5、pip3 install pywin32  #如果不行去官网https://sourceforge.net/projects/pywin32/files/pywin32/

    6、pip3 install twisted #如果不行去官网：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    7、pip3 install scrapy

#Linux平台

    1、pip3 install scrapy

二.命令

#1 查看帮助

    scrapy -h

    scrapy <command> -h

#2 有两种命令：其中Project-only必须切到项目文件夹下才能执行，而Global的命令则不需要

    Global commands:

        startproject #创建项目

        genspider    #基本上都要cd项目目录,scrapy genspider 名称 url

        settings     #如果是在项目目录下，则得到的是该项目的配置

        runspider    #运行一个独立的python文件，不必创建项目

        shell        #scrapy shell url地址  在交互式调试，如选择器规则正确与否

        fetch        #独立于程单纯地爬取一个页面，可以拿到请求头

        view         #下载完毕后直接弹出浏览器，以此可以分辨出哪些数据是ajax请求

        version      #scrapy version 查看scrapy的版本，scrapy version -v查看scrapy依赖库的版本

    Project-only commands:

        crawl        #运行爬虫，必须创建项目才行，确保配置文件中ROBOTSTXT_OBEY = False

        check        #检测项目中有无语法错误

        list         #列出项目中所包含的爬虫名

        edit         #编辑器，一般不用

        parse        #scrapy parse url地址 --callback 回调函数  #以此可以验证我们的回调函数是否正确

        bench        #scrapy bentch压力测试

#3 官网链接

    https://docs.scrapy.org/en/latest/topics/commands.html

crawl运行爬虫程序如果不打印日志

scrapy crawl 爬虫程序中的name --nolog

三.文件说明

scrapy.cfg 项目的主配置信息，用来部署scrapy时使用，爬虫相关的配置信息在settings.py文件中。
items.py 设置数据存储模板，用于结构化数据，如：Django的Model
pipelines 数据处理行为，如：一般结构化的数据持久化
settings.py 配置文件，如：递归的层数、并发数，延迟下载等。强调:配置文件的选项必须大写否则视为无效****，正确写法USER_AGENT='xxxx'
spiders 爬虫目录，如：创建文件，编写爬虫规则

Scrapy框架的简单使用的更多相关文章

Scrapy框架1——简单使用
一.设置与编写打开cmd,选择好路径 1.创建项目scrapy startproject projectname d:\爬虫\11.scrapy>scrapy startproject tes ...
Scrapy框架学习笔记
1.Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网 ...
Python -- Scrapy 框架简单介绍（Scrapy 安装及项目创建）
Python -- Scrapy 框架简单介绍最近在学习python 爬虫,先后了解学习urllib.urllib2.requests等,后来发现爬虫也有很多框架,而推荐学习最多就是Scrapy框架 ...
Python爬虫框架--Scrapy安装以及简单实用
scrapy框架框架 -具有很多功能且具有很强通用性的一个项目模板环境安装: Linux: pip3 install scrapy Windows: ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...
Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
安装scrapy框架的常见问题及其解决方法
下面小编讲一下自己在windows10安装及配置Scrapy中遇到的一些坑及其解决的方法,现在总结如下,希望对大家有所帮助. 常见问题一:pip版本需要升级如果你的pip版本比较老,可能在安装的过程 ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...

随机推荐

Linux下shell通用脚本启动jar（微服务）
Linux下shell通用脚本启动jar(微服务) vim app_jar.sh #!/bin/bash #source /etc/profile # Auth:Liucx # Please chan ...
Mysql服务彪高排查方式及索引的正确使用步骤
原文内容来自于LZ(楼主)的印象笔记,如出现排版异常或图片丢失等问题,可查看当前链接:https://app.yinxiang.com/shard/s17/nl/19391737/12af580d-1 ...
Vue基础系列（五）——Vue中的指令（中）
写在前面的话: 文章是个人学习过程中的总结,为方便以后回头在学习. 文章中会参考官方文档和其他的一些文章,示例均为亲自编写和实践,若有写的不对的地方欢迎大家和我一起交流. VUE基础系列目录 < ...
DevExpress的GridControl的使用以及怎样添加列和绑定数据源
场景 Winform控件-DevExpress18下载安装注册以及在VS中使用: https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/1 ...
SAP QA32试图做UD,系统报错-工厂 BTYC中的 QM 基选设置需要维护
SAP QA32 试图做UD,系统报错 - 工厂 BTYC 中的 QM 基选设置需要维护 - 检验批 10000062593,试图做使用决策,系统报错, 工厂 BTYC 中的 QM 基选设置需要维护 ...
Shell（七）：文件包含
和其他语言一样,Shell 也可以包含外部脚本(类似python中import的功能).这样可以很方便的封装一些公用的代码作为一个独立的文件. Shell 文件包含的语法格式如下: . filenam ...
关于svn外网访问的问题-搭建成功
昨天聊到了svn外网问题.今天,无限查资料,虽然眼累了一些,不过最终实现.还是开心了一下! 背景:本机设置svn服务器,搭建代码库并开设外网供不再同一地点的他人来访问上图: 1.svn服务器端搭 ...
面试连环炮系列（五）：你们的项目为什么要用RabbitMQ
你们的项目为什么要用RabbitMQ? 消息队列的作用是系统解耦.同步改异步.请求消峰,举个下订单的例子: 前端获取用户订单信息,请求后端的订单创建接口.这个接口并不直接请求订单服务,而是首先生成唯一 ...
javascript中的对象拷贝
js中的数据类型在介绍javascript中的对象的拷贝之前,我先介绍一个基础的东西,javascript中的数据类型. 我们做前端的应该都知到在es6 之前,javascript中的数据类型Boo ...
1001 害死人不偿命的(3n+1)猜想 (15 分)
卡拉兹(Callatz)猜想: 对任何一个正整数 n,如果它是偶数,那么把它砍掉一半:如果它是奇数,那么把 (3n+1) 砍掉一半.这样一直反复砍下去,最后一定在某一步得到 n=1.卡拉兹在 1950 ...

Scrapy框架的简单使用

一.安装依赖

二.命令

三.文件说明

Scrapy框架的简单使用的更多相关文章

随机推荐

热门专题