第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装

第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

Scrapy框架安装

1、首先，终端执行命令升级pip: python -m pip install --upgrade pip
2、安装，wheel(建议网络安装) pip install wheel
3、安装，lxml(建议下载安装)
4、安装，Twisted(建议下载安装)
5、安装，Scrapy(建议网络安装) pip install Scrapy

测试Scrapy是否安装成功

Scrapy框架指令

scrapy -h 查看帮助信息

Available commands:
　　bench　　　　　　 Run quick benchmark test (scrapy bench 硬件测试指令，可以测试当前服务器每分钟最多能爬多少个页面)
　　fetch　　　　　　 Fetch a URL using the Scrapy downloader (scrapy fetch http://www.iqiyi.com/ 获取一个网页html源码)
　　genspider 　　　 Generate new spider using pre-defined templates ()
　　runspider　　　　 Run a self-contained spider (without creating a project) ()
　　settings　　　　 Get settings values ()
　　shell 　　　　　　 Interactive scraping console ()
　　startproject 　　　Create new project (cd 进入要创建项目的目录，scrapy startproject 项目名称，创建scrapy项目)
　　version 　　　　 Print Scrapy version ()
　　view 　　　　　 Open URL in browser, as seen by Scrapy ()

创建项目以及项目说明

scrapy startproject adc 创建项目

项目说明

目录结构如下：

├── firstCrawler

│ ├── __init__.py

│ ├── items.py

│ ├── middlewares.py

│ ├── pipelines.py

│ ├── settings.py

│ └── spiders

│ └── __init__.py

└── scrapy.cfg

scrapy.cfg: 项目的配置文件
tems.py: 项目中的item文件，用来定义解析对象对应的属性或字段。
pipelines.py: 负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库）
settings.py: 项目的设置文件.
spiders：实现自定义爬虫的目录
middlewares.py：Spider中间件是在引擎及Spider之间的特定钩子(specific
hook)，处理spider的输入(response)和输出(items及requests)。
其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

项目指令

项目指令是需要cd进入项目目录执行的指令

scrapy -h 项目指令帮助

Available commands:
　　bench　　　　 Run quick benchmark test
　　check　　　　 Check spider contracts
　　crawl　　　　 Run a spider
　　edit 　　　　 Edit spider
　　fetch　　　　 Fetch a URL using the Scrapy downloader
　　genspider　　 Generate new spider using pre-defined templates
　　list 　　　　　 List available spiders
　　parse　　　　 Parse URL (using its spider) and print the results
　　runspider 　　 Run a self-contained spider (without creating a project)
　　settings 　　 Get settings values
　　shell　　　　 Interactive scraping console
　　startproject 　 Create new project
　　version　　 Print Scrapy version (scrapy version 查看scrapy版本信息)
　　view　　　　 Open URL in browser, as seen by Scrapy (scrapy view http://www.zhimaruanjian.com/ 下载一个网页并打开)

创建爬虫文件

创建爬虫文件是根据scrapy的母版来创建爬虫文件的

scrapy genspider -l 查看scrapy创建爬虫文件可用的母版

Available templates:母版说明
　　basic　　　　创建基础爬虫文件

　　crawl　　　　创建自动爬虫文件
　　csvfeed　　创建爬取csv数据爬虫文件

　　xmlfeed　　　创建爬取xml数据爬虫文件

创建一个基础母版爬虫，其他同理

scrapy genspider -t 母版名称爬虫文件名称要爬取的域名创建一个基础母版爬虫，其他同理
如：scrapy genspider -t basic pach baidu.com

scrapy check 爬虫文件名称测试一个爬虫文件是否合规
如：scrapy check pach

scrapy crawl 爬虫名称执行爬虫文件，显示日志【重点】

scrapy crawl 爬虫名称 --nolog 执行爬虫文件，不显示日志【重点】

第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令的更多相关文章

第三百七十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门搜索
第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门我的搜素简单实现原理我们可以用js来实现,首先用js获取到 ...
第三百六十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)倒排索引
第三百六十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)倒排索引倒排索引倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包 ...
第三百五十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中 1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信 ...
第三百九十一节，Django+Xadmin打造上线标准的在线教育平台—404，403，500页面配置
第三百九十一节,Django+Xadmin打造上线标准的在线教育平台—404,403,500页面配置路由映射在全局也就是根目录里的urls.py里配置404路由映射注意:不是写在urlpatter ...
第三百八十一节，Django+Xadmin打造上线标准的在线教育平台—xadmin全局配置
第三百八十一节,Django+Xadmin打造上线标准的在线教育平台—xadmin全局配置 1.xadmin主题设置要使用xadmin主题,需要在一个app下的adminx.py后台注册文件里,写一 ...
第三百二十一节，Django框架，发送邮件
第三百二十一节,Django框架,发送邮件全局配置settings.py EMAIL_BACKEND = 'django.core.mail.backends.smtp.EmailBackend' ...
第三百三十七节，web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS
第三百三十七节,web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器 ...
第三百三十六节，web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块 ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...

随机推荐

Spring Boot中扩展XML请求和响应的支持
在Spring Boot中,我们大多时候都只提到和用到了针对HTML和JSON格式的请求与响应处理.那么对于XML格式的请求要如何快速的在Controller中包装成对象,以及如何以XML的格式返回一 ...
内网ip范围
局域网可使用的网段(私网地址段)有三大段:10.0.0.0~10.255.255.255(A类)172.16.0.0~172.31.255.255(B类)192.168.0.0~192.168.255 ...
Web服务器缓存
前面提到的一些缓存技术都是有我们的动态才程序控制的,现在的web服务器功能越来越强大,常用的web服务器软件也都内置了缓存功能,下面我们就简单的说下服务器端缓存的应用. 首先,我们先来介绍一下URL映 ...
12.22日wagas学习笔记
第一部分:vue-cli3 vue.config.js配置: baseUrl:process.env.NODE_ENV === 'production'?'/production-sub-path': ...
Oracle XQuery 过滤XML查询SQL
Oralce 支持SQL XQuery查询一个简单示例: SELECT XMLQuery('for $i in /Videogame return $i/Type' passing by value ...
使用jQuery清空file文件域的解决方案
使用jQuery清空file文件域的解决方案 var file = $("#file") file.after(file.clone().val("")); f ...
C# 跳转新页面
C# 跳转新页面 string url = "http://www.vipsoft.com.cn"; ResponseRedirect.Redirect(Response, url ...
iOSCollectioView滚动到指定section的方法
CollectioView滚动到指定section的方法项目中的需求:collectionView顶部有一个scrollView组成的标签,点击标签,让collectionView滚动到指定的行 ...
Mysql 根据时间统计总数
代码写法: SELECT date_format(examinee_pay_time, '%Y-%m-%d') as payDate, COUNT(examinee_id) As realityApp ...
nginx封ip，禁用IP段的设置说明
nginx的ngx_http_access_module 模块可以封配置内的ip或者ip段,语法如下: deny IP; deny subnet; allow IP; allow subnet; # ...

第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令的更多相关文章

随机推荐

热门专题