第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装

第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

Scrapy框架安装

1、首先，终端执行命令升级pip: python -m pip install --upgrade pip
2、安装，wheel(建议网络安装) pip install wheel
3、安装，lxml(建议下载安装)
4、安装，Twisted(建议下载安装)
5、安装，Scrapy(建议网络安装) pip install Scrapy

测试Scrapy是否安装成功

Scrapy框架指令

scrapy -h 查看帮助信息

Available commands:
　　bench　　　　　　 Run quick benchmark test (scrapy bench 硬件测试指令，可以测试当前服务器每分钟最多能爬多少个页面)
　　fetch　　　　　　 Fetch a URL using the Scrapy downloader (scrapy fetch http://www.iqiyi.com/ 获取一个网页html源码)
　　genspider 　　　 Generate new spider using pre-defined templates ()
　　runspider　　　　 Run a self-contained spider (without creating a project) ()
　　settings　　　　 Get settings values ()
　　shell 　　　　　　 Interactive scraping console ()
　　startproject 　　　Create new project (cd 进入要创建项目的目录，scrapy startproject 项目名称，创建scrapy项目)
　　version 　　　　 Print Scrapy version ()
　　view 　　　　　 Open URL in browser, as seen by Scrapy ()

创建项目以及项目说明

scrapy startproject adc 创建项目

项目说明

目录结构如下：

├── firstCrawler

│ ├── __init__.py

│ ├── items.py

│ ├── middlewares.py

│ ├── pipelines.py

│ ├── settings.py

│ └── spiders

│ └── __init__.py

└── scrapy.cfg

scrapy.cfg: 项目的配置文件
tems.py: 项目中的item文件，用来定义解析对象对应的属性或字段。
pipelines.py: 负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库）
settings.py: 项目的设置文件.
spiders：实现自定义爬虫的目录
middlewares.py：Spider中间件是在引擎及Spider之间的特定钩子(specific
hook)，处理spider的输入(response)和输出(items及requests)。
其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

项目指令

项目指令是需要cd进入项目目录执行的指令

scrapy -h 项目指令帮助

Available commands:
　　bench　　　　 Run quick benchmark test
　　check　　　　 Check spider contracts
　　crawl　　　　 Run a spider
　　edit 　　　　 Edit spider
　　fetch　　　　 Fetch a URL using the Scrapy downloader
　　genspider　　 Generate new spider using pre-defined templates
　　list 　　　　　 List available spiders
　　parse　　　　 Parse URL (using its spider) and print the results
　　runspider 　　 Run a self-contained spider (without creating a project)
　　settings 　　 Get settings values
　　shell　　　　 Interactive scraping console
　　startproject 　 Create new project
　　version　　 Print Scrapy version (scrapy version 查看scrapy版本信息)
　　view　　　　 Open URL in browser, as seen by Scrapy (scrapy view http://www.zhimaruanjian.com/ 下载一个网页并打开)

创建爬虫文件

创建爬虫文件是根据scrapy的母版来创建爬虫文件的

scrapy genspider -l 查看scrapy创建爬虫文件可用的母版

Available templates:母版说明
　　basic　　　　创建基础爬虫文件

　　crawl　　　　创建自动爬虫文件
　　csvfeed　　创建爬取csv数据爬虫文件

　　xmlfeed　　　创建爬取xml数据爬虫文件

创建一个基础母版爬虫，其他同理

scrapy genspider -t 母版名称爬虫文件名称要爬取的域名创建一个基础母版爬虫，其他同理
如：scrapy genspider -t basic pach baidu.com

scrapy check 爬虫文件名称测试一个爬虫文件是否合规
如：scrapy check pach

scrapy crawl 爬虫名称执行爬虫文件，显示日志【重点】

scrapy crawl 爬虫名称 --nolog 执行爬虫文件，不显示日志【重点】

第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令的更多相关文章

第三百七十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门搜索
第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门我的搜素简单实现原理我们可以用js来实现,首先用js获取到 ...
第三百六十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)倒排索引
第三百六十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)倒排索引倒排索引倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包 ...
第三百五十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中 1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信 ...
第三百九十一节，Django+Xadmin打造上线标准的在线教育平台—404，403，500页面配置
第三百九十一节,Django+Xadmin打造上线标准的在线教育平台—404,403,500页面配置路由映射在全局也就是根目录里的urls.py里配置404路由映射注意:不是写在urlpatter ...
第三百八十一节，Django+Xadmin打造上线标准的在线教育平台—xadmin全局配置
第三百八十一节,Django+Xadmin打造上线标准的在线教育平台—xadmin全局配置 1.xadmin主题设置要使用xadmin主题,需要在一个app下的adminx.py后台注册文件里,写一 ...
第三百二十一节，Django框架，发送邮件
第三百二十一节,Django框架,发送邮件全局配置settings.py EMAIL_BACKEND = 'django.core.mail.backends.smtp.EmailBackend' ...
第三百三十七节，web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS
第三百三十七节,web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器 ...
第三百三十六节，web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础
第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块 ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...

随机推荐

FFmpeg(11)-基于FFmpeg进行音频重采样(swr_init(), swr_convert())
一.包含头文件和库文件修改CMakeLists # swresample add_library(swresample SHARED IMPORTED) set_target_properties( ...
Linux系统性能监控之6个vmstat和6个iostat命令
这篇文章主要介绍一些Linux性能检测相关的命令. vmstat和iostat的两个命令可以运行在主流的Linux/Unix操作系统上. 如果vmstat和iostat命令不能再你的电脑上运行,请安装 ...
[AWS vs Azure] 云计算里AWS和Azure的探究(2)
Amazon EC2是Elastic Compute Cloud的简称,翻译成中文就是弹性计算云.它是Amazon云里面最基础的内容,也是发展到今天最成熟的部分,通过EC2, 你可以在Amazon的云 ...
PHP网站环境搭配： Apache Http+PHP+Mysql
Apache Http+PHP+Mysql 环境搭配 1. 先下载上述三个软件都要下载对应系统的软件,mysql还可以再下载navicat for mysql. 2. 安装Apache Http ...
iOS开发之按钮的基本使用
实现功能: 点击向上的箭头,按钮图片向上,移动,点击向下的箭头,按钮图片向下移动点击向左的箭头,按钮图片向左移动,点击向右的箭头,按钮图片向右移动, 点击加号图片放大,点击减号,图片缩小第一步: ...
Lua中的loadfile,dofile,require使用，最后还有调试
1.loadfile---只编译,不运行. loadfile编译代码成中间码并且返回编译后的chunk作为一个函数,而不执行代码:另外loadfile不会抛出错误信息而是返回错误代号. loadstr ...
对dump的文件进行状态统计
1.jps -lvm 查出pid 2.jstack pid >1.dump 3.grep java.lang.Thread.State 1.dump| awk '{print $2$3$4$ ...
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa3 in position 1: ordinal not in range(128)
使用codecs模块 codecs模块能在处理字节流的时候提供很大帮助.你可以用定义的编码来打开文件并且你从文件里读取的内容会被自动转化为Unicode对象. 试试这个: >>> i ...
Oracle数据库密码过期
按照如下步骤进行操作:1.查看用户的proifle是哪个,一般是default: SQL>SELECT USERNAME,PROFILE FROM DBA_USERS; 2.查看指定概要文件(如 ...
thinkphp前台模版字符串截取
ThinkPHP\Common\extend.php 中管理前台模版的截取{$vons.title|msubstr=0,26} 原始的代码是无法使用截取支持…. 由于涉及到只有汉字检测最为准确需要加 ...

第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

第三百三十一节，web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令的更多相关文章

随机推荐

热门专题