scrapy框架简介

一.安装scrapy环境
　　-mac或linux：pip install scrapy
　　-windows：
　　　　1.pip install wheel
　　　　2.pip install twinsted
　　　　3.pip install pywin32
　　　　4.pip install scrapy

二.创建工程
1.进入终端
2.cd进入想要创建工程文件的路径
3.scrapy startproject 项目名
4.cd进入spider 文件夹
5.scrapy genspider 爬虫名称(可修改) 目标网址

三.执行工程
scrapy crawl 爬虫名称

四.爬虫名.py代码讲解
name=""　　 #爬虫名称
allowed_domains=""　　 #允许爬取的网址
start_urls=[] 　　 #存放待爬url地址
def parse(self,response) 　　 #解析爬取来的response数据,自定义该函数解析方式
response参数可直接后.xpath(' ')　　#解析出来的数据用.extract_first()，提取列表第一个元素,若要提取所有则.extract()
from Project_Name.items import Projet_Name_Item 　　
item['name'] = name　　#对需要传递给管道的参数用item进行封装

五.setting.py文件讲解
ROBOTSTXT_OBEY=False 　　 #机器人协议(一般不遵从)
LOG_LEVEL='ERROR'　　 #只打印报错数据
USR_AGENT='' 　　 #浏览器代理
ITEM_PIPELINES={}　　 #打开管道存储功能

六.items.py讲解
class LandscapeItem(scrapy.Item):
name= scrapy.Field()　　 #定义需要传递给管道的item数据名称,一般传递需要保存的文件名和需要保存的数据(文本或者字节流)

七.pipelines.py讲解
class LandscapePipeline:
def process_item(self, item, spider):
name=item['name'] 　　 #将items封装的item进行解封装,将解封装的数据进行存储(本地或者数据库),至于存储方式需要自定义函数实现

scrapy框架简介的更多相关文章

爬虫基础(五)-----scrapy框架简介
---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...
爬虫开发7.scrapy框架简介和基础应用
scrapy框架简介和基础应用阅读量: 1432 scrapy 今日概要 scrapy框架介绍环境安装基础使用今日详情一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数 ...
Scrapy 框架简介
Scrapy 框架介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的 ...
爬虫（九）scrapy框架简介和基础应用
概要 scrapy框架介绍环境安装基础使用一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能 ...
10.scrapy框架简介和基础应用
今日概要 scrapy框架介绍环境安装基础使用今日详情一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被 ...
scrapy框架简介和基础应用
scrapy框架介绍环境安装基础使用一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性 ...
爬虫（5）- Scrapy 框架简介与入门
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...
（六--一）scrapy框架简介和基础应用
一什么是scrapy框架官方解释 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了页面抓取 ( ...
Scrapy框架简介及小项目应用
今天来总结一下Scrapy框架的用法.scrapy的架构如下: Engine :引擎,处理整个系统的数据流处理.触发事务,是整个框架的核心. Items :项目,它定义了爬取结果的数据结构,爬取的数 ...
python爬虫----scrapy框架简介和基础应用
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以 ...

随机推荐

MSVC-用于其他IDE的手工环境配置，手工提取
最近因为在使用Code::Blocks编程,遇到了MSVC编译的库,不愿意换VS,所以手工配置了MSVC路径.CB是有点老了,不像现在新的IDE都是自动搜索的,而且我又不会批处理orz. 这里面可 ...
3.javaweb-servlet
1. 设置编码 tomcat8之前,设置编码: 1)get请求方式: //get方式目前不需要设置编码(基于tomcat8) //如果是get请求发送的中文数据,转码稍微有点麻烦(tomcat8之前) ...
vuforia 打包IOS 第一次启动正常，删掉过程重新启动初始化失败。
我使用的是2019.4.17版本,降级到2019.2.17问题解决
spring boot 常见问题
什么是 Spring Boot? 简单来说,spring boot 底层就是:spring + spring mvc + tomcat + 其他框架 starter: spring boot 依靠 s ...
DBeaver的使用
1.下载安装: https://dbeaver.io/download/ 2.下载后解压到指定目录,双击安装包: 然后进行连接,在连接数据库的时候,会提示下载文件,下载的时候老是出错,选择强制下载就 ...
[复现]2021DASCTF实战精英夏令营暨DASCTF July X CBCTF-PWN
EasyHeap 想可执行的地方写入orw的shellcode,利用tcachebin的df进行劫持malloc_hook 然后调用add来触发. from pwn import * context. ...
Android--观察APP运行日志以及APP的工程目录结构解释
运行日志 Log:d--便于跟踪调试 APP开发基础 APP的运行环境第一种情况,就是在Android studio软件客户端上面使用模拟器运行APP 第二种情况,就是使用真实的手机运行APP程序 ...
Spring--案例：百度网盘密码数据兼容处理
案例再度来袭也就是说,在百度网盘的密码复制时,后面即使有空格也能提取成功(trim方法) 案例的实现: 也就是实现存在空格时,也能输出true: 现在的话: 那么,我们应该如何使得它忽略空格呢? 这 ...
webgl 系列 —— 渐变三角形
其他章节请看: webgl 系列渐变三角形本文通过一个渐变三角形的示例逐步分析:varying变量.合并缓冲区.图形装配.光栅化.varying 内插绘制三个点v1 需求:绘制三个相同颜色的点, ...
【AI 全栈 SOTA 综述】这些你都不知道，怎么敢说会 AI？【语音识别原理 + 实战】
章目录前言语音识别原理信号处理,声学特征提取识别字符,组成文本声学模型语言模型词汇模型语音声学特征提取:MFCC和LogFBank算法的原理实战一 ASR语音识别模型 ...

scrapy框架简介

scrapy框架简介的更多相关文章

随机推荐

热门专题