爬虫框架Scrapy 之(一) --- scrapy初识

Scrapy框架简介

scrapy是基于Twisted的一个第三方爬虫框架，许多功能已经被封装好，方便提取结构性的数据。其可以应用在数据挖掘，信息处理等方面。提供了许多的爬虫的基类，帮我们更简便使用爬虫。

Scrapy 的组成部分： 1. 引擎、2.下载器、3. 爬虫、4. 调度器、5. 管道（item和pipeline）

　　以上五部分只需要关注爬虫和管道即可

spiders：蜘蛛或爬虫，分析网页的地方，主要的代码写在这里
管道：包括item和pipeline，用于处理数据
引擎：用来处理整个系统的数据流，触发各种事务（框架的核心）
下载器：用于下载网页内容，并且返回给蜘蛛（下载器基于Twisted的高效异步模型）
调度器：用来接收引擎发过来的请求，压入队列中等处理任务

Scrapy框架安装

Mac安装步骤

安装依赖库Twisted。打开终端 pip install twisted
安装其框架Scrapy。 pip install scrapy

wid安装步骤

在线安装和Mac相同, pip install twisted
离线安装需要在网站http://www.lfd.uci.edu/~gohlke/pythonlibs#twisted下载响应的版本，然后想下载好的文件拖到 pip install 后面
安装其框架和Mac相同
安装 pip install pywin32

Scrapy工程创建

工程创建：

首先在终端 cd到存放的目录下
创建项目： scrapy startproject 项目名。
然后在pycharm中打开此项目(空工程)
创建爬虫： scrapy genspider 爬虫名域名
运行爬虫 scrapy crawl 爬虫名 [-o xx.json/xml/csv]

工程配置运行：

根据需求编写item
在spiders里面解析数据
在管道中处理解析完的数据

爬虫框架Scrapy 之(一) --- scrapy初识的更多相关文章

python爬虫框架（3）--Scrapy框架安装配置
1.安装python并将scripts配置进环境变量中 2.安装pywin32 在windows下,必须安装pywin32,安装地址:http://sourceforge.net/projects/p ...
python爬虫框架scrapy初识(一)
Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中.所谓网络爬虫,就是一个在网上到处或定向抓取数据的 ...
初识python爬虫框架Scrapy
Scrapy,按照其官网(https://scrapy.org/)上的解释:一个开源和协作式的框架,用快速.简单.可扩展的方式从网站提取所需的数据. 我们一开始上手爬虫的时候,接触的是urllib.r ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
scrapy爬虫框架入门实例（一）
流程分析抓取内容(百度贴吧:网络爬虫吧) 页面: http://tieba.baidu.com/f?kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&ie=ut ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图）
初学Scrapy,实现爬取网络图片并保存本地功能一.先看最终效果保存在F:\pics文件夹下二.安装scrapy 1.python的安装就不说了,我用的python2.7,执行命令pip ins ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
爬虫框架Scrapy
前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识, 用来解决简单的贴吧下载,绩点运算自然不在话下. 不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点. 于是乎,爬虫 ...

随机推荐

java 根据ip获取地区信息(淘宝和新浪)
package com.test; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStr ...
git 多用户多仓库配置
ssh全称是Secure Shell,即安全Shell,是一种可以进行安全远程登录的协议,在Linux中以OpenSSH为代表,Windows中则有Putty作为实现.ssh的会话建立阶段类似TCP协 ...
A Diversity-Promoting Objective Function for Neural Conversation Models论文阅读
本文来自李纪为博士的论文 A Diversity-Promoting Objective Function for Neural Conversation Models 1,概述对于seq2seq模 ...
【js】js中判断对数是否为空
1.将json对象转化为json字符串,再判断该字符串是否为"{}" var data = {}; var b = (JSON.stringify(data) == "{ ...
nginx正则匹配
1.通用匹配规则 . 匹配除换行符以外的任意字符 \w 匹配字母.数字.下划线.汉字 \s 匹配任意的空白符 \d 匹配数字 ^ 匹配字符串的开始 $ 匹配字符串的结束 ...
AI移动自动化测试框架设计(解读)
声明:原文出自"前端之巅"微信公众号"爱奇艺基于AI的移动端自动化测试框架的设计"一文,作者:何梁伟,爱奇艺Android架构师.文章提供了一种基于AI算法的自 ...
Cookie Session和自定义分页
cookie Cookie的由来大家都知道HTTP协议是无状态的. 无状态的意思是每次请求都是独立的,它的执行情况和结果与前面的请求和之后的请求都无直接关系,它不会受前面的请求响应情况直接影响,也不 ...
（五）jdk8学习心得之默认方法
五.默认方法 1. 使用方法:写在接口中,就是为了接口可以做一些事情. 2. 目的:有很多实现类,有一个公共的抽象方法,其实这些实现类实现该抽象方法的内容是完全一致的,完全没有必要都重新实现一遍.并且 ...
解决win环境下访问本机虚拟机中centos7 ftp服务器的问题
inux搭建ftp服务器 1.安装软件: yum install vsftpd 2.修改配置文件vsftpd.conf: vim /etc/vsftpd/vsftpd.conf 把anonymous_ ...
plus.webview更新上一个页面的信息
let currentWebview = plus.webview.currentWebview(); let backWebview = currentWebview.opener(); ...

爬虫框架Scrapy 之(一) --- scrapy初识

Scrapy框架简介

Scrapy框架安装

Scrapy工程创建

爬虫框架Scrapy 之(一) --- scrapy初识的更多相关文章

随机推荐

热门专题