Scrapy初体验（一）环境部署

系统选择centOs 7，Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

Linux发行版都自带Python环境，Scrapy官方推荐使用pip安装Scrapy，因此首先需要安装pip.
去github下载pip最新安装包。pip install
目前版本是7.1.2下载完成得到一个pip-7.1.2.tar.gz的压缩包，然后执行命令解压缩

1	$ tar zvxf pip-7.1.2.tar.gz

进入解压好的pip-7.1.2目录，找到setup.py并安装执行

1	$ sudo python setup.py install

执行完成后就可以使用pip命令了。
然后使用pip命令安装Scrapy

1	$ sudo pip install Scrapy

安装过程中会出现一个报错：

大专栏  Scrapy初体验（一） 环境部署s="line">1
2

编译中断。
    error: command 'gcc' failed with exit status 1

解决办法是执行

1	$ yum install gcc python-devel

安装完成后再次执行以上pip install Scrapy命令等待安装完成，直到终端出现如下文字提示，代表安装完成，即可使用Scrapy抓取数据了。

Installing collected packages: Twisted, characteristic, pyasn1-modules, service-identity, Scrapy
  Running setup.py install for Twisted
  Running setup.py install for pyasn1-modules
Successfully installed Scrapy-1.0.3 Twisted-15.4.0 characteristic-14.3.0 pyasn1-modules-0.0.7 service-identity-14.0.0

Scrapy初体验（一）环境部署的更多相关文章

Scrapy 初体验
开发笔记 Scrapy 初体验 scrapy startproject project_name 创建工程 scrapy genspider -t basic spider_name website. ...
Docker学习<一>--初体验Windows环境下安装
背景今天想试用spring boot与jwt协议的实现,配套就需要使用redis,但redis似乎windows环境版本部署起来不是那么舒心,果断尝试使用docker. 下载下载地址: 稳定版:h ...
RAC初体验（环境搭建）
实施阶段: 1.主机配置 2.安装Clusterware 3.安装Oracle Database 4.配置Listener 5.创建ASM 6.创建Database 一.主机配置 1.网络设置 I ...
Jenkins初体验-安装与部署服务
一.概述 1.简介在工作中接触到CD/CI,Devops相关的技术,本文记录Jenkins的基本使用.Jenkins是一款开源的持续集成工具,能够集成一套自动化部署任务. 目标通过jenkins从 ...
记录：初入Java环境部署踩坑
1.在部署环境之前,先确定大佬们用的哪几种软件,然后依次下载,安装,IDEA, JDK, Tomcat, Maven. 什么是JDK? JDK是 Java 语言的软件开发工具包,主要用于移 ...
scrapy初体验 - 安装遇到的坑及第一个范例
scrapy,python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.scrapy用途广泛,可以用于数据挖掘.监测和自动化测试.scrapy的安装稍 ...
docker初体验：Docker部署SpringCloud项目eureka-server
Docker部署SpringCloud项目eureka-server 1 创建eureka-server工程创建父工程cloud-demo,其pom.xml如下: <?xml version= ...
scrapy初体验
1. 构建scrapy项目 scrapy startproject ['项目名'] 在spiders下生成文件 cd spiders scrapy genspider douban_spider [' ...
Scrapy的初体验
上一节安装了python2和python3的开发环境首先第一步:进入开发环境,workon article_spider 进入这个环境: 安装Scrapy,在安装的过程中出现了一些错误:通常这些错误 ...

随机推荐

python all（）函数
1.描述all() 函数——用于判断给定的可迭代参数 iterable 中的所有元素是否都为TRUE,如果是返回 True,否则返回 False.元素除了是 0.空.FALSE 外都算 TRUE.2. ...
ZJNU 1310 - 排队——中高级
蒟蒻做法:追踪1号队员,取他回到原来位置需要的次数 /* Written By StelaYuri */ #include<stdio.h> int main(){ int T,t,n,a ...
Python笔记_第二篇_面向过程_第二部分_2.路径、栈和队列、内存修改
这一部分分三个主题进行讲解,主要为后面的模块.包.第三方库的概念补充一些相关的内容. 1. 路径(Path): 相对路径和绝对路径. 举例1:我们先导入一个os库(模块)来观察一下路径 import ...
使用pythonnet调用halcon脚本
最近的项目中遇到了使用python程序结合不同部分,其中包括使用halcon处理拍摄到的图像. halcon本身提供了c++与.NET的开发库,但无python库,网上有pyhalcon之类的库,但功 ...
shell里脚本里写个简单的函数，显示颜色
如果多次用到颜色显示,还是定义一个函数比较实在,具体什么颜色上网找一下 #!/bin/bash # 定义一个红色显示的函数 function echo_red () { local what=$* e ...
Linux从一台linux机器复制文件到另一台linux机器
1.功能说明 scp 用于将文件/目录从一台linux系统复制到另一台linux系统.传输协议为SSH协议,保证了传输数据的安全性其格式如下: (1)scp 本地linux系统文件路径远程用 ...
SwaggerConfig
package me.zhengjie.common.swagger2; import com.google.common.base.Predicates; import org.springfram ...
《杜拉拉升职记》//TODO
目录简介杜拉拉升职记杜拉拉2-年华似水杜拉拉3-我在这战斗的一年里杜拉拉大结局-与理想有关结束语简介作者李可,女作家,某名校本科毕业,十余年外企生涯,职业经理人,"李可&qu ...
day17-反射
#反射最常用的两个方法:hasattr getattr # 1. 反射对象属性,反射对象方法: class Goods: def __init__(self,name): self.name = na ...
Apsara Clouder云计算专项技能认证：网站建设-简单动态网站搭建
一.课程介绍 1.课程目标了解静态网站和动态网站的区别掌握动态网站的不同实现方式在阿里云上如何搭建 wordPress网站以及 wordPress 网站的管理和优化二.网站搭建的类型 1.网站 ...

Scrapy初体验（一） 环境部署

Scrapy初体验（一） 环境部署的更多相关文章

随机推荐

热门专题

Scrapy初体验（一）环境部署

Scrapy初体验（一）环境部署的更多相关文章