1、引言

　　Scrapy框架结构清晰，基于twisted的异步架构可以充分利用计算机资源，是做爬虫必备基础，本文将对Scrapy的安装作介绍。

2、安装lxml

　　2.1 下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted　　选择对应python3.5的lxml库

2.2 如果pip的版本过低，先升级pip：

python -m pip install -U pip

2.3 安装lxml库（先将下载的库文件copy到python的安装目录，按住shift键并鼠标右击选择“在此处打开命令窗口”）

pip install lxml-4.1.1-cp35-cp35m-win_amd64.whl

看到出现successfully等字样说明按章成功。

3、安装Twisted库

3.1 下载链接：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted　　选择对应python3.5的库文件

3.2 安装

pip install Twisted-17.9.0-cp35-cp35m-win_amd64.whl

　　看到出现successfully等字样说明按章成功。

Note：部分机器可能安装失败，可以尝试将 Twisted-17.9.0-cp35-cp35m-win_amd64.whl文件移动到 $python/Scripts/ 目录下，重新安装。

4、安装Scrapy

twisted库安装成功后，安装scrapy就简单了，在命令提示符窗口直接输入命令：

pip install scrapy

　　看到出现successfully等字样说明按章成功。

5、Scrapy测试

5.1 新建项目

　　先新建一个Scrapy爬虫项目，选择python的工作目录（我的是：H:\PycharmProjects 然后安装Shift键并鼠标右键选择“在此处打开命令窗口”），然后输入命令：

scrapy startproject allister

　　对应目录会生成目录allister文件夹，目录结构如下：

└── allister

├── allister

│ ├── __init__.py

│ ├── items.py

│ ├── pipelines.py

│ ├── settings.py

│ └── spiders

└── scrapy.cfg

简单介绍个文件的作用：

# -----------------------------------------------

scrapy.cfg：项目的配置文件；

allister/ : 项目的python模块，将会从这里引用代码

allister/items.py:项目的items文件

allister/pipelines.py:项目的pipelines文件

allister/settings.py ：项目的设置文件

allister/spiders : 存储爬虫的目录

5.2 修改allister/items.py文件：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class AllisterItem(scrapy.Item):

    name = scrapy.Field()

    level = scrapy.Field()

    info = scrapy.Field()

5.3 编写文件 AllisterSpider.py

# !/usr/bin/env python

# -*- coding: utf-8 -*-

# @File  : AllisterSpider.py

# @Author: Allister.Liu

# @Date  : 2018/1/18

# @Desc  :

import scrapy

from allister.items import AllisterItem

class ItcastSpider(scrapy.Spider):

    name = "ic2c"

    allowed_domains = ["http://www.itcast.cn"]

    start_urls = [

        "http://www.itcast.cn/channel/teacher.shtml#ac"

    ]

    def parse(self, response):

        items = []

        for site in response.xpath('//div[@class="li_txt"]'):

            item = AllisterItem()

            t_name = site.xpath('h3/text()')

            t_level = site.xpath('h4/text()')

            t_desc = site.xpath('p/text()')

            unicode_teacher_name = t_name.extract_first().strip()

            unicode_teacher_level = t_level.extract_first().strip()

            unicode_teacher_info = t_desc.extract_first().strip()

            item["name"] = unicode_teacher_name

            item["level"] = unicode_teacher_level

            item["info"] = unicode_teacher_info

            yield item

编写完成后复制至项目的 \allister\spiders目录下，cmd选择项目根目录输入以下命令：　　

scrapy crawl ic2c -o itcast_teachers.json -t json

　　抓取的数据将以json的格式存储在ic2c_infos.json文件中；

如果出现如下错误请看对应解决办法：

Scrapy运行错误：ImportError: No module named win32api

Python3.5下安装&测试Scrapy的更多相关文章

Python3.X下安装Scrapy
Python3.X下安装Scrapy (转载) 2017年08月09日 15:19:30 jingzhilie7908 阅读数:519 标签: python 相信很多同学对于爬虫需要安装Scrap ...
centos7 python3.5 下安装paramiko
centos7 python3.5 下安装paramiko 安装开发包 yum install openssl openssl-devel python-dev -y 安装pip前需要前置安装setu ...
在python3.5下安装scrapy包
此前scrapy只支持python2.x 但是最新的1.1.0rc1已结开始支持py3了如果电脑上安装了scrapy的依赖包,诸如lxml.OpenSSL 1.你直接下载Scrapy-1.1.0rc ...
python3 linux下安装
1.下载 https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgz 2.安装上传到linux服务器 #进入上传文件的目录 cd /app/pr ...
在Python3.5下安装和测试Scrapy爬网站
1. 引言 Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是爬虫做大的必备基础.本文将讲解如何快速安装此框架并使用起来. 2. 安装Twisted 2.1 同安装Lxm ...
win7中python3.4下安装scrapy爬虫框架（亲测可用）
貌似最新的scrapy已经支持python3,但是错误挺多的,以下为在win7中的安装步骤: 1.首先需要安装Scrapy的依赖包,包括parsel, w3lib, cryptography, pyO ...
在Windows10 64位 Anaconda4 Python3.5下安装XGBoost
系统环境: Windows10 64bit Anaconda4 Python3.5.1 软件安装: Git for Windows MINGW 在安装的时候要改一个选择(Architecture选择x ...
Windows python3.3下安装BeautifulSoup
首先在官网下载:http://www.crummy.com/software/BeautifulSoup/#Download BeautifulSoup在版本4以上都开始支持python3了,所以就下 ...
关于在Python3.6下安装MySQL-python,flask-sqlalchemy模块的问题
这周末在学习Flask框架的时候,有需要安装MySQL-python模块,一开始用pip安装: pip install MySQL-python 但是安装的时候报错了: error: command ...

随机推荐

MyBatis_查询缓存01
一.查询缓存查询缓存的使用,主要是为了提高查询访问速度.将用户对同一数据的重复查询过程简单化,不在每次均从数据库中查询获取结果数据,从而提高访问速度. MyBatis的查询缓存机制,根据缓存区的作用 ...
「mysql优化专题」主从复制面试宝典！面试官都没你懂得多！(11)
内容较多,可先收藏,目录如下: 一.什么是主从复制二.主从复制的作用(重点) 三.主从复制的原理(重中之重) 四.三步轻松构建主从五.必问面试题干货分析(最最重要的点) 一.什么是主从复制(技术文 ...
7.python常用模块
1.time 常用表示时间方式: 时间戳,格式化的时间字符串,元组(struct_time) UTC(Coordinated Universal Time,世界协调时)亦即格林威治天文时间,世界标准时 ...
【java设计模式】【创建模式Creational Pattern】简单工厂模式Simple Factory Pattern（静态工厂方法模式Static Factory Method Pattern）
public class Test { public static void main(String[] args){ try{ Factory.factory("A").doSt ...
MySQL datetime的更新，删除网上的一些老概念
网上的老概念第一点:是以前的MySQL的datetime的最小值是:'1000-01-01 00:00:00'(貌似),但是最新的MySQL测试datetime的最小值可以是:'0000-00-00 ...
GitLab配置ssh key
一.背景当前很多公司都选择git作为代码版本控制工具,然后自己公司搭建私有的gitlab来管理代码,我们在clone代码的时候可以选择http协议,当然我们亦可以选择ssh协议来拉取代码.但是网上很 ...
1-MySQL数据库(android连接MySQL数据库)
很好的链接 http://www.cnblogs.com/best/p/6517755.html 一个小时学会MySQL数据库 http://www.cnblogs.com/klguang/p/47 ...
.bashrc:16: command not found: shopt配置环境变量时出错
source .bashrc ------------------------------------------------------- .bashrc:: command not found: ...
Django_form
Django的Form主要具有一下几大功能: 生成HTML标签验证用户数据(显示错误信息) HTML Form提交保留上次提交数据初始化页面显示内容 1.创建Form类 # 创建一个类 from ...
简单MVC理解与实现
MVC基本概念 MVC大家不陌生,包含模型(Model).视图(View).控制器(Controller),其中模型用于基本业务逻辑的实现,视图用于响应结果的表示,控制器用于模型控制和请求分派.先放上 ...

Python3.5下安装&测试Scrapy

1、引言

2、安装lxml

3、 安装Twisted库

4、安装Scrapy

5、Scrapy测试

Scrapy运行错误：ImportError: No module named win32api

Python3.5下安装&测试Scrapy的更多相关文章

随机推荐

热门专题

3、安装Twisted库