Scrapy爬虫框架的安装和使用

Scrapy是一个十分强大的爬虫框架，依赖的库比较多，至少需要依赖的库有Twisted 14.0、lxml 3.4和pyOpenSSL 0.14。在不同的平台环境下，它所依赖的库也各不相同，所以在安装之前，最好确保把一些基本库安装好。
官方网站：https://scrapy.org
官方文档：https://docs.scrapy.org
PyPI：https://pypi.python.org/pypi/Scrapy
GitHub：https://github.com/scrapy/scrapy
中文文档：http://scrapy-chs.readthedocs.io

一、安装Scrapy

如果你的Python是使用Anaconda安装的

conda install Scrapy

Windows下的安装
下载安装pyOpenSSL https://pypi.python.org/pypi/pyOpenSSL#downloads
下载安装Twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
下载安装PyWin32 https://sourceforge.net/projects/pywin32/files/pywin32/Build%20221/
pip3 install Scrapy

CentOS和Red Hat

sudo yum groupinstall -y development tools

sudo yum install -y epel-release libxslt-devel libxml2-devel openssl-devel

pip3 install Scrapy

Ubuntu、Debian和Deepin

sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

pip3 install Scrapy

　二、scrapy 的使用

1、’创建项目
下面的命令可以创建一个Scrapy爬虫项目，它为我们规定了标准的项目格式。

scrapy startproject myproject [project_dir] #可以直接添加路径，也可以去你的工作目录省略路径选项

创建后用ide工具打开，项目结构:spiders模块中放置所有爬虫，scrapy.cfg是项目的全局配置文件，其余文件是Scrapy的组件。

2、创建爬虫
使用下面的命令可以创建一个爬虫，爬虫会放置在spider模块中。

scrapy genspider mydomain mydomain.com #需要进入项目目录，后面是爬虫名字和起始页面

下面代码是生成的爬虫具有基本的结构，我们也可以自己在此基础上编写代码。

# -*- coding: utf-8 -*-

import scrapy

class MydomainSpider(scrapy.Spider):

    name = "mydomain"

    allowed_domains = ["mydomain.com"]

    start_urls = ['http://mydomain.com/'] 

    def parse(self, response):

        pass

爬虫起启动后会将start_urls中的网址交给一个start-requests的函数执行，然后返回一个response给parse函数，接下来就是自己写了。

如果起始页面是有多个，可以直接写到start_urls中，还可以重写start-requests函数，自己将网址写好后requests提交一个response交给parse，比如很多的网站的多个栏目页面的网址是固定的，就可以少请求一次，少分析一次网页。

3、IDE默认没有scrapy项目，为了方便调试，我们需要新建一个脚本来执行scrapy项目，在项目的目录下新建一个xxx.py的文件，一般我们取名main，或者run，里面写上下面代码，我们的项目就可以在Ide调试了。

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'mydomain']) #mydomain是爬虫的名字

4、防反爬虫，你懂得。不管网站有没有反爬，这一步最好都做，特别是需要长期爬的网站，也是对网站基本的尊重。这里主要是user-agent，和代理ip和cookie。

user-agent：可以自己写一个列表循环随机取，也可以安装一个包pip3 install fake-useragent，middlewares.py添加

from fake_useragent import UserAgent #这是一个随机UserAgent的包，里面有很多UserAgent

class RandomUserAgentMiddleware(object):

    def process_request(self, request, spider):

        ua = UserAgent()

        request.headers.setdefault('User-Agent', ua.random) #这样就是实现了User-Agent的随即变换

settings.py的DOWNLOADER_MIDDLEWARES添加两条

DOWNLOADER_MIDDLEWARES = {

   'lianjia.middlewares.RandomUserAgentMiddleware': 543,

   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None, #这里要设置原来的scrapy的useragent为None，否者会被覆盖掉

}

代理ip，很重要，可以用免费的，可以买，也可以自建，middlewares.py添加

class RandomProxyMiddleware(object):

    '''动态设置ip代理'''

    def process_request(self,request,spider):

        get_ip = ip #ip为你的代理ip

        request.meta["proxy"] = "http://" + get_ip + ':端口' #你的代理方式，ip地址和端口

settings.py的DOWNLOADER_MIDDLEWARES添加一条

DOWNLOADER_MIDDLEWARES = {

   'lianjia.middlewares.RandomProxyMiddleware': 542, #代理ip

}

cookie：如果需要使用的，请使用cookie池，如果不需要就关了，settings.py里面

COOKIES_ENABLED = False

还有一点就是爬取过程中的sleep时间最好不要是固定的，比如0-5秒，随机的。

Scrapy爬虫框架的安装和使用的更多相关文章

Scrapy爬虫框架(1)--安装配置与常用命令
安装与配置 Scrapy有几个安装依赖,一般来说可以直接pip install scrapy,这个过程会自动下载安装其他几个依赖. 上述安装方法不成功,则需要手动安装依赖包步骤安装 lxmlpip ...
Scrapy爬虫框架的安装
Scrapy框架是我在Windows中遇到的最难安装的第三方库,一直不想写这篇博客,但碰巧今天重装了系统,这正好是个机会? 1.安装pywin32:https://sourceforge.net/pr ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
python3.7.1安装Scrapy爬虫框架
python3.7.1安装Scrapy爬虫框架环境:win7(64位), Python3.7.1(64位) 一.安装pyhthon 详见Python环境搭建:http://www.runoob.co ...
安装scrapy 爬虫框架
安装scrapy 爬虫框架个人根据学习需要,在Windows搭建scrapy爬虫框架,搭建过程种遇到个别问题,共享出来作为记录. 1.安装python 2.7 1.1下载下载地址 1.2配置环境变 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
scrapy爬虫框架学习笔记(一)
scrapy爬虫框架学习笔记(一) 1.安装scrapy pip install scrapy 2.新建工程: (1)打开命令行模式 (2)进入要新建工程的目录 (3)运行命令: scrapy sta ...
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环 ...
手把手教你如何新建scrapy爬虫框架的第一个项目（上）
前几天给大家分享了如何在Windows下创建网络爬虫虚拟环境及如何安装Scrapy,还有Scrapy安装过程中常见的问题总结及其对应的解决方法,感兴趣的小伙伴可以戳链接进去查看.关于Scrapy的介绍 ...

随机推荐

spring cache整合redis
在项目中,我们经常需要将一些常用的数据使用缓存起来,避免频繁的查询数据库造成效率低下.spring 为我们提供了一套基于注解的缓存实现,方便我们实际的开发.我们可以扩展spring的cache接口以达 ...
所驼门王的宝藏（Tarjan）
题目描述在宽广的非洲荒漠中,生活着一群勤劳勇敢的羊驼家族.被族人恭称为"先知"的Alpaca L. Sotomon是这个家族的领袖,外人也称其为"所驼门王". ...
STM32必学的时钟系统
STM32的时钟系统相较于51单片机,stm32的时钟系统可以说是非常复杂了,我们现在看下面的一张图: 上图说明了时钟的走向,是从左至右的从时钟源一步步的分配给外设时钟.需要注意的是,上图左侧一 ...
零基础如何更好的学习Linux
本节旨在介绍对于初学者如何学习 Linux 的建议.如果你已经确定对 Linux 产生了兴趣,那么接下来我们介绍一下学习 Linux 的方法. 如何去学习学习大多类似庖丁解牛,对事物的认识一般都是由 ...
数组中重复的数字牛客网剑指Offer
数组中重复的数字牛客网剑指Offer 题目描述在一个长度为n的数组里的所有数字都在0到n-1的范围内. 数组中某些数字是重复的,但不知道有几个数字是重复的.也不知道每个数字重复几次.请找出数组中 ...
cf Make It Nondeterministic （简单贪心）
有N个人.每个人都有两个名字. 给出这N个人的一个排列.p[1]...p[N]. 现在让每个人挑自己丙个名字中的一个名字.问是否存在一种方案,使得挑出来的N个名字按字典序排完以后正好是p[1]...p ...
Linux Mem (目录)
1.用户态相关: 1.1.用户态进程空间的创建 - execve() 详解 1.2.用户态进程空间的映射 - mmap()详解 1.3.分页寻址(Paging/MMU)机制详解 2.内核态相关: 2. ...
IDEA格式化项目中所有文件的方法
1,单个文件打开后,直接快捷键Ctrl+Alt+L就可将当前文件格式化 2,快捷键Ctrl+Alt+O可将import格式化(删除无用的import) 3,如果需要格式化整个项目的所有代码,在项目名上 ...
Spring Cloud Gateway实战之四：内置predicate小结
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
解决一个无聊的问题，如何处理Java用户在dos被收集信息时拷贝带换行符的文本信息造成的while的多次循环（java解决Scanner.next在接收用户输入时出现多个换行的形况）[解决方案一]
问题描述: 用户在dos窗口输入的时候(web项目不会出现这样的问题,所以这个问题日常碰不到),摁下回车时,Scanner对象的next()扫描用户输入的文本,后面就可以根据输入的字符串进行判断,并执 ...

Scrapy爬虫框架的安装和使用

Scrapy爬虫框架的安装和使用的更多相关文章

随机推荐

热门专题