Python爬虫之Scrapy制作爬虫

前几天我有用过Scrapy架构编写了一篇爬虫的代码案例深受各位朋友们喜欢，今天趁着热乎在上一篇有关Scrapy制作的爬虫代码，相信有些基础的程序员应该能看的懂，很简单，废话不多说一起来看看。

前期准备：

通过爬虫语言框架制作一个爬虫程序

import scrapy

from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):

    name = 'dmoz'

    allowed_domains = ['dmoz.org']

    start_urls = [

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

    ]

    def parse(self, response):

        sel = Selector(response)

        sites = sel.xpath('//ul[@class="directory-url"]/li')

        for sel in sites:

            item = DmozItem() # 实例化一个 DmozItem 类

            item['title'] = sel.xpath('a/text()').extract()

            item['link'] = sel.xpath('a/@href').extract()

            item['desc'] = sel.xpath('text()').extract()

            yield item

程序运行：

通过爬虫程序输入命令，执行爬虫采集目标网站

#! -*- encoding:utf-8 -*-

        import base64

        import sys

        import random

        PY3 = sys.version_info[0] >= 3

        def base64ify(bytes_or_str):

            if PY3 and isinstance(bytes_or_str, str):

                input_bytes = bytes_or_str.encode('utf8')

            else:

                input_bytes = bytes_or_str

            output_bytes = base64.urlsafe_b64encode(input_bytes)

            if PY3:

                return output_bytes.decode('ascii')

            else:

                return output_bytes

        class ProxyMiddleware(object):

            def process_request(self, request, spider):

                # 爬虫ip服务器（http://jshk.com.cn/mb/reg.asp?kefu=xjy）

                proxyHost = "ip地址"

                proxyPort = "端口"

                # 爬虫ip验证信息

                proxyUser = "username"

                proxyPass = "password"

数据保存：

Scrapy爬虫方式一般分为4种，可以参考以下保存方式

json格式，默认为Unicode编码

scrapy crawl itcast -o teachers.json

json lines格式，默认为Unicode编码

scrapy crawl itcast -o teachers.jsonl

csv 逗号表达式，可用Excel打开

scrapy crawl itcast -o teachers.csv

xml格式

scrapy crawl itcast -o teachers.xml

Python爬虫之Scrapy制作爬虫的更多相关文章

Python之（scrapy）爬虫
一.Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸 ...
Windows下安装配置爬虫工具Scrapy及爬虫环境
爬虫工具Scrapy在Mac和Linux环境下都相对好装,但是在Windows上总会碰到各种莫名其妙的问题.本文记录下Scrapy在Window上的安装过程. 本文是基于Python2.7及Windo ...
Python爬虫进阶(Scrapy框架爬虫)
准备工作: 配置环境问题什么的我昨天已经写了,那么今天直接安装三个库首先第一步: ...
网络爬虫框架Scrapy简介
作者: 黄进(QQ:7149101) 一. 网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本:它是一个自动提取网页的程序,它为搜索引擎从万维 ...
爬虫框架Scrapy 之(一) --- scrapy初识
Scrapy框架简介 scrapy是基于Twisted的一个第三方爬虫框架,许多功能已经被封装好,方便提取结构性的数据.其可以应用在数据挖掘,信息处理等方面.提供了许多的爬虫的基类,帮我们更简便使用爬 ...
爬虫之scrapy安装与基本使用
安装:pip install scrapy基本使用 1. 创建项目:scrapy startproject 项目名 cd 项目名 2. 生成爬虫 1. 创建spider爬虫:scrapy genspi ...
python3编写网络爬虫23-分布式爬虫
一.分布式爬虫前面我们了解Scrapy爬虫框架的基本用法这些框架都是在同一台主机运行的爬取效率有限如果多台主机协同爬取爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1 ...
使用scrapy制作的小说爬虫
使用scrapy制作的小说爬虫爬虫配套的django网站 https://www.zybuluo.com/xuemy268/note/63660 首先是安装scrapy,在Windows下的安装比 ...
Python 爬虫6——Scrapy的安装和使用
前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作,但其实能完成的功能都很简单,假如要进行复制的数据匹配和高效的操作,可以引入第三方的框架,例如Scrapy ...
【Python实战】Scrapy豌豆荚应用市场爬虫
对于给定的大量APP,如何爬取与之对应的(应用市场)分类.描述的信息?且看下面分解. 1. 页面分析当我们在豌豆荚首页搜索框输入微信后,会跳转到搜索结果的页面,其url为http://www.wan ...

随机推荐

JSONObject.parseObject syntax error,expect START WITH { OR [,but actually START WITH error
JSONObject.parseObject syntax error,expect START WITH { OR [,but actually START WITH error解析JSON出现异常 ...
4-发票校验-不可能为条目1000 DIF确立帐户-消息号 M8147
SPRO-->物料管理-->评估和科目设置-->科目确定-->无向导的科目确定-->配置自动记帐(OBYC)
EBS 常用sql
1)查看请求挂在哪个状态下 SELECT fcpv.concurrent_program_name FROM fnd_request_groups frg, --请求组 fnd_request_gro ...
Json数组形式的字符串转为Map数组、Map集合的几种遍历方式
// Json数组形式的字符串转为Map数组 String strArr = "[{"name": "xx", "age": &q ...
RepOpt-VGG：梯度参数化的开创
本文来自公众号"AI大道理" YOLov6的量化问题: yolov6在结构中大量使用了重参数结构,导致数据分布过差,PTQ精度急剧下降.另外,重参数化结构网络无法直接使用Q ...
SQLite检查表是否存在
通过检索SQLite的内置表sqlite_master,查询是否有需要检索的表信息,即可得出该表是否存在. SELECT * FROM sqlite_master WHERE type='table' ...
如何搭建Redis集群（主从+哨兵）
一.什么是redis主从复制? 主从复制,是指将一台Redis服务器的数据,复制到其他的Redis服务器.前者称为主节点(master),后者称为从节点(slave),数据的复制是单向的,只能由主节点 ...
Flutter 中的普通路由、普通路由传值、命名路由、命名路由传值
一.Flutter 中的路由 Flutter 中的路由通俗的讲就是页面跳转.在 Flutter 中通过 Navigator 组件管理路由导航.并提供了管理堆栈的方法.如:Navigator.push ...
golang_nethttp
package main import ( "encoding/json" "fmt" "log" "net/http" ...
【C++复习】第九章模板与群体数据（2）
学习重点:容器类型内部的实现机制,顺便复习前面各章内容.容器类型的具体实现不需要特别关注(目前不需要会裸手写这么一个容器类型) 1.群体/线性群体群体的概念群体是指由多个数据元素组成的集合体.群体 ...

Python爬虫之Scrapy制作爬虫

Python爬虫之Scrapy制作爬虫的更多相关文章

随机推荐

热门专题