Python爬虫之Scrapy制作爬虫

前几天我有用过Scrapy架构编写了一篇爬虫的代码案例深受各位朋友们喜欢，今天趁着热乎在上一篇有关Scrapy制作的爬虫代码，相信有些基础的程序员应该能看的懂，很简单，废话不多说一起来看看。

前期准备：

通过爬虫语言框架制作一个爬虫程序

import scrapy

from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):

    name = 'dmoz'

    allowed_domains = ['dmoz.org']

    start_urls = [

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",

        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"

    ]

    def parse(self, response):

        sel = Selector(response)

        sites = sel.xpath('//ul[@class="directory-url"]/li')

        for sel in sites:

            item = DmozItem() # 实例化一个 DmozItem 类

            item['title'] = sel.xpath('a/text()').extract()

            item['link'] = sel.xpath('a/@href').extract()

            item['desc'] = sel.xpath('text()').extract()

            yield item

程序运行：

通过爬虫程序输入命令，执行爬虫采集目标网站

#! -*- encoding:utf-8 -*-

        import base64

        import sys

        import random

        PY3 = sys.version_info[0] >= 3

        def base64ify(bytes_or_str):

            if PY3 and isinstance(bytes_or_str, str):

                input_bytes = bytes_or_str.encode('utf8')

            else:

                input_bytes = bytes_or_str

            output_bytes = base64.urlsafe_b64encode(input_bytes)

            if PY3:

                return output_bytes.decode('ascii')

            else:

                return output_bytes

        class ProxyMiddleware(object):

            def process_request(self, request, spider):

                # 爬虫ip服务器（http://jshk.com.cn/mb/reg.asp?kefu=xjy）

                proxyHost = "ip地址"

                proxyPort = "端口"

                # 爬虫ip验证信息

                proxyUser = "username"

                proxyPass = "password"

数据保存：

Scrapy爬虫方式一般分为4种，可以参考以下保存方式

json格式，默认为Unicode编码

scrapy crawl itcast -o teachers.json

json lines格式，默认为Unicode编码

scrapy crawl itcast -o teachers.jsonl

csv 逗号表达式，可用Excel打开

scrapy crawl itcast -o teachers.csv

xml格式

scrapy crawl itcast -o teachers.xml

Python爬虫之Scrapy制作爬虫的更多相关文章

Python之（scrapy）爬虫
一.Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸 ...
Windows下安装配置爬虫工具Scrapy及爬虫环境
爬虫工具Scrapy在Mac和Linux环境下都相对好装,但是在Windows上总会碰到各种莫名其妙的问题.本文记录下Scrapy在Window上的安装过程. 本文是基于Python2.7及Windo ...
Python爬虫进阶(Scrapy框架爬虫)
准备工作: 配置环境问题什么的我昨天已经写了,那么今天直接安装三个库首先第一步: ...
网络爬虫框架Scrapy简介
作者: 黄进(QQ:7149101) 一. 网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本:它是一个自动提取网页的程序,它为搜索引擎从万维 ...
爬虫框架Scrapy 之(一) --- scrapy初识
Scrapy框架简介 scrapy是基于Twisted的一个第三方爬虫框架,许多功能已经被封装好,方便提取结构性的数据.其可以应用在数据挖掘,信息处理等方面.提供了许多的爬虫的基类,帮我们更简便使用爬 ...
爬虫之scrapy安装与基本使用
安装:pip install scrapy基本使用 1. 创建项目:scrapy startproject 项目名 cd 项目名 2. 生成爬虫 1. 创建spider爬虫:scrapy genspi ...
python3编写网络爬虫23-分布式爬虫
一.分布式爬虫前面我们了解Scrapy爬虫框架的基本用法这些框架都是在同一台主机运行的爬取效率有限如果多台主机协同爬取爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1 ...
使用scrapy制作的小说爬虫
使用scrapy制作的小说爬虫爬虫配套的django网站 https://www.zybuluo.com/xuemy268/note/63660 首先是安装scrapy,在Windows下的安装比 ...
Python 爬虫6——Scrapy的安装和使用
前面我们简述了使用Python自带的urllib和urllib2库完成的一下爬取网页数据的操作,但其实能完成的功能都很简单,假如要进行复制的数据匹配和高效的操作,可以引入第三方的框架,例如Scrapy ...
【Python实战】Scrapy豌豆荚应用市场爬虫
对于给定的大量APP,如何爬取与之对应的(应用市场)分类.描述的信息?且看下面分解. 1. 页面分析当我们在豌豆荚首页搜索框输入微信后,会跳转到搜索结果的页面,其url为http://www.wan ...

随机推荐

vue-cli3配置打包后的文件加上版本号
修改vue.config.js
ARouter转场动画无效，试试下面这种写法
A -> B 的转场动画: A:ARouter.getInstance().build(ArouterPath.PATH_AUDIO_PLAYER) .withSerializable(&quo ...
System.Data.Linq 无法引用的问题
参考文章 https://www.bbsmax.com/A/1O5EM0G457/ 已经在工程中引用了system.data.linq,但是在代码中,输入 using System.Data.Lin ...
redis geo 做距离计算排序分页
redis geo 做距离计算排序分页 // 添加经纬度和店铺id geoadd store_list lng lat store_id 计算距离排序和生成临时文件 georadius store_l ...
使用moment获取本周、前n周、后n周开始结束日期以及动态计算周数
原文地址 https://blog.csdn.net/qq_43432158/article/details/124200343 项目中有一个需求:需要根据学期时间动态的计算出该学期有多少周通过上网 ...
select multiple 浏览器兼容
select multiple 时一般是设置 height <select multiple="multiple" style="height:87px;" ...
Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-Supervised Object and Action Localization概述
0.前言相关资料: paper 网站论文解读(知乎,CSDN) 论文基本信息: 领域:弱监督动作定位发表时间:ICCV2017 1.针对的问题大多数网络只识别图像最具有鉴别力的部分,不是所有相 ...
Collections.synchronizedList使用方法
ArrayList众所周知ArrayList是非线程安全的,在多线程的情况下,向list插入数据的时候,可能会造成数据丢失的情况.并且一个线程在遍历List,另一个线程修改List,会报Concurr ...
将字符串数组String[]转换成List的三种方法
通过 Arrays.asList(strArray) 方式,将数组转换List后,不能对List增删,只能查改,否则抛异常. String[] strArray = new String[2]; Li ...
Java-【Arrays类】和【System类】
Arrays类 [基本介绍] JDK中提供了一个专门用于操作数组的工具类,即Arrays类,位于java util 中. 用前需导包:import java.util.Arrays; [常用方法] 返 ...

Python爬虫之Scrapy制作爬虫

Python爬虫之Scrapy制作爬虫的更多相关文章

随机推荐

热门专题