scrapy爬虫初体验

scrapy是一个python的爬虫框架，用于提取结构性数据。在这次宝贝计划 1的项目中要用到一些数据。但四处联系后各方可能因为一些隐私问题不愿提供数据信息。这样我们只能自己爬取，存入数据库，再进行调用。

1.创建一个Scrapy项目：

scrapy startproject bback

执行命令创建项目后会自动生成一些文件如下：

scrapy.cfg: 项目的配置文件

bback/: 该项目的python模块。之后您将在此加入代码。

bback/items.py: 项目中的item文件.

bback/pipelines.py: 项目中的pipelines文件.

bback/settings.py: 项目的设置文件.

bback/spiders/: 放置spider代码的目录.

2.定义提取的Item

Item 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

Item 配置如下

from scrapy.item import Item,Field

class BbackItem(Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    name=Field()

3.编写爬虫(Spider)

Spider是用户编写用于从网站爬取数据的类。

其包含了一个用于下载的初始URL，如何跟进网页中的链接以及如何分析页面中的内容，提取生成 item 的方法。

为了创建一个Spider，必须继承 scrapy.Spider 类，且定义以下三个属性:

name: 用于区别Spider。该名字必须是唯一的。

start_urls: 包含了Spider在启动时进行爬取的url列表,后续的URL是从初始的URL获取到的数据中提取。

parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。

spider **

#!/usr/bin/python

# -*- coding:utf-8 -*-

from scrapy.spider import Spider

from scrapy.selector import Selector

from scrapy import log

from bback.items import BbackItem

class BbackSpider(Spider):

    """爬取标签"""

    #log.start("log",loglevel='INFO')

    name = "bback"

    allowed_domains = ["baobeihuijia.com"]

    start_urls = (

        'http://baobeihuijia.com/list.aspx?tid=1&sex=&photo=1&page=1/',

    )

    def parse(self, response):

        sel = Selector(response)

        sites=sel.xpath('//div[@class="pic_bot"]/div[@class="pic_bota"]')

        items=[]

        for site in sites:

            item = BbackItem()

            name=site.xpath('input/@value').extract()

            item['name']=[n.encode('utf-8') for n in name]

            items.append(item)

            #记录

            log.msg("Appending item...",level='INFO')

        log.msg("Append done.",level='INFO')

        return items

4.pipelines.py实现对item的处理

在其中主要完成数据的查重、丢弃，验证item中数据，将得到的item数据保存等工作。代码如下：

import json

import codecs

class BbackPipeline(object):

    def __init__(self):

        self.file = codecs.open('bback_data_utf8.json', 'wb', encoding='utf-8')

    def process_item(self, item, spider):

        line = json.dumps(dict(item)) + '\n'

        # print line

        self.file.write(line.decode("unicode_escape"))

        return item

tips：

1宝贝计划：是我们团队参加ImageCup的一个作品，此系统是在人脸识别系统Face++云端服务平台上搭建的应用。普通用只需下载此应用，即可上传用户在(逛街时或旅途中)遇到的疑似被拐儿童的照片到失踪儿童图片库进行人脸匹配。匹配完成后，会返回一组信息，如果匹配度高达70%以上，用户即可看到该儿童的基本信息。进而可与失踪儿童父母或相关部门取得联系，拯救失踪儿童.

爬虫demo下载链接

参考链接：

scrapy文档

 scrapy wiki

binux大牛写的爬虫框架pyspider

网络爬虫与数据库操作

 Some Experiences Of Using

scrapy 专栏

scrapy爬虫初体验的更多相关文章

Node.js 网页瘸腿爬虫初体验
延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器 ...
Scrapy的初体验
上一节安装了python2和python3的开发环境首先第一步:进入开发环境,workon article_spider 进入这个环境: 安装Scrapy,在安装的过程中出现了一些错误:通常这些错误 ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
【Go 入门学习】第一篇关于 Go 的博客--Go 爬虫初体验
一.写在前面其实早就该写这一篇博客了,为什么一直没有写呢?还不是因为忙不过来(实际上只是因为太懒了).不过好了,现在终于要开始写这一篇博客了.在看这篇博客之前,可能需要你对 Go 这门语言有些基本的 ...
python2.7 爬虫初体验爬取新浪国内新闻_20161130
python2.7 爬虫初学习模块:BeautifulSoup requests 1.获取新浪国内新闻标题 2.获取新闻url 3.还没想好,想法是把第2步的url 获取到下载网页源代码再去分析源 ...
python学习之爬虫初体验
作业来源: "https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851" ** 1.简述爬虫原理通用爬虫即(搜索 ...
Java爬虫初体验
年关将近,工作上该完成的都差不多了,上午闲着就接触学习了一下爬虫,抽空还把正则表达式复习了,Java的Regex和JS上还是有区别的,JS上的"\w"Java得写成"\\ ...
appium+夜神模拟器+python安卓app爬虫初体验
环境搭建:Windows 7 64bit jdk包:jdk-8u171-windows-x64.exe(http://www.oracle.com/technetwork/java/javase/do ...

随机推荐

Hadoop 7、MapReduce执行环境配置
MR执行环境有两种:本地测试环境,服务器环境本地测试环境(windows,用于测试) 1.下载Winddows版的Hadoop程序,解压后在Hadoop目录的bin目录放置一个winutils.ex ...
解决：Incorrect line ending: found carriage return (\r) without corresponding newline (\n)
解决方案: ——clean一下项目,这个方法可以解决 . 此方案经过验证OK
STM32F407VG （三）ADC
12位ADC是一种逐次逼近型模拟数字转换器. 它有多达19个通道,可測量16个外部和2个内部信号源和VBAT通道.各通道的A/D转换能够单次.连续.扫描或间断模式运行. ADC的结果能够左对齐或右对齐 ...
Chrome for Android在Chromium代码库中的提交patch
訪问这个地址: https://codereview.chromium.org/1141283003 主要分为3类:png资源文件.java代码.C++代码,曾经以为这部分不开源的代码主要是C++,事 ...
AS3: Socket 数据包收发
AS3.0中使用Socket使用tcp服务器协议,它是一种流协议,不停的将分片传输给客户端,P作为流,发包是不会整包到达的,而是源源不断的. 它不同于UDP服务器协议,UDP作为数据包协议,整包到达. ...
UIPageViewController-浅析
一.UIPageViewController概念控件为我们提供了一种像翻书效果的一种控件.我们可以通过使用UIPageViewController控件,来完成类似图书一样的翻页控制方式. 二 ...
C#核编之内建数据类型
这个随笔中的重点之一是说明:C#中所提供的关键字都是相应系统类型的简化符号(如int是System.Int32类型的简化符号) 一.内建数据类型与层级结构所有的C#内建数据类型都支持默认的构造函数, ...
Foundation 框架
1.框架是有许多类,函数,方法,文档按照一定的逻辑组织起来的集合 2. Foundation框架是所有框架的基础 3.术语cocoa指的是foundation框架和appication kit框架 4 ...
strutr2运行流程
1. 请求发送给 StrutsPrepareAndExecuteFilter 2. StrutsPrepareAndExecuteFilter 询问 ActionMapper: 该请求是否是一个 St ...
javaweb一周总结（菜鸟）
我的试用期开始了. 这是我的第一篇博客,这也是我作为java工程师的第六天,主要是为了记录一周内出现的问题以及一些工作上的解答,吐槽一句工作的确和想的不一样之后直接记录下吧. 由于拥有工作平台看不到底 ...

scrapy爬虫初体验

scrapy爬虫初体验的更多相关文章

随机推荐

热门专题