Scrapy框架之某网站产品采集案例

一、创建项目

第一步：scrapy startproject boyuan

第二步：cd boyuan

　　　　scrapy genspider product -t crawl boyuan.com

如图：

二、代码编写

1、item.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class BoyuanItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    name = scrapy.Field()

    address = scrapy.Field()

    company = scrapy.Field()

    img = scrapy.Field()

    time = scrapy.Field()

2、product.py爬虫文件

# -*- coding: utf-8 -*-

import scrapy

from scrapy.spiders import Rule, CrawlSpider

from scrapy.linkextractors import LinkExtractor

from ..items import BoyuanItem

class ProductSpider(CrawlSpider):

    name = 'product'

    allowed_domains = ['boyuan.com']

    offset = 1

    url = "http://www.boyuan.com/sell/?page={0}"

    start_urls = [url.format(str(offset))]

    page_link = LinkExtractor(allow=("\?page=\d+"))

    rules = [

        Rule(page_link, callback="parse_content", follow=True)

    ]

    def parse_content(self, response):

        for each in response.xpath("//div[@class='list']//tr"):

            item = BoyuanItem()

            item['name'] = each.xpath("./td[4]//strong/text()").extract()[0]

            item['company'] = each.xpath("./td[4]//li[4]/a/text()").extract()[0]

            address = each.xpath("./td[4]//li[3]/text()").extract()[0]

            item['address'] = str(address).strip("[").strip("]")

            time = each.xpath("./td[4]//li[3]/span/text()").extract()[0]

            item['time'] = str(time).strip()

            item['img'] = each.xpath("./td[2]//img/@original").extract()[0]

            yield item

3、pipelines.py 管道文件

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

import pymongo

from scrapy.conf import settings

class BoyuanPipeline(object):

    def __init__(self):

        host = settings.get("MONGO_HOST")

        port = settings.get("MONGO_PORT")

        db_name = settings.get("MONGO_DB")

        collection = settings.get("MONGO_COLLECTION")

        self.client = pymongo.MongoClient(host=host, port=int(port))

        db = self.client.get_database(db_name)

        if collection not in db.list_collection_names():

            db.create_collection(collection)

        self.col = db[collection]

    def process_item(self, item, spider):

        # 保存到mongodb中

        self.col.insert(dict(item))

        return item

    def close_spider(self, spider):

        self.client.close()

3、settings.py 配置文件

# mongodb数据库参数

MONGO_HOST = "localhost"

MONGO_PORT = ""

MONGO_DB = "boyuan"

MONGO_COLLECTION = "product"

4、start.py 启动文件

from scrapy import cmdline

if __name__ == '__main__':

    cmdline.execute("scrapy crawl product".split())

采集结果如图：

Scrapy框架之某网站产品采集案例的更多相关文章

Python 之scrapy框架58同城招聘爬取案例
一.项目目录结构: 代码如下: # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See docu ...
scrapy框架的解析
1,scrapy框架的官网:https://scrapy.org/ 什么是scrapy框架: scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用内框架,非常出名,所谓框架就是一个已经继承 ...
Scrapy框架——CrawlSpider类爬虫案例
Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spide ...
Scrapy框架——CrawlSpider爬取某招聘信息网站
CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而Craw ...
爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例
1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...
Python爬虫开发【第1篇】【Scrapy框架】
Scrapy 框架介绍 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架. Srapy框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以 ...
python爬虫scrapy框架
Scrapy 框架关注公众号"轻松学编程"了解更多. 一.简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量 ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...

随机推荐

华为OJ2288-合唱队（最长递增子序列）
一.题目描述描述: N位同学站成一排,音乐老师要请其中的(N-K)位同学出列,使得剩下的K位同学不交换位置就能排成合唱队形. 合唱队形是指这样的一种队形:设K位同学从左到右依次编号为1, 2, -, ...
i18n国际化的例子
这个可以点击菜单进行中英文切换,每次切换就可以改变sessionStorage.languge,进行改变i18n的参数lang的值,然后重新调用下就可以了. 工程结构: i18n--| |---css ...
Java学习笔记----容器
一.Java Collections框架是什么? Java Collections 框架中包括了大量集合接口以及这些接口的实现类和操作它们的算法(如:排序.查找.反转.替换.复制.取最小元素.取最大元 ...
2013级C++第12周(春)项目——成员的訪问属性、多重继承
课程首页在:http://blog.csdn.net/sxhelijian/article/details/11890759,内有完整教学方案及资源链接第一部分程序阅读 1.阅读程序.分析类中成员 ...
JavaScript基础 -- js常用内置方法和对象
JS中常用的内置函数如下: 1.eval(str):计算表达式的结果. 2.parseInt(str,n):将符串转换成整数数字形式(可指定几进制). 3.parseFloat(str):将字符串转换 ...
gitlab常见错误解决办法
1 fail: gitlab-workhorse: runsv not running systemctl start gitlab-runsvdir.service systemctl status ...
Codeforces Round #363 (Div. 2)E. LRU
E. LRU time limit per test 2 seconds memory limit per test 256 megabytes input standard input output ...
sa分析
onCheckedChanged用于监控开启和关闭,其实是Switch,也是Toggle Buttons http://www.google.com/design/spec/components/sw ...
Killer Problem(暴力)
题意: 给定一个序列,每次询问l到r之间两个数差的绝对值的最小值. 分析: 开始以为是线段树离线处理,实际暴力就好! #include <map> #include <set> ...
javaSE基础（二）
文件:文件是信息在计算机上的保存形式. 可控式异常:一种必须被处理或必须在可能产生异常的方法中给出声明的异常. 可控式异常的三种处理方式: 1)try...catch捕获 2)throws语句往上抛 ...

Scrapy框架 之某网站产品采集案例

Scrapy框架 之某网站产品采集案例的更多相关文章

随机推荐

热门专题

Scrapy框架之某网站产品采集案例

Scrapy框架之某网站产品采集案例的更多相关文章