Scrapy框架之某网站产品采集案例

一、创建项目

第一步：scrapy startproject boyuan

第二步：cd boyuan

　　　　scrapy genspider product -t crawl boyuan.com

如图：

二、代码编写

1、item.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class BoyuanItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    name = scrapy.Field()

    address = scrapy.Field()

    company = scrapy.Field()

    img = scrapy.Field()

    time = scrapy.Field()

2、product.py爬虫文件

# -*- coding: utf-8 -*-

import scrapy

from scrapy.spiders import Rule, CrawlSpider

from scrapy.linkextractors import LinkExtractor

from ..items import BoyuanItem

class ProductSpider(CrawlSpider):

    name = 'product'

    allowed_domains = ['boyuan.com']

    offset = 1

    url = "http://www.boyuan.com/sell/?page={0}"

    start_urls = [url.format(str(offset))]

    page_link = LinkExtractor(allow=("\?page=\d+"))

    rules = [

        Rule(page_link, callback="parse_content", follow=True)

    ]

    def parse_content(self, response):

        for each in response.xpath("//div[@class='list']//tr"):

            item = BoyuanItem()

            item['name'] = each.xpath("./td[4]//strong/text()").extract()[0]

            item['company'] = each.xpath("./td[4]//li[4]/a/text()").extract()[0]

            address = each.xpath("./td[4]//li[3]/text()").extract()[0]

            item['address'] = str(address).strip("[").strip("]")

            time = each.xpath("./td[4]//li[3]/span/text()").extract()[0]

            item['time'] = str(time).strip()

            item['img'] = each.xpath("./td[2]//img/@original").extract()[0]

            yield item

3、pipelines.py 管道文件

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json

import pymongo

from scrapy.conf import settings

class BoyuanPipeline(object):

    def __init__(self):

        host = settings.get("MONGO_HOST")

        port = settings.get("MONGO_PORT")

        db_name = settings.get("MONGO_DB")

        collection = settings.get("MONGO_COLLECTION")

        self.client = pymongo.MongoClient(host=host, port=int(port))

        db = self.client.get_database(db_name)

        if collection not in db.list_collection_names():

            db.create_collection(collection)

        self.col = db[collection]

    def process_item(self, item, spider):

        # 保存到mongodb中

        self.col.insert(dict(item))

        return item

    def close_spider(self, spider):

        self.client.close()

3、settings.py 配置文件

# mongodb数据库参数

MONGO_HOST = "localhost"

MONGO_PORT = ""

MONGO_DB = "boyuan"

MONGO_COLLECTION = "product"

4、start.py 启动文件

from scrapy import cmdline

if __name__ == '__main__':

    cmdline.execute("scrapy crawl product".split())

采集结果如图：

Scrapy框架之某网站产品采集案例的更多相关文章

Python 之scrapy框架58同城招聘爬取案例
一.项目目录结构: 代码如下: # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See docu ...
scrapy框架的解析
1,scrapy框架的官网:https://scrapy.org/ 什么是scrapy框架: scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用内框架,非常出名,所谓框架就是一个已经继承 ...
Scrapy框架——CrawlSpider类爬虫案例
Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spide ...
Scrapy框架——CrawlSpider爬取某招聘信息网站
CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而Craw ...
爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例
1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...
Python爬虫开发【第1篇】【Scrapy框架】
Scrapy 框架介绍 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架. Srapy框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以 ...
python爬虫scrapy框架
Scrapy 框架关注公众号"轻松学编程"了解更多. 一.简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量 ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...

随机推荐

C# 插件热插拔 .NET：何时应该 “包装异常”？ log4.net 自定义日志文件名称
C# 插件热插拔所谓热插拔就是插件可以在主程序不重新启动的情况直接更新插件, 网上有很多方案: https://www.cnblogs.com/happyframework/p/3405811 ...
用C# (.NET Core) 实现抽象工厂设计模式
用C# (.NET Core) 实现抽象工厂设计模式本文的概念性内容来自深入浅出设计模式一书. 上一篇文章讲了简单工厂和工厂方法设计模式 http://www.cnblogs.com/cgzl/ ...
Mysql-SQL优化-统计某种类型的个数
有时我们想统计某种类型有多少个,会用这个SQL. 全表扫描之余,还要filesort.耗时1.34秒. mysql> select country,count(*) from t1 group ...
JS重名解决方案
一个页面如果引用多个JS,或者像ASP.NET MVC,一个视图包含多个子视图,每个子视图有自己的JS,那么变量.函数的重名冲突机会将会大增. 如何解决? 这里有一个方案: 1.用类来封装子页的JS代 ...
【hdu3518】Boring counting
题意:找出一个字符串中至少重复出现两次的字串的个数(重复出现时不能重叠). 后缀数组枚举字串长度h,对于每一次的h,利用height数组,找出连续的height大于等于h的里面最左端和最右端得为之l ...
洛谷P1155 双栈排序——思路题
题目:https://www.luogu.org/problemnew/show/P1155 思路... 看博客:https://www.cnblogs.com/Narh/p/9213825.html ...
ci完整集成
http://www.cnblogs.com/zhanchenjin/p/5032218.html http://blog.csdn.net/williamwanglei/article/detail ...
sql server数据库占用cpu太大，使用sys.dm_exec_query_stats查询优化
查询sql语句占用 CPU详细信息: SELECT (SELECT TOP 1 SUBSTRING(s2.text,statement_start_offset / 2+1 , ( (CASE WHE ...
Unity使用外部版本控制
Using External Version Control Systems with Unity Unity offers an Asset Server add-on product for ea ...
bzoj 1572: [Usaco2009 Open]工作安排Job【贪心+堆】
先按照时间顺序加,价值塞进小根堆里,碰到不合法情况就从堆里减去 #include<iostream> #include<cstdio> #include<queue> ...

Scrapy框架 之某网站产品采集案例

Scrapy框架 之某网站产品采集案例的更多相关文章

随机推荐

热门专题

Scrapy框架之某网站产品采集案例

Scrapy框架之某网站产品采集案例的更多相关文章