scrapy框架爬取多级页面

spides.py

# -*- coding: utf-8 -*-

import scrapy

from weather.items import  WeatherItem

from scrapy.crawler import CrawlerProcess

import re

'''

多级分类爬取

'''

class IgxSpider(scrapy.Spider):

    name = 'igx_result'

    allowed_domains = ['www.igxpt.com']

   # start_urls = ['http://www.igxpt.com/cate/192/']

    def start_requests(self):

        start_urls = ['http://www.igxpt.com/cate/{}/'.format(str(i)) for i in range(192, 194)]   #这里我是简写的，当然也可以进入主页面，爬取这些url 那就要多一级分类了

        for url in start_urls:

            yield scrapy.Request(url=url)

    def parse(self, response):

        '''得到分页页码-----start'''

        page = response.xpath('//div[@class="dataTables_paginate paging_simple_numbers"]/span/text()').extract_first()

        ret = re.search('共(\d+)页', page)

        number = ret.group(1)

        #print(page,number)

        page_link = response.xpath('//ul[@class="pagination"]/li/a/@href').extract_first()

        current_url = 'http://www.igxpt.com'+page_link.split('=')[0]+'='

        '''得到分页页码-----end'''

        clearfix = response.xpath('//ul[@class="shop-list-recommend mt20  clearfix"]/li')

        for li in clearfix:

            item = WeatherItem()

            item['name'] = li.xpath('./a/p[1]/text()').extract_first()

            url_img = li.xpath('./a/div/img/@src').extract_first()

            item['url'] = "http://www.igxpt.com" + (url_img)

            price_alia = li.xpath('./a/p[2]/span[@class="blue"]/text()').extract_first()

            item['price'] = price_alia + "元"

            yield item

        # 拼接url 递归调用分页

        urls = [current_url + '{}'.format(str(i)) for i in range(1, int(number) + 1)]

        for se in urls:

            yield scrapy.Request(url=se, callback=self.parse)

　　items.py

import scrapy

class WeatherItem(scrapy.Item):

    # define the fields for your item here like:

    name = scrapy.Field()

    url  = scrapy.Field()

    price= scrapy.Field()

　　pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

import urllib.request

class WeatherPipeline(object):

    def process_item(self, item, spider):

        name = item['name']

        url  = item['url']

        price= item['price']

        connection = pymysql.connect(

            host='127.0.0.1',

            user='root',

            passwd='root',

            db='scrapy',

            # charset='utf-8',

            cursorclass=pymysql.cursors.DictCursor

        )

        try:

            # '''下载图片'''

            # imgname = url.split('/')[-1]

            # path = r"D:\Python\weather\weather\images\%s" % (imgname)

            # urllib.request.urlretrieve(url, filename=path)

            '''插入数据库'''

            with connection.cursor() as cursor:

                sql = """INSERT INTO `goods_info_detail` (name, url, price) VALUES (%s, %s, %s) """

                cursor.execute(

                    sql,(name,url,price)

                )

                connection.commit()

        except ValueError as e:

            print(e)

        finally:

            connection.close()

        return item

　　settings.py

LOG_LEVEL = 'WARNING'
BOT_NAME = 'weather'

SPIDER_MODULES = ['weather.spiders']
NEWSPIDER_MODULE = 'weather.spiders'

'''
管道
'''
ITEM_PIPELINES = {
   'weather.pipelines.WeatherPipeline': 300,
}

scrapy框架爬取多级页面的更多相关文章

使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
scrapy框架爬取豆瓣读书（1）
1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...
scrapy(四): 爬取二级页面的内容
scrapy爬取二级页面的内容 1.定义数据结构item.py文件 # -*- coding: utf-8 -*- ''' field: item.py ''' # Define here the m ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
scrapy框架爬取糗妹妹网站妹子图分类的所有图片
爬取所有图片,一个页面的图片建一个文件夹.难点,图片中有不少.gif图片,需要重写下载规则, 创建scrapy项目 scrapy startproject qiumeimei 创建爬虫应用 cd qi ...
使用scrapy框架爬取自己的博文（3）
既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_ ...

随机推荐

如何把您现有的流程系统数据迁徙到驰骋BPM上？
关键词:流程系统版本切换\ 驰骋BPM. 如何把您现有的流程系统数据迁徙到驰骋BPM上?这是一个大问题.在处理改问题之前,首先要了解驰骋bpm的数据库结构,驰骋bpm的特性在做计划. 驰骋BPM的流程 ...
WeChall_Prime Factory (Training, Math)
Your task is simple:Find the first two primes above 1 million, whose separate digit sums are also pr ...
JS中map与forEach的区别
很多同学可能对于map与forEach的区别不是太了解,今天我们介绍一下JS中的map与forEach方法, 我对map的理解是,这个方法对一个数组arr1中的每一个元素进行遍历(传递给一个数组,参数 ...
mongo 集群（副本）搭建过程记录
最近搭建mongo集群,回忆总结,作以记录.整个过程主要参考以下两篇文章,但是过程并不顺利,有些问题需要记录.https://www.cnblogs.com/dba-devops/p/7130710. ...
c++ 中数组的引用
在C++里,数组也是可以引用的. 代码如下: char str1[] = "abcde"; ] = str1; 解读第二句代码,括号的优先级最高,'str2'首先与'&'相 ...
安装symfony3.4的坑，也是PHP7.3的经典坑之解决办法
对于刚入手symfony3.4的同学,肯定会发现,安装symfony后部署后看到的往往不是hello world,也不是symfony的欢迎页面,而是给你一个下马威,唉,给你来个bug开开胃. 当然这 ...
linux中的特殊符号及其含义梳理
1. 重定向符号及含义注意:箭头流向即是数据的流向. 数字0:标准输入(standard input,简写stdin),数据从右往左方向流动数字1:标准正确输出(standard output,简 ...
Ubuntu14.04安装tomcat-9.0.1的教程
系统环境:Ubuntu14.04 Tomcat安装版本:Apache tomcat 9.0.1 下载地址:http://tomcat.apache.org/download-90.cgi 安装包:ap ...
查看Linux系统内存、CPU、磁盘使用率和详细信息
一.查看内存占用 1.free # free -m 以MB为单位显示内存使用情况 [root@localhost ~]# free -m total used free shared buff/cac ...
《Java 8 in Action》Chapter 12：新的日期和时间API
在Java 1.0中,对日期和时间的支持只能依赖java.util.Date类.同时这个类还有两个很大的缺点:年份的起始选择是1900年,月份的起始从0开始. 在Java 1.1中,Date类中的很多 ...

scrapy框架爬取多级页面

scrapy框架爬取多级页面的更多相关文章

随机推荐

热门专题