scrapy+selenium　爬取淘宝商城商品数据存入到mongo中

１．配置信息

# 设置mongo参数

MONGO_URI = 'localhost'

MONGO_DB = 'taobao'

#　设置搜索关键字

KEYWORDS=['小米手机','华为手机']

# 最大爬取页数

MAX_PAGE = 2

# 相应超时设置

SELENIUM_TIMEOUT = 20

ROBOTSTXT_OBEY = False　#忽略

# 中间件

DOWNLOADER_MIDDLEWARES = {

   'taobaoSpider.middlewares.SeleniumMiddleware': 300,

}

＃项目管道

ITEM_PIPELINES = {

   # 'taobaoSpider.pipelines.TaobaospiderPipeline': 300,

    'taobaoSpider.pipelines.MongoPipeline': 400,

}

２．item

import scrapy

class TaobaospiderItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    price = scrapy.Field()

    sales = scrapy.Field()

    shop = scrapy.Field()

    location = scrapy.Field()

    image = scrapy.Field()

3.spider

# -*- coding: utf-8 -*-

import scrapy

class TaobaoSpider(scrapy.Spider):

    name = 'taobao'

    allowed_domains = ['taobao.com']

    base_url = 'https://s.taobao.com/search?q='

    def start_url(self):

        # 通过self.settings.get（）的方式获取setting里面的参数

        for keyword in self.gettings.get('KEYWORDS'):

            for page in range(1,self.gettings.get('MAX_PAGE')+1):

                url = self.base_url.format(self.url)

                yield scrapy.Request(url=self.url,

                                     callback=self.parse,

                                    meta={'page':page}, #　传递页码

                                    dont_filter=True) # 不去重

    def parse(self, response):

        products = response.xpath('//*[@id="mainsrp-itemlist"]/div[@class="m-itemlist"]/div[@class="grid g-claerfix"]/div[1]')

        # products = response.xpath('//div[contains(@class,"item J_MouserOnverReq"/')

        for product in products:

            from taobaoSpider.taobaoSpider.items import TaobaospiderItem

            item = TaobaospiderItem()

            item['title'] = ''.join(product.xpath('//div[contains(@class,"title")]/text()').extract()).strip()

            item['location'] = ''.join(product.xpath('//div[contains(@class,"location")]/text()').extract()).strip()

            item['shop'] = ''.join(product.xpath('//div[contains(@class,"shop")]/text()').extract()).strip()

            item['price'] = ''.join(product.xpath('//div[contains(@class,"price")]/text()').extract()).strip()

            item['deal'] = ''.join(product.xpath('//div[contains(@class,"deal-cnt")]/text()').extract()).strip()

            item['iamge'] = ''.join(product.xpath('//div[@class="pic"]/img[contains(@class,"img")/@data-src').extract()).strip()

            yield item

４．中间件

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from scrapy.http import HtmlResponse

from logging import getLogger

class SeleniumMiddleware(object):

    # def __init__(self, timeout=None, service_args=[]):

    def __init__(self, timeout=None):

        self.logger = getLogger(__name__)

        self.timeout = timeout

        # self.browser = webdriver.PhantomJS(service_args=service_args)

        # 无界面模式

        # self.options = webdriver.ChromeOptions()

        # self.options.add_argument('--headless')

        # self.browser = webdriver.Chrome(chrome_options=self.options)

        self.browser = webdriver.Chrome()

        # self.browser.set_window_size(1400, 700)

        self.browser.set_page_load_timeout(self.timeout)

        self.wait = WebDriverWait(self.browser, self.timeout)

        print('timeout:', self.timeout)

    def __del__(self):

        self.browser.close()

    def process_request(self, request, spider):

        '''

        :param request:

        :param spider:

        :return:

        '''

        self.logger.debug('Selenium is Runing')

        # 得到的是个int型的整数

        page = request.meta.get('page', 1)

        try:

            self.browser.get(request.url)

            print(10*'-', request.url,10*'-')

            if page > 1:

                # 从第二页开始,等待页面加载完成

                # Presence_of_all_elements_located 判断一组元素是否存在

                input = self.wait.until(

                    EC.presence_of_element_located((By.CSS_SELECTOR, '##mainsrp-pager > div > div > div > div.form > input')))

                # Element_to_be_clickable 判断元素是否可点击

                submit = self.wait.until(

                    EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))

                input.clear()

                # 输入第几页

                input.send_keys(page)

                submit.click()

            # Text_to_be_present_in_element 判断元素是否有xx文本信息

            self.wait.until(EC.text_to_be_present_in_element((

                By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page)))

            # Presence_of_all_elements_located 判断一组元素是否存在

            # 检测每一个item是否加载出来了

            self.wait.until(EC.presence_of_element_located((

                By.CSS_SELECTOR, '#mainsrp-itemlist .m-itemlist .grid.g-clearfix .item')))

            return HtmlResponse(url=request.url, body=self.browser.page_source, request=request, encoding='utf-8', status=200)

        except TimeoutException:

            return HtmlResponse(url=request.url, status=500, request=request)

    # 类方法 感觉就是获取setting里面的数据 在这里调用

    # 得到数据之后变成类变量

    @classmethod

    def from_crawler(cls, crawler):

        return cls(timeout=crawler.settings.get('SELENIUM_TIMEOUT'),)

                   # service_args=crawler.settings.get('PHANTOMJS_SERVICE_ARGS'))

５．管道（存储到mongo中）

class Pipeline(object):

    def process_item(self, item, spider):

        return item

import pymongo

#　存储到mongo中

class MongoPipeline(object):

    # 配置mongo数据库

    def __init__(self,mongo_url,mongo_db):

        self.mongo_url = mongo_url

        self.mongo_db = mongo_db

    # 从setting中获取参数

    @classmethod

    def from_crawler(cls,crawler):

        mongo_url = crawler.settings.get('MONGO_URL')

        mongo_db = crawler.settings.get('MONGO_DB')

    # 连接数据库

    def open_spider(self,spider):

        self.client = pymongo.MongoClient(self.mongo_url)

        self.db = self.client[self.mongo_db]

    # 关闭数据库连接

    def close_spider(self,spider):

        self.client.close()

    # 设置存储格式

    def process_item(self,item,spider):

        # item.__class__.__name__  输出的item的类名

        name = item.__class__.__name__

        print('---------------name', name, '-------------------')

        self.db[name].insert(dict(item))

        return item

scrapy+selenium　爬取淘宝商城商品数据存入到mongo中的更多相关文章

使用scrapy+selenium爬取淘宝网
--***2019-3-27测试有效***---- 第一步: 打开cmd,输入scrapy startproject taobao_s新建一个项目. 接着cd 进入我们的项目文件夹内输入scrapy ...
爬取淘宝商品数据并保存在excel中
1.re实现 import requests from requests.exceptions import RequestException import re,json import xlwt,x ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Scrapy+selenium爬取简书全站
Scrapy+selenium爬取简书全站环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容文字标题作者作者头像发布日期内容文章连接文章ID 思路分 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
使用Selenium爬取淘宝商品
import pymongo from selenium import webdriver from selenium.common.exceptions import TimeoutExceptio ...
爬虫实战4：用selenium爬取淘宝美食
方案1:一次性爬取全部淘宝美食信息 1. spider.py文件如下 __author__ = 'Administrator' from selenium import webdriver from ...
使用selenium抓取淘宝的商品信息
淘宝的页面大量使用了js加载数据,所以采用selenium来进行爬取更为简单,selenum作为一个测试工具,主要配合无窗口浏览器phantomjs来使用. import re from seleni ...
吴裕雄--天生自然PYTHON爬虫：使用Selenium爬取大型电商网站数据
用python爬取动态网页时,普通的requests,urllib2无法实现.例如有些网站点击下一页时,会加载新的内容,但是网页的URL却没有改变(没有传入页码相关的参数),requests.urll ...

随机推荐

fiddler笔记：filters选项卡
Host Show only Intranet Host 只显示内网(如不带"."的主机名)的数据流. Show only Internet Host 只显示互联网(如不带&quo ...
Pycharm超级好用的快捷键——效率之王
Pycharm超级好用的快捷键--效率之王 IT界老黑 IT界老黑带你领略Python的魅力关注他 270 人赞同了该文章最重要的快捷键 ctrl+shift+A:万能命令行 shift两次: ...
Java并发与多线程教程(3)
Java中的锁锁像synchronized同步块一样,是一种线程同步机制,但比Java中的synchronized同步块更复杂.因为锁(以及其它更高级的线程同步机制)是由synchronized同步 ...
python+django学习二
所有模型类型的准备和迁移在setting.py中添加:AUTH_USER_MODEL = 'users.UserProfile' 继承用户模板确保子项目的url现在都是空的, 在pycharm的f ...
使用python+selenium获得b站今日播放的动漫
from selenium import webdriver browser=webdriver.Chrome() browser.get('https://www.bilibili.com/anim ...
jQuery获取的dom对象和原生的dom对象有何区别
js原生获取的dom是一个对象,jQuery对象就是一个数组对象,其实就是选择出来的元素的数组集合,所以说他们两者是不同的对象类型不等价原生DOM对象转jQuery对象 var box = docu ...
Node.js学习（2）-使用模板引擎art-template
node 安装cnpm i -S art-template 加载require('art-template') template.render接收的是字符串
前端通过url下载文件方法
前端通过url下载文件方法产生背景浏览器通过url下载文件,当浏览器识别出资深能播放的资源文件,就不会走下载流程,会直接打开解决方法 1.让后台转成请求的方式,输出文件流(如果想实现批量下载-因 ...
# 机器学习算法总结-第四天(SKlearn/数据处理and特征工程)
总结: 量纲化(归一化,标准化) 缺失值处理(补0.均值.中值.众数.自定义) 编码/哑变量:忽略数字中自带数学性质(文字->数值类型) 连续特征离散化(二值化/分箱处理)
nhandled rejection Error: EPERM: operation not permitted, open 'C:\Program Files\nodejs\node_cache npm ERR! cb() never called!
安装全局包时报错,之前已经遇到过,结果第二次又忘记解决方法,果然还是要记下来,好记性不如烂笔头哇 $ npm i electron -gUnhandled rejection Error: EPERM ...

scrapy+selenium 爬取淘宝商城商品数据存入到mongo中

scrapy+selenium 爬取淘宝商城商品数据存入到mongo中的更多相关文章

随机推荐

热门专题

scrapy+selenium　爬取淘宝商城商品数据存入到mongo中

scrapy+selenium　爬取淘宝商城商品数据存入到mongo中的更多相关文章