爬取千万淘宝商品的python脚本

import time

import leveldb

from urllib.parse import quote_plus

import re

import json

import itertools

import sys

import requests

from queue import Queue

from threading import Thread

URL_BASE = 'http://s.m.taobao.com/search?q={}&n=200&m=api4h5&style=list&page={}'

def url_get(url):

    # print('GET ' + url)

    header = dict()

    header['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'

    header['Accept-Encoding'] = 'gzip,deflate,sdch'

    header['Accept-Language'] = 'en-US,en;q=0.8'

    header['Connection'] = 'keep-alive'

    header['DNT'] = ''

    #header['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.71 Safari/537.36'

    header['User-Agent'] = 'Mozilla/12.0 (compatible; MSIE 8.0; Windows NT)'

    return requests.get(url, timeout = 5, headers = header).text

def item_thread(cate_queue, db_cate, db_item):

    while True:

        try:

            cate = cate_queue.get()

            post_exist = True

            try:

                state = db_cate.Get(cate.encode('utf-8'))

                if state != b'OK': post_exist = False

            except:

                post_exist = False

            if post_exist == True:

                print('cate-{}: {} already exists ... Ignore'.format(cate, title))

                continue

            db_cate.Put(cate.encode('utf-8'), b'crawling')

            for item_page in itertools.count(1):

                url = URL_BASE.format(quote_plus(cate), item_page)

                for tr in range(5):

                    try:

                        items_obj = json.loads(url_get(url))

                        break

                    except KeyboardInterrupt:

                        quit()

                    except Exception as e:

                        if tr == 4: raise e

                if len(items_obj['listItem']) == 0: break

                for item in items_obj['listItem']:

                    item_obj = dict(

                        _id = int(item['itemNumId']),

                        name = item['name'],

                        price = float(item['price']),

                        query = cate,

                        category = int(item['category']) if item['category'] != '' else 0,

                        nick = item['nick'],

                        area = item['area'])

                    db_item.Put(str(item_obj['_id']).encode('utf-8'),

                                json.dumps(item_obj, ensure_ascii = False).encode('utf-8'))

                print('Get {} items from {}: {}'.format(len(items_obj['listItem']), cate, item_page))

                if 'nav' in items_obj:

                    for na in items_obj['nav']['navCatList']:

                        try:

                            db_cate.Get(na['name'].encode('utf-8'))

                        except:

                            db_cate.Put(na['name'].encode('utf-8'), b'waiting')

            db_cate.Put(cate.encode('utf-8'), b'OK')

            print(cate, 'OK')

        except KeyboardInterrupt:

            break

        except Exception as e:

            print('An {} exception occured'.format(e))

def cate_thread(cate_queue, db_cate):

    while True:

        try:

            for key, value in db_cate.RangeIter():

                if value != b'OK':

                    print('CateThread: put {} into queue'.format(key.decode('utf-8')))

                    cate_queue.put(key.decode('utf-8'))

            time.sleep(10)

        except KeyboardInterrupt:

            break

        except Exception as e:

            print('CateThread: {}'.format(e))

if __name__ == '__main__':

    db_cate = leveldb.LevelDB('./taobao-cate')

    db_item = leveldb.LevelDB('./taobao-item')

    orig_cate = '正装'

    try:

        db_cate.Get(orig_cate.encode('utf-8'))

    except:

        db_cate.Put(orig_cate.encode('utf-8'), b'waiting')

    cate_queue = Queue(maxsize = 1000)

    cate_th = Thread(target = cate_thread, args = (cate_queue, db_cate))

    cate_th.start()

    item_th = [Thread(target = item_thread, args = (cate_queue, db_cate, db_item)) for _ in range(5)]

    for item_t in item_th:

        item_t.start()

    cate_th.join()

转载自： http://outofmemory.cn/code-snippet/36104/python-spider-crawl-taobao-product

爬取千万淘宝商品的python脚本的更多相关文章

php 采集爬取单个淘宝商品描述，商品属性
下载链接:https://download.csdn.net/download/a724008158/10723448 效果图:
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
使用Selenium爬取淘宝商品
import pymongo from selenium import webdriver from selenium.common.exceptions import TimeoutExceptio ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...

随机推荐

python实现的电影票房数据可视化
代码地址如下:http://www.demodashi.com/demo/14275.html 详细说明: Tushare是一个免费.开源的python财经数据接口包.主要实现对股票等金融数据从数据采 ...
利用cURL会话获取一个网页
1.curl_init 作用: 初始化一个新的会话.返回一个cURL句柄,供curl_setopt(), curl_exec()和curl_close() 函数使用. 格式: curl_ ...
深入PHP内核之opcode handler
1.opcode结构在Zend/zend_compile.h文件下 struct _zend_op { opcode_handler_t handler; znode_op op1; znode_o ...
iOS 直播推流 - 搭建基于RTMP的本地Nginx服务器
前端时间,公司要调研直播相关的内容,特地花时间进行了一番调研. 本篇将记录其中的推流篇-本地推理播放测试. 关于Nginx: 配置Nginx以支持HLS.RTMP的推流与拉流,iOS系统使用LFLiv ...
【LeetCode】136. Single Number (4 solutions)
Single Number Given an array of integers, every element appears twice except for one. Find that sing ...
Atom 检测php错误扩展linter-php
房产地图google map的初步应用点滴.2)(转)
房产地图google map的初步应用点滴.1)房产地图google map的初步应用点滴.2)房产地图google map的初步应用点滴.3) 房产地图google map的初步应用点滴.4) 本来 ...
Hadoop Map/Reduce教程
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子:WordCount v1.0 ...
shell学习四十八天----文件校验和匹配
文件校验和匹配要是你怀疑可能有非常多文件具有同样的内文,而是用cmp或diff进行比較全部横队的比較,导致所花费的时间会随着文件数目增长成次方的增长. 这是能够使用file checksum(文件校 ...
如何用 LaTeX 撰写博士学位论文?
如何用 LaTeX 撰写博士学位论文? 序一直觉得有必要写这样一篇文章,因为学位论文从格式上说更像一本书,与文章的排版不同,不仅多出目录等文章没有的部分,而且一般要设置页眉页脚方便阅读查找.学校 ...

爬取千万淘宝商品的python脚本

爬取千万淘宝商品的python脚本的更多相关文章

随机推荐

热门专题