爬取千万淘宝商品的python脚本

import time

import leveldb

from urllib.parse import quote_plus

import re

import json

import itertools

import sys

import requests

from queue import Queue

from threading import Thread

URL_BASE = 'http://s.m.taobao.com/search?q={}&n=200&m=api4h5&style=list&page={}'

def url_get(url):

    # print('GET ' + url)

    header = dict()

    header['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'

    header['Accept-Encoding'] = 'gzip,deflate,sdch'

    header['Accept-Language'] = 'en-US,en;q=0.8'

    header['Connection'] = 'keep-alive'

    header['DNT'] = ''

    #header['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.71 Safari/537.36'

    header['User-Agent'] = 'Mozilla/12.0 (compatible; MSIE 8.0; Windows NT)'

    return requests.get(url, timeout = 5, headers = header).text

def item_thread(cate_queue, db_cate, db_item):

    while True:

        try:

            cate = cate_queue.get()

            post_exist = True

            try:

                state = db_cate.Get(cate.encode('utf-8'))

                if state != b'OK': post_exist = False

            except:

                post_exist = False

            if post_exist == True:

                print('cate-{}: {} already exists ... Ignore'.format(cate, title))

                continue

            db_cate.Put(cate.encode('utf-8'), b'crawling')

            for item_page in itertools.count(1):

                url = URL_BASE.format(quote_plus(cate), item_page)

                for tr in range(5):

                    try:

                        items_obj = json.loads(url_get(url))

                        break

                    except KeyboardInterrupt:

                        quit()

                    except Exception as e:

                        if tr == 4: raise e

                if len(items_obj['listItem']) == 0: break

                for item in items_obj['listItem']:

                    item_obj = dict(

                        _id = int(item['itemNumId']),

                        name = item['name'],

                        price = float(item['price']),

                        query = cate,

                        category = int(item['category']) if item['category'] != '' else 0,

                        nick = item['nick'],

                        area = item['area'])

                    db_item.Put(str(item_obj['_id']).encode('utf-8'),

                                json.dumps(item_obj, ensure_ascii = False).encode('utf-8'))

                print('Get {} items from {}: {}'.format(len(items_obj['listItem']), cate, item_page))

                if 'nav' in items_obj:

                    for na in items_obj['nav']['navCatList']:

                        try:

                            db_cate.Get(na['name'].encode('utf-8'))

                        except:

                            db_cate.Put(na['name'].encode('utf-8'), b'waiting')

            db_cate.Put(cate.encode('utf-8'), b'OK')

            print(cate, 'OK')

        except KeyboardInterrupt:

            break

        except Exception as e:

            print('An {} exception occured'.format(e))

def cate_thread(cate_queue, db_cate):

    while True:

        try:

            for key, value in db_cate.RangeIter():

                if value != b'OK':

                    print('CateThread: put {} into queue'.format(key.decode('utf-8')))

                    cate_queue.put(key.decode('utf-8'))

            time.sleep(10)

        except KeyboardInterrupt:

            break

        except Exception as e:

            print('CateThread: {}'.format(e))

if __name__ == '__main__':

    db_cate = leveldb.LevelDB('./taobao-cate')

    db_item = leveldb.LevelDB('./taobao-item')

    orig_cate = '正装'

    try:

        db_cate.Get(orig_cate.encode('utf-8'))

    except:

        db_cate.Put(orig_cate.encode('utf-8'), b'waiting')

    cate_queue = Queue(maxsize = 1000)

    cate_th = Thread(target = cate_thread, args = (cate_queue, db_cate))

    cate_th.start()

    item_th = [Thread(target = item_thread, args = (cate_queue, db_cate, db_item)) for _ in range(5)]

    for item_t in item_th:

        item_t.start()

    cate_th.join()

转载自： http://outofmemory.cn/code-snippet/36104/python-spider-crawl-taobao-product

爬取千万淘宝商品的python脚本的更多相关文章

php 采集爬取单个淘宝商品描述，商品属性
下载链接:https://download.csdn.net/download/a724008158/10723448 效果图:
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
使用Selenium爬取淘宝商品
import pymongo from selenium import webdriver from selenium.common.exceptions import TimeoutExceptio ...
<day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...

随机推荐

Opencv 实现图像的离散傅里叶变换（DFT）、卷积运算（相关滤波）
我是做Tracking 的,对于速度要求非常高.发现傅里叶变换能够使用. 于是学习之. 核心: 最根本的一点就是将时域内的信号转移到频域里面.这样时域里的卷积能够转换为频域内的乘积! 在分析图像信号的 ...
Ubuntu共享WiFi(AP)给Android方法
更新: 2012-03-03 Android是不支持Ad-hoc模式的WiFi.Windows 7软AP一个还是比较简单的.本文介绍在Ubuntu下实现软AP.(需要你的无线网卡支持AP哈) ...
解决LLDB模式下出现message sent to deallocated instance错误
本文在源文的基础上做整理:http://www.devdiv.com/home.php?mod=space&uid=50901&do=blog&id=50856 Xcode版本 ...
Android 手机上获取物理唯一标识码
唯一标识码这东西在网络应用中非常有用,例如检测是否重复注册之类的. import android.provider.Settings.Secure;private String android_id ...
RAC安装gird,第一个节点执行root.sh报"The ora.asm resource is not ONLINE"错误
RAC版本:11.2.0.4 OS版本:linux 6.4 RAC安装gird,第一个节点执行root.sh运行失败,报"The ora.asm resource is not ONLINE ...
Android Intent Scheme URLs攻击
0x0 引言我们知道,在Android上的Intent-based攻击非常普遍.这样的攻击轻则导致应用程序崩溃.重则可能演变提权漏洞.当然,通过静态特征匹配,Intent-Based的恶意样本还是非 ...
【服务器防护】linux 如何查看防火墙是否开启
service iptables status可以查看到iptables服务的当前状态.但是即使服务运行了,防火墙也不一定起作用,你还得看防火墙规则的设置 iptables -L在此说一下关于启动和关 ...
spring sessionFactory 属性配置详解，applicationContext中各种属性详解
1.Bean的id为sessionFactory,对应的类为AnnotationSessionFactory,即采用注解的形式实现hibernate. 2.hibernateProperties,配置 ...
python标准库介绍——25 errno 模块详解
==errno 模块== ``errno`` 模块定义了许多的符号错误码, 比如 ``ENOENT`` ("没有该目录入口") 以及 ``EPERM`` ("权限被拒绝& ...
express 设置node_env的环境变量
设置process.env.NODE_ENV的环境变量可以用以下2种方式: //在你的app.js文件中设置 process.env.NODE_ENV = 'development'; //在pack ...

爬取千万淘宝商品的python脚本

爬取千万淘宝商品的python脚本的更多相关文章

随机推荐

热门专题