python 简单实现淘宝关键字商品爬取

本文有2个文件

1：taobao_re_xpath

2：taobao_re_xpath_setting

1：taobao_re_xpath

# -*- coding:utf-8 -*-

# author : yesehngbao

# time:2018/3/20

import os

import requests

import re

import json

import pymongo

import hashlib

from taobao_re_xpath_setting import *

from multiprocessing import Pool

from lxml import etree

dirname = DIRNAME

if not os.path.exists(dirname):

    os.mkdir(dirname)

dirname1 = DIRNAME1

if not os.path.exists(dirname+'/'+dirname1):

    os.mkdir(dirname+'/'+dirname1)

dirname2 = DIRNAME2

if not os.path.exists(dirname+'/'+dirname2):

    os.mkdir(dirname+'/'+dirname2)

dirname3 = DIRNAME3

if not os.path.exists(dirname+'/'+dirname3):

    os.mkdir(dirname+'/'+dirname3)

url = 'https://s.taobao.com/search'

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)"

                  " Chrome/64.0.3282.186 Safari/537.36"}

def md5(strs):

    strs = strs + '12sdwz..'

    strs = hashlib.md5(strs.encode('utf-8'))

    key = strs.hexdigest()

    return key

def get_html(page):

    """

        获取（'首页'）

        :param page: 获取的页数, q: 想获取的宝贝

        :return:

    """

    parmas = {

        'q': '%s' % GOODS,

        's': page,

    }

    respons = requests.get(url, headers=headers, params=parmas)

    if respons.status_code == 200:

        return respons.text

    else:

        return None

def get_ajax_html():

    """

        解析可能出现的ajax网页

    """

    ajax_url = 'https://s.taobao.com/api'

    parmas = {

        '_ksTS': 1521612082036_312,

        'callback': 'jsonp267',

        'ajax': 'true',

        'm': 'customized',

        'q': '%s' % GOODS,

        's': 36,

        'bcoffset': 0,

        'rn': '4e1dc906143376f8d2e735536fd3ee0c'

    }

    respons = requests.get(ajax_url, headers=headers, params=parmas).text

    comp = re.compile('jsonp\d+\((.*?)\)', re.S)

    strs = re.findall(comp, respons)

    if strs:

        strs = json.loads(strs[0])

        commdity_list = strs.get('API.CustomizedApi').get('itemlist').get('auctions')

        if commdity_list:

            for commdity in commdity_list:

                addr = commdity.get('item_loc')

                nick = commdity.get('nick')

                sales = commdity.get('view_sales')

                detail = 'http:' + commdity.get('detail_url')

                yield {

                    'addr': addr,

                    'nick': nick,

                    'sales': sales,

                    'detail': detail,

                }

def analysis(html):

    """

        解析列表页的数据

            html：列表页源码

            content : js中的数据和ajax数据 的列表

    """

    content = []

    comp = re.compile('g_page_config = (.*?)g_srp_loadCss', re.S)

    if comp:

        strs = re.findall(comp, html)[0]

        strs = strs.replace(';', '')

        strs = json.loads(strs)

        data = strs.get('mods').get('itemlist').get('data').get('auctions')

        if data:

            for i in data:

                detail = i.get('detail_url')

                if re.match('http', detail):

                    pass

                else:

                    detail = 'http:'+detail

                addr = i.get('item_loc')

                nick = i.get('nick')

                sales = i.get('view_sales')

                item = {

                    'addr': addr,

                    'nick': nick,

                    'sales': sales,

                    'detail': detail,

                }

                content.append(item)

            if len(data) < 44:

                cont = get_ajax_html()

                for i in cont:

                    content.append(i)

                return content

            else:

                print(len(data))

                return content

        else:

            return None

    else:

        return None

def save_img(img_new, page):

    """

         主图的下载

             img_new : 主图地址

    """

    if img_new:

        img_name = img_new[30:].replace('/', '-')

        respons = requests.get(img_new, headers=headers).content

        with open(dirname+'/'+dirname1+'/'+md5(img_name)+'.jpg', 'wb')as fp:

            fp.write(respons)

        return print('第%s页————' % page + '主图片保存完成： ', img_name)

def save_color_img(color_url, page):

    """

        颜色图的下载

            color_url : 颜色图地址

    """

    if color_url:

        img_name = color_url[30:].replace('/', '-')

        respons = requests.get(color_url, headers=headers).content

        with open(dirname + '/' + dirname2 + '/' + md5(img_name)+'.jpg', 'wb')as fp:

            fp.write(respons)

        return print('第%s页————' % page + 'color图片保存完成： ', img_name)

def save_video(detail_url, title, page):

    """

         视频的下载

             url : 视频地址

             title ： 视频名字

    """

    if detail_url:

        respons = requests.get(detail_url, headers=headers).content

        with open(dirname+'/'+dirname3+'/' + md5(title)+'.mp4', 'wb') as fp:

            fp.write(respons)

        print('第%s页————' % page + '视频下载完成   :('+title+')')

        return 'download_ok'

def alaysis_detail(respons, page):

    """

        获取详情页的图片， 颜色（类别）图， 视频

            respons : 详情页源码

            doc ： xpath解析对象

            img_new : 图片地址

            color_url ： 颜色图地址

            video_new ： 视频地址

    """

    # 主图

    if page == 0:

        page = 1

    else:

        page = page // 44 + 1

    doc = etree.HTML(respons)

    li_list = doc.xpath('.//ul[@class="tb-clearfix" or @id="J_UlThumb"]/li')

    for li in li_list:

        img_old = li.xpath('./a/img/@src')

        if img_old:

            img_old = img_old[0]

            img_new = img_old[-15:].replace('', '')

            img_new = 'http:'+img_old[:-15]+img_new

            save_img(img_new, page)

        else:

            pass

    # 颜色（类别）图

    compi = re.compile('style="background:url\((.*?)\)')

    color_img = re.findall(compi, respons)

    for color in color_img:

        if color:

            color_url = color[-15:].replace('', '').replace('', '')

            color_url = 'http:'+color[:-15]+color_url

            save_color_img(color_url, page)

    # 获取视频

    comp = re.compile('TShop.Setup\(\s(.*?)\s\)', re.S)

    strs = re.findall(comp, respons)

    if strs:

        strs = json.loads(strs[0])

        video_lod = strs.get('itemDO').get('imgVedioUrl')

        if video_lod:

            video_new = video_lod.replace('e/1', 'e/6').replace('t/8', 't/1')

            title = strs.get('itemDO').get('title')

            save_video('http:'+video_new, title, page)

        else:

            return '无视频'

    else:

        return '无视频（或有加密）'

    return '下载完成'

def get_detail(content, page):

    """

        获取详情页信息

            content： 列表页数据

            detail_url : 详情页入口

    """

    if content:

        for cont in content:

            detail_url = cont.get('detail')

            respons = requests.get(detail_url, headers=headers)

            if respons.status_code == 200:

                alaysis_detail(respons.text, page)

            else:

                print(respons.status_code)

        return '详情页爬取完成'

def save_mongo(content):

    """

        实现保存列表页的数据

            content： 列表页数据

    """

    mongo_client = pymongo.MongoClient(host=MONGO_HOST, port=MONGO_PORT)

    db = mongo_client[MONGO_DB]

    coll = db[MONGO_COLL]

    coll.insert(content)

    print('数据保存成功：  ', content, len(content))

    return None

def main(page):

    """

        此程序为了爬取淘宝宝贝而生，可以获得宝贝图片，店面，地址，信息，视频等。。

            page ：获取列表页的数量

            html ：获取列表页的源码

            content ： 列表页宝贝的详细信息和地址

    """

    html = get_html(page)

    content = analysis(html)

    save_mongo(content)

    get_detail(content, page)

if __name__ == '__main__':

    pool = Pool()

    pool.map(main, [page*44 for page in range(NUM)])

    print('程序结束')

2：taobao_re_xpath_setting

# -*- coding:utf-8 -*-

# author : yesehngbao

# time:2018/3/21

# 需要爬取得宝贝

GOODS = '皮鞋'

# 需要爬取的页数（不大于100）

NUM = 100

# 配置mongodb

MONGO_HOST = 'localhost'

MONGO_PORT = 27017

MONGO_DB = 'test'

MONGO_COLL = 'shoe'

# 目录包

DIRNAME = 'taobao'

# 主图片包

DIRNAME1 = 'shoe_park_img'

# 颜色（类别）图片包

DIRNAME2 = 'shoe_color_img'

# 视频包

DIRNAME3 = 'shoe_video'

python 简单实现淘宝关键字商品爬取的更多相关文章

selenium实现淘宝的商品爬取
一.问题本次利用selenium自动化测试,完成对淘宝的爬取,这样可以避免一些反爬的措施,也是一种爬虫常用的手段.本次实战的难点: 1.如何利用selenium绕过淘宝的登录界面 2.获取淘宝的页面 ...
简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
python就业班-淘宝-目录.txt
卷 TOSHIBA EXT 的文件夹 PATH 列表卷序列号为 AE86-8E8DF:.│ python就业班-淘宝-目录.txt│ ├─01 网络编程│ ├─01-基本概念│ │ 01-网络通信概述 ...
手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染
版权声明:本文为博主原创文章,未经博主允许不得转载. 系列教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课 ...
python基础班-淘宝-目录.txt
卷 TOSHIBA EXT 的文件夹 PATH 列表卷序列号为 AE86-8E8DF:.│ python基础班-淘宝-目录.txt│ ├─1-1 Linux基础│ ├─01-课程简介│ │ 01-课程 ...
iOS 集成阿里百川最新版（3.1.1.96）实现淘宝授权登录以及调用淘宝客户端商品详情页
公司最近要做第三方登录,由于是做导购项目,必不可少的有淘宝的授权登录.本来就是一个授权登录,没什么大不了的.但淘宝的无线开放业务——阿里百川更新的最新版本3.1.1.96,开发文档不是不详细,是很 ...
selenium+PhantomJS 抓取淘宝搜索商品
最近项目有些需求,抓取淘宝的搜索商品,抓取的品类还多.直接用selenium+PhantomJS 抓取淘宝搜索商品,快速完成. #-*- coding:utf-8 -*-__author__ =''i ...
Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享
Python模拟登陆淘宝并统计淘宝消费情况的代码实例分享支付宝十年账单上的数字有点吓人,但它统计的项目太多,只是想看看到底单纯在淘宝上支出了多少,于是写了段脚本,统计任意时间段淘宝订单的消费情况,看 ...
python爬虫-京东商品爬取
京东商品爬取仅供学习一.使用selenium from selenium import webdriver from selenium.webdriver.common.keys import K ...

随机推荐

让Myeclipse自动生成的get set方法自动加上文本注释，并且注释内容包含字段中我们加的文档注释
在进行编码写实体类的时候发现,一个实体类有好多的字段要进行注释,他们都是私有的不能直接访问,我们在写的时候加入的文档注释也起不到效果,但是自动生成的get,set方法的文档注释有不符合我们要求(没有包 ...
JAVA基础之字符串和面向对象
* [String 类] * 1. String类位于java.lang包中,java.lang是java的语言包,使用时无须导包,自动导入. * * 2.拿到一个字符串对象: * ①字面量声明:St ...
Python中的SQLAlchemy
在Python中,使用SQLAlchemy可以对数据库进行操作. SQLAlchemy是Python中的一个标准库. 要使用SQLAlchemy,首先要创建连接: url = mysql+pymysq ...
四则运算题目生成(python版)
四则运算题目生成-基于控制台项目托管在码云:飞机票需求分析根据控制台提示信息,输入题目生成相关配置参数题目生成数量数字范围式子中是否有分数 .... 程序支持 10000 题目生成题目与 ...
杭电OJ2004——成绩转换
/*成绩转换Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submi ...
C语言程序设计（基础）- 第7周作业（新）
要求一(25经验值) 完成PTA中题目集名为<usth-C语言基础-第七周作业>和<usth-C语言基础-12周PTA作业>中的所有题目. 注意1:<usth-C语言基础 ...
听翁恺老师mooc笔记（16）--程序设计与C语言
问题1:计算机遍布生活的各个方面,若你需要一个功能可以下载APP,我们需要的大部分功能都可以找到对应的APP,如果没有可以自己写一个软件,但是很少人需要这么做,那么我们为什么学习计算机编程语言? 学习 ...
20162311 实验三敏捷开发与XP实践实验报告
20162311 实验三敏捷开发与XP实践实验报告实验内容一.研究学习IDEA中的Code菜单使用Code ->Reformate Code功能将以下代码格式化 public clas ...
python中使用flask时遇到的markupsafe._compat包缺失的问题与解决
环境:windows7 + python3.6.0 在尝试使用python的flask时,按照flask的tutorial操作,装好flask.venv后,对tutorial中的hello.py进行运 ...
结合Socket实现DDoS攻击
一.实验说明 1. 实验介绍通过上一节实验的SYN泛洪攻击结合Socket实现DDoS攻击. 2. 开发环境 Ubuntu Linux Python 3.x版本 3. 知识点本次实验将涉及以下知识 ...

python 简单实现淘宝关键字商品爬取

python 简单实现淘宝关键字商品爬取的更多相关文章

随机推荐

热门专题