JD 评论晒图爬虫

#coding=utf-8

import requests

import re

import os

__author__ = 'depy'

"""

jd 评论晒图爬虫

@productId 商品id

@startpage 开始页数

@endpage 结束页数

"""

class JDPIC(object):

    def __init__(self,productId,startpage,endpage=20):

        self.headers = {

            'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',

            'Accept':'*/*',

            'Accept-Encoding':'gzip, deflate, sdch, br',

            'Accept-Language':'zh-CN,zh;q=0.8',

            'Cookie':''

        }

        self.url = 'https://club.jd.com/discussion/getProductPageImageCommentList.action'

        self.startpage = startpage

        self.productId = productId

        self.endpage = endpage

    def sendReq(self,page):

        params = {

            'productId':self.productId,

            'isShadowSku':'0',

            'callback':'jQuery219465',

            'page':page,

            'pageSize':20

        }

        r = requests.get(self.url,params=params,headers=self.headers,timeout=10)

        regex = re.findall(r'"imageUrl":"//(.*?)"',r.text)

        return regex

    def downloadImageFile(self,imgUrl):

        local_filename = imgUrl.split('/')[-1]

        print "Download Image File=", local_filename

        imgUrl = 'http://'+imgUrl

        r = requests.get(imgUrl, headers =self.headers,stream=True, timeout=20)

        dirName = 'JDPIC1'

        if not os.path.exists(dirName):

            os.makedirs(dirName)

        with open(dirName+'/'+local_filename, 'wb') as f:

            for chunk in r.iter_content(chunk_size=1024):

                if chunk:

                    f.write(chunk)

                    f.flush()

            f.close()

if __name__ == '__main__':

    J = JDPIC(1111,51,100)  #商品id自行修改

    #print J.endpage

    list = range(int(J.startpage),int(J.endpage)+1)

    for i in list:

        regexlist = J.sendReq(i)

        for picurl in regexlist:

            J.downloadImageFile(picurl)

    print "downpic success"

JD 评论晒图爬虫的更多相关文章

海淘手表Invicta8926OB到手~晒图
3月3号通过国内代购网站Hai360海外购下单: 3月5号美亚发货: 3月6号到达转运仓: 3月12号到达天津清关: 清关等了7天: 3月19号转国内快递,我将原武汉地址,改上海,耽误了3天: 3月2 ...
EasyUI个人项目晒图（续）
晒自己做的一个管理系统(清新风格)EasyUI 这是自己上一次的文章了,只是给大家看一下自己的美观度是不是还是停留在新手的阶段!反正我自己认为我已经不是一个新手了吧!虽然技术永远学不完,我可以说,我和 ...
JFinal-美女图爬虫-一个不正经的爬虫代码
去年我做了一个项目,大量使用爬虫抓取数据,使用JFinal+JSoup组合,抓取数据,数据清洗筛选,最终保存到数据库里,结构化. 今天,我发布一个不正经的爬虫项目,如果你对JSoup做爬虫感兴趣,可以 ...
爬取网易云音乐评论！python 爬虫入门实战（六）selenium 入门！
说到爬虫,第一时间可能就会想到网易云音乐的评论.网易云音乐评论里藏了许多宝藏,那么让我们一起学习如何用 python 挖宝藏吧! 既然是宝藏,肯定是用要用钥匙加密的.打开 Chrome 分析 Head ...
JD轮播图代码
<!DOCTYPE html> <html> <head> <title>jd网站的轮播图效果</title> <me ...
Scrapy框架实战-妹子图爬虫
Scrapy这个成熟的爬虫框架,用起来之后发现并没有想象中的那么难.即便是在一些小型的项目上,用scrapy甚至比用requests.urllib.urllib2更方便,简单,效率也更高.废话不多说, ...
纯HTML和CSS实现JD轮播图
博主使用了纯HTML和CSS实现了JD的轮播图,没有加动态效果,主要是使用了定位的知识. ,如图为两个侧边箭头图片(其实实际中应该使用CSS3的图标字体,这里没有使用). <!DOCTYPE ...
[Python爬虫]煎蛋网OOXX妹子图爬虫（1）——解密图片地址
之前在鱼C论坛的时候,看到很多人都在用Python写爬虫爬煎蛋网的妹子图,当时我也写过,爬了很多的妹子图片.后来煎蛋网把妹子图的网页改进了,对图片的地址进行了加密,所以论坛里面的人经常有人问怎么请求的 ...
python妹子图爬虫5千张高清大图突破防盗链福利5千张福利高清大图
meizitu-spider python通用爬虫-绕过防盗链爬取妹子图这是一只小巧方便,强大的爬虫,由python编写所需的库有 requests BeautifulSoup os lxml 伪 ...

随机推荐

Java面向对象05——创建对象内存分析
微信小程序测试点
一.测试范围 1.权限测试需要检查以下几种情况下微信用户访问的权限 1)未授权微信登录小程序未授权时,一般使用一些业务功能的时候,都会弹出提醒:先授权再操作对应功能.or在提交数据到后台的时候,会 ...
CentOS时间日期类语法
目录一.date时间日期类 1. date显示当前时间 2. date 显示非当前时间 3. date 设置系统时间二.cal 查看日历一.date时间日期类 date [OPTION]... ...
Redis实战-详细配置-优雅的使用Redis注解/RedisTemplate
1. 简介当我们对redis的基本知识有一定的了解后,我们再通过实战的角度学习一下在SpringBoot环境下,如何优雅的使用redis. 我们通过使用SpringBoot内置的Redis注解(文章 ...
[C++]-string类的常用操作
代码 #include<iostream> #include<string> #include<algorithm> using namespace std; in ...
[论文阅读] Residual Attention(Multi-Label Recognition)
Residual Attention 文章: Residual Attention: A Simple but Effective Method for Multi-Label Recognition ...
Install Fabric 1.8.3 Manually on Ubuntu 12.04
When you install Fabric with apt-get install fabric, you get a fabric with version 1.3.x, which is t ...
冰蝎&哥斯拉流量特征分析
1.冰蝎(Behinder) 下载链接:https://github.com/rebeyond/Behinder/releases 截止至我发贴时,冰蝎最新版本是3.0,客户端兼容性有所提升(但仍不是 ...
题解 Game
传送门一有「字典序最大」什么的的就懵了--这题我颓的std 首先可以发现全局最大得分很好统计,我们令它为 \(k\) 然后我们尝试构造方案,但发现无论怎么放都可能会有后效性发现对于一个位置,可以放 ...
docker运行gerrit(代码审查工具)
gerrit是什么? Gerrit,一种免费.开放源代码的代码审查软件,使用网页界面. gerrit背景 Gerrit,一种免费.开放源代码的代码审查软件,使用网页界面.利用网页浏览器,同一个团队的软 ...

JD 评论晒图爬虫

JD 评论晒图爬虫的更多相关文章

随机推荐

热门专题