使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）

以下是爬取京东商品详情的Python3代码，以excel存放链接的方式批量爬取。excel如下

代码如下

from selenium import webdriver

from lxml import etree

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

import datetime

import calendar

import logging

from logging import handlers

import requests

import os

import time

import pymssql

import openpyxl

import xlrd

import codecs

class EgongYePing:

     options = webdriver.FirefoxOptions()

     fp = webdriver.FirefoxProfile()

     fp.set_preference("browser.download.folderList",2)

     fp.set_preference("browser.download.manager.showWhenStarting",False)

     fp.set_preference("browser.helperApps.neverAsk.saveToDisk","application/zip,application/octet-stream")

     global driver

     driver= webdriver.Firefox(firefox_profile=fp,options=options)

     def Init(self,url,code):

                       print(url.strip())

                       driver.get(url.strip())

                       #driver.refresh()

                       # 操作浏览器属于异步，在网络出现问题的时候。可能代码先执行。但是请求页面没有应答。所以硬等

                       time.sleep(int(3))

                       html = etree.HTML(driver.page_source)

                       if driver.title!=None:

                         listImg=html.xpath('//*[contains(@class,"spec-list")]//ul//li//img')

                         if len(listImg)==0:

                              pass

                         if len(listImg)>0:

                                            imgSrc=''

                                            for item in range(len(listImg)):

                                                 imgSrc='https://img14.360buyimg.com/n0/'+listImg[item].attrib["data-url"]

                                                 print('头图下载:'+imgSrc)

                                                 try:

                                                  Headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}

                                                  r = requests.get(imgSrc, headers=Headers, stream=True)

                                                  if r.status_code == 200:

                                                     imgUrl=''

                                                     if item==0:

                                                          imgUrl+=code + "_主图_" + str(item)  + '.' + imgSrc.split('//')[1].split('/')[len(imgSrc.split('//')[1].split('/'))-1].split('.')[1]

                                                     else:

                                                          imgUrl+=code + "_附图_" + str(item)  + '.' + imgSrc.split('//')[1].split('/')[len(imgSrc.split('//')[1].split('/'))-1].split('.')[1]

                                                     open(os.getcwd()+'/img/'+  imgUrl , 'wb').write(r.content) # 将内容写入图片

                                                  del r

                                                 except Exception as e:

                                                    print("图片禁止访问:"+imgSrc)

                         listImg=html.xpath('//*[contains(@class,"ssd-module")]')

                         if len(listImg)==0:

                              listImg=html.xpath('//*[contains(@id,"J-detail-content")]//div//div//p//img')

                         if len(listImg)==0:

                              listImg=html.xpath('//*[contains(@id,"J-detail-content")]//img')

                         if len(listImg)>0:

                               for index in range(len(listImg)):

                                    detailsHTML=listImg[index].attrib

                                    if 'data-id' in detailsHTML:

                                          try:

                                           details= driver.find_element_by_class_name("animate-"+listImg[index].attrib['data-id']).value_of_css_property('background-image')

                                           details=details.replace('url(' , ' ')

                                           details=details.replace(')' , ' ')

                                           newDetails=details.replace('"', ' ')

                                           details=newDetails.strip()

                                           print("详情图下载："+details)

                                           try:

                                                  Headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}

                                                  r = requests.get(details, headers=Headers, stream=True)

                                                  if r.status_code == 200:

                                                     imgUrl=''

                                                     imgUrl+=code + "_详情图_" + str(index)  + '.' + details.split('//')[1].split('/')[len(details.split('//')[1].split('/'))-1].split('.')[1]

                                                     open(os.getcwd()+'/img/'+   imgUrl, 'wb').write(r.content) # 将内容写入图片

                                                  del r

                                           except Exception as e:

                                                    print("图片禁止访问:"+details)

                                          except Exception as e:

                                               print('其他格式的图片不收录');

                                    if  'src' in detailsHTML:

                                         try:

                                           details= listImg[index].attrib['src']

                                           if 'http' in details:

                                                     pass

                                           else:

                                                     details='https:'+details

                                           print("详情图下载："+details)

                                           try:

                                                  Headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}

                                                  r = requests.get(details, headers=Headers, stream=True)

                                                  if r.status_code == 200:

                                                     imgUrl=''

                                                     imgUrl+=code + "_详情图_" + str(index)  + '.' + details.split('//')[1].split('/')[len(details.split('//')[1].split('/'))-1].split('.')[1]

                                                     open(os.getcwd()+'/img/'+   imgUrl, 'wb').write(r.content) # 将内容写入图片

                                                  del r

                                           except Exception as e:

                                                    print("图片禁止访问:"+details)

                                         except Exception as e:

                                               print('其他格式的图片不收录'); 

                       print('结束执行')

     @staticmethod

     def readxlsx(inputText):

        filename=inputText

        inwb = openpyxl.load_workbook(filename)  # 读文件

        sheetnames = inwb.get_sheet_names()  # 获取读文件中所有的sheet，通过名字的方式

        ws = inwb.get_sheet_by_name(sheetnames[0])  # 获取第一个sheet内容

        # 获取sheet的最大行数和列数

        rows = ws.max_row

        cols = ws.max_column

        for r in range(1,rows+1):

            for c in range(1,cols):

                if ws.cell(r,c).value!=None and r!=1 :

                 if 'item.jd.com' in str(ws.cell(r,c+1).value) and str(ws.cell(r,c+1).value).find('i-item.jd.com')==-1:

                     print('支持:'+str(ws.cell(r,c).value)+'|'+str(ws.cell(r,c+1).value))

                     EgongYePing().Init(str(ws.cell(r,c+1).value),str(ws.cell(r,c).value))

                 else:

                     print('当前格式不支持:'+(str(ws.cell(r,c).value)+'|'+str(ws.cell(r,c+1).value)))

                     pass

        pass

if __name__ == "__main__":

                 start = EgongYePing()

                 start.readxlsx(r'C:\Users\newYear\Desktop\爬图.xlsx')

基本上除了过期的商品无法访问以外。对于京东的三种页面结构都做了处理。能访问到的商品页面。还做了模拟浏览器请求访问和下载。基本不会被反爬虫屏蔽下载。

上面这一段是以火狐模拟器运行

上面这一段是模拟浏览器下载。如果不加上这一段。经常会下载几十张图片后，很长一段时间无法正常下载图片。因为没有请求头被认为是爬虫。

上面这段是京东的商品详情页面，经常会三种？（可能以后会更多的页面结构）

所以做了三段解析。只要没有抓到图片就换一种解析方式。这杨就全了。

京东的图片基本只存/1.jpg。然后域名是 https://img14.360buyimg.com/n0/。所以目前要拼一下。

京东还有个很蛋疼的地方是图片以data-id拼进div的背景元素里。所以取出来的时候要绕一下。还好也解决了。

以下是爬取京东商品详情的Python3代码，以excel存放链接的方式批量爬取。excel如下

因为这次是淘宝和京东一起爬取。所以在一个excel里。代码里区分淘宝和京东的链接。以下是代码

from selenium import webdriver

from lxml import etree

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

import datetime

import calendar

import logging

from logging import handlers

import requests

import os

import time

import pymssql

import openpyxl

import xlrd

import codecs

class EgongYePing:

     options = webdriver.FirefoxOptions()

     fp = webdriver.FirefoxProfile()

     fp.set_preference("browser.download.folderList",2)

     fp.set_preference("browser.download.manager.showWhenStarting",False)

     fp.set_preference("browser.helperApps.neverAsk.saveToDisk","application/zip,application/octet-stream")

     global driver

     driver= webdriver.Firefox(firefox_profile=fp,options=options)

     def Init(self,url,code):

                       #driver = webdriver.Chrome('D:\python3\Scripts\chromedriver.exe')

                       #driver.get(url)

                       print(url.strip())

                       driver.get(url.strip())

                       #driver.refresh()

                       # 操作浏览器属于异步，在网络出现问题的时候。可能代码先执行。但是请求页面没有应答。所以硬等

                       time.sleep(int(3))

                       html = etree.HTML(driver.page_source)

                       if driver.title!=None:

                         listImg=html.xpath('//*[contains(@id,"J_UlThumb")]//img')

                         if len(listImg)==0:

                              pass

                         if len(listImg)>0:

                                            imgSrc=''

                                            for item in range(len(listImg)):

                                                 search=listImg[item].attrib

                                                 if 'data-src' in search:

                                                    imgSrc=listImg[item].attrib["data-src"].replace('.jpg_50x50','')

                                                 else:

                                                    imgSrc=listImg[item].attrib["src"]

                                                 if 'http' in imgSrc:

                                                     pass

                                                 else:

                                                     imgSrc='https:'+imgSrc

                                                 print('头图下载:'+imgSrc)

                                                 try:

                                                  Headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}

                                                  r = requests.get(imgSrc, headers=Headers, stream=True)

                                                  if r.status_code == 200:

                                                     imgUrl=''

                                                     if item==0:

                                                          imgUrl+=code + "_主图_" + str(item)  + '.' + imgSrc.split('//')[1].split('/')[len(imgSrc.split('//')[1].split('/'))-1].split('.')[1]

                                                     else:

                                                          imgUrl+=code + "_附图_" + str(item)  + '.' + imgSrc.split('//')[1].split('/')[len(imgSrc.split('//')[1].split('/'))-1].split('.')[1]

                                                     open(os.getcwd()+'/img/'+  imgUrl , 'wb').write(r.content) # 将内容写入图片

                                                  del r

                                                 except Exception as e:

                                                    print("图片禁止访问:"+imgSrc)

                         listImg=html.xpath('//*[contains(@id,"J_DivItemDesc")]//img')

                         if len(listImg)>0:

                               for index in range(len(listImg)):

                                    detailsHTML=listImg[index].attrib

                                    if 'data-ks-lazyload' in detailsHTML:

                                        details= listImg[index].attrib["data-ks-lazyload"]

                                        print("详情图下载："+details)

                                    else:

                                        details= listImg[index].attrib["src"]

                                        print("详情图下载："+details)

                                    try:

                                                  Headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}

                                                  r = requests.get(details, headers=Headers, stream=True)

                                                  if r.status_code == 200:

                                                     imgUrl=''

                                                     details=details.split('?')[0]

                                                     imgUrl+=code + "_详情图_" + str(index)  + '.' + details.split('//')[1].split('/')[len(details.split('//')[1].split('/'))-1].split('.')[1]

                                                     open(os.getcwd()+'/img/'+   imgUrl, 'wb').write(r.content) # 将内容写入图片

                                                  del r

                                    except Exception as e:

                                                    print("图片禁止访问:"+details)

                       print('结束执行')

     @staticmethod

     def readxlsx(inputText):

        filename=inputText

        inwb = openpyxl.load_workbook(filename)  # 读文件

        sheetnames = inwb.get_sheet_names()  # 获取读文件中所有的sheet，通过名字的方式

        ws = inwb.get_sheet_by_name(sheetnames[0])  # 获取第一个sheet内容

        # 获取sheet的最大行数和列数

        rows = ws.max_row

        cols = ws.max_column

        for r in range(1,rows+1):

            for c in range(1,cols):

                if ws.cell(r,c).value!=None and r!=1 :

                 if 'item.taobao.com' in str(ws.cell(r,c+1).value):

                     print('支持:'+str(ws.cell(r,c).value)+'|'+str(ws.cell(r,c+1).value))

                     EgongYePing().Init(str(ws.cell(r,c+1).value),str(ws.cell(r,c).value))

                 else:

                     print('当前格式不支持:'+(str(ws.cell(r,c).value)+'|'+str(ws.cell(r,c+1).value)))

                     pass

        pass

if __name__ == "__main__":

                 start = EgongYePing()

                 start.readxlsx(r'C:\Users\newYear\Desktop\爬图.xlsx')

淘宝有两个问题，一个是需要绑定账号登录访问。这里是代码断点。然后手动走过授权。

第二个是被休息和懒惰加载。被休息。其实没影响的。一个页面结构已经加载出来了。然后也不会影响访问其他的页面。

至于懒惰加载嘛。对我们也没啥影响。如果不是直接写在src里那就在判断一次取 data-ks-lazyload就出来了。

最后就是爬取的片段截图

建议还是直接将爬取的数据存服务器，数据库，或者图片服务器。因为程序挺靠谱的。一万条数据。爬了26个G的文件。最后上传的时候差点累死了

是真的大。最后还要拆包。十几个2g压缩包一个一个上传。才成功。

使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）的更多相关文章

仿京东淘宝商品详情页属性选择js效果
在网上找了好久发现都不符合要求就自己摸索写了一个,用到了linq.js这个linq to js 扩展,不然用纯JS遍历json查询要死人啊 demo:http://123.207.28.46:8086 ...
仿淘宝商品详情页上拉弹出新ViewController
新项目就要开始做了,里面有购物那块,就试着先把淘宝商品详情页的效果做了一下. 1.需求 1.第一次上拉时,A视图拉到一定距离将视图B从底部弹出,A视图也向上 2.显示B视图时下拉时,有刷新效果,之后将 ...
iOS app url scheme跳转到淘宝商品详情页唤醒app
最近涉及的一个业务,在app内的一个广告,点击打开webView,加载的是一个淘宝商品详情页,效果是打开该webView自动跳转至淘宝对应的页面,同时在自己的app仍然加载页面,点击评论等也同样能跳转 ...
爬取千万淘宝商品的python脚本
import time import leveldb from urllib.parse import quote_plus import re import json import itertool ...
php 采集爬取单个淘宝商品描述，商品属性
下载链接:https://download.csdn.net/download/a724008158/10723448 效果图:
android仿京东、淘宝商品详情页上拉查看详情
话不多说,直接上干货,基本就是一个scrollview中嵌套两个scrollview或者webview;关键点事处理好子scrollview和父scrollview的触摸.滑动事件已达到想要的效果.大 ...
vue实现淘宝商品详情页属性选择功能
方法一是自己想出来的,方法二来自忘记哪里看到的了不知道是不是你要的效果: 方法一:利用input[type="radio"] css代码: input { display: no ...
Vue实现仿淘宝商品详情属性选择的功能
Vue实现仿淘宝商品详情属性选择的功能先看下效果图:(同个属性内部单选,属性与属性之间可以多选) 主要实现过程: 所使用到的数据类型是(一个大数组里面嵌套了另一个数组)具体格式如下: attrA ...
淘宝商品html--网页结构
淘宝商品html--网页结构本篇爬虫紧接上一篇关于泸州老窖的爬虫随笔: import re import json def get_space_end(level): return ' ' * ...

随机推荐

tcache poisoning(爆破stout获得libc并且熟练使用了realloc）
这道题目帮助我学习了realloc这个函数,是一道十分经典的题目,我会尽量的把exp的每一步都说清楚例行检查我就不放了讲程序放入ida中比较简单的流程,没有show功能,所有我们需要通过爆破st ...
ctfshow 红包题武穆遗书
偶然见看到这道题,就下载了看了看.确实是我自己的逆向能力不够,逆不动.但是我似乎找到了非预期... 下载程序,ida打开,发现不对.后来发现是加了upx壳,拿软件去一下.再次ida打开. 其中buff ...
box-shadow(盒子阴影)
box-shadow 属性可以设置一个或多个下拉阴影的框可以在同一个元素上设置多个阴影效果,并用逗号将他们分隔开.该属性可设置的值包括阴影的X轴偏移量.Y轴偏移量.模糊半径.扩散半径和颜色. 语法: ...
替DateDif哭诉一把（Excel函数集团）
Excel中有个工作表函数DateDif,专门用来计算两日期之间的日差.月差.年差,传说十分好用. 具体用法在此就省略了,好奇的童鞋请自行*度~ 可是,在Excel里,他却是个"没户口&qu ...
《Power Query数据清洗实战》捉虫……
先道歉,<Power Query数据清洗实战>里,有虫-- 谢谢大家帮忙捉虫了. 谢谢法叔,他捉了四只--(汗) 112页第倒第二行,[追加查询],应是[合并查询]. 151.154.15 ...
ffmpeg 系列博客
https://www.ffmpeg.org/download.html#build-macffmpeg 系列博文https://me.csdn.net/blog/leixiaohua1020http ...
call this的范围
var f1=function(){this.a="类f1的实例的a属性"}; f1代表一个类: f1.a='对象f1的a属性'; var f2=function(){};//类f ...
【剑指Offer】丑数解题报告
[剑指Offer]丑数解题报告(Python) 标签(空格分隔): 剑指Offer 题目地址:https://www.nowcoder.com/ta/coding-interviews 题目描述: ...
【LeetCode】821. Shortest Distance to a Character 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法过两遍数组日期题目地址:https://leet ...
适用于 Flutter 的 Google 移动广告 SDK 正式版现已发布
作者 / Zoey Fan,Flutter 产品经理应用变现有多种方法: 通过实体企业的店面接受付款.提供订阅或应用内购买,或者直接在应用中投放广告.经过六个月的 beta 测试期,我们很高兴能够推 ...

使用Python 爬取 京东 ，淘宝。 商品详情页的数据。（避开了反爬虫机制）

使用Python 爬取 京东 ，淘宝。 商品详情页的数据。（避开了反爬虫机制）的更多相关文章

随机推荐

热门专题

使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）

使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）的更多相关文章