所谓图片爬虫,就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序。
有些图片是直接在html文件里面,有些是隐藏在JS文件中,在html文件中只需要我们分析源码就能得到
如果是隐藏在JS文件中,那么就需要进行抓包分析,这儿先只讲分析html源码得出图片,
注意 这儿我们需要读取的是高清原图,不是经过网站处理过的小图片。 首先需要根据网址进行分析,分析出每一类商品的第几页第几页的网址之间的关联进行自动加载指定页码(例如淘宝每下一页为链接中s加44) 然后查看页面源码,找到图片对应的链接,分析剔除掉后加修饰过的内容,将关键的内容截取在源码中进行搜索即可找到图片的原始地址
也就是源码的地址。根据这个就能得到所要构造的正则表达式。
然后直接上代码
import urllib.request
import re
import urllib.error keyname = "短裙"
key = urllib.request.quote(keyname) #进行编码 #伪装浏览器 (因为淘宝能够识别是否为爬虫程序)
headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
#将opener添加为全局
urllib.request.install_opener(opener) #要爬取多少页那么进行多少次循环
for i in range(0,2):
url = "https://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20171209&ie=utf8&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s="+str(i * 44)
#先对所在的页面的主页进行爬取读取内容,也就是读取源码
data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
#构造正则表达式
pattern = 'pic_url":"//(.*?)"'
#在当前页根据正则进行查找,查找到的所有连接存储为一个list
imagelist = re.compile(pattern).findall(data)
#遍历列表进行每个图片的存储到本地文件夹
for j in range(0,len(imagelist)):
thisimg = imagelist[j]
thisimageurl = "http://"+thisimg
file = "E://pythoncode/taobaoimg1/"+"b"+str(i)+str(j)+".jpg"
urllib.request.urlretrieve(thisimageurl,file)

同理进行一个千图网(http://www.58pic.com/)的高清原图的爬取
第一步也是分析网站的源码找到规律实现下一页的加载,然后进行图片链接的分析得到真实高清原图的网址链接构建正则表达式
先对当前页进行爬取,从爬取的内容中使用正则进行页面查找,再对找到的每一个图片链接进行爬取存储到本地文件夹中。
直接上代码
import urllib.request
import urllib.error
import re key = "chengshi" proxy = urllib.request.ProxyHandler({"http":"202.96.142.2:3128"}) opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
urllib.request.install_opener(opener) for i in range(1,2):
url = "http://www.58pic.com/tupian/"+key+"-0-0-"+str(i)+".html"
data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
pattern = '"(http://pic.qiantucdn.com/58pic/.*?)!'
imagelist = re.compile(pattern).findall(data)
# print(imagelist)
for j in range(0,len(imagelist)):
thisurl = imagelist[j]
file = "E:/pythoncode/qiantu/"+str(i)+str(j)+".jpg"
urllib.request.urlretrieve(thisurl,file)


【Python爬虫实战】 图片爬虫-淘宝图片爬虫--千图网图片爬虫的更多相关文章

  1. 爬虫实战--基于requests 和 Beautiful的7160美图网爬取图片

    import requests import os from bs4 import BeautifulSoup import re # 初始地址 all_url = 'http://www.7160. ...

  2. python爬虫实战(二)--------千图网高清图

    相关代码已经修改调试----2017-3-21 实现:千图网上高清图片的爬取 程序运行20小时,爬取大约162000张图片,一共49G,存入百度云.链接:http://pan.baidu.com/s/ ...

  3. 千图网爬图片(BeautifulSoup)

    import requests from bs4 import BeautifulSoup import os #导入os模块 class TuKuSpider(): ""&quo ...

  4. 爬虫实战3:使用request,bs4爬动态加载图片

    参考网站:https://blog.csdn.net/Young_Child/article/details/78571422 在爬的过程中遇到的问题: 1.被ban:更改header的User-Ag ...

  5. [原创] Python3.6+request+beautiful 半次元Top100 爬虫实战,将小姐姐的cos美图获得

    1 技术栈 Python3.6 Python的版本 request 得到网页html.jpg等资源的lib beautifulsoup 解析html的利器 html5lib 指定beautifulso ...

  6. 爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求

    6.21自我总结 一.爬取斗图网 1.摘要 使用xpath匹配规则查找对应信息文件 将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 ...

  7. python爬取千库网

    url:https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/ 有水印 但是点进去就没了 这里先来测试是否有反爬虫 import requests ...

  8. 【Python爬虫实战】微信爬虫

    所谓微信爬虫,即自动获取微信的相关文章信息的一种爬虫.微信对我们的限制是很多的,所以我们需要采取一些手段解决这些限制主要包括伪装浏览器.使用代理IP等方式http://weixin.sogou.com ...

  9. Python爬虫实战四之抓取淘宝MM照片

    原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程 福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...

随机推荐

  1. javafx 监听选择变化(TabPane)

    editTab.getSelectionModel().selectedIndexProperty().addListener(evnt); javafx2.0 监听树和表的选择变化 Swing中的组 ...

  2. 5V与3.3V电平互转

    参考: http://blog.sina.com.cn/s/blog_7880f98301014fmj.html

  3. ML: 聚类算法-概论

    聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗.动物植物.目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别.数据分析.图像处理.市场研 ...

  4. Thinkphp 3.1. 3 ueditor 1.4.3 添加水印

    1.引入Ueditor  <!-- 实例化编辑器 --> <script type="text/javascript"> window.UEDITOR_HO ...

  5. 【巷子】---react-redux---【react】

    一.Redux与组件 react-redux是一个第三方插件使我们在react上更方便的来使用redux这个数据架构 React-Redux提供connect方法,用于从UI组件生成容器组件,conn ...

  6. 求1~n整数中1出现的次数(《剑指offer》面试题43)

    题意: 给定一个整数n,求1~n这n个整数中十进制表示中1出现的次数. 思路: 方法1:最直观的是,对于1~n中的每个整数,分别判断n中的1的个数,具体见<剑指offer>.这种方法的时间 ...

  7. redis 主从复制 [转]

    一.Redis的Replication: 这里首先需要说明的是,在Redis中配置Master-Slave模式真是太简单了.相信在阅读完这篇Blog之后你也可以轻松做到.这里我们还是先列出一些理论性的 ...

  8. host文件的用处

    做Flash开发的人员免不了接触host文件. 1:首先你注册Flash软件.FlashBuilder都需要先修改host,然后再安装的.(具体的修改时在etc包里找到host文件,把一堆adobe的 ...

  9. SSH加密原理、RSA非对称加密算法学习与理解

    首先声明一下,这里所说的SSH,并不是Java传统的三大框架,而是一种建立在应用层和传输层基础上的安全外壳协议,熟悉Linux的朋友经常使 用到一 个SSH Secure Shell Cilent的工 ...

  10. maven不同环境的profile配置

    1.开发的时候经常需要加载不同的环境,比如本地开发环境dev,生产环境product.如果需要手动去修改的话就太麻烦了,自己实现了maven资源替换,然后多环境下的配置文件管理的demo,在此贴出来. ...