【Python爬虫实战】图片爬虫-淘宝图片爬虫--千图网图片爬虫

所谓图片爬虫，就是从互联网中自动把对方服务器上的图片爬下来的爬虫程序。
有些图片是直接在html文件里面，有些是隐藏在JS文件中，在html文件中只需要我们分析源码就能得到
如果是隐藏在JS文件中，那么就需要进行抓包分析，这儿先只讲分析html源码得出图片，
注意 这儿我们需要读取的是高清原图，不是经过网站处理过的小图片。

首先需要根据网址进行分析，分析出每一类商品的第几页第几页的网址之间的关联进行自动加载指定页码（例如淘宝每下一页为链接中s加44）

然后查看页面源码，找到图片对应的链接，分析剔除掉后加修饰过的内容，将关键的内容截取在源码中进行搜索即可找到图片的原始地址
也就是源码的地址。根据这个就能得到所要构造的正则表达式。
然后直接上代码

import urllib.request

import re

import urllib.error

keyname = "短裙"

key = urllib.request.quote(keyname) #进行编码

#伪装浏览器 （因为淘宝能够识别是否为爬虫程序）

headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36")

opener = urllib.request.build_opener()

opener.addheaders = [headers]

#将opener添加为全局

urllib.request.install_opener(opener)

#要爬取多少页那么进行多少次循环

for i in range(0,2):

    url = "https://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20171209&ie=utf8&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s="+str(i * 44)

    #先对所在的页面的主页进行爬取读取内容，也就是读取源码

    data = urllib.request.urlopen(url).read().decode("utf-8","ignore")

    #构造正则表达式

    pattern = 'pic_url":"//(.*?)"'

    #在当前页根据正则进行查找，查找到的所有连接存储为一个list

    imagelist = re.compile(pattern).findall(data)

    #遍历列表进行每个图片的存储到本地文件夹

    for j in range(0,len(imagelist)):

        thisimg = imagelist[j]

        thisimageurl = "http://"+thisimg

        file = "E://pythoncode/taobaoimg1/"+"b"+str(i)+str(j)+".jpg"

        urllib.request.urlretrieve(thisimageurl,file)


同理进行一个千图网（http://www.58pic.com/）的高清原图的爬取

第一步也是分析网站的源码找到规律实现下一页的加载，然后进行图片链接的分析得到真实高清原图的网址链接构建正则表达式
先对当前页进行爬取，从爬取的内容中使用正则进行页面查找，再对找到的每一个图片链接进行爬取存储到本地文件夹中。
直接上代码

import urllib.request

import urllib.error

import re

key = "chengshi"

proxy = urllib.request.ProxyHandler({"http":"202.96.142.2:3128"})

opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)

urllib.request.install_opener(opener)

for i in range(1,2):

    url = "http://www.58pic.com/tupian/"+key+"-0-0-"+str(i)+".html"

    data = urllib.request.urlopen(url).read().decode("utf-8","ignore")

    pattern = '"(http://pic.qiantucdn.com/58pic/.*?)!'

    imagelist = re.compile(pattern).findall(data)

    # print(imagelist)

    for j in range(0,len(imagelist)):

        thisurl = imagelist[j]

        file = "E:/pythoncode/qiantu/"+str(i)+str(j)+".jpg"

        urllib.request.urlretrieve(thisurl,file)

【Python爬虫实战】图片爬虫-淘宝图片爬虫--千图网图片爬虫的更多相关文章

爬虫实战--基于requests 和 Beautiful的7160美图网爬取图片
import requests import os from bs4 import BeautifulSoup import re # 初始地址 all_url = 'http://www.7160. ...
python爬虫实战（二）--------千图网高清图
相关代码已经修改调试----2017-3-21 实现:千图网上高清图片的爬取程序运行20小时,爬取大约162000张图片,一共49G,存入百度云.链接:http://pan.baidu.com/s/ ...
千图网爬图片（BeautifulSoup）
import requests from bs4 import BeautifulSoup import os #导入os模块 class TuKuSpider(): ""&quo ...
爬虫实战3：使用request,bs4爬动态加载图片
参考网站:https://blog.csdn.net/Young_Child/article/details/78571422 在爬的过程中遇到的问题: 1.被ban:更改header的User-Ag ...
[原创] Python3.6+request+beautiful 半次元Top100 爬虫实战，将小姐姐的cos美图获得
1 技术栈 Python3.6 Python的版本 request 得到网页html.jpg等资源的lib beautifulsoup 解析html的利器 html5lib 指定beautifulso ...
爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 ...
python爬取千库网
url:https://i588ku.com/beijing/0-0-default-0-8-0-0-0-0-1/ 有水印但是点进去就没了这里先来测试是否有反爬虫 import requests ...
【Python爬虫实战】微信爬虫
所谓微信爬虫,即自动获取微信的相关文章信息的一种爬虫.微信对我们的限制是很多的,所以我们需要采取一些手段解决这些限制主要包括伪装浏览器.使用代理IP等方式http://weixin.sogou.com ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...

随机推荐

Elasticsearch的数据导出和导入操作（elasticdump工具），以及删除指定type的数据（delete-by-query插件）
Elasticseach目前作为查询搜索平台,的确非常实用方便.我们今天在这里要讨论的是如何做数据备份和type删除.我的ES的版本是2.4.1. ES的备份,可不像MySQL的mysqldump这么 ...
【java】函数重载
重载概念(Overloading): 在同一个类中,允许存在一个以上的同名函数,主要他们的参数个数和参数类型不同即可重载特点: 与返回值无关,只和参数类型和参数个数有关系(重载只和参数列表有关系) ...
解决cron无法运行报错：FAILED to authorize user with PAM (Module is unknown)
查看cron运行日志 tail -f /var/log/cron 报如下错误: May 8 10:14:01 localhost crond[9399]: (root) FAILED to autho ...
Winfrom控件使用
1.Lablelable添加图片,解决图片和字体重叠? Text属性添加足够空格即可,显示效果如下所示: 2.根据窗体名称获取窗体并显示到指定panel? Label item = sender as ...
P1164小A点菜
传送这是一个典型的背包方案问题,设f[j]为当前价值为j的方案数,则f[j]=f[j]+f[j-a[i]],即当前方案数为选这个的方案数和不选这个东西的方案数,代码如下 #include<io ...
java1.8 新特性（关于 match，find reduce ）操作
match处理Integer集合 package lambda.stream; /** * @author 作者:cb * @version 创建时间:2019年1月4日下午2:35:05 */ i ...
描述wxWidgets中事件处理的类型转化
wxWidgets是一个比较常用的UI界面库,我曾经试着使用wxWidgets写一个UI编辑工具,在此期间,学习了一些wxWidgets的知识.我对wxWidgets的绑定(Bind)比较好奇,想知道 ...
android 5.0安装应用冲突问题
公司二款产品无法同时安装为了查看原因用adb命令安装((adb 命令要配置环境环境,path 盘符+adt-bundle-windows-x86-20140702\sdk\platform-too ...
一个源文件可以写出多个class吗？编译后，会不会生成多个class文件？
会.一个.java源文件里面可以有内部类.其他类(有且仅有一个类可以声明为public),所以编译后,可以有多个class文件.
github webhook 实现代码自动部署踩坑！！附加git&coding webhook部署代码
踩坑: 1.php程序执行linux命令是以webserver的user用户(如apache .www……)操作的,需要在/etc/sudoers添加用户免密码操作权限; %apache ALL=(A ...

【Python爬虫实战】 图片爬虫-淘宝图片爬虫--千图网图片爬虫

【Python爬虫实战】 图片爬虫-淘宝图片爬虫--千图网图片爬虫的更多相关文章

随机推荐

热门专题

【Python爬虫实战】图片爬虫-淘宝图片爬虫--千图网图片爬虫

【Python爬虫实战】图片爬虫-淘宝图片爬虫--千图网图片爬虫的更多相关文章