python爬取煎蛋网图片

```

py2版本：

#-*- coding:utf-8 -*-

#from __future__ import unicode_liter

import urllib,urllib2,time

import re,sys,os

headers={

'Referer':'http://jandan.net/',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',



}

def getimg(n=''):

    req=urllib2.Request('http://jandan.net/ooxx'+n,headers=headers)



    html=urllib2.urlopen(req).read()

    if n=='':

    #print html

        reg= '''<div class="text"><span class="righttext"><a href="//jandan.net/ooxx/page-(.*?)#comment-.*?">[\d]*</a></span><p><a href="//.*?"'''

    else:

        reg= '''<div class="text"><span class="righttext"><a href="//jandan.net/ooxx/page-.*?#comment-.*?">[\d]*</a></span><p><a href="//(.*?)"'''

    reg=re.compile(reg)

    img=re.findall(reg,html)

    return img

a=1

#创建下载图片的文件夹

#dirpath=os.path.splitext(path)  分离文件名与扩展名；默认返回(fname,fextension)元组，可做分片操作

dirpath=os.getcwd()+'/img'

if not os.path.exists(dirpath):

    os.mkdir(dirpath)

#下载图片

nu=raw_input('你想获取多少页（每页大概11张图片）:')

nowpage=getimg()[0]

print nowpage



for n in range(int(nowpage)-int(nu)+1,int(nowpage)+1):

    print '获取第%s页'%n



    for i in getimg('/page-%s'%n):

        print '正在下载第%s张图片'%a

        k=r'http://'+i

        print k

        urllib.urlretrieve(k, 'img/%s' %i.split('/')[-1])

        #time.sleep(2) #出现响应超时的情况时加上这句

        a+=1



'''

        try:

        #urllib.urlretrieve(i,'img/%s'%str(i)[-8:-1])

            urllib.urlretrieve(i,'img/%s.png'%a)

            a+=1

        except:

            print "Unexpected error:", sys.exc_info()[0]

'''

print '总共下载%s张图片'%(int(a)-1)

py3版本：



#from __future__ import unicode_liter

import urllib.request

import re,sys,os

headers={

# 'Cookie':'__cfduid=df3295a9ee824f447e48bcda4f871d50f1505877948; _ga=GA1.2.1288199068.1505877788; _gid=GA1.2.1501836844.1505877789; _gat=1',

'Referer':'http://jandan.net/',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',



}

def getimg(n=''):

    req=urllib.request.Request('http://jandan.net/ooxx'+n,headers=headers)



    html=urllib.request.urlopen(req).read().decode('utf-8')

    if n=='':

    #print html

        reg= '''<div class="text"><span class="righttext"><a href="//jandan.net/ooxx/page-(.*?)#comment-.*?">[\d]*</a></span><p><a href="//.*?"'''

    else:

        reg= '''<div class="text"><span class="righttext"><a href="//jandan.net/ooxx/page-.*?#comment-.*?">[\d]*</a></span><p><a href="//(.*?)"'''

    reg=re.compile(reg)

    img=re.findall(reg,html)

    return img



a=1

#创建下载图片的文件夹

#dirpath=os.path.splitext(path)  分离文件名与扩展名；默认返回(fname,fextension)元组，可做分片操作

dirpath=os.getcwd()+'/img'

if not os.path.exists(dirpath):

    os.mkdir(dirpath)

#下载图片

nu=input('你想获取多少页（每页大概21张图片）:')

nowpage=getimg()[0]

print(nowpage)



for n in range(int(nowpage)-int(nu),int(nowpage)):

    print('获取第%s页'%n)



    for i in getimg('/page-%s'%n):

        print('正在下载第%s张图片'%a)

        k=r'http://'+i

        print(k)

        urllib.request.urlretrieve(k, 'img/%s' %i.split('/')[-1])

        a+=1

'''

        try:

        #urllib.urlretrieve(i,'img/%s'%str(i)[-8:-1])

            urllib.urlretrieve(i,'img/%s.png'%a)

            a+=1

        except:

            print "Unexpected error:", sys.exc_info()[0]

'''

print('总共下载%s张图片'%(int(a)-1))

```

python爬取煎蛋网图片的更多相关文章

Python 爬虫爬取煎蛋网图片
今天, 试着爬取了煎蛋网的图片. 用到的包: urllib.request os 分别使用几个函数,来控制下载的图片的页数,获取图片的网页,获取网页页数以及保存图片到本地.过程简单清晰明了直接上源代 ...
Python 爬取煎蛋网妹子图片
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-24 10:17:28 # @Author : EnderZhou (z ...
scrapy从安装到爬取煎蛋网图片
下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/pip install wheelpip install lxmlpip install pyopens ...
python3爬虫爬取煎蛋网妹纸图片（上篇）
其实之前实现过这个功能,是使用selenium模拟浏览器页面点击来完成的,但是效率实际上相对来说较低.本次以解密参数来完成爬取的过程. 首先打开煎蛋网http://jandan.net/ooxx,查看 ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...
python爬虫–爬取煎蛋网妹子图片
前几天刚学了python网络编程,书里没什么实践项目,只好到网上找点东西做. 一直对爬虫很好奇,所以不妨从爬虫先入手吧. Python版本:3.6 这是我看的教程:Python - Jack -Cui ...
爬虫实例——爬取煎蛋网OOXX频道（反反爬虫——伪装成浏览器）
煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' ...
python3爬虫爬取煎蛋网妹纸图片（下篇）2018.6.25有效
分析完了真实图片链接地址,下面要做的就是写代码去实现了.想直接看源代码的可以点击这里大致思路是:获取一个页面的的html---->使用正则表达式提取出图片hash值并进行base64解码--- ...

随机推荐

打开safari开发者选项
1.点击Safari启动浏览器 2.点击左上Safari标志,选择偏好设置 3.选择高级,勾选下方的在菜单栏显示开发菜单. 如此,Safari就出现了开发菜单,右键网页元素也会出现查看元素功能了.
springboot 入门二- 读取配置信息一
在上篇入门中简单介绍下springboot启动使用了大量的默认配置,在实际开发过程中,经常需要启动多个服务,那端口如何手动修改呢? 此篇就是简单介绍相关的配置文件信息. Spring Boot允许外部 ...
URL.createObjectURL() 与 URL.revokeObjectURL()
.URL.createObjectURL URL.createObjectURL()方法会根据传入的参数创建一个指向该参数对象的URL. 这个URL的生命仅存在于它被创建的这个文档里. 新的对象URL ...
201521123002 《Java程序设计》第3周学习总结
1. 本周学习总结初学面向对象,会学习到很多碎片化的概念与知识.尝试学会使用思维导图将这些碎片化的概念.知识组织起来.请使用纸笔或者下面的工具画出本周学习到的知识点.截图或者拍照上传. 2. 书面作 ...
201521123029《Java程序设计》第三周学习总结
1.本周学习总结 2.书面作业 Q1.代码阅读 public class Test1 { private int i = 1;//这行不能修改 private static int j = 2; pu ...
Python[小甲鱼003小插曲之变量和字符串]
>>>teacher = 3 >>>teacher 3 #在定义了一个变量后可以之间输入整个变量即可访问这个变量. >>> teache ...
phpcms图文总结（转）
转自:http://www.cnblogs.com/Braveliu/p/5074930.html 在实现PHPCMS网站过程中,根据业务需求,我们遇到很多问题,特此总结如下,以便大家参考学习. [1 ...
postman: 用于网页调试和发送Http请求的chrome插件
一简介 Postman 是一款功能超级强大的用于发送 HTTP 请求的 Chrome插件 .做web页面开发和测试的人员应该是无人不晓无人不用!其主要特点特点: 创建 + 测试:创建和发送任何的H ...
java基础知识3--如何获取资源文件（Java中获取资源文件的url）
java开发中,常见的resource文件有:.xml,.properties,.txt文件等,后台开发中经常用到读取资源文件,处理业务逻辑,然后返回结果. 获取资源文件的方法说明getResourc ...
Activiti常见问题解决
1,工作流activiti eclipse 插件不自动生成png window ——> preferences——>activiti——>save——>选中create pro ...

python爬取煎蛋网图片

python爬取煎蛋网图片的更多相关文章

随机推荐

热门专题