Python学习笔记（五十）爬虫的自我修养（三）爬取漂亮妹纸图

import random

import urllib

from urllib import request

import os

#########################################################

# 参数设置

wsp = 'DouziOOXX'

# 打开连接

def url_open(url):

    req = urllib.request.Request(url)

    req.add_header('User-Agent',

                   'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36')

    response = urllib.request.urlopen(req)

    html = response.read()

    # print(url)

    return html

def get_page(url):

    # 打开链接

    html = url_open(url).decode('utf-8')

    # 查找 current-comment-page

    a = html.find('current-comment-page') + 23

    b = html.find(']', a)   # 从a开始，找到第一个 ], 返回索引

    return html[a:b]

def find_imgs(url):

    html = url_open(url).decode('utf-8')

    img_addrs = []

    a = html.find('img src=')

    while a != -1:

        b = html.find('.jpg', a, a + 255)

        if b != -1:   # 找到一个 jpg

            img_addrs.append(html[a+9 : b+4])  # 加入列表

        else:         # 到不到, 移动b的位置

            b = a + 9

        a = html.find('img src=', b)  # 在b之后开始，再找img src

    # for each in img_addrs:

    #     print(each)

    return img_addrs

def save_imgs(folder, img_addrs):

    for each in img_addrs:

        filename = each.split('/')[-1]

        # print('http:' + each)

        with open(filename, 'wb') as f:

            img = url_open('http:' + each)

            f.write(img)

def download_mm(folder = wsp, pages = 10):

    os.mkdir(folder)

    # 切换到工作目录

    os.chdir(folder)

    url = "http://jandan.net/ooxx/"

    # 获得页面的地址

    page_num = int(get_page(url))

    for i in range(pages):

        page_num -= i

        # 打开这个地址

        page_url = url + "page-" + str(page_num)

        # 获取图片地址, 保存为一个列表

        img_addrs = find_imgs(page_url)

        # 保存到图片到指定文件夹

        save_imgs(folder, img_addrs)

if __name__=='__main__':

    download_mm()

Python学习笔记（五十）爬虫的自我修养（三）爬取漂亮妹纸图的更多相关文章

Python学习笔记（十四）
Python学习笔记(十四): Json and Pickle模块 shelve模块 1. Json and Pickle模块之前我们学习过用eval内置方法可以将一个字符串转成python对象,不 ...
Python学习笔记（十）
Python学习笔记(十): 装饰器的应用列表生成式生成器迭代器模块:time,random 1. 装饰器的应用-登陆练习 login_status = False # 定义登陆状态 def ...
Python学习笔记（十五）：类基础
以Mark Lutz著的<Python学习手册>为教程,每天花1个小时左右时间学习,争取两周完成. --- 写在前面的话 2013-7-24 23:59 学习笔记 1,Python中的大多 ...
Python学习笔记（十四）：模块高级
以Mark Lutz著的<Python学习手册>为教程,每天花1个小时左右时间学习,争取两周完成. --- 写在前面的话 2013-7-23 21:30 学习笔记 1,包导入是把计算机上的 ...
Python学习笔记：利用爬虫自动保存图片
兴趣才是第一生产驱动力. Part 1 起先,源于对某些网站图片浏览只能一张一张的翻页,心生不满.某夜,冒出一个想法,为什么我不能利用爬虫技术把想看的图片给爬下来,然后在本地看个够. 由此经过一番初尝 ...
Python学习笔记第二十五周（Django补充）
1.render_to_reponse() 不同于render,render_to_response()不用包含request,直接写template中文件 2.locals() 如果views文件中 ...
python学习笔记-（十五）RabbitMQ队列
rabbitMQ是消息队列:想想之前的我们学过队列queue:threading queue(线程queue,多个线程之间进行数据交互).进程queue(父进程与子进程进行交互或者同属于同一父进程下的 ...
Python学习笔记第十五周
目录: 一.CSS补充 1.position 2.overflow 3.hover 4.background 二.JavaScript 三.DOM 主要内容: 一.CSS补充 1.position 可 ...
Python 学习笔记（十五）Python类拓展（二）方法
方法绑定方法和非绑定方法绑定方法和非绑定方法在创建时没有任何区别,同一方法,既可以为绑定方法,也可以为非绑定方法,一切不同都只在调用时的手法上有所区别. 绑定方法即该方法绑定类的一个实例上,必须将 ...

随机推荐

Java JDK安装及环境配置
转载:https://jingyan.baidu.com/article/6dad5075d1dc40a123e36ea3.html 环境变量配置: 系统变量→新建 JAVA_HOME 变量 . 变量 ...
事后诸葛亮--Alpha版本总结
目录设想和目标计划资源变更管理设计/实现测试/发布团队的角色,管理,合作总结: 本小组和其他组的评分分工和贡献分全组讨论的照片问题第一组提问回答:爸爸饿了队第二组提问回答:拖 ...
a5
今日内容: 今天主要还是素材的查找,图标的制作以及调整. 明日计划: 主要还是完成图标,尽可能的美化困难: 一个是直男式的审美吧,另一个是PS的技术还不够深
lintcode-383-装最多水的容器
383-装最多水的容器给定 n 个非负整数 a1, a2, ..., an, 每个数代表了坐标中的一个点 (i, ai).画 n 条垂直线,使得 i 垂直线的两个端点分别为(i, ai)和(i, 0 ...
BETA预发布演示视频
视频连接:优酷http://v.youku.com/v_show/id_XMTgxMjQxMjc0NA==.html?from=y1.7-2
判断一个变量是不是json，以及如何将变量转换成json
https://blog.csdn.net/A123638/article/details/52486975这里看到一个很好的方法 // 判断变量是不是jsonisJson(variable: any ...
virtio是啥子
这个山头今天好像要攻占下来了 guest os中的一些特权操作会被hypervhisor给接收,这里一个很重要的认识是:hypervisor是os的os,既然要访问资源,那么就需要经过整机资源的管理者 ...
this.$http & vue
this.$http & vue https://github.com/pagekit/vue-resource Alias axios to Vue.prototype.$http http ...
struct和class的联系与区别
C++支持另一个关键字struct,它也可以定义类类型.struct关键字是从C语言继承过来的. 默认初始访问级别不同: 如果使用class关键字来定义类,那么定义在第一个访问标号前的任何成员都隐式指 ...
inline函数的总结
在函数返回类型前加上关键字inline就可以将函数指定为内联函数: inline const string& shortString(const string &s1, const s ...

Python学习笔记（五十）爬虫的自我修养（三）爬取漂亮妹纸图

Python学习笔记（五十）爬虫的自我修养（三）爬取漂亮妹纸图的更多相关文章

随机推荐

热门专题