效果图

版本以及需要用到的第三方库

python 2.7
bs4 (安装命令: pip install bs4)

代码

#!/usr/bin/env python

#coding:UTF-8

#脚本名称: 爬妹纸写真图

#脚本作者: 剑齿虎

#脚本版本: python2.7

#第三方库: BeautifulSoup

import urllib2

import os

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding('gbk') #使用GBK编码

#函数: 进入下载写真集

def DownloadMz(url):

    html    =   urllib2.urlopen(url).read()

    dom_    =   BeautifulSoup(html, 'html.parser') #解析为类似dom的对象

    title   =   dom_.body.select(".main-title")[0].string #找元素:标题

    count   =   dom_.body.select(".pagenavi")[0].findAll('a')[4].span.string #找元素:页数

    #打印信息

    print('title:' + title)

    print('count:' + count)

    print('url:' + url + "\n------------------")

    #保存图片

    for i in range(1,int(count)):

        get_url     =   url + "/" + str(i) #分页地址

        save_path   =   os.getcwd() + "\\Download\\" + str(title)  #保存目录

        #创建保存目录, 如果不存在

        if os.path.exists(save_path)==False:

            os.mkdir(save_path)

        #保存图片

        save_path   =   save_path + "\\" + str(i) + ".jpg" #保存文件名

        SaveImage(get_url, save_path)

        print("-- OK: "+ save_path)

    print("---------- END -----------\n\n")

#函数: 保存每页图片

def SaveImage(get_url, savePath):

    #获取图片地址

    html    =   urllib2.urlopen(get_url).read()

    dom_    =   BeautifulSoup(html, 'html.parser')

    src     =   dom_.select(".main-image")[0].p.a.img['src']

    #保存呀保存

    f       =   open(savePath, 'wb')

    f.write(urllib2.urlopen(src).read())

    f.close()

#来啊~ 快活呀

url     =   "http://www.mzitu.com/japan/"

html    =   urllib2.urlopen(url).read()

bs      =   BeautifulSoup(html, 'html.parser')

pages   =   bs.body.select(".page-numbers")[5]['href'] #取总页数html

#取爬取页面分页总数

cur_end     =   pages.rindex("/", 0)

cur_start   =   pages.rindex("/", 0, cur_end) + 1

page_count  =   pages[cur_start:cur_end] #页数

for i in range(1, int(page_count)):

    page_url    =   url + "/page/" + str(i) #分页url

    print("*** PAGE *** " + str(i) + "/" + str(page_count) + " $ " + page_url)

    dom_        =   BeautifulSoup(urllib2.urlopen(page_url).read(), 'html.parser') #取分页dom

    uls     =   bs.body.findAll('ul',{'id':'pins'})[0].findAll("li") #获取写真集列表

    #进入下载写真集

    for li in uls:

        DownloadMz(str(li.span.a['href']))

目前正在学习python, 为了更能快速学到知识. 最好就是实践一个小项目, 一般看文档一般搜百度一边写程序, 虽说踩的坑不少, 但也积累了经验.

这个程序还存在个问题, 就是”写真集”没有分页, 下载完第一页就结束了. 有兴趣的小伙伴可以改改

“脚本目录需要新建一个 Download 目录, 脚本不会自己创建这个目录的~”

[python] 第一个爬虫, 爬妹子写真集图片的更多相关文章

python简单小爬虫爬取易车网图片
上代码: import requests,urllib.request from bs4 import BeautifulSoup url = 'http://photo.bitauto.com/' ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...
Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量
今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- co ...
erlang 爬虫——爬取网页图片
说起爬虫,大家第一印象就是想到了python来做爬虫.其实,服务端语言好些都可以来实现这个东东. 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌 ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
用python写一个爬虫——爬取性感小姐姐
忍着鼻血写代码今天写一个简单的网上爬虫,爬取一个叫妹子图的网站里面所有妹子的图片. 然后试着先爬取了三页,大概有七百多张图片吧!各个诱人的很,有兴趣的同学可以一起来爬一下,大佬级程序员勿喷,简单爬虫 ...
Python写爬虫爬妹子
最近学完Python,写了几个爬虫练练手,网上的教程有很多,但是有的已经不能爬了,主要是网站经常改,可是爬虫还是有通用的思路的,即下载数据.解析数据.保存数据.下面一一来讲. 1.下载数据首先打 ...
Python多线程爬虫爬取网页图片
临近期末考试,但是根本不想复习!啊啊啊啊啊啊啊!!!! 于是做了一个爬虫,网址为 https://yande.re,网页图片为动漫美图(图片带点颜色........宅男福利 github项目地址为:h ...
Python爬虫爬取网页图片
没想到python是如此强大,令人着迷,以前看见图片总是一张一张复制粘贴,现在好了,学会python就可以用程序将一张张图片,保存下来. 今天逛贴吧看见好多美图,可是图片有点多,不想一张一张地复制粘贴 ...

随机推荐

vue 中render执行流程梳理
用了多年vue 今天对自己了解的render 做一个梳理一.使用template模板先从vue 初始化开始: 众所周知项目的main.js中定义了 var app = new Vue({})这vu ...
整合vxgPlayer使chrome支持vxg_media_player播放rtsp视频
目前有一个关于接入海康监控进行视频融合的项目需求,按理说在前端技术发展如此迅速的今天,使用web播放一个视频应该是不算什么难事,只是万事都有意外,因很多视频厂家的监控数据都不是普通的mp4啥的,所以使 ...
(亲测有效-专门解决Mac环境)Pycharm 解决无法打开的问题
前提是Mac 安装了PyCharm.app 1.第一步:先输入: cd /Applications/PyCharm.app/Contents/MacOS 2.第二步:查看无法打开pycharm的原因, ...
VUE路由传参的实用方式
本文讲解了VUE项目中路由之间的传值方式,涉及到的方法都是开发时常用的,希望对大家有多帮助. 1. 方式一:使用router-link标签 1.1 params 传参首先定义好路由 const ro ...
10.1. Java性能调优
Java性能调优是一个复杂且重要的主题,它涉及到了JVM.垃圾收集器.内存管理.多线程.代码优化等多个方面.在本节中,我们将对Java性能调优的基本概念和方法进行简要介绍. 10.1.1. 理解性能指 ...
使用 ProcessBuilder API 优化你的流程
ProcessBuilder 介绍 Java 的 Process API 为开发者提供了执行操作系统命令的强大功能,但是某些 API 方法可能让你有些疑惑,没关系,这篇文章将详细介绍如何使用 Proc ...
论文翻译：2021_Real-Time Denoising and Dereverberation wtih Tiny Recurrent U-Net
论文地址:微型循环U-Net实时降噪和去混响论文代码: https://github.com/YangangCao/TRUNet https://github.com/amirpashamobini ...
图书商城项目练习②后端服务Node/Express/Sqlite
本系列文章是为学习Vue的项目练习笔记,尽量详细记录一下一个完整项目的开发过程.面向初学者,本人也是初学者,搬砖技术还不成熟.项目在技术上前端为主,包含一些后端代码,从基础的数据库(Sqlite).到 ...
kafka入门必备知识
1. Kafka是一个分布式流处理平台: 可以让你发布和订阅流式的记录.这一方面与消息队列或者企业消息系统类似. 可以储存流式的记录,并且有较好的容错性. 可以在流式记录产生时就进行处理. 2. 消息 ...
Auto.Core
Auto Core (基于AspectCore) 介绍 AutoCore是基于 .Net Standard 2.1用于简化 ASP.NET Core开发,AutoCore 在 AspectCore 的 ...

[python] 第一个爬虫, 爬妹子写真集图片

效果图

版本以及需要用到的第三方库

代码

[python] 第一个爬虫, 爬妹子写真集图片的更多相关文章

随机推荐

热门专题