Python 2.7和3.6爬取妹子图网站单页测试图片

1、url= http://www.mzitu.com/74100/x，2为1到23的值

2、用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;requests模块获取网页源代码;urllib模块 urllib.urlretrieve(图片url,保存的带扩展名的文件名x.jpg)方法下载图片

3、知识点文件目录处理函数封装调用全局变量

4、代码

# -*- coding:utf8 -*-

import os

import re

import requests as rq

import urllib

import time

# 创建目录函数 保存文件位置

def create_catename():

    # 取出网页的上层目录名称

    url = urls[0]

    html = rq.get(url).text

    cate_name = re.findall(r'<a href="http://www.mzitu.com/xinggan" rel="category tag">(.*?)</a>', html)[0]

    path = 'D:\\%s' % cate_name

    return path

# 下载图片 定义n为全局变量 以n计数为图片的文件名n.jpg  定义n全面变量 以免for循环时候上次循环n的值被重新赋值

def getimg():

    global n

    n = 1

    for url in urls:

        html = rq.get(url).text

        regex = re.compile('<img src="(.*?.jpg)" alt=')

        img_url = re.findall(regex, html)[0]

        #urllib.urlretrieve(img_url, '%s.jpg' % n) ，此处为Python2.7 写法

        urllib.request.urlretrieve(img_url, '%s.jpg' % n) #prython3.6写法

        n += 1

# main函数 调用上面的两个函数  urls是个全局变量 取23张页面 下载23张图

def main():

    global urls

    urls = ['http://www.mzitu.com/74100/{}'.format(str(i)) for i in range(1, 24)]

    path = create_catename()

    # 创建文件目录

    os.mkdir(path)

    # 切换到该目录

    os.chdir(path)

    time.sleep(2)

    getimg()

main()

Python 2.7和3.6爬取妹子图网站单页测试图片的更多相关文章

Python 2.7_爬取妹子图网站单页测试图片_20170114
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
Python协程爬取妹子图(内有福利，你懂得~)
项目说明: 1.项目介绍本项目使用Python提供的协程+scrapy中的选择器的使用(相当好用)实现爬取妹子图的(福利图)图片,这个学会了,某榴什么的.pow(2, 10)是吧! 2.用到的知 ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
Python爬虫实例（一）爬取百度贴吧帖子中的图片
程序功能说明:爬取百度贴吧帖子中的图片,用户输入贴吧名称和要爬取的起始和终止页数即可进行爬取. 思路分析: 一.指定贴吧url的获取例如我们进入秦时明月吧,提取并分析其有效url如下 http:// ...
python爬取妹子图全站全部图片-可自行添加-线程-进程爬取，图片去重
from bs4 import BeautifulSoupimport sys,os,requests,pymongo,timefrom lxml import etreedef get_fenlei ...
使用requests+BeaBeautiful Soup爬取妹子图图片
1. Requests:让 HTTP 服务人类 Requests 继承了urllib2的所有特性.Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定 ...
Python 爬取妹子图(技术是无罪的)
... #!/usr/bin/env python import urllib.request from bs4 import BeautifulSoup def crawl(url): header ...
Python 爬取妹子图(技术是无罪的)
... import requests from bs4 import BeautifulSoup import os import sys class mzitu(): def html(self, ...

随机推荐

anglar JS使用两层ng-repeat嵌套使用，分辨$index
使用ng-init给首层的每个元素赋值一个独立的值. ng-init="outerIndex = $index;" HTML: <div class="catego ...
php5.6+apache2.4+linux搭建php环境
前言最近突然想搭建个人博客,尽管笔者擅长java-web,但综合各种原因,于是选择了大众化的php+mysql搭建个人博客.对于php,只闻其大名,但从未学过,于是,笔者将从php环境搭建开始,到服 ...
python学习之老男孩python全栈第九期_数据库day004 -- 作业
https://www.cnblogs.com/YD2018/p/9451809.html 11. 查询学过“001”并且也学过编号“002”课程的同学的学号.姓名 select student.si ...
Android手动显示和隐藏软键盘
1.方法一(如果输入法在窗口上已经显示,则隐藏,反之则显示) InputMethodManager imm = (InputMethodManager) getSystemService(Contex ...
bzoj1061 NOI2018 志愿者招募——solution
Description 申奥成功后,布布经过不懈努力,终于成为奥组委下属公司人力资源部门的主管.布布刚上任就遇到了一个难题:为即将启动的奥运新项目招募一批短期志愿者.经过估算,这个项目需要N 天才能 ...
Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...
润乾配置连接kingbase（金仓）数据库
问题背景客户根据项目的不同,使用润乾连接的数据库类型各种各样,此文针对前几日使用润乾设计器连接kingbase金仓数据库做一个说明. kingbase金仓数据库是一款国产数据库,操作方式和配置 ...
FastDFS部署安装全过程
你好!欢迎阅读我的博文,你可以跳转到我的个人博客网站,会有更好的排版效果和功能. 此外,本篇博文为本人Pushy原创,如需转载请注明出处:https://pushy.site/posts/153205 ...
zabbix系列之一——简要介绍
参考来源:(官网) https://www.zabbix.com/documentation/3.4/manual/introduction/about 1what’s zabbix? index d ...
LeetCode题解之Add two numbers
1.题目描述 2.题目描述题目思路可以参考合并单链表的思路,定义一个全局进位标志,如果两个数值相加得到需要进位,则将进位标志置为1 . 3.代码 ListNode* addTwoNumbers(L ...

Python 2.7和3.6爬取妹子图网站单页测试图片

Python 2.7和3.6爬取妹子图网站单页测试图片的更多相关文章

随机推荐

热门专题