一、request安装

pip install requests

request使用示例

import requests

response = requests.get('https://www.mzitu.com/') # get()方法发送请求，获取HTML网页

response.status_code  # 返回状态码

response.text  #以文本格式返回网页内容

response.content  # 以二进制形式返回

二、BeautifulSoup库

BeautifulSoup是Python的一个库，最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理，全部页面转变为字典或者数组。

pip install beautifulsoup4

BeautifulSoup基本使用

三、抓取图片

from bs4 import BeautifulSoup

url='http://www.mzitu.com'

res = requests.get(url)    # get()方法发送请求，获取HTML网页

soup = BeautifulSoup(res.text, 'html.parser')  # # 使用BeautifulSoup来解析我们获取到的网页

#coding=utf-8

import requests

from bs4 import BeautifulSoup

def imgurl(url):

    res = requests.get(url)   # url为a标签的helf链接，即为图片封面的图片

    soup = BeautifulSoup(res.text, 'html.parser')   # 使用BeautifulSoup来解析我们获取到的网页

    page = int(soup.select('.pagenavi span')[-2].text)   # 获取总页数，-2为去掉上下页

    # a = soup.select('.main-image a')[0]  # 获取当前图片链接

    # src = a.select('img')[0].get('src')

    src = soup.select('.main-image a img')[0].get('src')  # 获取图片链接

    meiziid = src[-9:-6]  # 切片将src的倒数的字符串做名字

    print('开始下载妹子:', format(meiziid))  # 输出窗口提示下载

    for i in range(1, page+1):

        i = '%02d' % i

        img = src.replace('01.jpg', str(i)+'.jpg')  # replace()替换页数

        #  添加headers模拟浏览器工作 反反爬

        headers = {

            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',

            'Referer': 'http://www.mzitu.com'

        }

        response = requests.get(img, headers=headers)

        f = open('/Users/xcn/Desktop/mzitu/'+meiziid+'%s.jpg' % i, 'wb')  # 放在D:\666\目录下

        f.write(response.content)

        f.close()

        print('===> %s 完成 ' % (meiziid + i))

    print(' %s 已下载\n' % meiziid)

def imgpage(page=''):

    res = requests.get('http://www.mzitu.com/page/' + page)

    soup = BeautifulSoup(res.text, 'html.parser')  # 解析页面

    href = soup.select('#pins a')  # 筛选

    list = set([i.get('href') for i in href])  # 遍历获取筛选后的href链接并用set()去掉重复的链接

    [imgurl(i) for i in list]  # 遍历下载

result = input('下载哪一页：')

imgpage(result)

四、大功告成

使用request+Beautiful爬取妹子图的更多相关文章

Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
scrapy 也能爬取妹子图？
目录前言 Media Pipeline 启用Media Pipeline 使用 ImgPipeline 抓取妹子图瞎比比前言我们在抓取数据的过程中,除了要抓取文本数据之外,当然也会有抓取图片的需 ...
requests+正则表达式爬取妹子图
做了一个爬取妹子图某张索引页面的爬虫,主要用request和正则表达式. 感谢崔庆才大神的爬虫教学视频和 gitbook: B站:https://www.bilibili.com/video/a ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
爬取妹子图(requests + BeautifulSoup)
刚刚入门爬虫,今天先对于单个图集进行爬取,过几天再进行翻页爬取. 使用requests库和BeautifulSoup库目标网站:妹子图今天是对于单个图集的爬取,就选择一个进行爬取,我选择的链接为: ...
利用 PhpQuery 随机爬取妹子图
前言运行下面的代码会随机得到妹子图的一张图片,代码中的phpQuery可以在这里下载:phpQuery-0.9.5.386.zip <?php require 'phpQuery.php'; ...
python 爬取妹子图
作为一个python还没入门的小白,搞懂这段代码实在是很不容易,还要去学html的知识(#黑脸) 因此我加上了注释,比较好读懂点 #coding=utf-8 import time import re ...
Python爬虫个人记录（三）爬取妹子图
这此教程可能会比较简洁,具体细节可参考我的第一篇教程: Python爬虫个人记录(一)豆瓣250 Python爬虫个人记录(二)fishc爬虫一.目的分析获取煎蛋妹子图并下载 http://jan ...

随机推荐

对于开发WEB方面项目需要的工具和技术了解
1.IDE:Webstorm,JavaScript 开发工具. 2.版本管理系统:Git,独一无二. 3.单元测试:jsamine,前后端共用.Jasmine是我们梦寐以求的Javascript测试框 ...
多线程操作C++ STL vector出现概率coredump问题及尽量避免锁的双缓冲队列
多线程操作全局变量,必须考虑同步问题,否则可能出现数据不一致, 甚至触发coredump. 前段时间, 遇到一个多线程操作了全局的vector的问题, 程序崩了.场景是这样的:某全局配置参数保存在一 ...
redis开启远程连接访问和需要密码的方法
redis默认是不能远程访问的,如果希望多台机子共用redis数据库,那就需要开启redis远程连接访问.既然可以远程连接了,那就需要密码登陆,否则不安全.下面是具体的方法,按照步骤一步一步来就OK了 ...
logstash.conf 根据不同地址创建索引
input { http { host => "0.0.0.0" port => 9700 type => "from_ys" }}input ...
（十一）T检验-第二部分
了解什么是有效大小,尝试一个单一样本t检验的完整示例. 效应量调查研究的一个重要方面是效应量,在实验性研究中或存在处理变量的研究中,效应量是指处理效应的大小,意思很直观: 在非实验性研究中,效应量是 ...
Day10 上传和下载
上传将本地文件传输到服务器 jsp:  文件上传的请求方式必须是post  input的type必须是file  enctype="multipart/form-data" ...
理解JavaScript继承（三）
理解JavaScript继承(三) 通过把父对象的属性,全部拷贝给子对象,也能实现继承. 7.浅拷贝 function extendCopy(p) { var o = {}; for (var pro ...
Python自动化之modelform和原生ajax
modelform验证 `views.py` from django.shortcuts import render,HttpResponse from app01 import models fro ...
内存，缓存，cpu，硬盘关系
RAM(random access memory)即随机存储内存,这种存储器在断电时将丢失其存储内容,故主要用于存储短时间使用的程序.我把它叫耗电存储器 ROM(Read-Only Memory)即只 ...
gitblit-1.8.0域认证
gitblit-1.8.0\data\defaults.properties # # DEFAULTS.PROPERTIES # # The default Gitblit settings. # # ...

使用request+Beautiful爬取妹子图

一、request安装

二、BeautifulSoup库

三、抓取图片

四、大功告成

使用request+Beautiful爬取妹子图的更多相关文章

随机推荐

热门专题