bs4解析-优美图库



import requests

from bs4 import BeautifulSoup

url = 'http://www.umeituku.com/bizhitupian/meinvbizhi/'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.41'

}

resp = requests.get(url=url, headers=headers)

resp.encoding = 'utf-8'

# 1.把页面源代码交给BeautifulSoup进行处理，生成bs对象

page = BeautifulSoup(resp.text, 'html.parser')  # 设置解析器

# 2.定位具体位置

# 第一个find('div',class_='TypeList') 只能找到外圈一层，如果此时打印出来，不好处理，有很多杂乱的信息

# 第二个find_all('a') 在前面的基础上找到每一个标签 a 返回成列表

alist = page.find('div', class_='TypeList').find_all('a')  # class是python关键字，所以要写成class_

for a in alist:

    # 得到页面的每一个下一层地址

    # 获取满足条件的每个a标签中属性‘href’的值

    href = a.get('href')

    # print(href)

    while True:

        # 获取下一层的页面

        resp2 = requests.get(url=href, headers=headers)

        resp2.encoding = 'utf-8'

        # 生成bs4对象

        page2 = BeautifulSoup(resp2.text, 'html.parser')

        # 定位

        '''

        # 1.通过page2.find('div',class_="ImageBody") 定位到下面这段

        <div class="ImageBody" id="ArticleId60">

            <p align="center">

                <a href="203957_2.htm">

                    <img alt="" src="https://i1.huishahe.com/uploads/tu/201911/9999/d0fcb718a2.jpg"/>

                </a>

            </p>

        </div>

        # 2.再find('img')找到

        <img alt="" src="https://i1.huishahe.com/uploads/tu/201911/9999/d0fcb718a2.jpg"/>

        # 3.再get得到

        https://i1.huishahe.com/uploads/tu/201911/9999/d0fcb718a2.jpg

        讲究一个循环渐进

        '''

        # 如果本页没有找到src报AttributeError错误，说明到底了，就结束本次循环

        try:

            src = page2.find('div', class_="ImageBody").find('img').get('src')

        except AttributeError as at:

            break

        # 下载图片

        img_resp = requests.get(url=src, headers=headers)

        # print(src)

        # 取个文件名

        name = src.split('/')[-1]

        with open('other/tupian/' + name, mode='wb') as f:

            f.write(img_resp.content)

        print(name + '下载成功！')

        # 如果没有下一页报AttributeError错误，就停止本次循环。

        try:

            next_href = page2.find('div', class_="ImageBody").find('a').get('href')

        except AttributeError as at:

            break

        href = 'http://www.umeituku.com/bizhitupian/meinvbizhi/' + next_href

        # print(href)

        resp2.close()

        img_resp.close()

resp.close()

bs4解析-优美图库的更多相关文章

python爬取优美图库海量图片，附加代码，一键爬取
优美高清图片为大家提供高清美女套图赏析,非高清不录入,大家的网速要给力. 今天教大家爬取优美图库网站中高质量的图片!! 简单易上手哦~ 使用工具: Python 3.6 pycharm 相关环境: r ...
bs4解析库
beautifulsoup4 bs4解析库是灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便地实现网页的提取要解析的html标签 from bs4 import B ...
bs4 解析以及用法
bs4解析 bs4: 环境安装: lxml bs4 bs4编码流程: 1.实例化一个bs4对象,且将页面源码数据加载到该对象中 2.bs相关的方法或者属性实现标签定位 3.取文本或者取属性 bs的属性 ...
Python3.x：bs4解析html基础用法
Python3.x:bs4解析html基础用法代码: import urllib.request from bs4 import BeautifulSoup import re url = r'ht ...
爬虫的三种解析方式(正则解析, xpath解析, bs4解析)
一 : 正则解析 : 常用正则回顾: 单字符: . : 除换行符以外的所有字符 [] : [aoe] [a-w] 匹配集合中任意一个字符 \d : 数字 [0-9] \D : 非数字 \w : 非数字 ...
bs4解析
介绍:将一个html文档转换成BeautifulSoup对象,然后通过对象的方法或属性查找指定的节点内容转换本地文件: soup = BeautifulSoup(fp,'lxml') fp为文档 ...
python bs4解析网页时 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to inst（转）
Python小白,学习时候用到bs4解析网站,报错 bs4.FeatureNotFound: Couldn't find a tree builder with the features you re ...
爬虫系列二(数据清洗--->bs4解析数据)
一 BeautifulSoup解析 1 环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %ap ...
pytho爬虫使用bs4 解析页面和提取数据
页面解析和数据提取关注公众号"轻松学编程"了解更多. 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的 ...
bs4解析要获取被注掉的部分需先将注释符号去掉
<div class="xzcf-content"> <div id="sfxz"> <div class="main- ...

随机推荐

Docker的Portainer认识、安装、使用
一.认识 docker的图形化界面 Portainer 是一个轻量级的容器管理界面,可以让用户更轻松地管理 Docker 容器.镜像.网络和数据卷等.Portainer 提供了一个用户友好的 Web ...
坐标轴调控大揭秘：Matplotlib坐标轴设置全攻略+顺口溜，一文掌握！
在数据可视化的世界里,Matplotlib是那把魔法棒,让枯燥的数据跃然纸上,而掌控这把魔法棒的核心,就是对坐标轴的精妙操作.今天,就让我们一起揭开Matplotlib坐标轴设置的神秘面纱,配上易记的 ...
ITIL是标准吗？
ITIL不是标准 OGC:是一个推荐的管理框架,一个模版,可根据运维实践自由裁量落地 itil诞生环境:欧美思维.欧美文化.欧美制度.欧美人文习惯.... 对欧美来说可能是最佳实践,但是对中国特色文化 ...
中国ITSM研发创新之路
沿着 itil v3+java流程引擎的老套路没办法搞出新的名堂了,所以必须要创新1. 理论创新关于ITIL辩证分析的文章我已经写了很多,不一一赘述.我的观念是与其坐等洋和尚来洗脑宣贯,不如自己主动 ...
PyTorch的安装与使用
技术背景 PyTorch是一个非常常用的AI框架,主要归功于其简单易用的特点,深受广大科研人员的喜爱.在前面的一篇文章中我们介绍过制作PyTorch的Singularity镜像的方法,这里我们单独抽出 ...
rails byebug
Gemfile里添加 gem 'byebug' bundle install 在要打断点的地方写 byebug byebug -h #帮助 c 放行,入下走 n 单行调适 q 退出进行启动异步任务推 ...
06. C语言指针
[指针] C语言使用数据名调用数据,数据名相当于C语言的直接寻址,直接寻址只能调用固定数据,而指针是间接寻址,指针存储了另一个数据的地址,使用指针调用数据时首先取指针存储的内存地址,之后使用此地址调用 ...
网络安全—SSL安全访问应用
文章目录网络拓扑部署CA服务器颁发证书开启Web服务安装IIS服务修改Web默认网页申请Web证书前提准备申请文件生成申请web证书开始安装web证书客户机访问web默认网站使 ...
密码学—重合指数法Python程序
重合指数(Ic) 计算重合指数就是用来验证在Kasiski测试法中猜测出来的各种密钥长度哪一个才是最接近真实密钥长度的. 计算重合指数步骤按照Kasiski测试法猜测的密钥长度分组 ↓ 分好组之后将 ...
openssl 生成多域名多IP 的数字证书
openssl.cnf 文件内容: [req] default_bits = 2048 distinguished_name = req_distinguished_name copy_extensi ...

bs4解析-优美图库

bs4解析-优美图库的更多相关文章

随机推荐

热门专题