import requests
from bs4 import BeautifulSoup url = 'http://www.umeituku.com/bizhitupian/meinvbizhi/' headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.41'
} resp = requests.get(url=url, headers=headers)
resp.encoding = 'utf-8' # 1.把页面源代码交给BeautifulSoup进行处理,生成bs对象
page = BeautifulSoup(resp.text, 'html.parser') # 设置解析器 # 2.定位具体位置
# 第一个find('div',class_='TypeList') 只能找到外圈一层,如果此时打印出来,不好处理,有很多杂乱的信息
# 第二个find_all('a') 在前面的基础上找到每一个标签 a 返回成列表
alist = page.find('div', class_='TypeList').find_all('a') # class是python关键字,所以要写成class_ for a in alist:
# 得到页面的每一个下一层地址
# 获取满足条件的每个a标签中属性‘href’的值
href = a.get('href')
# print(href) while True:
# 获取下一层的页面
resp2 = requests.get(url=href, headers=headers)
resp2.encoding = 'utf-8' # 生成bs4对象
page2 = BeautifulSoup(resp2.text, 'html.parser') # 定位
'''
# 1.通过page2.find('div',class_="ImageBody") 定位到下面这段
<div class="ImageBody" id="ArticleId60">
<p align="center">
<a href="203957_2.htm">
<img alt="" src="https://i1.huishahe.com/uploads/tu/201911/9999/d0fcb718a2.jpg"/>
</a>
</p>
</div>
# 2.再find('img')找到
<img alt="" src="https://i1.huishahe.com/uploads/tu/201911/9999/d0fcb718a2.jpg"/>
# 3.再get得到
https://i1.huishahe.com/uploads/tu/201911/9999/d0fcb718a2.jpg
讲究一个循环渐进
'''
# 如果本页没有找到src报AttributeError错误,说明到底了,就结束本次循环
try:
src = page2.find('div', class_="ImageBody").find('img').get('src')
except AttributeError as at:
break # 下载图片
img_resp = requests.get(url=src, headers=headers)
# print(src)
# 取个文件名
name = src.split('/')[-1]
with open('other/tupian/' + name, mode='wb') as f:
f.write(img_resp.content)
print(name + '下载成功!') # 如果没有下一页报AttributeError错误,就停止本次循环。
try:
next_href = page2.find('div', class_="ImageBody").find('a').get('href')
except AttributeError as at:
break
href = 'http://www.umeituku.com/bizhitupian/meinvbizhi/' + next_href
# print(href)
resp2.close()
img_resp.close()
resp.close()

bs4解析-优美图库的更多相关文章

  1. python爬取优美图库海量图片,附加代码,一键爬取

    优美高清图片为大家提供高清美女套图赏析,非高清不录入,大家的网速要给力. 今天教大家爬取优美图库网站中高质量的图片!! 简单易上手哦~ 使用工具: Python 3.6 pycharm 相关环境: r ...

  2. bs4解析库

    beautifulsoup4 bs4解析库是灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便地实现网页的提取 要解析的html标签 from bs4 import B ...

  3. bs4 解析 以及用法

    bs4解析 bs4: 环境安装: lxml bs4 bs4编码流程: 1.实例化一个bs4对象,且将页面源码数据加载到该对象中 2.bs相关的方法或者属性实现标签定位 3.取文本或者取属性 bs的属性 ...

  4. Python3.x:bs4解析html基础用法

    Python3.x:bs4解析html基础用法 代码: import urllib.request from bs4 import BeautifulSoup import re url = r'ht ...

  5. 爬虫的三种解析方式(正则解析, xpath解析, bs4解析)

    一 : 正则解析 : 常用正则回顾: 单字符: . : 除换行符以外的所有字符 [] : [aoe] [a-w] 匹配集合中任意一个字符 \d : 数字 [0-9] \D : 非数字 \w : 非数字 ...

  6. bs4解析

    介绍:将一个html文档转换成BeautifulSoup对象,然后通过对象的方法或属性查找指定的节点内容 转换本地文件: ​ soup = BeautifulSoup(fp,'lxml') fp为文档 ...

  7. python bs4解析网页时 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to inst(转)

    Python小白,学习时候用到bs4解析网站,报错 bs4.FeatureNotFound: Couldn't find a tree builder with the features you re ...

  8. 爬虫系列二(数据清洗--->bs4解析数据)

    一 BeautifulSoup解析 1 环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %ap ...

  9. pytho爬虫使用bs4 解析页面和提取数据

    页面解析和数据提取 关注公众号"轻松学编程"了解更多. 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据 和 结构化的 ...

  10. bs4解析要获取被注掉的部分需先将注释符号去掉

    <div class="xzcf-content"> <div id="sfxz"> <div class="main- ...

随机推荐

  1. THUWC2024&NOIWC2024游记

    以 NOIWC 考试日为 Day 1 好了. Day -6 到重庆了.去报到,然后直接不去试机走了,这波主打一个自信. Day -5 THUWC Day1,四道传统题. 开 T1,一眼有一个 \(O( ...

  2. gprMax电磁波正演模拟方法

    文章首发于:https://blog.zhaoxuan.site/archives/37.html: 第一时间获取最新文章请关注博客个人站:https://blog.zhaoxuan.site. 目录 ...

  3. 深度学习项目-MobileNetV2水果识别模型

    FruitRecognition DeepLearning深度学习小项目,利用CNN和MobileNetV2搭建的水果识别模型. github地址 fruit为本次大作业使用的数据集. geneFru ...

  4. python连接redis,mongodb以及简单命令使用

    redis 环境如下: [root@mcw01 ~/msRedis]$ ps -ef|grep -v grep|grep redis root 46061 1 0 14:28 ? 00:00:45 r ...

  5. golang kmp算法实现

    // 不多逼逼直接上代码.原理的话可以参考下面的链接.讲的非常清晰package main import "fmt" func genNext(s string) []int { ...

  6. 008. gitlab代码克隆与推送

    推送配置 gitlab需要推送的客户端sshkey添加到gitlab服务器中 node1 推送配置 centos node1: [root@node1 ~]# cat ~/.ssh/id_rsa.pu ...

  7. UIScrollView 在Autolayout下使用的一些问题

    一.UIScrollView 双指放大手势,双击放大实现 在设置UIScrollView的frame后.maxZoomScale 和 minZoomScale之后,UIScrollView会自然支持双 ...

  8. k8s——kubctl命令基础

    语法 kubevtl [command] [type] [name] [flags] command: 指定要对一个或多个资源执行的操作,例如,`create`,`get`,`describe`,`d ...

  9. kettle从入门到精通 第四十九课 ETL之kettle 自定义插件01

    1.kettle插件是什么 kettle本身有足够多的转换或者job步骤,但是依然不能覆盖所有的业务场景,所以Kettle 自定义插件在有些独特的业务场景可以大显身手. Kettle的插件架构使得我们 ...

  10. Python + redis操作Redis数据库

    Redis redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(sorte ...