本文介绍两种爬取方式:

1.正则表达式

2.bs4解析Html

以下为正则表达式爬虫,面向对象封装后的代码如下:

import urllib.request  # 用于下载图片
import os
import requests # 发送http请求
import re # 正则表达式匹配 class GetJpg(object): def __init__(self, start_urls):
self.start_urls = start_urls def get_response(self,url): '''获取网页响应内容''' response = requests.get(url).text
return response def get_content(self,html): '''获取网页响应内容中所有图片的整体div部分''' reg = re.compile(r'(<div class="j-r-list-c">.*?</div>.*?</div>)', re.S)
return re.findall(reg, html) def get_jpg_url(self,content): '''获取图片url''' reg = r'data-original="(.*?)"'
return re.findall(reg, content) def get_jpg_name(self,content): ''' 获取图片名称''' reg = re.compile(r'<a href="/detail-.{8}.html">(.*?)</a>')
return re.findall(reg, content) def download_jpg(self,src_url, path,index): '''下载图片保存到本地目录''' path = ''.join(path.split())
path = 'E:\Python\爬图片\{name}.{index}'.format(name=path,index=index)
if not os.path.exists(path):
urllib.request.urlretrieve(src_url, path) # 下载图片
print('OK!!!')
else:
print('文件已存在') def get_url_name(self,start_url): ''' 逐页下载,本部分本来可以放在main函数里,考虑到会多嵌套一个循环所以单独拿出来作为一个函数''' content = self.get_content(self.get_response(start_url))
for i in content:
jpg_url = self.get_jpg_url(i)
if jpg_url:
jpg_name = self.get_jpg_name(i)
index = jpg_url[0].split('.')[-1]
try:
self.download_jpg(jpg_url[0], jpg_name[0],index)
except:
continue def main(self): ''' 执行''' [self.get_url_name(start_url) for start_url in self.start_urls] # 此处列表生成器来执行
# 这部分的代码相当于:
# for start_url in self.start_urls:
# self.get_url_name(start_url) if __name__ == '__main__':
start_urls = ['http://www.budejie.com/{id}'.format(id=i) for i in range(1,10)]
jpg = GetJpg(start_urls) # 实例化一个对象
jpg.main()

以下为使用bs4爬取的代码:

from bs4 import BeautifulSoup
import urllib.request
import re def get_urls(img_girl):
'''
:param img_girl: <img>标签内容
:return: 所有图片的url
'''
all_urls = [girl.get('src') for girl in img_girl]
return all_urls def get_img_name(img_girl):
'''
:param img_girl: <img>标签内容
:return: 所有图片title
''' all_name = [girl.get('title') for girl in img_girl]
return all_name def get_img_resource(url):
'''
:param url:网站url
:return:网页源码中的所有<img>标签内容
'''
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36',
'Accept - Language': 'zh - CN, zh;q = 0.8'
} # 添加请求头部,模拟浏览器
req = urllib.request.Request(url, headers=headers) # 创建对象
res = urllib.request.urlopen(req, timeout=20) # 发送请求
content = res.read() # 获取响应网页源码
soup = BeautifulSoup(content,'html.parser') # HMTL源码解析
img_girl = soup.find_all('img') # 获取 源码中的<img>标签模块内容
return img_girl def main(url):
'''
下载保存图片
:param url: 网站url
'''
urls = get_urls(get_img_resource(url))
names = get_img_name(get_img_resource(url))
x = 1
for src_url in urls:
path_l = re.split(r'\W', names[urls.index(src_url)]) # 去除图片名称中的特殊字符,不然文件名可能在保存的时候报错
path = ''.join(path_l)
path = 'E:\Python\爬图片\BS4\{name}_{index}.jpg'.format(name=path,index=x)
urllib.request.urlretrieve(src_url, path)
print('OK')
x += 1 if __name__ == "__main__":
urls = ['https://www.dbmeinv.com/dbgroup/show.htm?cid=4&pager_offset={i}'.format(i=id)for id in range(1,10) ]
[main(url)for url in urls]

bs4面向对象封装后代码:

from bs4 import BeautifulSoup
import urllib.request
import re class GetWebImg(object): def __init__(self, url, index):
self.url = url
self.index = index def get_urls(self,img_girl):
'''
:param img_girl: <img>标签内容
:return: 所有图片的url
'''
all_urls = [girl.get('src') for girl in img_girl]
return all_urls def get_img_name(self,img_girl):
'''
:param img_girl: <img>标签内容
:return: 所有图片title
''' all_name = [girl.get('title') for girl in img_girl]
return all_name def get_img_resource(self, url):
'''
:param url:网站url
:return:网页源码中的所有<img>标签内容
'''
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36',
'Accept - Language': 'zh - CN, zh;q = 0.8'
} # 添加请求头部,模拟浏览器
req = urllib.request.Request(url, headers=headers) # 创建对象
res = urllib.request.urlopen(req, timeout=20) # 发送请求
content = res.read() # 获取响应网页源码
soup = BeautifulSoup(content, 'html.parser') # HMTL源码解析
img_girl = soup.find_all('img') # 获取 源码中的<img>标签模块内容
return img_girl def main(self):
'''
下载保存图片
:param url: 网站url
'''
url_list = self.get_urls(self.get_img_resource(self.url))
name_list = self.get_img_name(self.get_img_resource(self.url))
x = 1
for src_url in url_list:
path_l = re.split(r'\W', name_list[url_list.index(src_url)]) # 去除图片名称中的特殊字符,不然文件名可能在保存的时候报错
path = ''.join(path_l)
path = 'E:\Python\爬图片\BS4\{name}_{index}_{id}.jpg'.format(name=path, index=self.index,id =x)
urllib.request.urlretrieve(src_url, path)
print('第{index}页第{id}张图片下载OK'.format(index=self.index,id =x))
x += 1 if __name__ == "__main__":
urls = ['https://www.dbmeinv.com/dbgroup/show.htm?cid=4&pager_offset={i}'.format(i=id)for id in range(1,10) ]
index = 1
for url in urls:
get_img = GetWebImg(url,index)
get_img.main()
index += 1

运行结果:

python网络爬虫抓取网站图片的更多相关文章

  1. 如何利用Python网络爬虫抓取微信朋友圈的动态(上)

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  2. 利用Python网络爬虫抓取微信好友的签名及其可视化展示

    前几天给大家分享了如何利用Python词云和wordart可视化工具对朋友圈数据进行可视化,利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,以及利用Python网络爬虫抓取微信好友的所 ...

  3. 利用Python网络爬虫抓取微信好友的所在省位和城市分布及其可视化

    前几天给大家分享了如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例,感兴趣的小伙伴可以点击链接进行查看.今天小编给大家介绍如何利用Python网络爬虫抓取微信好友的省位和城市,并且将 ...

  4. 如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例

    前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...

  5. Python入门-编写抓取网站图片的爬虫-正则表达式

    //生命太短 我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻 大工程 #config = ut ...

  6. python网络爬虫抓取动态网页并将数据存入数据库MySQL

    简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...

  7. 使用selenium实现简单网络爬虫抓取MM图片

    撸主听说有个网站叫他趣,里面有个社区,其中有一项叫他趣girl,撸主点进去看了下,还真不错啊,图文并茂,宅男们自己去看看就知道啦~ 接下来当然就是爬取这些妹子的图片啦,不仅仅是图片,撸主发现里面的对话 ...

  8. Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子

    首先分析页面URL,形如http://dbmeizi.com/category/[1-14]?p=[0-476] 图片种类对应编号: 1:'性感', 2:'有沟', 3:'美腿', 4:'小露点', ...

  9. Python -- 网络编程 -- 抓取网页图片 -- 图虫网

    字符串(str)编码成字节码(bytes),字节码解码为字符串 获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.pa ...

随机推荐

  1. JeeSite 4.0

    http://jeesite.com/ JeeSite 是一个 Java EE 企业级快速开发平台,基于经典技术组合(Spring Boot.Spring MVC.Apache Shiro.MyBat ...

  2. MySQL连接、登录、密码等

    官方教程:https://dev.mysql.com/doc/refman/8.0/en/ 链接数据库,通过指定 -h 参数可以连接网络上的数据库 mysql -u 用户名 -h 服务器IP -P 端 ...

  3. Homestead 修改 Homestead.yaml 文件后 vagrant up 报错的问题

    一般情况是 TAB 和空格的问题. 虽然表面看来,缩进是一致的. 但是 TAB 没能替换为空格,从而导致问题. 解决: $ sudo vim /etc/vim/vimrc.local syntax o ...

  4. 异常Throwable

    1.有效处理java异常三原则 java中异常提供了一种识别及响应错误情况的一致性机制,有效地异常处理能使程序更加健壮,易于调试.异常之所以是一种强大的调试手段,在于其回答了以下三个问题: 什么出了错 ...

  5. Java虚拟机的相关笔记

    1.垃圾GC回收事件Minor GC(只清除新生代),Full GC(清除新生代和老年代),Major GC(清除新生.老年代和持久代). 2.堆分为新生代.老年代和持久代,持久代一般存放静态文件. ...

  6. sql条件查询-日期比较(取年月部分)

    查询当年当月的数据: select * from compalete_task where to_Char(create_date,'yyyyMM') = to_Char(sysdate,'yyyyM ...

  7. 用php脚本比较MySQL两个数据库的结构差异

    define('DATABASE1', 'mysql://root:password@127.0.0.1/db1'); $dbi1 = new DbMysql; $dbi1->dbh = DAT ...

  8. Asp.Net 启用全局IE兼容模式

    Asp.Net 启用全局IE兼容模式,不失为一个种简单最有效的解决方案: <system.webServer> <!-- 配置全局兼容 --> <httpProtocol ...

  9. BP神经网络的数学常识

    输入数据X1-Xn. 输入层和隐层之间的权Wji 隐层的输入数据为:∑iwjixi 隐层的输出数据为:yj = f(∑iwjixi).其中f(x)= 隐层的输入数据为:∑jwkjyj 隐层的输出数据为 ...

  10. 关于Cell中的各种值的类型判断

    switch (cell.getCellType()){ case Cell.CELL_TYPE_NUMERIC: //数字 cellValue = stringDateProcess(cell); ...