Day04_网络爬虫图片收获

#所需模块 requests 、Beautifulsoup、urllib

1. response = requests.get('www.baidu.com') #获取网站响应

2.html = response.text #获取网页内容

3.soup = Beautifulsoup(html,'html.parser') #创建对象，对网页进行解析

4.girl = soup.find_all('img') #根据img标签进行查找，形成列表

5.imgsrc = i.get('src') #根据src字段进行获取src路径

6.urllib.request.urlretrieve(imgsrc,'./iamge/%s.jpg'%x) #下载图片

附代码：

#Author_Liukai 2018年8月13日07:43:35

import requests
import urllib.request
from bs4 import BeautifulSoup

x = 1

def getgirlimg(page):
    response = requests.get('https://www.dbmeinv.com/index.htm?cid={}'.format(page+1))
    html = response.text
    soup = BeautifulSoup(html,'html.parser')
    girl = soup.find_all('img')
    global x
    for i in girl:
        imgsrc = i.get('src')
        print('下载第{}张图片'.format(x))
        urllib.request.urlretrieve(imgsrc,'./image1/%s.jpg'%x)
        x+=1

for i in range(1,11):
    print('+++++++++++++++++++++')
    print('正在准备下载第{}页图片'.format(i))
    print('+++++++++++++++++++++')
    getgirlimg(i)

Day04_网络爬虫图片收获的更多相关文章

java假设模拟请求重新启动路由器(网络爬虫经常使用)，还有java怎样下载图片
我们假设在公司或家里使用网络爬虫去抓取自己索要的一些数据的时候,经常对方的站点有defence机制,会给你的http请求返回500错误,仅仅要是同样IP就请求不到数据,这时候我们仅仅能去重新启动路由器 ...
手把手教你写基于C++ Winsock的图片下载的网络爬虫
手把手教你写基于C++ Winsock的图片下载的网络爬虫先来说一下主要的技术点: 1. 输入起始网址,使用ssacnf函数解析出主机号和路径(仅处理http协议网址) 2. 使用socket套接字 ...
php 网络爬虫，爬一下花瓣的图片
今天无聊看在知乎上看到有人写网络爬虫爬图片(￣▽ ￣) 传送门: 福利 - 不过百行代码的爬虫爬取美女图:https://zhuanlan.zhihu.com/p/24730075 福利 - 不过十行 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
吴裕雄--天生自然python学习笔记：编写网络爬虫代码获取指定网站的图片
我们经常会在网上搜索井下载图片,然而一张一张地下载就太麻烦了,本案例就是通过网络爬虫技术, 一次性下载该网站所有的图片并保存 . 网站图片下载并保存将指定网站的 .jpg 和 .png 格式的图片 ...
ASP.NET网络爬虫小研究 HtmlAgilityPack基础，爬取数据保存在数据库中再显示再自己的网页中
1.什么是网络爬虫关于爬虫百度百科这样定义的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些 ...
第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...

随机推荐

Spark读写HBase
Spark读写HBase示例 1.HBase shell查看表结构 hbase(main)::> desc 'SDAS_Person' Table SDAS_Person is ENABLED ...
NPM 报错--fs: re-evaluating native module sources is not supported. If you are using the graceful-fs module
fs: re-evaluating native module sources is not supported. If you are using the graceful-fs module 解决 ...
css实现横向带箭头步骤流程效果
通过纯css实现圆角的步骤流程效果,扩展性强,可以随意增加减少数量,兼容性ie6+. 具体代码: <style type="text/css"> ul{margin:0 ...
mac下idea搭建maven项目的一些问题总结
1.关于版本目标原版与原发行版本不一致 <build> <finalName>comment</finalName> <plugins> <pl ...
for 循环常见内置参数
系统相关的信息模块: import sys sys.argv 是一个 list,包含所有的命令行参数. sys.stdout sys.stdin sys.stderr 分别表示标准输入输出,错误输出的 ...
java中的多线程入门
进程:一个进程包括由操作系统分配的内存空间,包含一个或多个线程.一个线程不能独立的存在,它必须是进程的一部分.一个进程一直运行,直到所有的非守护线程都结束运行后才能结束. 而多线程的好处就是效率高,充 ...
java ssl 连接AD域
1.安装证书服务和IIS服务,不需要启动asp.(其会在c盘生成一个crt文件)2.获取crt证书文件 windows 2003:文件位于系统盘根目录 windows 2008: 文件位于C:\Win ...
Surface RT2使用情况
Surface RT2是一个6年的古董了,暂时还能使用的功能包括但不限于一些xbox小游戏,ppt阅读(加载慢),pdf阅读(加载慢),word阅读. 2018/6/16 爱奇艺关闭了大部分win8R ...
webkit之滚动条美化
由于公司的产品改用webkit内核,在写公共css的时候,不想使用插件模拟,顺便网上查阅了下css3的滚动条美化. 首先,先上一副示意图. 从网络上盗图的(来源 http://zhangyaochun ...
版本管理工具Git(2)git的使用
上一篇带大家认识了Git,在本篇中将讲解Git的安装及使用: Git系列导航版本管理工具Git(1)带你认识git 版本管理工具Git(2)git的安装及使用版本管理工具Git(3)VS下如何使用 ...

Day04_网络爬虫图片收获

Day04_网络爬虫图片收获的更多相关文章

随机推荐

热门专题