python3下爬取网页上的图片的爬虫程序

 import urllib.request

 import re

 #py抓取页面图片并保存到本地

 #获取页面信息

 def getHtml(url):

     html = urllib.request.urlopen(url).read()

     return html

 #通过正则获取图片

 def getImg(html):

     reg = 'src="(.+?\.jpg)" pic_ext'

     imgre = re.compile(reg)

     imglist = re.findall(imgre,html)

    # print(imglist)

     return imglist

 html = getHtml("http://*****")

 list=getImg(html.decode())

 #循环把图片存到本地

 x =

 for imgurl in list:

     print(x)

     urllib.request.urlretrieve(imgurl,'d:\\%s.jpg'% x)

     x+=

 print("done")

指定网页获取图片并保存到AWS_s3

 import boto3

 import urllib.request

 def lambda_handler(request, context):

     #download_url = "https://s3.amazonaws.com/testforcustomerservice/192x192.png"

     download_url = "https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D220/sign=3707d191fa03738dda4a0b20831bb073/279759ee3d6d55fb3cfdd81761224f4a20a4ddcc.jpg"

     list = download_url.split('/')

     upload_key = list[len(list)-]

     response = urllib.request.urlopen(url=download_url)

     context = response.read()

     #print(context)

     bucket = "testforcustomerservice"

     s3 = boto3.resource("s3")

     file_obj = s3.Bucket(bucket).put_object(Key=upload_key, Body=context)

     print(file_obj)

     response = {

         "url": "https://s3.amazonaws.com/testforcustomerservice/"+upload_key

     }

     return response

python3下爬取网页上的图片的爬虫程序的更多相关文章

python3爬取网页
爬虫 python3爬取网页资源方式(1.最简单: import'http://www.baidu.com/'print2.通过request import'http://www.baidu.com' ...
Python抓取网页中的图片到本地
今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: #!/usr/bin/env python # -*- coding:utf- -*- # Author: xixihuang # ...
爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
iOS 抓取 UIwebview 上所有图片并进行滚动播放
关于在UIwebview上添加滚动图片两种滚动手势会混淆,应为webview有webview.scrollview的属性故参照昨天的随笔 scrollview嵌套解决方案. 本篇随笔主要讲循环使用 ...
使用Selenium截取网页上的图片
前言同样是为了刷课,没想到工作后依然和大学一样逃脱不了需要刷网课的命运-- 正文直接说干货了,截取图片,需要截取的图片是什么图片大家都懂(说的就是你,验证码),其他图片的话不需要截取,直接拿到地址 ...
我的第一个爬虫程序：利用Python抓取网页上的信息
题外话我第一次听说Python是在大二的时候,那个时候C语言都没有学好,于是就没有心思学其他的编程语言.现在,我的毕业设计要用到爬虫技术,在网上搜索了一下,Python语言在爬虫技术这方面获得一致好 ...
Python+Selenium练习篇之1-摘取网页上全部邮箱
前面已经介绍了Python+Selenium基础篇,通过前面几篇文章的介绍和练习,Selenium+Python的webUI自动化测试算是入门了.接下来,我计划写第二个系列:练习篇,通过一些练习,了解 ...
c++ 实现https网页上的图片爬取
一.主要的原理我们通过发送一个http请求,获得目标网页的html源代码,然后通过正则表达式获取到图片的URL,把该网页的所有的图片都保存到一个文件夹,这就是整个软件的流程. 二.具体的实践现在很 ...
python3爬取网页图片路径并写入文件
import reimport urllib.request # 获取网页文件def getHtml(url): response = urllib.request.urlopen('https:// ...

随机推荐

GMA Round 1 三角形
传送门三角形在△ABC中已知$sin2A+sin2B+sin2C=\frac{3\sqrt{3}}{2}$,求$cos\frac{A}{2}*cos\frac{B}{2}*cos\frac{C}{ ...
Node.js_密码明文_密文_加密库_sha1
加密库 sha1 加密模块,能够将指定明文加密成一个长度相等的密文 let pwd = 'qwe123456'; const secret = sha1(pwd); 同样的明文,加密得到同样的密 ...
springboot整合微软的ad域，采用ldap的api来整合，实现用户登录验证、
流程: 1.用户调登录接口,传用户名和密码2.用户名和密码在ad验证,验证通过后,返回当前用户的相关信息.(注:ldap为java自带的api不需要maven引入其他的)3.根据返回的用户信息,实现自 ...
获取各种编码（Unicode，UTF8等）的识别符
下面是常用编码的识别符, 在 Delphi(2009) 中如何获取呢?Unicode: FF FE; BigEndianUnicode: FE FF; UTF8: EF BB BF var bs: ...
JDBC 查询
//查询""SMITH"的empno import java.sql.Connection; import java.sql.DriverManager; import ...
linux系统运维命令
1.动态查看网卡流量 sar -n DEV 1 2.查看当前网卡的buffer size情况 ethtool -g eth0 3.修改当前网卡的buffer size ethtool -G eth0 ...
C和C++字符串处理整理
在刷leetcode题目的过程中,发现自己对于c和c++字符串的处理并不是很拿手,处理起来比较费劲,而且,算法题似乎很中意字符串的处理,有很多题目都涉及到它.字符串处理比较基础,但是很重要,因此,整理 ...
获取UILabel的numberOfLine
获取UILabel的numberOfLine CGFloat textH = [self.label.text boundingRectWithSize:CGSizeMake(width, MAXFL ...
关于映射路径@ReuqestMapping的总结
何谓映射路径呢? 映射路径,就是匹配请求路径和执行方法关系的路径基于注解的映射路径可以忽略前后缀,如: @RequestMapping(value="/say.do") @Req ...
线程等待（java）
定义一个对象: private Object objWaiter = new Object(); 在需要等待的地方加等待锁: synchronized (objWaiter) { objWaiter. ...

python3下爬取网页上的图片的爬虫程序

python3下爬取网页上的图片的爬虫程序的更多相关文章

随机推荐

热门专题