python 爬虫网络图片中遇到的问题总结

1.只导入了import urllib，读取网页的时候page =urllib.urlopen(url),提示 “module’ object has no attribute ’urlopen’”,试了几种办法都不行，后来发现是python3中，用的urllib要加response,改成：page = urllib.request.urlopen(url),在开头也导入response模块 from urllib import request

2.在给爬到的图片下载并重命名时urllib.urlretrieve()，也出现了报错，提示“module’ object has no attribute ’urlretrieve’”，也是相同的问题，在python中也要加response，改成urllib.request.urlretrieve(),就Ok了。

3.一个小问题，在最后打印时，提示：cannot use a string pattern on a bytes-like object，网上查了下，是编码的问题，在对对html解析读取编码格式统一转码为utf-8 html=html.decode('utf-8'),也成功解决

贴上完整的代码下面：

import re import urllib

from urllib import request

def getHtml(url):

　　page = urllib.request.urlopen(url)

　　html = page.read()

　　html=html.decode('utf-8')

　　return html

def getImg(html):

　　reg=r'src="(.*?\.jpg)" alt'

　　imgre=re.compile(reg)

　　imglist=re.findall(imgre,html)

　　x=0

　　for imgurl in imglist:

　　　　urllib.request.urlretrieve(imgurl,'%s.jpg' % x)

　　　　 x+=1

html=getHtml("http://photo.bitauto.com/?WT.mc_id=360tpdq")

getImg(html)

python 爬虫网络图片中遇到的问题总结的更多相关文章

python爬虫#网络请求requests库
中文文档 http://docs.python-requests.org/zh_CN/latest/user/quickstart.html requests库虽然Python的标准库中 urlli ...
Python爬虫的开始——requests库建立请求
接下来我将会用一段时间来更新python爬虫网络爬虫大体可以分为三个步骤. 首先建立请求,爬取所需元素: 其次解析爬取信息,剔除无效数据: 最后将爬取信息进行保存: 今天就先来讲讲第一步,请求库re ...
读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫作者: [澳]理查德劳森(Richard Lawson) 原版名称: web scra ...
Python即时网络爬虫项目启动说明
作为酷爱编程的老程序员,实在按耐不下这个冲动,Python真的是太火了,不断撩拨我的心. 我是对Python存有戒备之心的,想当年我基于Drupal做的系统,使用php语言,当语言升级了,推翻了老版本 ...
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...
Python即时网络爬虫项目: 内容提取器的定义
1. 项目背景在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作 ...
Python即时网络爬虫：API说明
API说明——下载gsExtractor内容提取器 1,接口名称下载内容提取器 2,接口说明如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
Python爬虫实战三之实现山东大学无线网络掉线自动重连
综述最近山大软件园校区QLSC_STU无线网掉线掉的厉害,连上之后平均十分钟左右掉线一次,很是让人心烦,还能不能愉快地上自习了?能忍吗?反正我是不能忍了,嗯,自己动手,丰衣足食!写个程序解决掉它! ...

随机推荐

FFmpeg的H.264解码器源代码简单分析
本文简单记录FFmpeg中libavcodec的H.264解码器(H.264 Decoder)的源代码.这个H.264解码器十分重要,可以说FFmpeg项目今天可以几乎“垄断”视音频编解码技术,很大一 ...
intellij idea NoClassDefFoundError javax.swing.UIManager
今天启动idea报 NoClassDefFoundError javax.swing.UIManager 可是明明配置好了java 环境 ,后来仔细想了一下只配置了java的bin目录在PATH里随 ...
springmvc4 相关注解的详细讲解
首先我是一个初学springmvc,抱着去加深印象的目的去整理相关springmvc4的相关注解,同时也希望给需要相关查阅的读者带来帮助. 1.@ControllerController控制器是通过服 ...
游戏中的网络同步机制——Lockstep（帧同步）
本文来自: https://bindog.github.io/blog/2015/03/10/synchronization-in-multiplayer-networked-game-lockste ...
SQL Cookbook—字符串
1.遍历字符串2.计算字符在字符串中出现的次数3.从字符串中删除不需要的字符4.将字符和数字数据分离5.判别字符串是不是字母数字型的6.提取姓名的大写首字母缩写7.按字符串中的部分内容排序8.按字符串 ...
sqlite3使用
sqlite3使用 sqlite可以在https://www.sqlite.org/网站上下载.支持Linux, MacOS, Windows等各种操作系统.下载后不需要安装,解压后就可以使用,追加路 ...
Ubuntu 下常用的命令简略记录
# 动态显示 NVIDIA watch -n 1 nvidia-smi #查看某一目录下文件的总数(不包含子目录) ls -l | wc -l #挂载硬盘或者U盘 mount /dev/sdb1 /m ...
MySQL存储过程中判断形参是否为空null
直接看例子: DELIMITER $$CREATE DEFINER=`root`@`127.0.0.1` PROCEDURE `restore`(username varchar(50))BEGINi ...
CentOS 升级 openSSH
openSSH作为linux远程连接工具,容易受到攻击,必须更新版本来解决,低版本有如下等漏洞: a. OpenSSH 远程代码执行漏洞(CVE-2016-10009) b. OpenSSH aut ...
jQuery 小练习-拖拉画面
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

python 爬虫网络图片中遇到的问题总结

python 爬虫网络图片中遇到的问题总结的更多相关文章

随机推荐

热门专题