python3实现简单爬虫功能

本文参考虫师python2实现简单爬虫功能，并增加自己的感悟。

 #coding=utf-8

 import re

 import urllib.request

 def getHtml(url):

     page = urllib.request.urlopen(url)

     html = page.read()

     #print(type(html))

     html = html.decode('UTF-8')

     #print(html)

     return html

 def getImg(html):

     reg = r'img class="BDE_Image" src="(.+?\.jpg)"'

     imgre = re.compile(reg)

     #print(type(imgre))

     #print(imgre)

     imglist = re.findall(imgre,html)

     #print(type(imglist))

     #print(imglist)

     num = 0

     for imgurl in imglist:

         urllib.request.urlretrieve(imgurl,'D:\img\hardaway%s.jpg' %num)

         num+=1      

 html = getHtml("http://tieba.baidu.com/p/1569069059")

 print(getImg(html))

re-python自带模块，用于正则表达式的相关操作
https://docs.python.org/3/library/re.html
urllib.request,来自扩展库urllib，用于打开网址相关操作
https://docs.python.org/3/installing/index.html
先定义了一个getHtml()函数
使用urllib.request.urlopen()方法打开网址
使用read()方法读取网址上的数据
使用decode()方法指定编码格式解码字符串

我这里指定的编码格式为UTF-8，根据页面源代码得出：

再定义了一个getImg()函数，用于筛选整个页面数据中我们所需要的图片地址

上文中的例子所编写的编码格式是通过查看网页源代码的方式得知的，后来我尝试了下通过正则表达式去匹配获取charset定义的编码格式，然后指定使用匹配来的编码格式。

 def getHtml(url):

     page = urllib.request.urlopen(url)

     html = page.read()

     #print(type(html))

     rehtml = str(html)

     #print(type(rehtml))

     reg = r'content="text/html; charset=(.+?)"'

     imgre = re.compile(reg)

     imglist = re.findall(imgre,rehtml)

     print(type(imglist))

     code = imglist[0]

     print(type(code))

     html = html.decode('%s' %code)

     return html

说一说这里的思路，html = page.read()方法处理后，返回的为bytes对象。而re.findall()方法是无法在一个字节对象上使用字符串模式的
所以我新定义了一个变量rehtml,使用str()方法把html的值转为了字符串，供re.findall()方法使用
定义了一个新变量code用来放编码格式的值，因为re.findall()方法获取回来的是列表类型，我需要使用的是字符串类型。
根据需要的图片来编写正则表达式 reg = r’img class=”BDE_Image” src=”(.+?.jpg)”’
使用re.compile()方法把正则表达式编译成一个正则表达式对象,在一个程序中多次使用会更有效。
使用re.findall()方法匹配网页数据中包含正则表达式的非重叠数据，作为字符串列表。
urllib.request.urlretrieve()方法，将图片下载到本地，并指定到了D盘img文件夹下

python3实现简单爬虫功能的更多相关文章

python实现简单爬虫功能
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的 ...
[python爬虫]简单爬虫功能
在我们日常上网浏览网页的时候,经常会看到某个网站中一些好看的图片,它们可能存在在很多页面当中,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标 ...
python3.6 简单爬虫
# coding='UTF-8' from bs4 import BeautifulSoup # 引入beautifulsoup 解析html事半功倍 import re import urllib ...
nodeJS实现简单网页爬虫功能
前面的话本文将使用nodeJS实现一个简单的网页爬虫功能网页源码使用http.get()方法获取网页源码,以hao123网站的头条页面为例 http://tuijian.hao123.com/h ...
【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫
作用,之间将目标网页保存金本地 1.爬虫代码修改自网络,目前运行平稳,博主需要的是精准爬取,数据量并不大,暂未加多线程. 2.分割策略是通过查询条件进行分类,循环启动多条线程. 1.单线程简单爬虫(第 ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
python_2开发简单爬虫
2017年12月03日 16:43:01 独行侠的守望阅读数:204 标签: python爬虫更多个人分类: Python编辑版权声明:本文为博主原创文章,转载请注明文章链接. https://b ...
[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...

随机推荐

ios7中的多任务
转自:http://onevcat.com/2013/08/ios7-background-multitask/ WWDC 2013 Session笔记 - iOS7中的多任务 iOS7的后台多任务特 ...
flexslider
flexslider是一个出色的jquery滑动切换插件,支持主流浏览器,并有淡入淡出效果.适合初级和高级网页设计师. 查询了网上资料总结一下flexslider属性 $(function(){ ...
为什么在保护模式下IA-32处理器最高可访问4GB的内存
在保护模式下,IA-32处理器可访问最高达4GB的内存,这是32位无符号二进制整数地址能够寻址的上限. 今天看汇编的时候发现书里带过一句,不太明白为什么内存上限是4GB,就搜了一下,总结了一下答案. ...
mysql alter 语句用法,添加、修改、删除字段等
2013-05-03 17:13 39459人阅读评论(1) 收藏举报分类: Mysql(9) 修改表名: ALTER TABLE admin_user RENAME TO a_use / ...
html第一阶段总结
html格式汇总 <!doctype html> <html lang="en"><!-- 语言,en ...
As 和 Is的区别
首先来说说As是干什么的: 代码: void OnMouseEnter(object sender, MouseEventArgs e){ Ellipse ell = sender as Ellips ...
H5版俄罗斯方块(1)---需求分析和目标创新
前言: 俄罗斯方块和五子棋一样, 规则简单, 上手容易. 几乎每个开发者, 都会在其青春年华时, 签下"xx到此一游". 犹记得大一老师在布置大程作业的时候提过: "什么 ...
Bundle
[[NSBundle mainBundle] pathForResource:@"someFileName" ofType:@"yourFileExtension&quo ...
IIS-Server is too busy _解决方法
httpRuntime Server Too Busy 修改方法:修改服务器.net配置“machine.config＂文件,该文件位于Windows系统目录下,如“C:\WINDOWS \Micro ...
国内首家VR虚拟现实主题公园即将在北京推出
近期,美国“The VOID”.澳洲“Zero Latency”两大虚拟现实主题乐园让许多爱好者兴奋至极,门票据说都已经预约到明年2月!在如此巨大的商机面前,谁将抢到国内VR虚拟现实主题公园第一块蛋糕 ...

python3实现简单爬虫功能

python3实现简单爬虫功能的更多相关文章

随机推荐

热门专题