python3实现简单爬虫功能

本文参考虫师python2实现简单爬虫功能，并增加自己的感悟。

 #coding=utf-8

 import re

 import urllib.request

 def getHtml(url):

     page = urllib.request.urlopen(url)

     html = page.read()

     #print(type(html))

     html = html.decode('UTF-8')

     #print(html)

     return html

 def getImg(html):

     reg = r'img class="BDE_Image" src="(.+?\.jpg)"'

     imgre = re.compile(reg)

     #print(type(imgre))

     #print(imgre)

     imglist = re.findall(imgre,html)

     #print(type(imglist))

     #print(imglist)

     num = 0

     for imgurl in imglist:

         urllib.request.urlretrieve(imgurl,'D:\img\hardaway%s.jpg' %num)

         num+=1      

 html = getHtml("http://tieba.baidu.com/p/1569069059")

 print(getImg(html))

re-python自带模块，用于正则表达式的相关操作
https://docs.python.org/3/library/re.html
urllib.request,来自扩展库urllib，用于打开网址相关操作
https://docs.python.org/3/installing/index.html
先定义了一个getHtml()函数
使用urllib.request.urlopen()方法打开网址
使用read()方法读取网址上的数据
使用decode()方法指定编码格式解码字符串

我这里指定的编码格式为UTF-8，根据页面源代码得出：

再定义了一个getImg()函数，用于筛选整个页面数据中我们所需要的图片地址

上文中的例子所编写的编码格式是通过查看网页源代码的方式得知的，后来我尝试了下通过正则表达式去匹配获取charset定义的编码格式，然后指定使用匹配来的编码格式。

 def getHtml(url):

     page = urllib.request.urlopen(url)

     html = page.read()

     #print(type(html))

     rehtml = str(html)

     #print(type(rehtml))

     reg = r'content="text/html; charset=(.+?)"'

     imgre = re.compile(reg)

     imglist = re.findall(imgre,rehtml)

     print(type(imglist))

     code = imglist[0]

     print(type(code))

     html = html.decode('%s' %code)

     return html

说一说这里的思路，html = page.read()方法处理后，返回的为bytes对象。而re.findall()方法是无法在一个字节对象上使用字符串模式的
所以我新定义了一个变量rehtml,使用str()方法把html的值转为了字符串，供re.findall()方法使用
定义了一个新变量code用来放编码格式的值，因为re.findall()方法获取回来的是列表类型，我需要使用的是字符串类型。
根据需要的图片来编写正则表达式 reg = r’img class=”BDE_Image” src=”(.+?.jpg)”’
使用re.compile()方法把正则表达式编译成一个正则表达式对象,在一个程序中多次使用会更有效。
使用re.findall()方法匹配网页数据中包含正则表达式的非重叠数据，作为字符串列表。
urllib.request.urlretrieve()方法，将图片下载到本地，并指定到了D盘img文件夹下

python3实现简单爬虫功能的更多相关文章

python实现简单爬虫功能
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的 ...
[python爬虫]简单爬虫功能
在我们日常上网浏览网页的时候,经常会看到某个网站中一些好看的图片,它们可能存在在很多页面当中,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标 ...
python3.6 简单爬虫
# coding='UTF-8' from bs4 import BeautifulSoup # 引入beautifulsoup 解析html事半功倍 import re import urllib ...
nodeJS实现简单网页爬虫功能
前面的话本文将使用nodeJS实现一个简单的网页爬虫功能网页源码使用http.get()方法获取网页源码,以hao123网站的头条页面为例 http://tuijian.hao123.com/h ...
【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫
作用,之间将目标网页保存金本地 1.爬虫代码修改自网络,目前运行平稳,博主需要的是精准爬取,数据量并不大,暂未加多线程. 2.分割策略是通过查询条件进行分类,循环启动多条线程. 1.单线程简单爬虫(第 ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
python_2开发简单爬虫
2017年12月03日 16:43:01 独行侠的守望阅读数:204 标签: python爬虫更多个人分类: Python编辑版权声明:本文为博主原创文章,转载请注明文章链接. https://b ...
[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...

随机推荐

Python开发入门与实战12-业务逻辑层
12. Biz业务层前面的章节我们把大量的业务函数都放在了views.py里,按照目前这一的写法,当我们编写的系统复杂较高时,我们的views.py将会越来越复杂,大量的业务函数包含其中使其成为一个 ...
tornado 协程的实现原理个人理解；
tornado实现协程的原理主要是利用了(1)python里面的generator (2)future类和ioloop相互配合,两者之间的相互配合是通过gen.coroutine装饰器来实现的: 具体 ...
使用本地JConsole监控远程JVM (转)
问题背景 Tomcat经常崩溃crash,想看看JVM内存使用情况,就想到了用Jconsole监控,以前只是监控本地的JVM,这次要监控远程的,遇到了不少问题. 经过几个小时的努力,参考了众多 ...
Bubble Sort_树状数组
Problem Description P is a permutation of the integers from 1 to N(index starting from 1).Here is th ...
jquery ajax error函数详解
代码:$(document).ready(function() { jQuery("#clearCac").click(function() { ...
C++学习笔记22：设备
设备类型设备文件的性质设备文件不是普通的磁盘文件读写设备的数据需要与相应的设备驱动器通信设备文件的类型字符设备:读写串行数据字节流,如串口.终端等块设备:随机读写固定尺寸数据块,如磁盘设备 ...
leetcode52. N-Queens II
Follow up for N-Queens problem. Now, instead outputting board configurations, return the total numbe ...
计算std:string的字节长度
如果项目本身是使用 Unicode 字符集和utf8编码,std::string的length(),size()甚至是c的strLen取到的都是字节长度了,比如三个汉字,就是9, 以上情况不满足的话, ...
Can 't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock '(2) ;
Can 't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock '(2) ; 如果你在网上search这个 ...
C#利用SMTP服务器发送邮件
使用.net(C#)发送邮件学习手册(带成功案例) 1.了解发送邮件的三种方式 2.实例介绍使用client.DeliveryMethod = System.Net.Mail.SmtpDelivery ...

python3实现简单爬虫功能

python3实现简单爬虫功能的更多相关文章

随机推荐

热门专题