python爬虫第三天

DebugLog实战

有时候我们需要在程序运行时，一边运行一边打印调试日志。此时需要开启DebugLog。

如何开启：

首先将debuglevel设置为1，然后用urllib.request.build_opener()创建自定义对象opener将debuglevel作为参数传入接着用urllib.request.install_opener()创建全局默认对象opener，进行后续操作。

import urllib.request

#复制区-----

httphd=urllib.request.HTTPHandler(debuglevel=1)

httpshd=urllib.request.HTTPSHandler(debuglevel=1)

opener=urllib.request.build_opener(httphd,httpshd)

urllib.request.install_opener(opener)

#-----复制区

data=urllib.request.urlopen("http://edu.51cto.com")

这样就可以边执行程序边打印调试Log日志。

异常处理神器——URLError实战

如何合理的处理异常：介绍两个类

URLError和他的一个子类HTTPError

实例1：

import urllib.request

import urllib.error

try:

urllib.request.urlopen("http://blog.csdn.net")

except urllib.error.URLError as e: #这里csdn禁止对文章爬取，所以没有模拟浏览爬会出现403错误

#由于触发了HTTPError产生的URLError异常，这里使用HTTPError替换亦可以，

#但是HTTPError不能处理：连接不上服务器，远程url不存在、无网络的异常

print(e.code)

print(e.reason)

补充知识：状态码

200----一切正常

301----重定向到新的url，永久性

302----重定向到临时的url，非永久性

304----请求的资源未更新

400----非法请求

401----请求未经授权

403----禁止访问

404----没有找到对应页面

500----服务器内部出现错误

501----服务器不支持实现请求所需要的功能

实际上我们处理异常不知道使用HTTPError能不能处理。我们可以进行优化，先让HTTPError处理，不行再让URLError处理

代码如下：

try:

urllib.request.urlopen("http://blog.baidusss.net")#不存在的网址

except urllib.error.HTTPError as e:

print(e.code)

print(e.reason)

except urllib.error.URLError as e:

print(e.reason)

代码再改进，整合一下：不管何种原因都可以解决

try:

urllib.request.urlopen("http://blog.csdn.net")

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

正则表达式入门

正则表达式就是描述字符串排列的一套规则。比如电子邮件、手机号的字符都是满足一定的规则的，我们可以用正则来表达他们的格式。在python中我们用re模块来实现正则。

基础知识：

NO1 、原子：正则的基本组成单位，每个正则中至少包含一个原子。

原子的类型：

1：普通字符

import re

pattern="yue"

string="http://yum.iqianyue.com"

result1=re.search(pattern,string)

print(result1)

#结果：<_sre.SRE_Match object; span=(16, 19), match='yue'>

这里我们匹配两个字符串，成功匹配到了字符结果“yue”

2：非打印字符

指在一些字符串中用于格式控制的符号，如：

符号	含义
\n	用于匹配一个换行符
\t	用于匹配一个制表符

import re

pattern="\n"

string='''http://yum.iqianyue.com

http://baidu.com'''

result=re.search(pattern,string)

print(result)

3：通用字符

一个原子可以匹配一类字符

符号	含义
\w	匹配任意一个字母、数字或下划线
\W	匹配除字母、下划线、数字以外的任意字符
\d	匹配任意一个十进制数
\D	匹配十进制以外的任意一个其他字符
\s	匹配任意一个空白字符
\S	匹配除空白字符以外的任意一个其他字符

pattern="\w\dpython\w"

string="abcdfphp345python_py"

result=re.search(pattern,string)

print(result)

#结果<_sre.SRE_Match object; span=(9, 18), match='45python_'>

4：原子表

使用原子表定义一组地位相等的原子，匹配是会取原子表中任意一个原子进行匹配，在Python中原子表用[]表示

如[xyz]对应源字符是“xpython”如果用re.search匹配，就可以匹配到“xpy”，因为只要py的前一位是xyz的任一个原子就可以匹配成功

pattern1="\w\dpython[xyz]\w"

string="abcdfphp345pythony_py"

result=re.search(pattern1,string)

print(result)

#结果：<_sre.SRE_Match object; span=(9, 19), match='45pythony_'>

此文是我在学习《精通Python网络爬虫》（韦玮著）的总结,纯手打。

python爬虫第三天的更多相关文章

3.Python爬虫入门三之Urllib和Urllib2库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...
Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
Python爬虫实战三之实现山东大学无线网络掉线自动重连
综述最近山大软件园校区QLSC_STU无线网掉线掉的厉害,连上之后平均十分钟左右掉线一次,很是让人心烦,还能不能愉快地上自习了?能忍吗?反正我是不能忍了,嗯,自己动手,丰衣足食!写个程序解决掉它! ...
转 Python爬虫入门三之Urllib库的基本使用
静觅 » Python爬虫入门三之Urllib库的基本使用 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器 ...
Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
Python爬虫实战三之爬取嗅事百科段子
一.前言俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页首先我 ...
Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
python爬虫（三）
webdriver Selenium是ThroughtWorks公司开发的一套Web自动化测试工具.它分为三个组件:Selenium IDE,Selenium RC (Remote Control), ...

随机推荐

P5301 [GXOI/GZOI2019]宝牌一大堆
题目地址:P5301 [GXOI/GZOI2019]宝牌一大堆这里是官方题解(by lydrainbowcat) 部分分直接搜索可以得到暴力分,因为所有和牌方案一共只有一千万左右,稍微优化一下数据 ...
CF1153C Serval and Parenthesis Sequence
题目地址:CF1153C Serval and Parenthesis Sequence 思路:贪心如果有解,那么 \(s_0 = (\) && \(s_{n-1} = )\) &a ...
CV code references
转:http://www.sigvc.org/bbs/thread-72-1-1.html 一.特征提取Feature Extraction: SIFT [1] [Demo program][SI ...
什么时候Python的List，Tuple最后一个Item后面要加上一个逗号
为什么看Python的代码,有时候会在数据结构的最后一项末尾加上逗号.直接来看,这个逗号很多余. 根据PEP81的解释: Trailing commas are usually optional, e ...
ansible-plabybook 常用的有用的命令
ansible-plabybook 常用的有用的命令 ansible-playbook常用的非常有用的参数有: -C ,大写c ,这个命令的意思就是模拟执行,会告诉你跑完这个playbook会发生什么 ...
JUC--Callable 以及Lock同步锁
/** * 一.创建执行线程的方式三:实现Callable接口.相较于实现Runnable接口方式,方法可以有返回值,并且可以抛出异常 * 二.callable 需要FutureTask实现类的支持. ...
GDOI2019游记
只是提前开坑啊,CCF不要禁我赛啊QwQ 虽然才初三,不能进省队,但还是要拼一把,至少不能垫底吧. NTF和CDW两位初二巨佬都在四川省选拿了非正式选手Rank3,4,我还有什么理由去摸鱼? Day\ ...
CentOS运维常用技能
1.添加系统帐号 [root@localhost ~]# adduser gordon [root@localhost ~]# passwd gordon //新帐号添加密码,然后输入密码就完成了.修 ...
zabbix_agentd客户端安装与配置(windows操作系统)
zabbix_agentd客户端安装与配置(windows操作系统) ********** 客户端操作 ********** 标注:监控zabbix_agentd客户端安装对象是win s ...
iOS开发之HTTP与HTTPS网络请求
HTTP是互联网中应用最为广泛的一种网络协议,在进入正文之前,先解释什么是网络协议?网络协议为计算机网络中进行数据交换而建立的规则.标准或约定的集合.网络协议是由以下三个要素组成:语义.语法.时序.国 ...

python爬虫第三天

python爬虫第三天的更多相关文章

随机推荐

热门专题