DebugLog实战
        有时候我们需要在程序运行时,一边运行一边打印调试日志。此时需要开启DebugLog。
        如何开启:
        首先将debuglevel设置为1,然后用urllib.request.build_opener()创建自定义对象opener将debuglevel作为参数传入接着用urllib.request.install_opener()创建全局默认对象opener,进行后续操作。
import urllib.request
#复制区-----
httphd=urllib.request.HTTPHandler(debuglevel=1)
httpshd=urllib.request.HTTPSHandler(debuglevel=1)
opener=urllib.request.build_opener(httphd,httpshd)
urllib.request.install_opener(opener)
#-----复制区
data=urllib.request.urlopen("http://edu.51cto.com")
这样就可以边执行程序边打印调试Log日志。
 
异常处理神器——URLError实战
    如何合理的处理异常:介绍两个类
        URLError和他的一个子类HTTPError
实例1:
import urllib.request
import urllib.error
try:
    urllib.request.urlopen("http://blog.csdn.net")
except urllib.error.URLError as e: #这里csdn禁止对文章爬取,所以没有模拟浏览爬会出现403错误
#由于触发了HTTPError产生的URLError异常,这里使用HTTPError替换亦可以,
#但是HTTPError不能处理:连接不上服务器,远程url不存在、无网络的异常
    print(e.code)
    print(e.reason)
补充知识:状态码
200----一切正常
301----重定向到新的url,永久性
302----重定向到临时的url,非永久性
304----请求的资源未更新
400----非法请求
401----请求未经授权
403----禁止访问
404----没有找到对应页面
500----服务器内部出现错误
501----服务器不支持实现请求所需要的功能
实际上我们处理异常不知道使用HTTPError能不能处理。我们可以进行优化,先让HTTPError处理,不行再让URLError处理
代码如下:
try:
    urllib.request.urlopen("http://blog.baidusss.net")#不存在的网址
except urllib.error.HTTPError as e:
    print(e.code)
    print(e.reason)
except urllib.error.URLError as e:
    print(e.reason)
 
代码再改进,整合一下:不管何种原因都可以解决
try:
    urllib.request.urlopen("http://blog.csdn.net")
except urllib.error.URLError as e:
    if hasattr(e,"code"):
        print(e.code)
    if hasattr(e,"reason"):
        print(e.reason)
 
正则表达式入门
    正则表达式就是描述字符串排列的一套规则。比如电子邮件、手机号的字符都是满足一定的规则的,我们可以用正则来表达他们的格式。在python中我们用re模块来实现正则。
    基础知识:
 NO1 、原子:正则的基本组成单位,每个正则中至少包含一个原子。
    原子的类型:
            1:普通字符
import re
pattern="yue"
string="http://yum.iqianyue.com"
result1=re.search(pattern,string)
print(result1)
#结果:<_sre.SRE_Match object; span=(16, 19), match='yue'>
这里我们匹配两个字符串,成功匹配到了字符结果“yue”         
 
   2:非打印字符 
        指在一些字符串中用于格式控制的符号,如:
 
符号 含义
\n 用于匹配一个换行符
\t 用于匹配一个制表符
import re
 
pattern="\n"
string='''http://yum.iqianyue.com
http://baidu.com'''
result=re.search(pattern,string)
print(result)
 
 
            3:通用字符 
一个原子可以匹配一类字符
 
符号
含义
\w
匹配任意一个字母、数字或下划线
\W
匹配除字母、下划线、数字以外的任意字符
\d
匹配任意一个十进制数
\D
匹配十进制以外的任意一个其他字符
\s
匹配任意一个空白字符
\S
匹配除空白字符以外的任意一个其他字符
 
          
pattern="\w\dpython\w"
string="abcdfphp345python_py"
result=re.search(pattern,string)
print(result)
#结果<_sre.SRE_Match object; span=(9, 18), match='45python_'>
 
 
 
  4:原子表
 
使用原子表定义一组地位相等的原子,匹配是会取原子表中任意一个原子进行匹配,在Python中原子表用[]表示
如[xyz]对应源字符是“xpython”如果用re.search匹配,就可以匹配到“xpy”,因为只要py的前一位是xyz的任一个原子就可以匹配成功
 
    
pattern1="\w\dpython[xyz]\w"
string="abcdfphp345pythony_py"
result=re.search(pattern1,string)
print(result)
#结果:<_sre.SRE_Match object; span=(9, 19), match='45pythony_'>
 
 
 此文是我在学习《精通Python网络爬虫》(韦玮著)的总结,纯手打。
 
 
 
 
 
 
 
 
 
 

python爬虫第三天的更多相关文章

  1. 3.Python爬虫入门三之Urllib和Urllib2库的基本使用

    1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...

  2. Python爬虫进阶三之Scrapy框架安装配置

    初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...

  3. Python爬虫实战三之实现山东大学无线网络掉线自动重连

    综述 最近山大软件园校区QLSC_STU无线网掉线掉的厉害,连上之后平均十分钟左右掉线一次,很是让人心烦,还能不能愉快地上自习了?能忍吗?反正我是不能忍了,嗯,自己动手,丰衣足食!写个程序解决掉它! ...

  4. 转 Python爬虫入门三之Urllib库的基本使用

    静觅 » Python爬虫入门三之Urllib库的基本使用 1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器 ...

  5. Python爬虫学习三------requests+BeautifulSoup爬取简单网页

    第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...

  6. Python爬虫实战三之爬取嗅事百科段子

    一.前言 俗话说,上班时间是公司的,下班了时间才是自己的.搞点事情,写个爬虫程序,每天定期爬取点段子,看着自己爬的段子,也是一种乐趣. 二.Python爬取嗅事百科段子 1.确定爬取的目标网页 首先我 ...

  7. Python爬虫利器三之Xpath语法与lxml库的用法

    前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...

  8. python爬虫学习(三):使用re库爬取"淘宝商品",并把结果写进txt文件

    第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码 打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果 从url连接中可以得到搜索商品的关键字是 ...

  9. python爬虫(三)

    webdriver Selenium是ThroughtWorks公司开发的一套Web自动化测试工具.它分为三个组件:Selenium IDE,Selenium RC (Remote Control), ...

随机推荐

  1. 团队Github实战训练

    班级:软件工程1916|W 作业:团队Github实战训练 团队名称:SkyReach Github地址:Github地址 贡献比例表 队员学号 队员姓名 此次活动任务 贡献比例 221600106 ...

  2. UGUI打字机效果文本组件

    using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.UI; ...

  3. java各种数据类型的数组元素的默认值

    public class DataTypeDefaultValue { public static void main(String[] args) { // string类型数组的默认值null / ...

  4. [Linux]标准IO全缓冲和行缓冲

    概述 标准IO中,标准错误是不带缓冲的.若是指向终端设备的流才是行缓冲的,否则是全缓冲的. 行缓冲也可以分配缓冲区,当遇到超大行(超过缓冲区的行),缓冲区内容也会优先刷出. 示例 #include & ...

  5. 防XSS攻击解决方法

    1.web.xml文件中新增filter配置 <!-- URL请求参数字符过滤或合法性校验 --> <filter> <filter-name>XssFilter& ...

  6. Bootstrap-datepicker3官方文档中文翻译---Options/选项(原文链接 http://bootstrap-datepicker.readthedocs.io/en/latest/index.html)

    Options/选项 带“Date”的所有选项都可以处理 Date 对象; 字符串格式化根据 给定的 format 而定; 相对于今天的时间变量, 如 “-1d”, “+6m +1y”等等, 其中有效 ...

  7. laravel 运行错误

    全局相关 1 2 3 4 5 6 7 8 9 10 11 12 13 14 php artisan:显示详细的命令行帮助信息,同 php artisan list php artisan –help: ...

  8. css设置多列等高布局

    初始时,多个列内容大小不同,高度不同.现在需要设置不同的背景来显示,而且各个列的高度需要保持一致.那么这就需要利用到多列等高布局. 最终需要的效果: 1. 真实等高布局 flex 技术点:弹性盒子布局 ...

  9. Taro音频createVideoContext组件无法调用方法

    用createVideoContext的时候,是在一个组件中 声明后这个实例的方法全部都不能使用了 Taro.createVideoContext('myVideo', this) 需要加上第二个参数 ...

  10. 如何在本地数据中心安装Service Fabric for Windows集群

    概述 首先本文只是对官方文档(中文,英文)的一个提炼,详细的安装说明还请仔细阅读官方文档. 虽然Service Fabric的官方名称往往被加上Azure,但是实际上(估计很多人不知道)Service ...