20190715《Python网络数据采集》第 1 章

《Python网络数据采集》7月8号-7月10号，这三天将该书精读一遍，脑海中有了一个爬虫大体框架后，对于后续学习将更加有全局感。

此前，曾试验看视频学习，但是一个视频基本2小时，全部拿下需要30多个视频，如此看来每天学习一个视频时间都是非常吃力的，且都属于被动输入，尤其是在早上学习视频容易犯困。

故此，及时调整学习策略，采用 “电子书+廖雪峰网页教程+实操+Google+咨询程序员+每日总结归纳” 的主动学习模式，如此更加高效，更加容易把控进度！

学习爬虫，一者兴趣，致力于借此兴趣驱动力掌握编程思维，进而让自己有能够将想法做成产品的的技能；二者，为了一个近在眼前的爬虫商业化机遇，更希望借此为自己增加一个收入来源。

1. 爬虫常见得异常及处理方法，用一个简单得爬虫代码解释，核心知识点：

（1）异常一：网页在服务器上不存在（或者获取页面时，出现错误）。该异常发生时，程序会返回HTTP错误，如“404 Page Not Found” "500 Internet Server Error"等。

（2）异常二：服务器不存在（即，链接打不开，或者URL链接写错了），这时，urlopen会返回一个None对象。

Ps：有的时候，网页已经从服务器成功获取，如果网页上的内容并非完全是我们期望的那样，也会出现异常。

 1 from urllib.request import urlopen

 2 from bs4 import BeautifulSoup

 3

 4 try:

 5     html = urlopen("http://pythonscraping.com/pages/page1.html")

 6 # print(html.read())

 7 # 检测：网页在服务器上是否存在（或者获取页面时是否出现错误）

 8 except HTTPError as e:

 9     print(e)

10 else:

11     bsobj = BeautifulSoup(html.read())

12     # 检测：服务器是否存在（就是说链接能否打开，或者是URL链接写错了）

13     if html is None:

14         print("URL is not found")

15     else:

16         print(bsobj.h1)

17         # print(bsobj.title)

 1 # 以上代码更改为检测异常更全面、可读性更强的代码，如下：

 2 from urllib.request import urlopen

 3 from bs4 import BeautifulSoup

 4

 5 def getTitle(url):

 6     try:

 7         html = urlopen(url)

 8     except HTTPError as e:

 9         return None

10     try:

11         bsobj = BeautifulSoup(html.read())

12         title = bsobj.body.h1

13     except AttributeError as e:

14         return

15     return title

16

17 title1 = getTitle("http://pythonscraping.com/pages/page1.html")

18 if title1 == None:

19     print("Title could not be found")

20 else:

21     print(title1)

该部分代码执行时，出现报错：

indentationerror: unexpected indent process finished with exit code 1

Google发现，Tag和Space不能混合使用。原始第五行，def被tab缩进，后删除该tab缩进，问题解决。该问题具体原因，仍需要仔细查明！！！

20190715《Python网络数据采集》第 1 章的更多相关文章

Python网络数据采集PDF
Python网络数据采集(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/16c4GjoAL_uKzdGPjG47S4Q 提取码:febb 复制这段内容后打开百度网盘手 ...
Python网络数据采集PDF高清完整版免费下载|百度云盘
百度云盘:Python网络数据采集PDF高清完整版免费下载提取码:1vc5 内容简介本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导.第 ...
笔记之Python网络数据采集
笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸网络数据采集, 无非就是写一个自动化程序向网络服务器请求数据, 再对数据进行解析, 提取需要的信息通常, ...
Python网络数据采集7-单元测试与Selenium自动化测试
Python网络数据采集7-单元测试与Selenium自动化测试单元测试 Python中使用内置库unittest可完成单元测试.只要继承unittest.TestCase类,就可以实现下面的功能. ...
Python网络数据采集6-隐含输入字段
Python网络数据采集6-隐含输入字段 selenium的get_cookies可以轻松获取所有cookie. from pprint import pprint from selenium imp ...
Python网络数据采集4-POST提交与Cookie的处理
Python网络数据采集4-POST提交与Cookie的处理 POST提交之前访问页面都是用的get提交方式,有些网页需要登录才能访问,此时需要提交参数.虽然在一些网页,get方式也能提交参.比如h ...
Python网络数据采集3-数据存到CSV以及MySql
Python网络数据采集3-数据存到CSV以及MySql 先热热身,下载某个页面的所有图片. import requests from bs4 import BeautifulSoup headers ...
Python网络数据采集2-wikipedia
Python网络数据采集2-wikipedia 随机链接跳转获取维基百科的词条超链接,并随机跳转.可能侧边栏和低栏会有其他链接.这不是我们想要的,所以定位到正文.正文在id为bodyContent的 ...
Python网络数据采集1-Beautifulsoup的使用
Python网络数据采集1-Beautifulsoup的使用来自此书: [美]Ryan Mitchell <Python网络数据采集>,例子是照搬的,觉得跟着敲一遍还是有作用的,所以记录 ...

随机推荐

LeetCode 988. Smallest String Starting From Leaf
原题链接在这里:https://leetcode.com/problems/smallest-string-starting-from-leaf/ 题目: Given the root of a bi ...
20199302《Linux内核原理与分析》第十二周作业
ShellShock攻击实验什么是ShellShock? Shellshock,又称Bashdoor,是在Unix中广泛使用的Bash shell中的一个安全漏洞,首次于2014年9月24日公开.许 ...
BZOJ 5469: [FJOI2018]领导集团问题 dp+线段树合并
在 dp 问题中,如果发现可以用后缀最大值来进行转移的话可以考虑去查分这个后缀最大值. 这样的话可以用差分的方式来方便地进行维护 ~ #include <bits/stdc++.h> #d ...
javascript之命名空间方法封装
详细代码如下: Object.prototype.namespace= function(name){ var parts = name.split('.'); var current = this; ...
GoCN每日新闻(2019-10-25)
GoCN每日新闻(2019-10-25) GoCN每日新闻(2019-10-25) 1. [译]Golang应付百万级请求/分钟 https://juejin.im/post/5db1464b6fb9 ...
【cf补题记录】A. Hotelier
思考之后再看题解,是与别人灵魂之间的沟通与碰撞 A. Hotelier 题意给出长度为n的字符串,字符串由'L'.'R'以及数字0~9组成.旅馆有10间房子,L代表客人从左边入住,R代表客人从右边入 ...
Tkinter 之爬虫框架项目实战
一.效果图二.源码 ''' 测试内容页爬取''' def test_content_url(self): try: url = self.test_url_var.get().strip() ite ...
高斯混合模型（GMM）及MATLAB代码
之前在学习中遇到高斯混合模型,卡了很长一段时间,在这里记下学习中的一些问题以及解决的方法.希望看到这篇文章的同学们对高斯混合模型能有一些基本的概念.全文不废话,直接上重点. 本文将从以下三个问题详解高 ...
OpenFOAM——三角腔驱流
本算例来自<ANSYS Fluid Dynamics Verification Manual>中的VMFL011: Laminar Flow in a Triangular Cavity ...
Git bash Error: Could not fork child process: There are no available terminals (-1)
错误信息:Error: Could not fork child process: There are no available terminals (-1) 截图如下: 解决办法: (1)使用cmd ...

20190715《Python网络数据采集》第 1 章

20190715《Python网络数据采集》第 1 章的更多相关文章

随机推荐

热门专题