python爬虫慕课基础2

实战演练：爬取百度百科1000个页面的数据

对于新手来说，可以把spider_main.py代码中的try和except去掉，运行报错就会在控制台出现，根据错误去调试自己的程序

发现以下错误：

requests.exceptions.TooManyRedirects: Exceeded 30 redirects

错误提示是requests库有太多的重定向：超过了30个重定向。

查找别人的解决方式：

我是通过steam的appid来进行遍历的，但是steam不是所有appid都对应一个游戏，也就是说有一些是空的。这种情况下steam会重定向至steam主页，就会产生这个问题。
所以，我最终的解决方案就是仅请求不允许重新定向，因为重新定向中没有我需要的信息。在requests请求中添加一个对应的字段就ok了：

req=requests.get(url,headers=header,allow_redirects=False)

这样就不会弹出上面的错误提示了，但是也关闭了重定向的功能。

发现以下错误：

Traceback (most recent call last):
File "D:/PycharmProjects/test/baike_spider/spider_main.py", line 39, in <module>
obj_spider.craw(root_url)
File "D:/PycharmProjects/test/baike_spider/spider_main.py", line 20, in craw
new_urls, new_data = self.parser.parse(new_url, html_cont)
TypeError: 'NoneType' object is not iterable

在20行上加入输出

html_cont = self.downloader.download(new_url)  # content存放下载的url
print(html_cont)
new_urls, new_data = self.parser.parse(new_url, html_cont)
输出为空None，说明错误在downloader中

使用第三方包requests会导致302重定向问题，原因不明
改为使用urllib的request
成功爬取

生成的html文件直接打开是乱码，用txt打开则正常
加入语句fout.write('<meta charset="utf-8">')后输出正常


爬取时会遇到两个问题中止程序。a：网址中含有中文，b:有些百科词条中'summary'节点是空的，程序没判断导致get_text出错

a：网址中含有中文使用

url_ = quote(url, safe=string.printable)
解决问题

b:有些百科词条中'summary'节点是空的，程序没判断导致get_text出错添加判断语句解决:

if summary_node is not None:
    res_data['summary'] = summary_node.get_text()

查看拼接url：
print('url拼接：', page_url, new_url, new_full_url)   # 查看如何拼接

输出为：
url拼接： https://baike.baidu.com/item/Python/407313?fr=aladdin /item/史记·2016?fr=navbar https://baike.baidu.com/item/史记·2016?fr=navbar
可知：
通过正则表达式

links = soup.find_all('a', href=re.compile(r"/item/"))

获得的是/item/及后面部分如/item/史记·2016?fr=navbar

python爬虫慕课基础2的更多相关文章

python爬虫慕课基础1
test_urllib2.py import http.cookiejar from urllib import request url = "http://www.baidu.com&qu ...
Python 爬虫四基础案例-自动登陆github
GET&POST请求一般格式爬取Github数据 GET&POST请求一般格式很久之前在讲web框架的时候,曾经提到过一句话,在网络编程中“万物皆socket”.任何的网络通信归根 ...
python爬虫相关基础概念
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.但是php在实现爬虫中支持多线程和多进程方面做得不好. 2.java ...
Python爬虫零基础入门（系列）
一.前言上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. update ...
Python爬虫-正则表达式基础
import re #常规匹配 content = 'Hello 1234567 World_This is a Regex Demo' #result = re.match('^Hello\s\d\ ...
python爬虫之认识爬虫和爬虫原理
python爬虫之基础学习(一) 网络爬虫网络爬虫也叫网络蜘蛛.网络机器人.如今属于数据的时代,信息采集变得尤为重要,可以想象单单依靠人力去采集,是一件无比艰辛和困难的事情.网络爬虫的产生就是代替人 ...
Python爬虫入门（1-2）：综述、爬虫基础了解
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
Python实战：爬虫的基础
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕 ...
Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...

随机推荐

MT【276】正切的半角公式
若$\Delta ABC$满足:$\tan\dfrac{A}{2}\cdot\tan\dfrac{C}{2}=\dfrac{1}{3},b=\dfrac{4}{3}a$,则$\sin B=$_____ ...
P2521 [HAOI2011]防线修建
题目链接:P2521 [HAOI2011]防线修建题意:给定点集每次有两种操作: 1. 删除一个点 (除开(0, 0), (n, 0), 与指定首都(x, y)) 2. 询问上凸包长度至于为什么 ...
linux中$#,$0,$1,$2,$@,$*,$$,$?的含义
$# 是传给脚本的参数个数$0 是脚本本身的文件名$1 是脚本后接的第一个参数$2 是脚本后接的第二个参数$@ 是传给脚本的所有参数列表,"$1" "$2" & ...
mac上安装memcache
1. 安装 brew (http://brew.sh/) /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/H ...
jquery扩展写法
如何制作自己的Jquery插件,内容参考学习了网上的讲解,如下使用这两个方法 jQuery.fn.extend(object) jQuery.extend(object) jQuery.extend ...
Win10 安装 Linux子系统 Ubuntu18.04 / Kali Linux 的体验
汇总系列:https://www.cnblogs.com/dunitian/p/4822808.html#linux 几年前就看到新闻,今天周末,突发奇想,家里电脑安装下子系统不就不用安装开发的那些环 ...
javascript之复习(框架里的方法们)
继上次整理,一些东西没有整理完.就写在这.可能比较乱比较杂,因为都是整理的一些东西,也没有到做成专题的程度. 1.String.repeat() 大家要实现重复一个字符串的重复怎么写呢,反正我的第一想 ...
mysql connections
在使用MySQL数据库的时候,经常会遇到这么一个问题,就是“Can not connect to MySQL server. Too many connections”-mysql 1040错误,这是 ...
url加时间戳方法及作用
速记:URL 的末尾追加了时间.这就确保了请求不会在它第一次被发送后即缓存,而是会在此方法每次被调用后重新创建和重发:此 URL 会由于时间戳的不同而稍微有些不同.这种技巧常被用于确保到脚本的 POS ...
js中同一个onclick绑定了两个js方法出现的问题
问题: js中如果同一个onclick绑定了两个js方法问题,即 <li onclick="f1(),f2()"></li> 两个方法f1,f2中都分别有一 ...

python爬虫慕课基础2

python爬虫慕课基础2的更多相关文章

随机推荐

热门专题