[python爬虫]Requests-BeautifulSoup-Re库方案--robots协议与Requests库实战

【根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写

慕课链接：https://www.icourse163.org/learn/BIT-1001870001?tid=1002236011#/learn/announce】

一、网络爬虫引发的问题

爬虫依据获取数据的速度和能力，分为小型、中型和大型的爬虫。小型爬虫可以用python语言的Requests、BeautifulSoup库编写，适合获取页面内容；中型爬虫可以用Scrapy库编写，适合爬取网站或系列网站数据；大型爬虫指的是搜索引擎，像百度、Google等搜索引擎都有大型爬虫的支持，可以爬取全网络的信息，这种爬虫是定制开发的，没有第三方库支持。

网站搭建使用的Web服务器有一定的性能，如果爬虫大量地访问并获取服务器的资源数据，就会削弱服务器的性能。服务器是对用户提供数据资源服务的，它接受人类的浏览器访问。但是爬虫却可以凭借计算机的高速计算能力，大量地对服务器进行访问并获取数据，这对服务器来说是一种负担。此外，爬虫获取数据存在一定的法律风险和隐私泄露的风险。

大部分网站对爬虫有一定的限制，主要是通过两种方法。一是检查来访HTTP协议头的User-Agent字段，只响应浏览器或友好爬虫的访问请求。浏览器访问网站的HTTP头信息中会有User-Agent字段，用于标识浏览器的信息，如'User-Agent':'Mozilla/5.0'表示这是“Mozilla浏览器”。爬虫程序访问网站时，User-Agent字段通常都会标识程序的相关信息，而不会是浏览器的相关信息。如果访问请求的HTTP信息头中存在'User-Agent':'Mozilla/5.0'，则网站认为这次访问是人使用浏览器进行的，而不会认为是爬虫行为。现在很多浏览器的User-Agent字段都有Mozilla的标识，这里面还有一段有趣的故事，请查看：https://zhidao.baidu.com/question/1767408752449075980.html。这种检测爬虫方式的缺点是，爬虫程序可以很容易地更改自己的User-Agent字段，从而骗取服务器，将自己的爬取行为伪装成浏览器的正常访问行为。第二种限制爬虫的方式是发布robots协议。它其实是一个txt文件，由各个网站的管理员发布。在这个robots.txt文件中说明了网站不允许哪些爬虫爬取哪些数据。

二、robots协议

robots(robots exclusion standard，网络爬虫排除标准)，是一个txt文件，放在网站的根目录下。以简洁的语法告知爬虫程序和其编写者，在这个网站中，有哪些数据是不能爬取的。

如：https://www.cnblogs.com/robots.txt 博客园的robots协议

其中，User-Agent：*表示对所有的爬虫来说。Allow：/表示可以爬取根目录下的任何数据。也就是说，任何爬虫都可以爬取博客园的任何数据。

https://www.jd.com/robots.txt 京东的robots协议

User-Agent：*，Disallow：/?*表示不允许任何爬虫爬取根目录下以问号（？）开头的任何数据，Disallow：/pop/*.html表示不允许爬取pop文件夹下所有的html文件，Disallow：/pinpai/*.html?*表示不允许爬取pinpai文件夹下任何后缀名开头是html?的文件。除了User-Agent：*之外，还对4个特定的爬虫进行了限制（EtaoSpider,HuihuiSpider,GwdangSpider,WochachaSpider）。在这4个爬虫下，都有Disallow：/表示不允许这4个爬虫爬取任何数据。

http://www.moe.edu.cn/robots.txt 中国教育部网站的robots协议（无robots协议）

中国教育部的网站没有robots协议，表示对爬虫的爬取行为没有作规定。

robots协议是网站对爬虫和其编写者的声明，告知对于该网站哪些数据可以爬取，哪些则不可以。这个协议虽然不是约束性的，但如果违反有可能要承担法律责任，特别是爬取来的数据涉及隐私或重大机密，或用于商业盈利目的。对于编写爬虫的练习者来说，要在不影响、不危害网站服务器的前提下，遵守法律、道德，遵守网站相关规定，合理、有节制地使用爬虫程序。

三、Requests库编写爬虫实战

1.淘宝台灯商品页面爬取

https://detail.tmall.com/item.htm?spm=a230r.1.14.20.5e6b648aNUbhlg&id=529733642155&ns=1&abbucket=1&sku_properties=3064956:9115665

上面的访问是正常的，也可以输出页面信息。但对于一些对请求访问有检查的网站来说，要更改请求HTTP信息头中的User-Agent字段，才可以成功连接至网站服务器。

最终代码及运行结果如下：

 #淘宝商品页面爬取程序

 import requests

 def getHTMLText(url):

     try:

         kv={'User-Agent':'Mozilla/5.0'}  #修改headers头信息，模拟浏览器访问行为

         r=requests.get(url,headers=kv)

         r.raise_for_status()  #如果状态不是200，产生HTTPError异常

         r.encoding=r.apparent_encoding

         return r.text[1000:2000]

     except:

         return ""

 def main():

     url="https://detail.tmall.com/item.htm?spm=a230r.1.14.20.5e6b648aNUbhlg&id=529733642155&ns=1&abbucket=1&sku_properties=3064956:9115665"

     print(getHTMLText(url))

 if __name__=="__main__":

     main()

2.bing搜索关键词提交

在bing、百度等搜索引擎的搜索栏中输入要查询的内容，就会返回相应的信息。也可以直接在URL的地址中输入搜素关键字。根据这一点，可以在程序中提交搜索关键字，直接返回页面信息。

查看地址栏，可以看到bing搜索引擎的URL是https://cn.bing.com。输入完关键字后变成了https://cn.bing.com/search?q=keyword。其中keyword就是要输入的关键字，这里是台灯或者水杯。

根据bing搜索引擎的这种查询格式，编写代码：

 #搜索引擎关键字提交

 import requests

 def getHTMLText():

     keyword="台灯"

     try:

         kv={'q':keyword}

         #params参数将添加到URL中，作为URL连接的一部分

         r=requests.get("https://cn.bing.com/search?",params=kv)

         r.raise_for_status()  #如果状态不是200，引发HTTPError异常

         r.encoding=r.apparent_encoding

         return r.text[60000:65000]

     except:

         return ""

 def main():

     print(getHTMLText())

 if __name__=="__main__":

     main()

3.图片抓取

图片在网络上以二进制形式存储，在获取图片资源后也以二进制形式写入到本地磁盘中。在网络中找到一张图片，右键可以获得该图片的URL地址，这个地址就是用程序爬取时用到的URL。

 #图片抓取程序

 import requests

 import os  #要写入图片到本地磁盘，引入os库

 url="http://syds.ngchina.cn/resc/img/difang1.jpg"  #图片的URL链接

 root="C://pics/"  #存放图片的文件夹

 #图片在本地磁盘中的路径

 #使用split('/')以反斜杠为标志将url分割，取最后一个字符串（即difang1.jpg)

 #与前面的root("C://pics/")相连接，形成图片在本地磁盘中的路径

 #这句代码起到的效果是，用图片原来的名字保存

 path=root+url.split('/')[-1]

 try:

     if not os.path.exists(root):  #如果root路径（一个文件夹）不存在，则创建

         os.mkdir(root)

     if not os.path.exists(path):  #如果path路径不存在（即图片不在本地磁盘中）

         r=requests.get(url)

         with open(path,'wb') as f:

             f.write(r.content)  #将Response对象的信息以二进制形式写入磁盘

             f.close()

             print("图片保存成功")

     else:

         print("图片已存在")  #path已存在（即图片已经保存在本地磁盘中）

 except:

     print("图片抓取失败")

python语言的文件相关知识，请参考：http://www.runoob.com/python3/python3-os-file-methods.html。

4.IP地址的查询

在网络上有相关软件或网站可以查询到IP地址，都是通过人机界面交互的形式进行的。如：http://www.ip138.com/。

查询IP后，URL链接发生变化。与搜索引擎关键字提交类似，根据这样的变化编写程序：

 #IP地址查询

 import requests

 url="http://www.ip138.com/ips138.asp?ip="

 try:

     r=requests.get(url+'114.221.176.156')  #前面的URL再加上要查询的IP

     r.raise_for_status()  #如果状态不是200，产生HTTPError异常

     r.encoding=r.apparent_encoding

     print(r.text[7000:7500])  #返回包含地址信息的字符串区间

 except:

     print("查询失败")

[python爬虫]Requests-BeautifulSoup-Re库方案--robots协议与Requests库实战的更多相关文章

from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
python爬虫从入门到放弃（四）之 Requests库的基本使用
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...
python爬虫从入门到放弃（四）之 Requests库的基本使用(转)
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...
Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一.爬 ...
Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 廖雪峰大大贡献的教程写的不错,写了个爬虫把教程保存为word文件,供大家方便下载学习:http://p ...
使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
抖音很火,楼主使用python随机爬取抖音视频,并且无水印下载,人家都说天下没有爬不到的数据,so,楼主决定试试水,纯属技术爱好,分享给大家.. 1.楼主首先使用Fiddler4来抓取手机抖音app这 ...
Python 爬虫十六式 - 第一式：HTTP协议
HTTP:伟大而又无闻的协议学习一时爽,一直学习一直爽! Hello,大家好啊,我是Connor,一个从无到有的技术小白.有的人一说什么是HTTP协议就犯愁,写东西的时候也没想过什么是HTTP协 ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
python 爬虫proxy,BeautifulSoup+requests+mysql 爬取样例
实现思路: 由于反扒机制,所以需要做代理切换,去爬取,内容通过BeautifulSoup去解析,最后入mysql库 1.在西刺免费代理网获取代理ip,并自我检测是否可用 2.根据获取的可用代理ip去发 ...

随机推荐

Redis线程模型
Redis 基于 Reactor 模式开发了自己的网络事件处理器: 这个处理器被称为文件事件处理器(file event handler): 文件事件处理器使用 I/O 多路复用(multiplexi ...
HashMap和HashTable简介和区别
一.HashMap简介 HashMap是基于哈希表实现的,每一个元素是一个key-value对,其内部通过单链表解决冲突问题,容量不足(超过了阀值)时,同样会自动增长. HashMap是非线程安全的, ...
[Swift]LeetCode59. 螺旋矩阵 II | Spiral Matrix II
Given a positive integer n, generate a square matrix filled with elements from 1 to n2 in spiral ord ...
fiddler抓取https失败解决方案
众所周知,Fiddler默认只能抓取到http请求,要抓取到https请求我们还需要FiddlerCertMaker插件的支持, 至于怎么使用fiddler抓https及插件的使用方式,大家可以去百度 ...
Pycharm、IDEA等汉化教程
本汉化教程对jetbrains全系列可用:IDEA.Pycharm.WebStorm.phpstorm.AndroidStudio.GoLand.RubyMine.CLion 此汉化无副作用,绝对安全 ...
sequelize问题集锦
查询: 查询在指定时间范围内的所有数据 options.where.crawl_time = { $lt: new Date('2017-04-08 00:00:00'), $gt: new Date ...
前端（各种demo）二：左侧导航栏的折叠和打开（不使用js）基础版和升级版
1.给div设置定位. 复习一下—— css中position有五种属性: static:默认值,没有定位 absolute:绝对定位,相对于父级元素进行定位 relative:相对定位 fixed: ...
.NET Core实战项目之CMS 第七章设计篇-用户权限极简设计全过程
写在前面这篇我们对用户权限进行极简设计并保留其扩展性.首先很感谢大家的阅读,前面六章我带着大家快速入门了ASP.NET Core.ASP.NET Core的启动过程源码解析及配置文件的加载过程源码解 ...
一段奇葩Javascript代码引发的思考
今天与一挚友加同事调试一段奇葩的javascript代码,在分析出结果后,让我萌生了写此篇文章的想法,如有不对之处望指正,也欢迎大家一起讨论.缩减后的js代码如下,你是否能准确说明他的输出值呢? fu ...
asp.net core 系列 13 日志
一.概述 ASP.NET Core 支持适用于各种内置和第三方日志记录, 供程序的日志记录 API,本文介绍了如何将日志记录 API 与内置提供程序一起使用.对于第三方日志记录提供程序使用,文章最后有 ...

[python爬虫]Requests-BeautifulSoup-Re库方案--robots协议与Requests库实战

[python爬虫]Requests-BeautifulSoup-Re库方案--robots协议与Requests库实战的更多相关文章

随机推荐

热门专题