上节<第14.3节 使用google浏览器获取网站访问的http信息>中介绍了使用Google浏览器怎么获取网站访问的http相关报文信息,本节介绍IE浏览器中怎么获取相关信息.以上节为基础,部分http相关知识在此不再介绍. 步骤1:登录网站并打开准备获取信息的网页 步骤2:在网页上按F12或选择对应内容后鼠标右键选择检查元素(如下图) 打开开发者工具并点击下图左上角蓝色标记的"启用网络流量捕获"的按钮开始捕获网页的网络报文: 回到网页访问窗口刷新页面再回到开发者工具窗口…
一. 引言 在<第14.6节 Python模拟浏览器访问网页的实现代码>介绍了使用urllib包的request模块访问网页的方法.但上节特别说明http报文头Accept-Encoding最好不设置,否则服务端会根据该字段及服务端的情况采用对应方式压缩http报文体,如果爬虫应用没有解压支持会导致应用无法识别收到的响应报文体.本节简单介绍一下怎么处理响应报文体的压缩. 在爬虫爬取网页时,如果在请求头中传递了"'Accept-Encoding':'gzip'"信息则服务器会…
假设我们当前页面的访问地址是:http://localhost/CMS/public/index.php?r=news&id=1 一. 1.获取当前域名:echo Yii::app()->request->hostInfo; 结果:http://localhost 2.获取(除域名外的)当前URL: echo Yii::app()->request->getUrl(); 结果:/CMS/public/index.php?r=news&id=1 3.获取(除域名外的)…
一. 引言 在<第14.3节 使用google浏览器获取网站访问的http信息>和<第14.4节 使用IE浏览器获取网站访问的http信息>中介绍了使用Google浏览器和IE浏览器怎么获取网站访问的http相关报文信息,本节介绍利用获取的信息怎么在Python应用中构建http访问报文头.本节介绍的获取信息以Google浏览器获取的http信息为准,相当于应用访问网站是模拟谷歌浏览器进行访问,IE的原理一样,大家可以自行处理. 二. 从浏览器中获取到http请求报文的报文头信息…
一. 引言 一般情况下,没有特殊要求的客户,宽带服务提供商提供的上网服务,给客户家庭宽带分配的地址都是一个宽带服务提供商的内部服务地址,真正对外访问时通过NAT进行映射到一个公网地址,如果我们想确认自己的公网地址还不是很容易,但百度提供了一项服务,在百度查询时输入IP就可以查到浏览器所在本机的公网IP,利用该功能我们就可以查到本机公网IP,本节老猿就是要request+BeatifulSoap实现本机公网地址解析. 二. 百度公网地址解析过程分析 按<第14.3节 使用google浏览器获取网站…
Python要访问一个网页并读取网页内容非常简单,在利用<第14.5节 利用浏览器获取的http信息构造Python网页访问的http请求头>的方法构建了请求http报文的请求头情况下,使用urllib包的request模块使得这项工作变得非常容易,具体语句如下: header = mkhead() req = urllib.request.Request(url=site,headers=header) sitetext = urllib.request.urlopen(req).read(…
如果要从一个互联网前端开发的小白,学习爬虫开发,结合自己的经验老猿认为爬虫学习之路应该是这样的: 一. 了解HTML语言及css知识 这方面的知识请大家通过w3school 去学习,老猿对于html总结了部分基础知识内容,在<第14.2节 HTML知识简介>进行介绍,其他的大家到w3school 去学习. 二. 学习http协议相关的知识 需要了解url的构成.http协议头的结构.http协议支持的get方法等内容.这方面推荐大家学习如下老猿转发的博文: <url的组成结构信息>…
利用urllib.request读取url文档的内容并使用BeautifulSoup解析后,可以通过一些基本的BeautifulSoup对象输出html文档的基本信息.以博文<第14.6节 使用Python urllib.request模拟浏览器访问网页的实现代码>访问为例,读取和解析代码如下: >>> from bs4 import BeautifulSoup >>> import urllib.request >>> def getUR…
写在前面:本文相关方法为作者独创,仅供参考学习爬虫技术使用,请勿用作它途,禁止转载! 一. 引言 在爬虫爬取网页时,有时候希望不同的时候能以不同公网地址去爬取相关的内容,去网上购买地址资源池是大部分人员的选择.老猿所在的环境有电信运输商部署的对外开放的WiFi,由于涉及对外开放支持不同用户接入,其分配的地址经过NAT地址转换,但其公网地址一定是一个地址池,对于需要公网地址池资源的人员来说,这就是一个免费的地址资源池.本节介绍的内容就是怎么借用这个地址资源池作为自己的地址池. 二. 要解决的问题…
写在前面:本文仅供参考学习,请勿用作它途,禁止转载! 在<第14.14节 爬虫实战准备:csdn博文点赞过程http请求和响应信息分析>老猿分析了csdn博文点赞处理的http请求和响应报文,在<第14.15节 爬虫实战1:使用Python和selenium实现csdn博文点赞>中通过selenium方式实现了博文自动点赞,但selenium方式老猿觉得并不是一个真正的爬虫实现方式,因此本节老猿将通过request+BeautifulSoup的方式实现一个真正爬虫式的CSDN博文自…