【Python网络爬虫二】使用urllib2抓去网页内容
在Python中通过导入urllib2组件,来完成网页的抓取工作。在python3.x中被改为urllib.request。
爬取具体的过程类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。
实现过程:
import urllib2
response=urllib2.urlopen('http://gs.ccnu.edu.cn/')
html=response.read()
print html
将返回的html信息打印出来,这和在网站上右键,查看源码看到的内容是一样的。浏览器通过这些源码,将要现实的内容渲染出来。

除了"http:",URL同样可以使用"ftp:","file:"等等来替代。
HTTP是基于请求和应答机制的:
客户端提出请求,服务端提供应答。
同样urllib2,可以通过模拟一个请求,然后将这个请求作为参数传入urlopen中,在读取返回的内容。
import urllib2
req=urllib2.Request('http://gs.ccnu.edu.cn/')
response2=urllib2.urlopen(req)
page=response2.read()
print page
模拟ftp请求:
req=urllib2.Request("ftp://example.com/")
在进行http请求的时候可以做两件事
1.发送data表单数据
有时候我们在爬取网页的时候,需要提交一个表单,模拟登陆或者注册的操作。
通常http中通过post操作完成, 而在request时,提交的data表单需要讲过urllib中encode编码成标准的方式。
import urllib
import urllib2 url = 'http://www.someserver.com/register.cgi' values = {"input1": "SeeKHit",
"input2": "",
"__EVENTTARGET": "btnLogin",
"__EVENTARGUMENT": "" } data = urllib.urlencode(values) # 编码工作
req = urllib2.Request(url, data) # 发送请求同时传data表单
response = urllib2.urlopen(req) #接受反馈的信息
the_page = response.read() #读取反馈的内容
2.设置Header到http请求
有时候建立http连接后,服务器会根据浏览器传过去的User-Agent头来,返回不同的内容给客户端。已达到不同的显示效果。(如安卓上的uc浏览器,就有一个设置设备标识的,如手机版,电脑版,ipad)
Python支持可以自定义的发送过去的User-Agent头,将自定义的字典作为User-Agent头作为一个参数,创建一个请求。
以下代码,讲User-Agent伪装成IE浏览器来,进行访问。
1. 应用程序版本“Mozilla/4.0”表示:你使用Maxthon 2.0 浏览器使用 IE8 内核;
2. 版本标识“MSIE 8.0”
3. 平台自身的识别信息“Windows NT ”表示“操作系统为 Windows”
url = 'http://www.someserver.com/register.cgi'
user_agent = 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT)'
headers = { 'User-Agent' : user_agent }
values = {"input1": "SeeKHit",
"input2": "",
"__EVENTTARGET": "btnLogin",
"__EVENTARGUMENT": "" } data = urllib.urlencode(values) # 编码工作
req = urllib2.Request(url, data, headers) # 发送请求,传data表单,模拟User-
response = urllib2.urlopen(req) #接受反馈的信息
the_page = response.read() #读取反馈的内容
【Python网络爬虫二】使用urllib2抓去网页内容的更多相关文章
- Python网络爬虫(二)
Urllib库之解析链接 Urllib库里有一个parse这个模块,定义了处理URL的标准接口,实现 URL 各部分的抽取,合并以及链接转换.它支持如下协议的 URL 处理:file.ftp.goph ...
- python 网络爬虫(二)
一.编写第一个网络爬虫 为了抓取网站,我们需要下载含有感兴趣的网页,该过程一般被称为爬取(crawling).爬取一个网站有多种方法,而选择哪种方法更加合适,则取决于目标网站的结构. 首先探讨如何安全 ...
- python网络爬虫之自动化测试工具selenium[二]
目录 前言 一.获取今日头条的评论信息(request请求获取json) 1.分析数据 2.获取数据 二.获取今日头条的评论信息(selenium请求获取) 1.分析数据 2.获取数据 房源案例(仅供 ...
- python 网络爬虫(二) BFS不断抓URL并放到文件中
上一篇的python 网络爬虫(一) 简单demo 还不能叫爬虫,只能说基础吧,因为它没有自动化抓链接的功能. 本篇追加如下功能: [1]广度优先搜索不断抓URL,直到队列为空 [2]把所有的URL写 ...
- Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
- 《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮 著 目录结构 第一章 什么是网络爬虫 第二章 爬虫技能概览 第三章 爬虫实现原理与实现技术 第四章 Urllib库与URLError异常处理 第五章 正则 ...
- Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
- Python网络爬虫学习总结
1.检查robots.txt 让爬虫了解爬取该网站时存在哪些限制. 最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索. 2.检查网站地图(robots.txt文件中发现的Sitemap文件) ...
- Python网络爬虫与信息提取
1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
随机推荐
- c++局域网多播
转自http://www.51cto.com/specbook/17/35216.htm Visual C++实现局域网IP多播 在局域网中,管理员常常需要将某条信息发送给一组用户.如果使用一对一的发 ...
- CADisplayLink 及定时器的使用
第一种: 用CADisplayLink可以实现不停重绘. 例子: CADisplayLink* gameTimer; gameTimer = [CADisplayLink displayLinkW ...
- 【Codeforces163E】e-Government AC自动机fail树 + DFS序 + 树状数组
E. e-Government time limit per test:1 second memory limit per test:256 megabytes input:standard inpu ...
- 架构师养成记--12.Concurrent工具类CyclicBarrier和CountDownLatch
java.util.concurrent.CyclicBarrier 一组线程共同等待,直到达到一个公共屏障点. 举个栗子,百米赛跑中,所有运动员都要等其他运动员都准备好后才能一起跑(假如没有发令员) ...
- Bzoj3894 文理分科
Time Limit: 10 Sec Memory Limit: 512 MBSubmit: 667 Solved: 389 Description 文理分科是一件很纠结的事情!(虽然看到这个题 ...
- 小尝试一下 cocos2d
好奇 cocos2d 到底是怎样一个框架,正好有个项目需要一个游戏框架,所以稍微了解了一下.小结一下了解到的情况. 基本概念 首先呢,因为 cocos2d 是基于 pyglet 做的,你完全可以直接用 ...
- Java学习笔记--循环总结
关键字break和continue除了在switch语句中使用break,还可以在一个循环中使用break立即终止该循环. 循环语句有三类: while循环, do-while循环和for循环.循环中 ...
- C++ cast
excerpted from Type conversions K&R Section 2.7 p59 对type conversion 的解释: The precise meaning of ...
- p/invoke碎片--对类的封送处理
主要是看默认封送处理行为 按类成员的类型是否为“可直接传递到非托管内存”的类型来分类;按照成员中是否有“可直接传递到非托管内存”的类型来讨论. 所有成员都是“可直接传递到非托管内存”的类型 托管代码和 ...
- gprs/gsm 在linux下的应用
之前有篇随笔整理了一种在裸机下用状态机+超时的机制来操作gprs/gsm,linux下就不需要了,本身有完善的调度机制,在等待的流程中直接sleep就行了. 下面是飞凌OK6410下的 demo, 其 ...