在Python中通过导入urllib2组件,来完成网页的抓取工作。在python3.x中被改为urllib.request。

爬取具体的过程类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。

实现过程:

 import urllib2

 response=urllib2.urlopen('http://gs.ccnu.edu.cn/')
html=response.read()
print html

将返回的html信息打印出来,这和在网站上右键,查看源码看到的内容是一样的。浏览器通过这些源码,将要现实的内容渲染出来。

除了"http:",URL同样可以使用"ftp:","file:"等等来替代。

HTTP是基于请求和应答机制的:

客户端提出请求,服务端提供应答。

同样urllib2,可以通过模拟一个请求,然后将这个请求作为参数传入urlopen中,在读取返回的内容。

 import urllib2

 req=urllib2.Request('http://gs.ccnu.edu.cn/')
response2=urllib2.urlopen(req)
page=response2.read()
print page

模拟ftp请求:

 req=urllib2.Request("ftp://example.com/")

在进行http请求的时候可以做两件事

1.发送data表单数据

有时候我们在爬取网页的时候,需要提交一个表单,模拟登陆或者注册的操作。

通常http中通过post操作完成, 而在request时,提交的data表单需要讲过urllib中encode编码成标准的方式。

 import urllib
import urllib2 url = 'http://www.someserver.com/register.cgi' values = {"input1": "SeeKHit",
"input2": "",
"__EVENTTARGET": "btnLogin",
"__EVENTARGUMENT": "" } data = urllib.urlencode(values) # 编码工作
req = urllib2.Request(url, data) # 发送请求同时传data表单
response = urllib2.urlopen(req) #接受反馈的信息
the_page = response.read() #读取反馈的内容

2.设置Header到http请求

有时候建立http连接后,服务器会根据浏览器传过去的User-Agent头来,返回不同的内容给客户端。已达到不同的显示效果。(如安卓上的uc浏览器,就有一个设置设备标识的,如手机版,电脑版,ipad)

Python支持可以自定义的发送过去的User-Agent头,将自定义的字典作为User-Agent头作为一个参数,创建一个请求。

以下代码,讲User-Agent伪装成IE浏览器来,进行访问。

1. 应用程序版本“Mozilla/4.0”表示:你使用Maxthon 2.0 浏览器使用 IE8 内核;
2. 版本标识“MSIE 8.0”
3. 平台自身的识别信息“Windows NT ”表示“操作系统为 Windows”

 url = 'http://www.someserver.com/register.cgi'
user_agent = 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT)'
headers = { 'User-Agent' : user_agent }
values = {"input1": "SeeKHit",
"input2": "",
"__EVENTTARGET": "btnLogin",
"__EVENTARGUMENT": "" } data = urllib.urlencode(values) # 编码工作
req = urllib2.Request(url, data, headers) # 发送请求,传data表单,模拟User-
response = urllib2.urlopen(req) #接受反馈的信息
the_page = response.read() #读取反馈的内容

【Python网络爬虫二】使用urllib2抓去网页内容的更多相关文章

  1. Python网络爬虫(二)

    Urllib库之解析链接 Urllib库里有一个parse这个模块,定义了处理URL的标准接口,实现 URL 各部分的抽取,合并以及链接转换.它支持如下协议的 URL 处理:file.ftp.goph ...

  2. python 网络爬虫(二)

    一.编写第一个网络爬虫 为了抓取网站,我们需要下载含有感兴趣的网页,该过程一般被称为爬取(crawling).爬取一个网站有多种方法,而选择哪种方法更加合适,则取决于目标网站的结构. 首先探讨如何安全 ...

  3. python网络爬虫之自动化测试工具selenium[二]

    目录 前言 一.获取今日头条的评论信息(request请求获取json) 1.分析数据 2.获取数据 二.获取今日头条的评论信息(selenium请求获取) 1.分析数据 2.获取数据 房源案例(仅供 ...

  4. python 网络爬虫(二) BFS不断抓URL并放到文件中

    上一篇的python 网络爬虫(一) 简单demo 还不能叫爬虫,只能说基础吧,因为它没有自动化抓链接的功能. 本篇追加如下功能: [1]广度优先搜索不断抓URL,直到队列为空 [2]把所有的URL写 ...

  5. Python网络爬虫

    http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...

  6. 《精通python网络爬虫》笔记

    <精通python网络爬虫>韦玮 著 目录结构 第一章 什么是网络爬虫 第二章 爬虫技能概览 第三章 爬虫实现原理与实现技术 第四章 Urllib库与URLError异常处理 第五章 正则 ...

  7. Python网络爬虫与如何爬取段子的项目实例

    一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...

  8. Python网络爬虫学习总结

    1.检查robots.txt 让爬虫了解爬取该网站时存在哪些限制. 最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索. 2.检查网站地图(robots.txt文件中发现的Sitemap文件) ...

  9. Python网络爬虫与信息提取

    1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...

随机推荐

  1. C#进阶系列——WebApi 接口测试工具:WebApiTestClient

    前言:这两天在整WebApi的服务,由于调用方是Android客户端,Android开发人员也不懂C#语法,API里面的接口也不能直接给他们看,没办法,只有整个详细一点的文档呗.由于接口个数有点多,每 ...

  2. LISA介绍及其使用方法

    LISA是ARM公司开发的一款开源工具.在内核开发过程中,苦于无法针对修改内容进行一些量化或者可视化结果的测量,而无感.LISA对于模型调优,回归测试都有较强的支持. 什么是LISA? LISA是Li ...

  3. Doc

    一:window: 属性(值或者子对象):opener:打开当前窗口的源窗口,如果当前窗口是首次启动浏览器打开的,则opener是null,可以利用这个属性来关闭源窗口. 方法(函数):事件(事先设置 ...

  4. java之并发编程线程池的学习

    如果并发的线程数量很多,并且每个线程都是执行一个时间很短的任务就结束了,这样频繁创建线程就会大大降低系统的效率,因为频繁创建线程和销毁线程需要时间. java.uitl.concurrent.Thre ...

  5. root与普通用户的切换

    普通用户切换到root用户:sudo su - root用户切换到普通用户:su henie

  6. c++转载系列 std::vector模板库用法介绍

    来源:http://blog.csdn.net/phoebin/article/details/3864590 介绍 这篇文章的目的是为了介绍std::vector,如何恰当地使用它们的成员函数等操作 ...

  7. 记录在linux下的wine生活

    记录在linux下的windows生活 本篇内容涉及QQ.微信.Office的安装配置 QQ: 到deepin下载轻聊版. 如果安装了crossover,那么将其中opt/cxoffice/suppo ...

  8. 数据结构作业——Sanji(优先队列)

    山治的婚约 Description 我们知道,山治原来是地下有名的杀人家族文斯莫克家族的三子,目前山治的弟弟已经出现,叫做四治,大哥二哥就叫汪(One)治跟突(Two)治好了(跟本剧情无关) .山治知 ...

  9. ThinkPhp 3.2 常见问题与注意事项

    1 命名空间声明必须写在脚本的最前面 如果运行PHP脚本后出现如下错误: Namespace declaration statement has to be the very first statem ...

  10. 高端大气上档次的fullPage.js

    简介 4月15日,网易邮箱升级到6.0版本,并发布了介绍页面,页面采用了时下非常流行的"全屏"效果,文字.图片再加上 CSS3 动画,让用户非常直观.清晰的了解6.0版本的功能及特 ...