python爬虫（1）—

　　人生苦短，我用python！

一、关于爬虫

　　鉴于我的windos环境使用命令行感觉非常不便，也懒得折腾虚拟机，于是我选择了一个折中的办法——Cmder。它的下载地址是：cmder.net

Cmder是一个增强型命令行工具，不仅可以使用windows下的所有命令，更爽的是可以使用linux的命令,shell命令。下载下来后，解压即可使用。稍加设置（具体的设置可以百度），你就会发现它比windos的cmd要好用的多。

　　爬虫分为通用爬虫和聚焦爬虫，我们所研究的就是聚焦爬虫——抓取网页时筛选，尽量只抓与需求相关的网页信息。而网络爬虫的抓取过程我们可以理解为模拟浏览器操作的过程，这个过程基于Http（超文本传输协议）和Https（安全版的Http）的。当我们向浏览器中输入https://www.baidu.com/时，它就会根据这个地址来获取网页信息。我们所输入的网址就是URL——统一资源定位符，它是用于完整地描述Internet上网页和其它资源的地址的一种标识方式。

二、Python的urllib包

　　在Python3中，我们可以使用urlib这个组件抓取网页，urllib是一个URL处理包，这个包中集合了一些处理URL的模块。我们可以使用help命令查看一下。

import urllib

help(urllib)

其中：

　　1.urllib.request模块是用来打开和读取URLs的；

　　2.urllib.error模块包含一些有urllib.request产生的错误，可以使用try进行捕捉处理（可以学习一下python的异常处理机制）；

　　3.urllib.parse模块包含了一些解析URLs的方法；

　　4.urllib.robotparser模块用来解析robots.txt（爬虫协议）文本文件，它提供了一个单独的RobotFileParser类，通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面。

三、下载一个页面

　　了解了以上这些，我们可以用request来尝试下载一个页面。在ipython中测试一下：

 from urllib import request

 response=request.urlopen('http://www.17jita.com/')

 html=response.read()

 print(html)

　　看起来有些乱码，别着急，我们可以通过简单的decode()命令将网页的信息进行解码，并显示出来.

 from urllib import request

 response=request.urlopen('http://www.17jita.com/')

 html=response.read().decode('gbk')

 print(html)

　　这样我们就可以利用python看到网页的源码了，这与在浏览器右键查看网页源代码所看到的是一致的。

　　值得注意的是，在使用decode解码时，我们要了解到一些一些常用的编码方式，如：gbk，gb2312，utf-8，Unicode等等。python2的编码就常常为人所诟病，但是在在python3中，这个问题得到了解决。具体资料可以自行百度。

python爬虫（1）——urllib包的更多相关文章

Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...
python爬虫之urllib库（一）
python爬虫之urllib库(一) urllib库 urllib库是python提供的一种用于操作URL的模块,python2中是urllib和urllib2两个库文件,python3中整合在了u ...
Python爬虫之urllib模块1
Python爬虫之urllib模块1 本文来自网友投稿.作者PG,一个待毕业待就业二流大学生.玄魂工作室未对该文章内容做任何改变. 因为本人一直对推理悬疑比较感兴趣,所以这次爬取的网站也是平时看一些悬 ...
python爬虫之urllib库（三）
python爬虫之urllib库(三) urllib库访问网页都是通过HTTP协议进行的,而HTTP协议是一种无状态的协议,即记不住来者何人.举个栗子,天猫上买东西,需要先登录天猫账号进入主页,再去 ...
python爬虫之urllib库（二）
python爬虫之urllib库(二) urllib库超时设置网页长时间无法响应的,系统会判断网页超时,无法打开网页.对于爬虫而言,我们作为网页的访问者,不能一直等着服务器给我们返回错误信息,耗费 ...
Python爬虫之urllib.parse详解
Python爬虫之urllib.parse 转载地址 Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数. 解析url 解析url( urlparse() ) ur ...
爬虫之urllib包
urllib简介简介 Python3中将python2.7的urllib和urllib2两个包合并成了一个urllib库 Python3中,urllib库包含有四个模块: urllib.reques ...
python爬虫之urllib库介绍
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
爬虫之urllib包以及request模块和parse模块
urllib简介简介 Python3中将python2.7的urllib和urllib2两个包合并成了一个urllib库 Python3中,urllib库包含有四个模块: urllib.reques ...
Python爬虫之Urllib库的基本使用
# get请求 import urllib.request response = urllib.request.urlopen("http://www.baidu.com") pr ...

随机推荐

从零开始学习前端开发 — 15、CSS3过渡、动画
一.css3过渡语法: transition: 过渡属性过渡时间延迟时间过渡方式; 1.过渡属性(transition-property) 取值:all 所有发生变化的css属性都添加过渡 e ...
Oracle：FOR循环语句练习
--打印输出从1到10的正整数DECLARE v_i NUMBER(10) := 0;BEGIN LOOP v_i := v_i + 1; DBMS_OUTPUT.put_line(v_i); EXI ...
启动tomcat时，一直卡在Deploying web application directory这块的解决方案
本来今天正常往服务器上扔一个tomcat 部署一个项目的, 最后再启动tomcat 的时候发现项目一直都访问不了,看了一下日志: [root@iz8vbdzx7y7owm488t4d89z bin] ...
ProtoBuf 与 gRPC
用 Protobuf 很久了,但是一直觉得很简单,所以就没有做一个总结,今天想尝试一下 gRPC,顺带就一起总结一下.ProtoBuf 是个老同志了,应该是 2010 的时候发布的,然后被广泛使用,目 ...
Django之modelform组件
一.简介与基本使用简介:django中的modelform组件同时具有model和form作用,但是耦合度比较高,当项目需要拆分时候就比较困难了,所以在使用modelform时候需要先考虑项目的扩展 ...
isinstance和issubclass、动态模块导入、异常处理
一.isinstance和issubclass isinstance:判断某个对象是否是某个类的实例,返回True或Flase issubclass:判断某个类是否是某个类的子类. 例如: class ...
20165206学习基础和C语言基础调查
- 技能我的一项可以拿的出手的技能是萨克斯.但不敢说有多厉害,更不敢说比大多数人更好,只能说是还可以.我学萨克斯有5年左右的时间吧,这5年里印象最深刻的还是前两年.前两年主要是基础训练.我从最基础的 ...
Linuxc - 操作系统内存分配
静态变量是存储在数据段的,在函数中可以共用. 全局变量也是存储在数据段的,在全局中可以共用. 指针变量本质上是地址,数组变量本质上也是地址. 数组是可靠的,不可变的地址.指针变量是不可靠的,可变的.数 ...
设置vs环境
body, table{font-family: 微软雅黑; font-size: 10pt} table{border-collapse: collapse; border: solid gray; ...
流API--流的映射
很多时候,将一个流的元素映射到另外一个流很有帮助.映射操作最具代表的就是map()方法.实际编码中,我们会经常用到,所以这里专门整理一篇博客. 考虑如下情景,对于一个包含了姓名,电话,年龄等属性构成的 ...

python爬虫（1）——urllib包

python爬虫（1）——urllib包的更多相关文章

随机推荐

热门专题