0. 前言

如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力

因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫

所以建议先学习一下cuiqingcai大神的 Python爬虫学习系列教程 的入门部分。

它的整个系列教程我觉得写得非常好,值得一看!

当然,即便是你什么都不会,也没关系。

只要有一颗上进的心,没什么是学不会的。

希望我的文章能给你些许帮助!

1. 扒下一个网页

什么都不讲,直接上一段代码

import urllib2
html = urllib2.urlopen( 'http://music.163.com/' )
print html.read()

我们将其保存为 test.py, 通过 python test.py 运行该代码,可以看见终端下出现了网易云音乐主页的html源代码,是的,我们把它扒下来了。

别急,我们把代码改一下

import urllib2
response = urllib2.urlopen( 'http://music.163.com/' )
html = response.read()
open( 'test.html',"w").write(html)

执行该代码后,当前目录下会出现一个 test.html 文件,是的,我们把网页保存下来了。

2. urllib2库

下面我们来分析一下上面的代码

首先,我们将urllib2模块导入,以便后续使用

可以看到我们调用了一个名为urlopen()的方法,它一般接受三个参数,方法执行后,返回一个response对象,具体定义如下:

def urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT):

第一个参数url即为网页的URL

第二个参数data是访问URL时要传送的数据

第三个参数timeout是设置超时时间

第二和第三个参数在不传的情况下使用的是默认值Nonesocket._GLOBAL_DEFAULT_TIMEOUT

第一个参数url是必须要传的,这里我们传的是网易云音乐的URL。

在我们获取到的页面信息,就存放在response对象中,我们再通过调用read()方法,它可以返回网页的内容。

最后,我们再使用文件读写操作,将页面内容保存在test.html中,这样,我们就成功扒取了网易云音乐的主页内容。

3. URI 和 URL

首先你需要明白一个简单的问题,我们在浏览器地址栏一般值输入:www.baidu.com

但实际上,百度的URL应该是:https://www.baidu.com/

这就是我们所要理解的统一资源定位器URL(Uniform Resoure Locator),基本的URL地址包含三个部分:

  1. 协议:客户与服务器之间所使用的通信协议
  2. 主机标识:存放信息的服务器地址
  3. 文件名:存放信息的路径和文件名

    可以看到 http://tieba.baidu.com/f?kw=acm&fr=index就是一个典型的URL

    另外,还要清楚一个概念,URLURI的一个子集,URI包括了URLURN,如果你对概念有些模糊,参考 这里

4. GET 和 POST

在客户机和服务器之间进行请求-响应时,两种最常被用到的方法是:GETPOST

  • GET 从指定的资源请求数据。
  • POST 向指定的资源提交要被处理的数据

这两个请求方式很重要,你可以事先在度娘或者谷哥那里了解一下

简单来讲,可以这样理解:

get是从服务器上获取数据,post是向服务器传送数据

5. 必要的分析

想要爬取特定的信息或是数据,还需要对指定的网页进行分析,这也就涉及到了抓包工具以及正则表达式的使用,这些以后都会讲到。

6. 一个简短的例子

import urllib2
import re # 正则表达式所用到的库 # 我们所要下载的图片所在网址
url = 'http://desk.zol.com.cn/bizhi/6377_78500_2.html'
response = urllib2.urlopen(url)
# 获取网页内容
html = response.read() # 确定一个正则表达式,用来找到图片的所在地址
reg = re.compile(r'<img id="bigImg" src="(.*?jpg)" .*>');
imgurl = reg.findall(html)[0] # 打开图片并保存为haha.jpg
imgsrc = urllib2.urlopen(imgurl).read()
open("haha.jpg","w").write(imgsrc)

上面简短的代码片段,功能是下载ZOL桌面壁纸网站上某个指定图片。

其中用到了我们前面介绍的urlopen,open等方法,当然,还用到了一个和正则表达式有关的类库,你可以尝试着自己写一个demo,扒一下某个知名的或者不知名的网站。

这篇文章就到这里,以后的文章都以具体的例子展开,空讲理论不适合我。

Q: 如何入门爬虫?

A: 请直接上路!

python爬虫学习(1) —— 从urllib说起的更多相关文章

  1. Python爬虫学习笔记-1.Urllib库

    urllib 是python内置的基本库,提供了一系列用于操作URL的功能,我们可以通过它来做一个简单的爬虫. 0X01 基本使用 简单的爬取一个页面: import urllib2 request ...

  2. python爬虫学习 —— 总目录

    开篇 作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录 听说你叫爬虫 - ...

  3. Python爬虫学习:三、爬虫的基本操作流程

    本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程 一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...

  4. 《Python爬虫学习系列教程》学习笔记

    http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...

  5. python爬虫学习笔记(一)——环境配置(windows系统)

    在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库)   [推荐地址:清华镜像] https://mirrors ...

  6. [转]《Python爬虫学习系列教程》

    <Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...

  7. Python爬虫学习第一记 (翻译小助手)

    1 # Python爬虫学习第一记 8.24 (代码有点小,请放大看吧) 2 3 #实现有道翻译,模块一: $fanyi.py 4 5 import urllib.request 6 import u ...

  8. Python爬虫学习:四、headers和data的获取

    之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取 就以博客园的首页为例:http://www.cnblogs.c ...

  9. Python爬虫学习:二、爬虫的初步尝试

    我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...

随机推荐

  1. ASP.NET MVC过滤器

    在ASP.NET MVC中有个重要特性就是过滤器,使得我们在MVC程序开发中更好的控制浏览器请求的URL,不是每个请求都有响应内容,只有特定得用户才有.园子里关于过滤器的资料也有很多,这篇文章主要是记 ...

  2. 未能解析此远程名称: 'api.ucpaas.com'

     未能解析此远程名称: 'api.ucpaas.com'  这个问题的原因不是云之讯,而是(我用的是阿里云)云服务器的DNS解析的问题 或者是云服务器后台的安全组规则的问题, 应该把内网入方向和内网出 ...

  3. IDE有毒

    程序员按项目性质大致有三种:写Demo的.写Proto的.写成品的:按项目开发周期大致有:写开头的.写中间的.写结尾的. Demo是样品,主要是表面上初步实现,临时忽悠客户用的,不一定要求继续演化: ...

  4. Scalaz(58)- scalaz-stream: fs2-并行运算示范,fs2 parallel processing

    从表面上来看,Stream代表一连串无穷数据元素.一连串的意思是元素有固定的排列顺序,所以对元素的运算也必须按照顺序来:完成了前面的运算再跟着进行下一个元素的运算.这样来看,Stream应该不是很好的 ...

  5. Spring2.0-applicationContext.xml中使用el表达式给实体类属性赋值被当成字符串-遁地龙卷风

    (-1)写在前面 这两天读<javaweb开发王者归来>,学到Spring的PropertyPlaceholderConfigurer时出现一个问题,我已${jdbc.name}的形式赋值 ...

  6. Android实现侧边栏SlidingPaneLayout

    //主布局 1 <?xml version="1.0" encoding="utf-8"?> <android.support.v4.widg ...

  7. 【JavaScript】浅析javaScript和HTML与unicode字符集的关系

    目录结构: // contents structure [-] javaScript和HTML的字符集 javaScript和HTML如何表现unicode字符集 参考文章 javaScript和HT ...

  8. Snort 安装 配置 - Archlinux

    About Snort Snort是一套开放源代码(OpenSource and free)的网络入侵预防软件(NIPS)与网络入侵检测软件(NIDS).Snort使用了以侦测签名(signature ...

  9. Android Touch事件传递机制 二:单纯的(伪生命周期)

    转载于:http://blog.csdn.net/yuanzeyao/article/details/38025165 在前一篇文章中,我主要讲解了Android源码中的Touch事件的传递过程,现在 ...

  10. fmdb 数据库的基本操作

    /** *  创建表 */ - (void)createTable { //1.初始化数据库对象 并且 2.打开数据库 BOOL isOpenSuccess = [self.database open ...