Python-urllib学习记录

urllib是python自带库，不要专门安装，还挺好用的。

脚本语言的好处之一就是随写随用，有些东西用C语言写真的是能把人累死，换成python就是几行代码，so easy,对于喜欢偷懒的同学绝对是上帝的礼物~~~

目前我用到的两个常用函数是urlopen， read, urlretrieve这三个函数，讲一下简单的功能，看其他的请移步https://docs.python.org/2/library/urllib.html#urllib.urlopen。

urlopen函数可以用来打开http的网页链接，挺好用的，然后read函数能够直接获取html文本。样例脚本如下：

 import urllib

 url_obj = urllib.urlopen ( 'http://www.cnblogs.com/' )

 htmlfile = url_obj.read ()

代码只有2行，第一行是打开这个网站，第二行是直接获取html的文件，操作流程很简单，有这个基础，组织下数据存储，搞个网页爬虫的基础就有了。

然后在网上看了下，有这样一段代码，用来扒网站上图片的：

 #coding=utf-8

 import urllib

 import re

 def getHtml(url):

     page = urllib.urlopen(url)

     html = page.read()

     return html

 def getImg(html):

     reg = r'src="(.+?\.jpg)" pic_ext'

     imgre = re.compile(reg)

     imglist = re.findall(imgre,html)

     x = 0

     for imgurl in imglist:

         urllib.urlretrieve(imgurl,'%s.jpg' % x)

         x+=1

     return x

 html = getHtml("http://tieba.baidu.com/p/2460150866")

 print getImg(html)

上面这段示例代码水平写得挺不错的，应该是经常使用python的高手写的，没什么多余的东西，刀刀入肉。python网站上写的这个函数介绍。

在urlretrieve函数中如果只传入两个参数，那么第二个参数将作为文件名，保存在python脚本文件所在的路径下。应该也是支持绝对路径的。试验了一下，确实支持。

研究了下这个函数的入参格式，也是http\https格式开头的url：

然后看了下代码的格式，写正则表达式的时候，用了()，应该是通过这个取出来的，python的正则表达式之前用过，已经过去好久了。

Python-urllib学习记录的更多相关文章

python爬虫学习记录
爬虫基础 urllib,urllib2,re都是python自带的模块 urllib,urllib2区别是urllib2可以接受一个Request类的实例来设置url请求的headers,即可以模拟浏 ...
Python爬虫学习记录【内附代码、详细步骤】
引言: 昨天在网易云课堂自学了<Python网络爬虫实战>,视频链接老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐! 另外,在网上看到一位学友整理的课程记录,非常详细,可以优先 ...
简明 Python 教程--学习记录
注意,我们在print语句的结尾使用了一个逗号来消除每个print语句自动打印的换行符.这样做有点难看,不过确实简单有效. print # prints a blank line 注意,没有返回值 ...
python numpy学习记录
numpy是一个python和矩阵相关的库,在机器学习中非常有用,记录下numpy的基本用法 numpy的数组类叫做ndarray也叫做数组,跟python标准库中的array.array不同,后者只 ...
python多线程学习记录
1.多线程的创建 import threading t = t.theading.Thread(target, args--) t.SetDeamon(True)//设置为守护进程 t.start() ...
Python tkinter 学习记录(一) --label 与 button
最简的形式 from tkinter import * root = Tk() # 创建一个Tk实例 root.wm_title("标题") # 修改标题 root.mainloo ...
python爬虫学习记录——各种软件/库的安装
Ubuntu18.04安装python3-pip 1.apt-get update更新源 2,ubuntu18.04默认安装了python3,但是pip没有安装,安装命令:apt install py ...
Python正则表达式学习记录
常用的命令: http://www.runoob.com/python/python-reg-expressions.html 使用中相关注意问题: 1. 中括号里的表示从N到M需要用横线‘-’, 而 ...
流畅的python第一章python数据模型学习记录
python中有些特殊的方法,以双上下划线开头,并以双下划线结束的方法.如__getitem__,这些方法是特殊的方法,供python解释权内部使用,一般来说不需要调用还有一种是以双下划线开头的,如 ...
python getopt学习记录
有时候我们需要写一些脚本处理一些任务,这时候往往需要提供一些命令行参数,根据不同参数进行不同的处理,在Python里,命令行的参数和C语言很类似(因为标准Python是用C语言实现的).在C语言里,m ...

随机推荐

关于 DP 的一些题目
DP 是真的好玩. 口胡一段话题解: DP 题集 1 DP 题集 2
js代码小优化
今天真坑,老大请了两天假,来了之后指指点点,不过人家说的倒是很是到位好不容易把嵌套小窗口登陆注册功能,做完了,直接调之前写好的登陆注册功能,也就是页面跳转并不是ajax异步登陆说让改成ajax ...
bash shell 关系
linux的bash和shell关系 shell通俗理解:把用户输入的命令翻译给操作系统. shell 是一个交互性命令解释器.shell独立于操作系统,这种设计让用户可以灵活选择适合自己的shell ...
zabbix安装配置(2.4.5)
这是第一次安装配置,直接遭遇配置文件不明晰的大坑,因在编译阶段未指明配置文件路径,导致zabbix_server启动时直接读取默认的 /usr/local/zabbix/etc/zabbix_serv ...
Unity 游戏开发技巧集锦之使用忍者飞镖创建粒子效果
Unity 游戏开发技巧集锦之使用忍者飞镖创建粒子效果使用忍者飞镖创建粒子效果游戏中,诸如烟.火.水滴.落叶等粒子效果,都可以使用粒子系统(particle system)来实现.例如,<明 ...
openstack多region配置
实验 A机器 10.64.8.171 RegionOne B机器 10.64.8.142 RegionTwo Keytson(这个组件随便放在哪台都可以) openst ...
【SPFA+二分答案】BZOJ1614- [Usaco2007 Jan]Telephone Lines架设电话线
沉迷于刷水以前的那个二分写法过不了QAQ 换了一种好像大家都比较常用的二分.原因还不是很清楚. [题目大意] 给出一张图,可以将其中k条边的边权减为0,求1到n的路径中最长边的最小值. [思路] 二 ...
Nginx日志切割工具——logrotate 使用记录
1.安装 logrotate是Linux系统自带,无需安装 2.配置进入[/etc/logrotate.d/nginx]文件修改配置 # 需要备份的日志路劲,一个或多个都可以 /data/logs/ ...
Java并发（十四）：并发工具类——CountDownLatch
先做总结: 1.CountDownLatch 是什么? CountDownLatch 允许一个或多个线程等待其他线程(不一定是线程,某个操作)完成之后再执行. CountDownLatch的构造函数接 ...
SQL Server 2008 Windows身份验证改为混合模式身份验证及修改sa密码
由于需要,要把SQL2008单一的Windows身份验证改为混合模式身份验证.在此做一备忘. 步骤: 1.用Windows身份验证方式进入SQL2008,在[对象资源管理器]右键击[根目录]:

Python-urllib学习记录

Python-urllib学习记录的更多相关文章

随机推荐

热门专题