#coding=utf-8

 # 参考文章:
# 1. python实现简单爬虫功能
# http://www.cnblogs.com/fnng/p/3576154.html
# 2. Python 2.7 时间和日期模块常用的例子
# http://www.linuxidc.com/Linux/2015-06/118458.htm
# 3. Python open读写文件实现脚本
# http://www.jb51.net/article/15709.htm
# 4. python re 模块 findall 函数用法简述
# http://blog.csdn.net/cashey1991/article/details/8875213
# 5. [Python]编码声明:是coding:utf-8还是coding=urf-8呢
# http://www.xuebuyuan.com/975181.html # urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据。
import urllib
import re
import datetime,time # 定义了一个getHtml()函数
def getHtml( url ):
# urllib.urlopen()方法用于打开一个URL地址。
page = urllib.urlopen( url )
# read()方法用于读取URL上的数据
html = page.read() # 返回整个网页数据
return html # 创建getImg()函数
def getImg( html ):
# ()表示所要提取的字符串,即: 图片名.jpg
reg = r'src="(.+?\.jpg)" pic_ext'
# 可以把正则表达式编译成一个正则表达式对象.
imgre = re.compile( reg )
# 读取html 中包含 imgre(正则表达式)的数据。
# 当给出的正则表达式中带有一个括号时,列表的元素为字符串,
# 此字符串的内容与括号中的正则表达式相对应(不是整个正则表达式的匹配内容)。
imglist = re.findall( imgre, html ) print "Start downloading the first five pictures" # 通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,
# 对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。
x = 0
for imgurl in imglist:
# 用到了urllib.urlretrieve()方法,直接将远程数据下载到本地
urllib.urlretrieve( imgurl, '%s.jpg' % x )
# python不支持类似 x++ 或 x-- 这样的前置/后置自增/自减运算符,因此只能用 += 或 -= 这种。
x += 1 # 这里面的图片可能比较多,我们测试前五张就差不多了
if x == 5 :
break print "the first five pictures download completed." return imglist # 向getHtml()函数传递一个网址,并把整个页面下载下来,保存在html变量中
html = getHtml( "http://www.zengjf.org" ) # 合成要保存的文件名,由年月日、时分秒组成,以只写方式打开文件
saveFile = open( time.strftime( "%Y%m%d%H%M%S" ) + ".html", 'w' )
saveFile.write( html ) # 将html中的内容写入文件
saveFile.close( ) # 关闭文件 html = getHtml( "http://tieba.baidu.com/p/2460150866" )
print getImg( html )

Python 简单网页爬虫学习的更多相关文章

  1. Python简单网页爬虫——极客学院视频自动下载

    http://blog.csdn.net/supercooly/article/details/51003921

  2. (一)python 简单网页爬虫

    1.基于window环境,使用的工具是 Anaconda 下载地址 https://www.anaconda.com/download/ 2.所使用的包 BeautifulSoup,用来解析html代 ...

  3. Python编写网页爬虫爬取oj上的代码信息

    OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...

  4. Python简单网络爬虫实战—下载论文名称,作者信息(下)

    在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...

  5. Selenium + PhantomJS + python 简单实现爬虫的功能

    Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...

  6. Python动态网页爬虫-----动态网页真实地址破解原理

    参考链接:Python动态网页爬虫-----动态网页真实地址破解原理

  7. 亲身试用python简单小爬虫

    前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...

  8. nodeJS实现简单网页爬虫功能

    前面的话 本文将使用nodeJS实现一个简单的网页爬虫功能 网页源码 使用http.get()方法获取网页源码,以hao123网站的头条页面为例 http://tuijian.hao123.com/h ...

  9. python简单页面爬虫入门 BeautifulSoup实现

    本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...

随机推荐

  1. linux系统进入单用户模式

    进入单用户模式可进行root账户和其他普通账户的密码的修改 1)Ubuntu 开机到grub时(在开机时长按shift键),用上下键移到第二行的恢复模式(recovery mode),按e(注意不是回 ...

  2. (转)在 ListViewItem 上拖动进行框选

    public partial class Form1 : Form { private bool IsMouseDown = false; Rectangle MouseRect = Rectangl ...

  3. VS2010/MFC编程入门之二十八(常用控件:列表视图控件List Control 上)

    前面一节中,鸡啄米讲了图片控件Picture Control,本节为大家详解列表视图控件List Control的使用.      列表视图控件简介 列表视图控件List Control同样比较常见, ...

  4. MySQL基础语句【学习笔记】

    放在这里,以备后查. 1. 数据库, 数据库服务器, 数据库语言 数据库,是持久性数据的集合,供给定企业的应用程序系统使用,并且由一个数据库管理系统来管理: 数据库服务器,又称数据库管理系统,用来管理 ...

  5. Python numpy有什么用?

    NumPy is the fundamental package for scientific computing with Python.就是科学计算包. a powerful N-dimensio ...

  6. 常用php操作redis命令整理(二)哈希类型

    HSET将哈希表key中的域field的值设为value;如果field是哈希表中的一个新建域,并且值设置成功,返回1;如果哈希表中域field已经存在且旧值已被新值覆盖,返回0. <?php ...

  7. html 入门2-表

    html  入门-列表 表格 表单 一.表标签 1,无序列表 ( ul:li ) 注意:代码排版必须要层次分明 2,有序列表 (ol:li) 3,自定义列表 (dl:li) 二.表格标签 1,tabl ...

  8. 51nod 1179 最大的最大公约数 一种筛选的方法

    1179 最大的最大公约数 题目来源: SGU 基准时间限制:1 秒 空间限制:131072 KB 分值: 40 难度:4级算法题  收藏  关注 给出N个正整数,找出N个数两两之间最大公约数的最大值 ...

  9. Java网络编程和NIO详解4:浅析NIO包中的Buffer、Channel 和 Selector

    Java网络编程与NIO详解4:浅析NIO包中的Buffer.Channel 和 Selector 转自https://www.javadoop.com/post/nio-and-aio 本系列文章首 ...

  10. Java网络编程和NIO详解1:JAVA 中原生的 socket 通信机制

    Java网络编程和NIO详解1:JAVA 中原生的 socket 通信机制 JAVA 中原生的 socket 通信机制 摘要:本文属于原创,欢迎转载,转载请保留出处:https://github.co ...