Python 简单网页爬虫学习

 #coding=utf-8

 # 参考文章：

 #   1. python实现简单爬虫功能

 #       http://www.cnblogs.com/fnng/p/3576154.html

 #   2. Python 2.7 时间和日期模块常用的例子

 #       http://www.linuxidc.com/Linux/2015-06/118458.htm

 #   3. Python open读写文件实现脚本

 #       http://www.jb51.net/article/15709.htm

 #   4. python re 模块 findall 函数用法简述

 #       http://blog.csdn.net/cashey1991/article/details/8875213

 #   5. [Python]编码声明：是coding:utf-8还是coding=urf-8呢

 #       http://www.xuebuyuan.com/975181.html

 # urllib模块提供的上层接口，使我们可以像读取本地文件一样读取www和ftp上的数据。

 import urllib

 import re

 import datetime,time

 # 定义了一个getHtml()函数

 def getHtml( url ):

     # urllib.urlopen()方法用于打开一个URL地址。

     page = urllib.urlopen( url )

     # read()方法用于读取URL上的数据

     html = page.read()

     # 返回整个网页数据

     return html

 # 创建getImg()函数

 def getImg( html ):

     # ()表示所要提取的字符串，即: 图片名.jpg

     reg = r'src="(.+?\.jpg)" pic_ext'

     # 可以把正则表达式编译成一个正则表达式对象.

     imgre = re.compile( reg )

     # 读取html 中包含 imgre（正则表达式）的数据。

     # 当给出的正则表达式中带有一个括号时，列表的元素为字符串，

     # 此字符串的内容与括号中的正则表达式相对应（不是整个正则表达式的匹配内容）。

     imglist = re.findall( imgre, html )

     print "Start downloading the first five pictures"

     # 通过一个for循环对获取的图片连接进行遍历，为了使图片的文件名看上去更规范，

     # 对其进行重命名，命名规则通过x变量加1。保存的位置默认为程序的存放目录。

     x = 0

     for imgurl in imglist:

         # 用到了urllib.urlretrieve()方法，直接将远程数据下载到本地

         urllib.urlretrieve( imgurl, '%s.jpg' % x )

         # python不支持类似 x++ 或 x-- 这样的前置/后置自增/自减运算符，因此只能用 += 或 -= 这种。

         x += 1

         # 这里面的图片可能比较多，我们测试前五张就差不多了

         if x == 5 :

             break

     print "the first five pictures download completed."

     return imglist

 # 向getHtml()函数传递一个网址，并把整个页面下载下来，保存在html变量中

 html = getHtml( "http://www.zengjf.org" )

 # 合成要保存的文件名，由年月日、时分秒组成，以只写方式打开文件

 saveFile = open( time.strftime( "%Y%m%d%H%M%S" ) + ".html", 'w' )

 saveFile.write( html )      # 将html中的内容写入文件

 saveFile.close( )           # 关闭文件

 html = getHtml( "http://tieba.baidu.com/p/2460150866" )

 print getImg( html )

Python 简单网页爬虫学习的更多相关文章

Python简单网页爬虫——极客学院视频自动下载
http://blog.csdn.net/supercooly/article/details/51003921
（一）python 简单网页爬虫
1.基于window环境,使用的工具是 Anaconda 下载地址 https://www.anaconda.com/download/ 2.所使用的包 BeautifulSoup,用来解析html代 ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
Python动态网页爬虫-----动态网页真实地址破解原理
参考链接:Python动态网页爬虫-----动态网页真实地址破解原理
亲身试用python简单小爬虫
前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...
nodeJS实现简单网页爬虫功能
前面的话本文将使用nodeJS实现一个简单的网页爬虫功能网页源码使用http.get()方法获取网页源码,以hao123网站的头条页面为例 http://tuijian.hao123.com/h ...
python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...

随机推荐

redis客户端hiredis
Hiredis 在官网 http://redis.io/clients 中有说明This is the official C client. Support for the whole command ...
Django的FBV和CB
Django的FBV和CBV FBV FBV(function base views) 就是在视图里使用函数处理请求. 在之前django的学习中,我们一直使用的是这种方式,所以不再赘述. CBV C ...
逆分布函数法生成随机数(指数分布) R语言实现
先说明一下符号:U(0,1)-均匀分布,”~“表示服从xxx分布,F(x),为需要生成的随机数的分布函数,invF(x)表示逆分布函数,那么算法步骤如下: step 1: 产生 u~U(0,1) st ...
Centos 7 无法上网的解决办法
首先,鼠标右击桌面,点击“在终端中打开”. 然后如下图所示,输入:su,按回车后输入自己的root密码:注意,输密码的时候密码区域并不显示任何东西哦,自己输错了就多按几次backspace就行 ...
ng-深度学习-课程笔记-13: 目标检测(Week3)
1 目标定位( object localization ) 目标定位既要识别,又要定位,它要做的事就是用一个框框把物体目标的位置标出来. 怎么做这个问题呢,我们考虑三目标的定位问题,假定图中最多只出现 ...
Python 以指定列宽格式化字符串
问题: 有一些长字符串,想以指定的列宽将他们重新格式化解决方案: 使用textwrap模块来格式字符串的输出. textwrap 模块对于字符串打印时非常有用的,特别是当希望输出自动匹配终端大小的时 ...
oracle定时器job的使用
对于DBA来说,数据库Job再熟悉不过了,因为经常要数据库定时的自动执行一些脚本,或做数据库备份,或做数据的提炼,或做数据库的性能优化,包括重建索引等等的工作.但是,Oracle定时器Job时间的处理 ...
Linux内核分析第一周-通过分析汇编代码理解计算机是如何工作的
首先,我们先写一个简单的C语言程序,如下: int g(int x) { return x +3; } int f(int x) { return g(x); } int main(void) { r ...
2018-2019-1 20189215 《Linux内核原理与分析》第九周作业
进程的切换和系统 <庖丁解牛>第八章书本知识总结进程调度的时机都与中断相关,中断是程序执行过程中的强制性转移,转移到操作系统内核相应的处理程序. 软中断也叫异常,分为故障.退出和陷阱(自 ...
更改idea快捷键方式为eclipse风格
打开配置窗口菜单栏中的File-settings 或者快捷键 ctrl+alt+s 设置keymap 在弹出的setting页面中左侧导航中选择Keymap: 在keymaps下拉列表中选择Ecli ...

Python 简单网页爬虫学习

Python 简单网页爬虫学习的更多相关文章

随机推荐

热门专题