Python 简单网页爬虫学习
#coding=utf-8 # 参考文章:
# 1. python实现简单爬虫功能
# http://www.cnblogs.com/fnng/p/3576154.html
# 2. Python 2.7 时间和日期模块常用的例子
# http://www.linuxidc.com/Linux/2015-06/118458.htm
# 3. Python open读写文件实现脚本
# http://www.jb51.net/article/15709.htm
# 4. python re 模块 findall 函数用法简述
# http://blog.csdn.net/cashey1991/article/details/8875213
# 5. [Python]编码声明:是coding:utf-8还是coding=urf-8呢
# http://www.xuebuyuan.com/975181.html # urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据。
import urllib
import re
import datetime,time # 定义了一个getHtml()函数
def getHtml( url ):
# urllib.urlopen()方法用于打开一个URL地址。
page = urllib.urlopen( url )
# read()方法用于读取URL上的数据
html = page.read() # 返回整个网页数据
return html # 创建getImg()函数
def getImg( html ):
# ()表示所要提取的字符串,即: 图片名.jpg
reg = r'src="(.+?\.jpg)" pic_ext'
# 可以把正则表达式编译成一个正则表达式对象.
imgre = re.compile( reg )
# 读取html 中包含 imgre(正则表达式)的数据。
# 当给出的正则表达式中带有一个括号时,列表的元素为字符串,
# 此字符串的内容与括号中的正则表达式相对应(不是整个正则表达式的匹配内容)。
imglist = re.findall( imgre, html ) print "Start downloading the first five pictures" # 通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,
# 对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。
x = 0
for imgurl in imglist:
# 用到了urllib.urlretrieve()方法,直接将远程数据下载到本地
urllib.urlretrieve( imgurl, '%s.jpg' % x )
# python不支持类似 x++ 或 x-- 这样的前置/后置自增/自减运算符,因此只能用 += 或 -= 这种。
x += 1 # 这里面的图片可能比较多,我们测试前五张就差不多了
if x == 5 :
break print "the first five pictures download completed." return imglist # 向getHtml()函数传递一个网址,并把整个页面下载下来,保存在html变量中
html = getHtml( "http://www.zengjf.org" ) # 合成要保存的文件名,由年月日、时分秒组成,以只写方式打开文件
saveFile = open( time.strftime( "%Y%m%d%H%M%S" ) + ".html", 'w' )
saveFile.write( html ) # 将html中的内容写入文件
saveFile.close( ) # 关闭文件 html = getHtml( "http://tieba.baidu.com/p/2460150866" )
print getImg( html )
Python 简单网页爬虫学习的更多相关文章
- Python简单网页爬虫——极客学院视频自动下载
http://blog.csdn.net/supercooly/article/details/51003921
- (一)python 简单网页爬虫
1.基于window环境,使用的工具是 Anaconda 下载地址 https://www.anaconda.com/download/ 2.所使用的包 BeautifulSoup,用来解析html代 ...
- Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
- Python简单网络爬虫实战—下载论文名称,作者信息(下)
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
- Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
- Python动态网页爬虫-----动态网页真实地址破解原理
参考链接:Python动态网页爬虫-----动态网页真实地址破解原理
- 亲身试用python简单小爬虫
前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...
- nodeJS实现简单网页爬虫功能
前面的话 本文将使用nodeJS实现一个简单的网页爬虫功能 网页源码 使用http.get()方法获取网页源码,以hao123网站的头条页面为例 http://tuijian.hao123.com/h ...
- python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...
随机推荐
- httpclient接口测试完整用例以及获取信息的方法
原文地址https://blog.csdn.net/fhaohaizi/article/details/78088075 原文地址https://blog.csdn.net/fhaohaizi/art ...
- 泰德激光打标软件 包含 #include "Main.h" 时 原本正确的单元却报错
问题:泰德激光打标软件 ,当新增单元需要包含 #include "Main.h" 时, 原本正确的单元却报错. 办法:包含 #include "Main.h" ...
- VS2010/MFC编程入门之十八(对话框:字体对话框)
鸡啄米在上一节为大家讲解了文件对话框的使用,本节则主要介绍字体对话框如何应用. 字体对话框的作用是用来选择字体.我们也经常能够见到.MFC使用CFontDialog类封装了字体对话框的所有操作.字体对 ...
- linux 常用命令总结(一)
1. 字符串常用命令: 替换: 1). %s/*/*/g 中,替换当前界面的所有符合规则的内容. 2). 替换文件中的字符串内容: find -name '要查找的文件名' | xargs ...
- Maven聚合项目在eclipse中显示没有层次
大部分时间都在用idea做maven的项目,今天用eclipse导入了maven项目,果然不出所料,界面有显示问题,各个模块都堆叠在同一层级,根本看不出父项目与子项目之间的层次关系,见下图: 于是找修 ...
- JS中的slice和splice
1,slice : 定义:接收一个或两个参数,它可以创建一个由当前数组中的一项或多项组成的新数组,注意是新数组哦~ 也就是说它不会修改原来数组的值. 用法:slice( para1 ),会截取从pa ...
- Qt无法调试Qvector
现象: 解决: 打开文件 $(VSDIR)\Common7\Packages\Debugger\autoexp.dat (VSDIR是本机Visual Studio的安装目录)把定义QVector和Q ...
- 转 已知两点坐标和半径求圆心坐标程序C++
数学思想:利用圆方程和直线方程 已知两点坐标和半径求圆心坐标程序 #include <iostream> #include <fstream> #include <c ...
- 存储结构简明分析——DAS、NAS和SAN
存储的总体分类 主流存储结构 网络存储结构大致分为三种:直连式存储(DAS:Direct Attached Storage).存储区域网络(SAN:Storage Area Network ...
- IDEA上面如何添加创建的文件类型
首先在IDEA --> new 一个文件的时候 以 创建vue文件为例子,来添加vue文件类型文件 选项 edit file templates 添加 这样就OK了 转载需注明出处,谢谢! au ...