使用urllib进行网页爬取

# coding=gbk

# 抓取开奖号码

# url：http://datachart.500.com/dlt/zoushi/jbzs_foreback.shtml

'''

对网页逐行迭代，找到目标行时在往下读一行，两行提取一期开奖号码

'''

import re

from urllib import urlopen

# winnumbers = {}  # 期数：中奖号码

f = open('中奖号码.txt','w')

webpage = urlopen('http://datachart.500.com/dlt/zoushi/inc/jbzs_foreback.php')

for line in webpage:

    if re.search(r'^<td align="center">[\d\s]*</td>$',line.strip()):

        index = line.split('>')[1].split()[0]

        nextline = webpage.readline()

        numbers = re.findall(r'<td class="chartBall0[1,2]">([\d]+)',nextline)

        # winnumbers[index] = numbers

        print index,numbers

        f.write(index)

        for i in range(len(numbers)):

            f.write('\t')

            f.write(numbers[i])

        f.write('\n')

f.close()

结果如下：

首先用Chrome打开网页，利用审查元素功能找到真正的数据来源 http://datachart.500.com/dlt/zoushi/inc/jbzs_foreback.php

然后逐行迭代网页内容，利用正则表达式'<td align="center">[\d\s]*</td>'定位开奖期号：

然后使用 numbers = re.findall(r'<td class="chartBall0[1,2]">[\d]+',nextline) 找到开奖号码，对字符串处理一下得到开奖号码，存入列表。

这个时候打印出来、存入字典、存入文件都可以。

这个方法不太好，可以直接把整个网页弄下来在本地处理。那样的话，写的正则就要复杂一点。鄙人刚刚学习正则，正在尝试中。

###################### 10月21日的分割线 ######################

按照上次最后提供的思路，把整个网页提取下来进行正则分析，代码如下

# coding=gbk

# 抓取开奖号码

# url：http://datachart.500.com/dlt/zoushi/jbzs_foreback.shtml

'''

把整个网页爬取下来，然后使用re.findall定位目标数据

'''

import re

from urllib import urlopen

# winnumbers = {}  # 期数：中奖号码

webpage = urlopen('http://datachart.500.com/dlt/zoushi/inc/jbzs_foreback.php')

text = webpage.read()

pattern = re.compile(r'<tr>\s*<td align="center">([\d\s]{6,})</td>\s*((?:<td class="(?:yl01|yl02|chartBall01|chartBall02)">\d+</td>){47})\s+</tr>')

local = re.findall(pattern,text)

for item in local:

    numbers = re.findall(r'<td class="chartBall0[1,2]">([\d]+)</td>',item[1])

    print item[0].strip(), numbers

    # winnumbers[item[0]] = numbers

重点在于正则表达式的编写，我们需要一个正则表达式能够定位所有形如上图结构的html代码段。

最后测试得到了这样一段正则：

<tr>\s*<td align="center">([\d\s]{6,})</td>\s*((?:<td class="(?:yl01|yl02|chartBall01|chartBall02)">\d+</td>){47})\s+</tr>

它可以匹配到目标代码，编写遇到主要的困难在于提取，有两点很关键：

小括号表示要提取的内容，所以我们把[\d\s]{6,}括起来
但是有些小括号只表示整体，并非要提取的内容，这个时候就要在相应的表达式前面加上"?:",表示不提取这个括号中的内容

关于正则表达式中的括号，我们可以简单总结一下：

小括号：代表一个整体,例如(abc)，它仅匹配字符串“abc”
中括号：表示取其中之一，例如[abc]，它匹配“a”、“b”、“c”
大括号：表示重复次数，例如\d{1,3}，它匹配一位到三位的数字

使用urllib进行网页爬取的更多相关文章

爬虫系列(六) 用urllib和re爬取百度贴吧
这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 1.网页分析 (1)准备工作首先我们使用 Chrome 浏览器打开百度贴吧,在输入 ...
WebFetch 是无依赖极简网页爬取组件
WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫. WebFetch 要达到的目标: 没有第三方依赖jar包减少内存使用提高CPU利用率加快网络爬取速度简洁明了的api ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
Python和BeautifulSoup进行网页爬取
在大数据.人工智能时代,我们通常需要从网站中收集我们所需的数据,网络信息的爬取技术已经成为多个行业所需的技能之一.而Python则是目前数据科学项目中最常用的编程语言之一.使用Python与Beaut ...
Node.js 动态网页爬取 PhantomJS 使用入门(转)
Node.js 动态网页爬取 PhantomJS 使用入门原创NeverSettle101 发布于2017-03-24 09:34:45 阅读数 8309 收藏展开版权声明:本文为 winte ...
12月4日学习爬虫007.使用Urllib模块进行简单网页爬取
笔记如下: 1.https是http加强版协议(安全协议)http(普通网络通信协议) 爬数据如果爬https发现和理想中的数据不同,可以改为http 直接去掉s即可 2.使用Urllib爬取简单网 ...
python利用urllib实现的爬取京东网站商品图片的爬虫
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...
爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
python学习（三）--跟着例子写的贴吧网页爬取
from urllib import requestimport urllib #爬贴吧网页文件到本地.首先在本地打开百度贴吧搜索 java吧#第一页的内容是:http://tieba.baidu. ...

随机推荐

LeetCode题解——Longest Substring Without Repeating Characters
题目: 给定一个字符串,返回其中不包含重复字符的最长子串长度. 解法: 维持两个指针,第一个指向子串开始,第二个负责遍历,当遍历到的字符出现在子串内时,应计算当前子串长度,并更新最长值:然后第一个指针 ...
bzoj 3295 [Cqoi2011]动态逆序对（cdq分治，BIT）
[题目链接] http://www.lydsy.com/JudgeOnline/problem.php?id=3295 [题意] n个元素依次删除m个元素,求删除元素之前序列有多少个逆序对. [思路] ...
Discuz资料整理
1.截取字符串:messagecutstr(strip_tags($post['message']), 160);
leetcode@ [62/63] Unique Paths II
class Solution { public: int uniquePathsWithObstacles(vector<vector<int>>& obstacleG ...
一步一步学数据结构之n--n（图遍历--深度优先遍历--非递归实现）
前面已经说了图的深度优先遍历算法,是用递归实现的,而在这里就讲一下用非递归实现,需要借助栈: 算法思想: 1. 栈初始化 2. 输出起始顶点,起始顶点改为“已访问”标志,将 ...
低级错误之Oracle客户端添加数据
本来可以为空的外键,自己非要写一个无意义的值,导致数据保存失败.
GDB 入门篇
调试流程:(使用gcc编译时加上 -g -Wall选项)gdb attach pidinfo bb filename:linenum / b filename:functionnamecp varia ...
解决 mac ssh空闲连接断开问题
想必大家都知道,用终端 ssh 连接服务器,如果长时间没有操作,会被断开连接. 要用的话又得重新登录,这非常不方便,也影响开发效率.那针对这种情况,有没有解决方法呢? 答案是肯定的.理论上,有两种方案 ...
ZZTHX-线程锁
以前一直在做卡乐付,悲剧的是项目中的余额查询,超级转账和刷卡器相关的东西已经开发好了,我对这块还是比较好奇和感兴趣的,在项目空闲的时候我就开始尝试熟悉和了解这块的业务和代码.实践出真理,只有在实践中才 ...
jboss7的服务器开启和关闭命令
国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html内部邀请码:C8E245J (不写邀请码,没有现金送)国内私 ...

使用urllib进行网页爬取

使用urllib进行网页爬取的更多相关文章

随机推荐

热门专题