python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例

新浪爱彩双色球开奖数据URL：http://zst.aicai.com/ssq/openInfo/

最终输出结果格式如：2015075期开奖号码：6,11,13,19,21,32, 蓝球：4

直接用python源码写的抓取双色球最新开奖数据的代码，没使用框架，直接用字符串截取的方式写的，经过测试速度还是很快的

使用pyspider可以轻松分析出需要的内容，不过需要部署框架对只抓取特定内容的小应用来说也没多大必要
一般的抓取网页的使用 beautifulsoup就足够了，pyspider真正做爬虫类的应用才需要用到

python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 - 流风，飘然的风 - 博客园
http://www.cnblogs.com/zdz8207/p/python_learn_note_17.html

使用BeautifulSoup4对比直接使用字符串查找截取的方式要更加直观和简洁。

把代码作为开源项目了，热血狂徒 / zyspider - 代码托管 - 开源中国社区
http://git.oschina.net/coos/zyspider

====================================

 import urllib.request

 import urllib.parse

 import re

 import urllib.request,urllib.parse,http.cookiejar

 def getHtml(url):

     cj=http.cookiejar.CookieJar()

     opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

     opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','')]

     urllib.request.install_opener(opener)

     html_bytes = urllib.request.urlopen( url ).read()

     html_string = html_bytes.decode( 'utf-8' )

     return html_string

 #url = http://zst.aicai.com/ssq/openInfo/

 #最终输出结果格式如：2015075期开奖号码：6,11,13,19,21,32, 蓝球：4

 html = getHtml("http://zst.aicai.com/ssq/openInfo/")

 #<table class="fzTab nbt"> </table>

 table = html[html.find('<table class="fzTab nbt">') : html.find('</table>')]

 #print (table)

 #<tr onmouseout="this.style.background=''" onmouseover="this.style.background='#fff7d8'">

 #<tr \r\n\t\t                  onmouseout=

 tmp = table.split('<tr \r\n\t\t                  onmouseout=',1)

 #print(tmp)

 #print(len(tmp))

 trs = tmp[1]

 tr = trs[: trs.find('</tr>')]

 #print(tr)

 number = tr.split('<td   >')[1].split('</td>')[0]

 print(number + '期开奖号码：',end='')

 redtmp = tr.split('<td  class="redColor sz12" >')

 reds = redtmp[1:len(redtmp)-1]#去掉第一个和最后一个没用的元素

 #print(reds)

 for redstr in reds:

     print(redstr.split('</td>')[0] + ",",end='')

 print('蓝球：',end='')

 blue = tr.split('<td  class="blueColor sz12" >')[1].split('</td>')[0]

 print(blue)

python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例的更多相关文章

python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...
python3.4学习笔记(十八) pycharm 安装使用、注册码、显示行号和字体大小等常用设置
python3.4学习笔记(十八) pycharm 安装使用.注册码.显示行号和字体大小等常用设置Download JetBrains Python IDE :: PyCharmhttp://www. ...
python3.4学习笔记(十九) 同一台机器同时安装 python2.7 和 python3.4的解决方法
python3.4学习笔记(十九) 同一台机器同时安装 python2.7 和 python3.4的解决方法同一台机器同时安装 python2.7 和 python3.4不会冲突.安装在不同目录,然 ...
python3.4学习笔记(十六) windows下面安装easy_install和pip教程
python3.4学习笔记(十六) windows下面安装easy_install和pip教程 easy_install和pip都是用来下载安装Python一个公共资源库PyPI的相关资源包的首先安 ...
python3.4学习笔记(十五) 字符串操作（string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等）
python3.4学习笔记(十五) 字符串操作(string替换.删除.截取.复制.连接.比较.查找.包含.大小写转换.分割等) python print 不换行(在后面加上,end=''),prin ...
python3.4学习笔记(十二) python正则表达式的使用，使用pyspider匹配输出带.html结尾的URL
python3.4学习笔记(十二) python正则表达式的使用,使用pyspider匹配输出带.html结尾的URL实战例子:使用pyspider匹配输出带.html结尾的URL:@config(a ...
python3.4学习笔记(十) 常用操作符,条件分支和循环实例
python3.4学习笔记(十) 常用操作符,条件分支和循环实例 #Pyhon常用操作符 c = d = 10 d /= 8 #3.x真正的除法 print(d) #1.25 c //= 8 #用两个 ...
python3.4学习笔记(二十三) Python调用淘宝IP库获取IP归属地返回省市运营商实例代码
python3.4学习笔记(二十三) Python调用淘宝IP库获取IP归属地返回省市运营商实例代码淘宝IP地址库 http://ip.taobao.com/目前提供的服务包括:1. 根据用户提供的 ...

随机推荐

Python的缩进
关于python的缩进:如果要确认一个函数包含哪些内容,java或php可以使用大括号将函数内容包含起来,但python里没有那样的大括号,python靠“缩进”(四个空格)来确定语句块的始末. 这是 ...
使用ftp软件上传下载php文件时换行丢失bug
正文: 在使用ftp软件上传下载php源文件时,我们偶尔会发现在本地windows下notepad++编辑器写好的php文件,在使用ftp上传到linux服务器后,php文件的换行符全部丢失了, ...
ZK dropEvent简单使用
前台(Drop.zul) <?page title="拖动测试" contentType="text/html;charset=UTF-8"?> & ...
FK JavaScript之:ArcGIS JavaScript添加Graphic,地图界面却不显示
使用ArcGIS JavaScript,往地图中添加几个Graphic,基本是与官网示例代码一致.绘制的图形一闪而过之后,就没了核心代码如下: iniToolBar: function () { t ...
DBConfigReader.java
package com.vcredit.ddcash.batch.util; import java.sql.Connection;import java.sql.PreparedStatement; ...
EmguCV 一些结构
一.MCvTermCriteria epsilon Epsilon max_iter Maximum iteration type CV_TERMCRIT value 二.MCvScalar vo T ...
我自己的Javascript 库，封装了一些常用函数 Kingwell.js
我自己的Javascript 库,封装了一些常用函数 Kingwell.js 博客分类: Javascript javascript 库javascript库现在Javascript库海量,流行的 ...
A quick renice command rescheduled the upgrade to a lower priority and I was back to surfing in no time.
https://www.nixtutor.com/linux/changing-priority-on-linux-processes/ Changing Priority on Linux Proc ...
Bootstrap 弹出框和警告框插件
一．弹出框弹出框即点击一个元素弹出一个包含标题和内容的容器. //基本用法 <button class="btn btn-lg btn-danger" type=" ...
find 找出大文件
找到大文件 find . -type f -size +100M -exec du -smh {} \;

python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例

python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例的更多相关文章

随机推荐

热门专题