python抓取历年特码开奖记录
背景:
小时候,有种游戏,两个主人公:白XX和曾XX,每个家庭把他俩像活菩萨一样供着,供他们吃,供他们穿
做生意的老板为了这两位活菩萨,关门大吉
农民为了这两位活菩萨卖牛卖田变卖家产
做官的为了这两位活菩萨丢掉乌纱帽
跳楼,自杀,跳河,跑路 成了一时的风气
当然,买码也是闹出很多笑话的
比如:不识字的农民看个CCTV7频道还看出了个特码,最后押注了07,还特么中了大奖。
很多人为了白XX和曾XX,最后变成了CCTV少儿频道天线宝宝的忠实粉丝,这也可以看出特码啊,有木有啊
想起一位长者退休后俨然成为白XX和曾XX的文员,每天都会手动更新记录资料和各种画图,当时我就在想要是我读书能有他一半认真,起码要把北京城读一圈才肯放手。
干活开始,准备将这个东西作为一个系列来深入的研究一下
巧妇难为无米之炊,今天Buddyquan就先想办法把数据从网上弄下来
知识点:splinter库的使用,将抓取数据存入数据库,pandas库连接Mysql数据库进行数据的调用和基本统计整理
教程:谷歌chrome浏览器驱动的安装
简单阐述为什么这次数据抓取选择这个库的原因:
1.一切都得从12306开始说起,当时已经自己倒腾出了查票的一套小程序,可是一直在想怎么绕过那个验证码,后来到网上各种找,看有没有解决办法,真的是东边不亮,亮西边,解决验证码的答案是没找到,倒是搜出了一大把标题党,其实内容就是介绍这个库的使用,耐着性子边操边练,也算入了门,后来去读了官方文档,发现这个家伙用处还是挺大
2.查了很多XXXX彩的网站,发现坑爹的一点就是所有开奖记录都是js生成的网页代码,刚好splinter库的broswer.html返回的就是响应了js后的网页文本(和审查元素看到的一样一样的)
3.1976年到2017年,也就41年,也就是说只要访问41次网页即可,对内存也造成不了多大的伤害,综合考虑,这个splinter就可以派上用场了
那么splinter能干些啥呢?用网上的一句话概括就是:
Splinter执行的时候会自动打开你指定的浏览器,访问指定的URL。
然后你所开发的模拟的任何行为,都会自动完成,你只需要坐在电脑面前,像看电影一样看着屏幕上各种动作自动完成然后收集结果即可。
使用参考文档:http://www.chinaz.com/program/2015/1209/481234.shtml
官方文档:https://splinter.readthedocs.io/en/latest/tutorial.html
怎么安装splinter和chrome浏览器驱动
Step1.安装splinter库(pip install splinter)

step2:安装浏览器驱动,我选择的是chrome的驱动
1.下载。2.解压。3.放至C:\Windows\System32 4.OK

驱动链接:http://pan.baidu.com/s/1nv2ni5N 密码:5c1c
接下来就开始抓取开奖结果相关的等一些字段吧!
网址通过浏览器搜索找到(这种类型的网站,有很多很多的。不过开奖记录基本上都是js生成的。)
我们看到,这种开奖记录,比小时候大家只去关注最终数字,情况是好的多,连笔画,五行都特么有。拿着放大镜数了一下共27个有价值字段我们可以取出
1.建个表,把数据写入数据库这种办法还是不错的,到时不管什么时候需要做有趣的统计分析研究的时候,直接拿数据就行了。

不用建表语句写入程序中是因为有没有发现navicat for mysql确实很好用啊。
2.网页基本分析完成,表也随着建好了之后,就是取数据了。
3.成功绕开用正则和json去解析js生成代码的痛苦,直接上splinter。
# coding utf-
import requests
from bs4 import BeautifulSoup
from splinter.browser import Browser
import pymysql
from PIL import Image
import pandas as pd #用作之后做数据处理分析
b = Browser(driver_name="chrome") #启动浏览器驱动
con=pymysql.connect(host=,user=',db='quan',charset='utf8') #连接数据库
cur=con.cursor() #创建游标
def get_html(url):
b.visit(url)
html=b.html
return html
pic_url='http://cimg2.163.com/catchpic/E/E7/E788DE8C249168F3C6B6CF878A633E04.jpg'
url1='http://www.*****.com/kj/'
year=[a ,)]
num=
for c in year:
url=url1+str(c)
s=BeautifulSoup(get_html(url),'lxml')
length=len(s.find_all('tr',class_='nowTo001'))
for i in range (length):
value_list=[]
for d in s.find_all('tr',class_='nowTo001')[i].stripped_strings:
value_list.append(d)
try:
sql="replace into buddyquan \
(year,qishu,ma1,shengxiao1,ma2,shengxiao2,ma3,shengxiao3,ma4,shengxiao4,ma5,shengxiao5,ma6,shengxiao6,tema,\
texiao,tebo,tetou,danshuang,wuxing,jiaye,daxiao,weishu,duanwei,bihua,nannv,heshu,zonghe) \
values ('%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s',\
'%s','%s','%s','%s','%s','%s','%s','%s','%s','%s')" \
%(value_list[][:],value_list[][:-],value_list[],value_list[],value_list[],value_list[],\
value_list[],value_list[],value_list[],value_list[],value_list[],\
value_list[],value_list[],value_list[],value_list[],value_list[],\
value_list[],value_list[],value_list[],value_list[],value_list[],\
value_list[],value_list[],value_list[],value_list[],value_list[],value_list[],value_list[])
cur.execute(sql)
con.commit() #提交事务
print (][:],value_list[][:],num))
except Exception as e:
print ('插入错误\n%s ' % e)
con.rollback() #回滚事务
num=num+
print (][:])
print ('特码来啦!\n已成功完成历年开奖结果采集,共 %s 期' % num)
with open ("d://missbai.jpg",'wb') as f:
f.write(requests.get(pic_url).content)
missbai=Image.open("d://missbai.jpg")
missbai.show()
b.quit()
代码的方法很笨,还有很多地方可以优化,烦请各位大神多多指教
吃着火锅唱着歌,看着浏览器翻云覆雨狂奔之后,数据存入到了数据库中

这里用一个num打印了期数
可以看到,自开奖至今,已经进行了4865次,有多少人N年如一日啊。哎
数据已写入数据库,今天就先简单的用pandas库稍微热热身吧(虽然这点数据量用excel已经可以起飞了)
我们先将pd的行数设置为8行,显示宽度调为200,这样更便于查看数据

读取数据库数据所有数据(这里可以选择你想读取的任何数据,可以理解成用SQL提取数据然后用pandas来交互)

查看一下数据(效果还是差了点,列的宽度还存在问题,可以通过pd.set_option('display.max_colwidth',20)来设置列的最大宽度,将就着用吧)

我们先把显示台的最大宽度调为49

来来来,天线宝宝的粉丝们,猜猜哪一个数字开奖频数最大啊



叫你买4X,买买买。本命年多个数字没毛线大作用啊。
那你知道哪个生肖频数最大吗?


你还继续供着白XX和曾XX,把天线宝宝作为偶像的话,真的会变猪的啊。
预知后事如后,请听下回分解
注:本文的统计分析描述,毫无参考意义,开奖数据均已经过掺假处理,所展示数据均为虚拟数据,珍爱生命,远离白X姐和天线宝宝
概率事件的东西总是个磨人的小妖精,你心动了吗?因个人能力有限,如果你心动了,真诚的邀请您一起加入之后很多有趣的数据统计分析工作。
能力有限,做的不好的地方,大神们多多包含,尤其是逻辑与思维上的东西,需要大神们看到了多多指教和斧正。
Buddyquan博客:https://home.cnblogs.com/u/buddyquan/
QQ:1749061919 爬虫交流,数据交流
python抓取历年特码开奖记录的更多相关文章
- Python爬虫之小试牛刀——使用Python抓取百度街景图像
之前用.Net做过一些自动化爬虫程序,听大牛们说使用python来写爬虫更便捷,按捺不住抽空试了一把,使用Python抓取百度街景影像. 这两天,武汉迎来了一个德国总理默克尔这位大人物,又刷了一把武汉 ...
- Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
- 关于python抓取google搜索结果的若干问题
关于python抓取google搜索结果的若干问题 前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童 ...
- 用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
- 使用python抓取并分析数据—链家网(requests+BeautifulSoup)(转)
本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...
- Python抓取小说
Python抓取小说 前言 这个脚本命令MAC在抓取小说写,使用Python它有几个码. 代码 # coding=utf-8 import re import urllib2 import chard ...
- 使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 ...
- python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
- python抓取网页例子
python抓取网页例子 最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
随机推荐
- C#递归查询
一.sql --构造测试数据: 只作演示用 CREATE TABLE [dbo].[Tim_LinqTable]( [Id] int PRIMARY KEY IDENTITY(1,1) NOT NUL ...
- word中表格第一列序号的设置
表格中序号问题 1.新建一个表格.第一列选择编号后,编号后有tab,如下图 2.选中表格的编号,点击新建列表样式, 3.将编号后的字符改成nothing,在将单元格改成居中即可 4.在将单元格改成居中 ...
- 全面理解 ASP.NET Core 依赖注入
DI在.NET Core里面被提到了一个非常重要的位置, 这篇文章主要再给大家普及一下关于依赖注入的概念,身边有工作六七年的同事还个东西搞不清楚.另外再介绍一下.NET Core的DI实现以及对实例 ...
- c#中获取路径方法
要在c#中获取路径有好多方法,一般常用的有以下五种: //获取应用程序的当前工作目录. String path1 = System.IO.Directory.GetCurrentDirectory() ...
- [转载] Spark:大数据的“电光石火”
转载自http://www.csdn.net/article/2013-07-08/2816149 Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突 ...
- From missionary to firebrand--Eisle Tu [20160102]
From missionary to firebrand 杜叶锡恩(1913年(癸丑年)-2015年(乙未年),英文名字Elsie Hume Elliot Tu,丈夫是教育家杜学魁.她是香港著名的 ...
- Python待分析的模块
fcntl 文件控制模块 http://docs.python.org/2.7/library/fcntl.html#module-fcntl struct 二进制文本处理模块 http://docs ...
- C#操作防火墙控制电脑某些软件联网
问题: 目前公司软件刚由单机软件更改为联网软件,许多客户反映希望能够有一个功能来控制电脑上某些必用软件,如qq,公司软件联网,而其他不必要的如网页,游戏等软件不允许联网,于是向公司反映希望可以有一个功 ...
- django之第二天
今天学习目标: 一,路由系统 1,默认处理函数 2,动态URL 3,分级匹配 4,反射实现动态路由 二.中间件 三.Model(重点) 1,创建表 2,操作表数据 四.Form (重点) 1,用户提交 ...
- 了解python,利用python来制作日常猜拳,猜价小游戏
初次接触python,便被它简洁优美的语言所吸引,正所谓人生苦短,python当歌.python之所以在最近几年越发的炽手可热,离不开它的一些特点: 1.易于学习:Python有相对较少的关键字,结构 ...