Python抓取双色球数据

　　数据来源网站http://baidu.lecai.com/lottery/draw/list/50?d=2013-01-01

　　HTML解析器http://pythonhosted.org/pyquery/ (可以像JQuery那样使用)

　　源码:

 import MySQLdb as mysql

 from pyquery import PyQuery as pq

 create_table_sql = '''

 create table union_lotto(

     issue int  primary key,

     lottery_date   date,

     lottery_number varchar(30)

 )'''

 sql = "insert into union_lotto values(%(issue)s, %(date)s, %(number)s)"

 conn = mysql.connect(host='localhost', db='caipiao', user='root', passwd='')

 cur = conn.cursor()

 def inserts(rows):

     cur.executemany(sql, rows)

     conn.commit()

 def close():

     conn.close()

 def handler_row(row):

     children = row.getchildren()

     date =  children[0].text_content()

     issue = children[1].getchildren()[0].text_content()

     spans = children[2].getchildren()[0].getchildren()

     numbers = []

     for span in spans:

         numbers.append(span.text_content())

     lottery_number = '-'.join(numbers)

     return {'issue': int(issue.strip()), 'date': date, 'number': lottery_number}

 def grab_data(url):

     d = pq(url=url)

     rows = d("#draw_list > tbody > tr")

     result = []

     for row in rows:

         result.append(handler_row(row))

     return result

 def main():

     years = [(2003 + i) for i in range(0, 11)]

     url = 'http://baidu.lecai.com/lottery/draw/list/50?d=%d-01-01'

     print '.......star.........'

     for year in years:

         result = grab_data(url % year)

         inserts(result)

     close()

     print '.......end..........'

 if __name__ == '__main__':

     main()

Python抓取双色球数据的更多相关文章

python 抓取金融数据，pandas进行数据分析并可视化系列 (一)
终于盼来了不是前言部分的前言,相当于杂谈,算得上闲扯,我觉得很多东西都是在闲扯中感悟的,比如需求这东西,一个人只有跟自己沟通好了,总结出某些东西了,才能更好的和别人去聊,去说. 今天这篇写的是明白需求 ...
利用python抓取页面数据
1.首先是安装python(注意python3.X和python2.X是不兼容的,我们最好用python3.X) 安装方法:安装python 2.安装成功后,再进行我们需要的插件安装.(这里我们需要用 ...
python 抓取alexa数据
要抓取http://www.alexa.cn/rank/baidu.com网站的排名信息:例如抓取以下信息: 需要微信扫描登录因为这个网站抓取数据是收费,所以就利用网站提供API服务获取json信息 ...
记录使用jQuery和Python抓取采集数据的一个实例
从现成的网站上抓取汽车品牌,型号,车系的数据库记录. 先看成果,大概4w条车款记录一共建了四张表,分别存储品牌,车系,车型和车款大概过程: 使用jQuery获取页面中呈现的大批内容能通过页面一次 ...
使用python抓取App数据
App接口爬取数据过程使用抓包工具手机使用代理,app所有请求通过抓包工具获得接口,分析接口反编译apk获取key突破反爬限制需要的工具:夜神模拟器FiddlerPycharm实现过程首先下载夜神模拟 ...
网络爬虫－使用Python抓取网页数据
搬自大神boyXiong的干货! 闲来无事,看看了Python,发现这东西挺爽的,废话少说,就是干准备搭建环境因为是MAC电脑,所以自动安装了Python 2.7的版本添加一个库 Beauti ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
Python抓取百度百科数据
前言本文整理自慕课网<Python开发简单爬虫>,将会记录爬取百度百科"python"词条相关页面的整个过程. 抓取策略确定目标:确定抓取哪个网站的哪些页面的哪部分 ...

随机推荐

《linux程序设计》--读书笔记--第十四章信号量、共享内存和消息队列
信号量:用于管理对资源的访问: 共享内存:用于在程序之间高效的共享数据: 消息队列:在程序之间传递数据的一种简单方法: 一.信号量临界代码:需要确保只有一个进程或者一个执行线程可以进入这个临界代码并 ...
Android中配置JDK和SDK的环境变量
JDK环境变量的配置: 右击"计算机"或"我的电脑",选择"属性"-->"高级"或"高级系统设置&quo ...
Java基础知识强化之网络编程笔记05：UDP之多线程实现聊天室案例
1. 通过多线程改进刚才的聊天程序,这样我就可以实现在一个窗口发送和接收数据了 2. 代码示例: (1)SendThread.java,如下: package com.himi.udpDemo2; ...
RedHat7安装Nginx及第三方模块
编译安装Nginx 先安装编译过程中所需依赖包# yum -y install gcc pcre-devel openssl-devel zlib-devel jemalloc(更好的内存管理)# w ...
Linux强制踢出登录用户（断线账户剔除）
首先,用w查看登录用户 :: up days, :, users, load average: 1.00, 1.01, 1.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU ...
Hello World深入理解
每个编程人员都知道第一个都是Hello World, 可是只是单知道用,不知道为何会这样,就一直学的只是皮毛. 学东西,不能知其然而不知其所以然.这样永远达不到境界. 我们用编辑器eclipse 创 ...
sharepoint中的YesNo字段
sharepoint中的YesNo字段实际上是一个Boolean字段,性格有点特别,如果IsShow是一个YesNo字段,使用caml查询的时候值为”1“(Yes)”0“(No),Item[IsSho ...
[访问系统] C#计算机信息类ComputerInfo （转载）
下载整个包,只下载现有类是不起作用的 http://www.sufeinet.com/thread-303-1-1.html 点击此处下载 using System; using System.Man ...
Android 读取txt文件并以utf-8格式转换成字符串
博客: 安卓之家微博: 追风917 CSDN: 蒋朋的家简书: 追风917 博客园: 追风917 # 使用EncodingUtils 今天用到了城市选择三级联动的库,用的这个:https://gi ...
黑马程序员- IO(Input- Output)（一）
------Java培训.Android培训.iOS培训..Net培训.期待与您交流! ------- API包: Java.io.* 缘来: java通过操作数据对象是通过流的方式来创建的作用: ...

Python抓取双色球数据

Python抓取双色球数据的更多相关文章

随机推荐

热门专题