python 简单抓取网页并写入excel实例

# -*- coding: UTF-8 -*-

import requests

from bs4 import BeautifulSoup

import xlwt

import time 

#获取第一页的内容

def get_one_page(url):

    headers = {

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'

    }

    response = requests.get(url,headers=headers)

    if response.status_code == 200:

        return response.text

    return None  

#解析第一页内容，数据结构化

def parse_one_page(html):  

    soup = BeautifulSoup(html,'lxml')

    i = 0

    for item in soup.select('tr')[2:-1]:  

        yield{

            'time':item.select('td')[i].text,

            'issue':item.select('td')[i+1].text,

            'digits':item.select('td em')[0].text,

            'ten_digits':item.select('td em')[1].text,

            'hundred_digits':item.select('td em')[2].text,

            'single_selection':item.select('td')[i+3].text,

            'group_selection_3':item.select('td')[i+4].text,

            'group_selection_6':item.select('td')[i+5].text,

            'sales':item.select('td')[i+6].text,

            'return_rates':item.select('td')[i+7].text

        }  

#将数据写入Excel表格中

def write_to_excel():

    f = xlwt.Workbook()

    sheet1 = f.add_sheet('3D',cell_overwrite_ok=True)

    row0 = ["开奖日期","期号","个位数","十位数","百位数","单数","组选3","组选6","销售额","返奖比例"]

    #写入第一行

    for j in range(0,len(row0)):

        sheet1.write(0,j,row0[j]) 

    #依次爬取每一页内容的每一期信息，并将其依次写入Excel

    i=0

    for k in range(1,247):

        url = 'http://kaijiang.zhcw.com/zhcw/html/3d/list_%s.html' %(str(k))

        html = get_one_page(url)

        print('正在保存第%d页。'%k)

        #写入每一期的信息

        for item in parse_one_page(html):

            sheet1.write(i+1,0,item['time'])

            sheet1.write(i+1,1,item['issue'])

            sheet1.write(i+1,2,item['digits'])

            sheet1.write(i+1,3,item['ten_digits'])

            sheet1.write(i+1,4,item['hundred_digits'])

            sheet1.write(i+1,5,item['single_selection'])

            sheet1.write(i+1,6,item['group_selection_3'])

            sheet1.write(i+1,7,item['group_selection_6'])

            sheet1.write(i+1,8,item['sales'])

            sheet1.write(i+1,9,item['return_rates'])

            i+=1  

    f.save('3D.xls')  

def main():

    write_to_excel()

if __name__ == '__main__':

    main()

python 简单抓取网页并写入excel实例的更多相关文章

python 处理抓取网页乱码
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ...
Python -- 网络编程 -- 简单抓取网页
抓取网页: urllib.request.urlopen(url).read().decode('utf-8') --- (百度是utf-8,谷歌不是utf-8,也不是cp936,ascii也不行 ...
python分布式抓取网页
呵呵,前两节好像和python没多大关系..这节完全是贴代码, 这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧. 对于编码格式确实搞得我头大..取下来页面不知道是什么编码,所以先找c ...
python 处理抓取网页乱码问题一招鲜
FROM: http://my.oschina.net/012345678/blog/122355 相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找 ...
python 解决抓取网页中的中文显示乱码问题
关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因源网页编码和爬取下来 ...
python从数据库取数据后写入excel 使用pandas.ExcelWriter设置单元格格式
用python从数据库中取到数据后,写入excel中做成自动报表,ExcelWrite默认的格式一般来说都比较丑,但workbook提供可以设置自定义格式,简单记录个demo,供初次使用者参考. 一. ...
从urllib和urllib2基础到一个简单抓取网页图片的小爬虫
urllib最常用的两大功能(个人理解urllib用于辅助urllib2) 1.urllib.urlopen() 2. urllib.urlencode() #适当的编码,可用于后面的post提交 ...
selenium配合phantomjs实现爬虫功能，并把抓取的数据写入excel
# -*- coding: UTF-8 -*- ''' Created on 2016年5月13日 @author: csxie ''' import datetime from Base impor ...
python多线程抓取网页信息
#!/usr/env python #-*- coding: utf-8 -*- import urllib import urllib2 import random import requ ...

随机推荐

php基础函数，数组
1·字符串的处理: 2·爆炸函数(explode()): 里面填两个参数把.炸掉,在abc里炸出来的数组粘回去(implode()): 两个参数同上 3·截取字符串(substr()) 里面放三个 ...
测开之路八十一：参数定义之*args和**kwargs
# *,不定长参数,*args# 定义函数参数def avg(score, *scores): return (score + sum(scores)) / (len(scores) + 1) ...
C# 加密解密类
一. MD5 1 防止看到明文数据库密码,加盐(原密码+固定字符串,然后再MD5/双MD5) 2 防篡改 3 急速秒传(第一次上传文件,保存md5摘要,第二次上传检查md5摘要) 4文件 ...
SEC7 - MySQL 查询语句--------------进阶3：排序查询
# 进阶3:排序查询 /* 引入: select * from employees; 语法: select 查询列表 from 表 [where 筛选条件] order by 排序的列表 asc/de ...
redis可以做什么？
redis可以做什么? 1.缓存,毫无疑问这是Redis当今最为人熟知的使用场景.在提升服务器性能方面非常有效: 2.排行榜,如果使用传统的关系型数据库来做这个事儿,非常的麻烦,而利用Redis的So ...
微信小程序(一)--微信小程序的介绍
一.微信小程序简介小程序是一种不需要下载安装即可使用的应用,它实现了应用“触手可及”的梦想,用户扫一扫或者搜一下即可打开应用.也体现了“用完即走”的理念,用户不用关心是否安装太多应用的问题.应用将无 ...
telnet访问出现telnet:Unable to connect to remote host: No route to host
Linux下的防火墙默认是不允许telnet服务通过的,所以,当防火墙不允许telnet服务通过时就会出现上面的这种情况,可以将防火墙关闭或者勾选允许telnet服务即可解决如上的问题.
TCL自动化之SSH交互式
目前ssh工具很多,但是能够轻松运用到自动化脚本中,可以轻松适配任何环境,满足ssh交互式登录的tcl工具包很少下面是个人在tcl自动化过程中比较满意的一款自动化脚本通过使用管道方式分装plink ...
java中关于异常的处理
初学java的时候,当我们碰到异常时,一般会把异常直接throws抛出去,或则在catch的时候,简单的写一句打印异常信息,但是在实际开发中,是不能这么做的.如果我们将底层的某一个异常简单的print ...
排序---快速排序及其切分函数Partition应用
快速排序快速排序通过一个切分元素将数组分成两个子数组,左子数组小于等于切分元素,右子数组大于切分元素,将这两个子数组排序,也就是将整个数组排序了. 代码如下: public class Sort ...

python 简单抓取网页并写入excel实例

python 简单抓取网页并写入excel实例的更多相关文章

随机推荐

热门专题