基于python的统计公报关键数据爬取

# -*- coding: utf-8 -*-

"""

Created on Wed Nov  8 14:23:14 2017

@author: 123

"""

import requests

'''from bs4 import BeautifulSoup

import traceback'''

import re

import urllib

import random

'''用于获取HTML源代码'''

def getHTMLText(url):

    try:

        r = requests.get(url , timeout = 30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "ERROR!"

'''通过去除标签获取HTML源代码中的正文信息'''

def getRealText(html):

    dre = re.compile(r'<[^>]+>',re.S)

    real_Text = dre.sub('',html)

    '''print(real_Text)'''

    return real_Text

def write_into(real_Title,real_Text):

    f = open(real_Title,'w')

    f.write(real_Text)

    f.close()

def test(real_Text):

    GDP = re.findall(".*地区生产总值(.*?)亿元.*",real_Text)

    for x in GDP:

        print(x)

    '''通过正则表达式匹配出地区生产总值和亿元之间的数字,即excel表格中的数值'''

    get = re.findall(".*地方公共财政预算收入(.*?)亿元.*",real_Text)

    for x in get:

        print(x)

def main():

    url = "http://xxgk.xiaogan.gov.cn/xxgk/jcms_files/jcms1/web30/site/art/2017/4/1/art_5130_17454.html"

    html = getHTMLText(url)

    Title = re.search('<title>.*</title>',html)

    '''获取html的title信息，即excel表格中的数据来源'''

    real_Title = Title.group().strip("</title>")

    real_Text = getRealText(html)

    write_into(real_Title,real_Text)

    test(real_Text)

main()

能够实现基于给出的网页连接爬取html后进行正文内容的提取(测试网页反应情况良好)

通过正则表达式匹配左右给定的字符串，可以获取对应的数字。

通过设定左右字符串分别为”地区生产总值“和”亿元“，可以爬取出地区生产总值为1576.69

目前存在的问题：

1. 设想通过excel直接生成搜索关键词，并自动进行百度搜索获取带有gov后缀的网站链接进行自动爬取，但是现在发现，通过百度爬取的网站链接被百度加密，没有很好可用的方法进行加密链接破解。

2.在本样例中不能准确的爬取出地方公共财政预算收入，因为正文包括全市地方公共财政预算收入和市本级地方公共财政预算收入，正则不能很好的区分两者的区别，根据贪婪原则，本次测试爬取了较后的市本级一般公共预算收入，与预期不符。

基于python的统计公报关键数据爬取的更多相关文章

基于python的统计公报关键数据爬取 update
由于之前存在的难以辨别市本级,全市相关数据的原因,经过考虑采用把含有关键词的字段全部提取进行人工辨别的方法在其余部分不改变的情况下,更改test部分 def test(real_Title,rea ...
python爬虫-上期所持仓排名数据爬取
摘要:笔记记录爬取上期所持仓数据的过程,本次爬取使用的工具是python,使用的IDE是pycharm 一.查看网页属性,分析数据结构在浏览器中打开上期所网页,按F12或者选择表格文字-右键-审查元 ...
2019基于python的网络爬虫系列，爬取糗事百科
**因为糗事百科的URL改变,正则表达式也发生了改变,导致了网上许多的代码不能使用,所以写下了这一篇博客,希望对大家有所帮助,谢谢!** 废话不多说,直接上代码. 为了方便提取数据,我用的是beaut ...
芝麻HTTP：JavaScript加密逻辑分析与Python模拟执行实现数据爬取
本节来说明一下 JavaScript 加密逻辑分析并利用 Python 模拟执行 JavaScript 实现数据爬取的过程.在这里以中国空气质量在线监测分析平台为例来进行分析,主要分析其加密逻辑及破解 ...
requests模块session处理cookie 与基于线程池的数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/ ...
requests模块处理cookie,代理ip，基于线程池数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的. 一.基于requests模块 ...
Python爬虫股票数据爬取
前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析地址分析 http://m ...
人人贷网的数据爬取（利用python包selenium）
记得之前应同学之情,帮忙爬取人人贷网的借贷人信息,综合网上各种相关资料,改善一下别人代码,并能实现数据代码爬取,具体请看我之前的博客:http://www.cnblogs.com/Yiutto/p/5 ...
python实现人人网用户数据爬取及简单分析
这是之前做的一个小项目.这几天刚好整理了一些相关资料,顺便就在这里做一个梳理啦~ 简单来说这个项目实现了,登录人人网并爬取用户数据.并对用户数据进行分析挖掘,终于效果例如以下:1.存储人人网用户数据( ...

随机推荐

cdlinux可以安装在c盘
以前一直以为cdlinux只能安装在优盘上,今天发现还可以安装在c盘,也就成了双系统,然后发现这个还是和grub4dos有关,grub4dos好厉害啊,然后不同的制作软件,不管是优盘还是直接安装在电脑 ...
python 全栈开发，Day3(正式)
一.基础数据类型基础数据类型,有7种类型,存在即合理. 1.int 整数主要是做运算的 .比如加减乘除,幂,取余 + - * / ** %...2.bool 布尔值判断真假以及作为条件变量3. ...
wim命令删除后重新安装
个人原创博客,转载请注明,否则追究法律责任 2017-09-30-09:51:20 1,删除vim命令.模拟错误 [root@localhost ~]# which vim/usr/bin/vim[r ...
兄弟连教育分享：用CSS实现鼠标悬停提示的方法
兄弟连教育分享:用CSS实现鼠标悬停提示的方法本文,兄弟连HTML5培训,分享了纯CSS实现鼠标悬停提示的方法.给大家供大家参考.具体分析如下: 这是一款比较漂亮的鼠标悬停提示效果,用纯CSS代码实 ...
canvas小球
小球碰撞效果是采用面向对象的方式写的,在小球的构造器里包含了小球的属性值,大小,移动速度,半径大小以及颜色. 在小球的原型方法里,添加了小球运动的方法,当小球碰撞到屏幕边界的时候进行反弹. 小球是 ...
Greetings
1,Common English Greetings Hey! Hey man! Hey girl! Hi. How's it going? How are you doing? What's up? ...
python全栈开发-Day2 布尔、流程控制、循环
python全栈开发-Day2 布尔流程控制循环一.布尔 1.概述 #布尔值,一个True一个False #计算机俗称电脑,即我们编写程序让计算机运行时,应该是让计算机无限接近人脑,或者说人 ...
Mycat 分片规则详解--枚举分片
实现方式:切分规则根据文件(partition-hash-int.txt)配置的可能的枚举来进行分片,此种分片规则理解为枚举分区,会比较适合于取值固定的场合,比如说省份(固定值) 优点:适用于按照省份 ...
Day3---------Linux操作系统
---恢复内容开始--- 网络基础和DOS命令一.网络分类 1.地理位置 1).局域网(LAN) 2).城域网(MAN) 3).广域网(WAN) 2.传输介质 1).有线网 2).光纤网 3).无线 ...
ReactiveCocoa--RACTuple
基本信息例子 [[self rac_signalForSelector:@selector(tableView:didSelectRowAtIndexPath:) fromProtocol:@pro ...

基于python的统计公报关键数据爬取

基于python的统计公报关键数据爬取的更多相关文章

随机推荐

热门专题