Python爬虫案例-获取最新的中国行政区域划分

源网页：中国统计局标准 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/

打开网页后可以分析出行政区域划分共分为5层

根据传入参数，生成网页地址时需要1-3层的只传本身以及 4层及以后的增加当前省份的前缀。

#生成实际需要解析的页面地址

def geturl(level,url,code):

    if level<4:

        url=url

    else:

        url=code[0:2]+'/'+url

    url='http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/'+url

    return url

标签1-5分别不同

#获取需要解析的标签

def getlevelclass(level):

    LevelDict={1:"provincetr",2:"citytr",3:"countytr",4:"towntr",5:"villagetr"}

    return LevelDict[level]

根据网页上的标签以及实际地址去获取所需要的网页内容

#设置头信息

def getheaders():

    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}

    return headers

#获取网页内容

def Get_WebContent(url,level):

    headers=getheaders()

    res=urllib.request.Request(url,None, headers=headers)

    i=1

    while i<4:

        try:

            response=urllib.request.urlopen(res)

            i=100

        except error.URLError as e:

            print('执行第'+str(i)+'次错误,'+e.reason)

            i=i+1

            time.sleep(10)

    html_content=response.read()

    #将html从gb2312编码转换到utf-8的编码

    html_content = html_content.decode('gb2312', 'ignore').encode('utf-8')

    soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')

    #获得内容

    levelclass='.'+getlevelclass(level)

    souplist=soup.select(levelclass)

    return souplist

根据输出值需要创建解析第一层与其他层的两种函数。

#conding=utf-8

from bs4 import BeautifulSoup

#用于解析第二层，内容(Code,Pronvince,urls)

def Get_Child(souplist,parentid,level):

    SQLLIST=[]

    for provincesoup in souplist:

        url_tds=provincesoup.find_all('a',href=True)

        a=1

        for td in url_tds:

            if a%2==1:

                code=td.get_text()

                urls=td['href']

            else:

                provience=td.get_text()

                row=(code,provience,parentid,level,urls)

                SQLLIST.append(row)

            a=a+1

    return SQLLIST

#用于解析第一层，内容(Pronvince,urls),Code=urls中的数字部分

def Get_Main(souplist,parentid,level):

    SQLLIST=[]

    for provincesoup in souplist:

        url_tds=provincesoup.find_all('a',href=True)

        for td in url_tds:

            provience=td.get_text()

            urls=td['href']

            code=td['href'].replace('.html', '')

            row=(code,provience,parentid,level,urls)

            SQLLIST.append(row)

    return SQLLIST

#实际调用的获取值函数函数

def GetDetail(souplist,level,parentid):

    if level==1:

        SQLLIST=Get_Main(souplist,parentid,level)

    else:

        SQLLIST=Get_Child(souplist,parentid,level)

    return SQLLIST

SQLSERVER表

CREATE TABLE [dbo].[China_Position](

    [ID] [int] IDENTITY(0,1) NOT NULL,

    [Code] [nvarchar](20) NULL,

    [Name] [nvarchar](40) NULL,

    [Name_Short] [nvarchar](20) NULL,

    [ParentID] [int] NULL,

    [Level] [int] NULL,

    [Urls] [nvarchar](200) NULL,

    [IsFinish] [smallint] NOT NULL

)

def DataInsert(ValueList):

    SQLStr="INSERT INTO [dbo].[China_Position]([Code] ,[Name] ,[ParentID],[Level] ,[Urls])  VALUES(%s ,%s ,%d,%d,%s) "

    SqlInsert(SQLStr,ValueList)

#获取待运行的任务

def GetTaskList(level):

    SQLStr="""SELECT v1.[ID]

                ,v1.[Level]+1 as [Level]

                ,v1.[Urls]

                ,v1.Code

            FROM [dbo].[China_Position] v1 with(nolock)

            where [IsFinish]=0 And Level=""" + str(level-1)

    cur=SqlSelect(SQLStr)

    TaskList=[]

    for row in cur:

        rows=(row[0],row[1],row[2],row[3])

        TaskList.append(rows)

    return TaskList

#记录执行成功日志

def RecordLog(ID):

    SQLStr="update [dbo].[China_Position] set IsFinish=1 where ID="+str(ID)

    SqlDelete(SQLStr)

执行最终的代码，获取level1-3层的数据。

for i in range(1,4):

    #获取第几层的待执行任务

    TaskList=GetTaskList(i)

    for CTask in TaskList:

        parentid=CTask[0]

        level=CTask[1]

        url=CTask[2]

        Code=CTask[3]

        #获取真实的网页

        url=geturl(level,url,Code)

        #获取网页内容

        souplist=Get_WebContent(url,level)

        #待插入数据路的列表

        ValueList=GetDetail(souplist,level,parentid)

        #插入数据库

        DataInsert(ValueList)

        #记录成功日志,下次执行时不执行已执行的任务

        RecordLog(parentid)

Python爬虫案例-获取最新的中国行政区域划分的更多相关文章

python爬虫--案例分析之针对简单的html文件
python爬虫常用的库:Python 库(urllib.BeautifulSoup.requests.scrapy)实现网页爬虫 python爬虫最简单案例分析: 对一个html文件进行分解,获取 ...
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
python爬虫3——获取审查元素(板野友美吧图片下载)
测试环境:python2.7 + beautifulsoup4.4.1 + selenium2.48.0 测试网址:http://tieba.baidu.com/p/2827883128 目的是下载该 ...
python 镜像仓库获取最新版本号
#/bin/python# -*- coding: utf-8 -*-import requestsfrom urllib import parsefrom requests.auth import ...
【Python爬虫案例】用Python爬取李子柒B站视频数据
一.视频数据结果今天是2021.12.7号,前几天用python爬取了李子柒的油管评论并做了数据分析,可移步至: https://www.cnblogs.com/mashukui/p/1622025 ...
5分钟python爬虫案例，手把手教爬取国内外最新疫情历史数据
俗话说的好,“授之以鱼不如授之以渔”,所以小编今天就把爬疫情历史数据的方法分享给你们. 基本思路:分析腾讯新闻“抗肺炎”版块,采用“倒推法”找到疫情数据接口,然后用python模拟请求,进而保存疫情历 ...
python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
Python爬虫：获取JS动态内容
经过一段时间的python学习,能写出一些爬虫了.但是,遇到js动态加载的网页就犯了难.于是乎谷歌.百度,发现个好介绍http://www.jianshu.com/p/4fe8bb1ea984 主要就 ...
【Python爬虫案例学习】下载某图片网站的所有图集
前言其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. 其实就几行代码,但希望没有开发基础的人也能一下子看明白,所以大神请绕行. 基本环境配置 python 版本:2.7 ...

随机推荐

margin塌陷与margin合并（margin），清除浮动
**1.margin塌陷**问题:垂直方向的父子关系的盒子使用不当会产生margin塌陷.给子级设置margin-top时,他不会相对父级一起动,只有他的margin超过父级的margin时,才会生效 ...
Elastic Stack-Elasticsearch使用介绍(四)
一.前言上一篇说了一下查询和存储机制,接下来我们主要来说一下排序.聚合.分页: 写完文章以后发现之前文章没有介绍Coordinating Node,这个地方补充说明下Coordinating ...
基于令牌桶算法实现的SpringBoot分布式无锁限流插件
本文档不会是最新的,最新的请看Github! 1.简介基于令牌桶算法和漏桶算法实现的纳秒级分布式无锁限流插件,完美嵌入SpringBoot.SpringCloud应用,支持接口限流.方法限流.系统限 ...
周末学习笔记——day02（带参装饰器，wraps修改文档注释，三元表达式，列表字典推导式，迭代器，生成器，枚举对象，递归）
一,复习 ''' 1.函数的参数:实参与形参形参:定义函数()中出现的参数实参:调用函数()中出现的参数形参拿到实参的值,如果整体赋值(自己改变存放值的地址),实参不会改变,(可变类型)如果修改 ...
C#-之属性（1）
1. 属性定义方式与字段类似,但还包括Set和Get两个访问器,其格式如下: public/private <type> Name { get { return variable: ...
SSM项目整合Quartz
一.背景 SSM项目中要用到定时器,初期使用Timer,后来用spring 的schedule,都比较简单,所以功能比较单一而且他们不能动态的配置时间.后来就研究quartz,准备整合到项目中.Qua ...
python3的字符串和字节
Python3中内置类型bytes和str用法及byte和string之间各种编码转换 Python 3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分.文本总是Unicode(16进制) ...
Web开发基础-Node.js-01
01-浏览器工作原理 1)人机交互部分(ui) 2)网络请求部分(socket) 3)javascript引擎 4)渲染引擎(解析html,css) 5)数据存储部分(cookie,本地存储等) -- ...
搭建Linux下的SVN服务器
______________________________________________配置SVN步骤______________________________________________ ...
BZOJ2127Happiness
题目描述高一一班的座位表是个n*m的矩阵,经过一个学期的相处,每个同学和前后左右相邻的同学互相成为了好朋友.这学期要分文理科了,每个同学对于选择文科与理科有着自己的喜悦值,而一对好朋友如果能同时选文 ...

Python爬虫案例-获取最新的中国行政区域划分

Python爬虫案例-获取最新的中国行政区域划分的更多相关文章

随机推荐

热门专题