python脚本抓取省市县区乡镇村庄（五级行政区划）

用python脚本抓取省市县区乡镇村庄（五级行政区划）的过程如下：

1，抓取国家统计局官网上的行政区划名称和对应的代码（5级是不同的网页，所以涉及多层跳转）；

2，数据量大约几十万条，频繁访问考虑防屏蔽问题；

3，各层级网页结构有微调需要做兼容处理；

4，大量http/https请求需做好异常处理以提高成功抓取全部结果的概率；

完整python代码：

import requests

from bs4 import BeautifulSoup

import random

import time

urlPrefix = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/'

def myRequest(url):

    user_agent_list = ["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE",

                       "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",

                       "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",

                       "Mozilla/5.0 (Windows NT 10.0; WOW64) Gecko/20100101 Firefox/61.0",

                       "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36",

                       "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36",

                       "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",

                       "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",

                       "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15"]

    headers = {'User-Agent': random.choice(user_agent_list)}

    requests.adapters.DEFAULT_RETRIES = 5  # 增加重连次数

    s = requests.session()

    s.keep_alive = False  # 关闭多余连接

    try:

        return s.get(url, headers=headers)  # Getting page HTML through request

    except (requests.exceptions.ReadTimeout, requests.exceptions.Timeout, requests.exceptions.ConnectTimeout) as e:

        print(e)

        time.sleep(random.randint(1, 5))

        return s.get(url, headers=headers)  # Getting page HTML through request

    except requests.exceptions.ConnectionError as e:

        print(e)

        time.sleep(random.randint(1, 5))

        return s.get(url, headers=headers)  # Getting page HTML through request

    except Exception as e:

        raise e

def Writefile(content, tag):

    # 将数据输出文件中，注意点1. 所指定的盘存在，2. 使用file=

    fp = open("D:/pythonWorkspace/webSpiders-Region-"+tag+".txt", "a+", encoding='utf-8')  # a+ 如果文件不存在就创建。存在就在文件内容的后面继续追加

    print(content, file=fp)

    fp.close()

def villageFun(TownID, villagePage):

    print('villageFun> '+TownID+','+villagePage)

    page = myRequest(urlPrefix+villagePage)  # Getting page HTML through request

    if(200 == page.status_code):

        soup = BeautifulSoup(page.content, 'html.parser')  # Parsing content using beautifulsoup

        links = soup.select("table tbody tr.villagetr")  # Selecting all of the anchors with titles

        first10 = links  # Keep only the first 10 anchors

        for anchor in first10:

            myItem = anchor.select("td")

            if ([] != myItem):

                print('5'+','+myItem[0].text+','+myItem[2].text+','+TownID)  # Display the innerText of each anchor

                Writefile('5'+','+myItem[0].text+','+myItem[2].text+','+TownID, TownID[0:2])

            else:

                print('跳过：ID='+TownID+'page='+villagePage)

        print('村庄遍历完成。')

    else:

        print('ERROR: status_code='+str(page.status_code))

def townFun(CountyID, townPage):

    print('townFun> '+CountyID+','+townPage)

    page = myRequest(urlPrefix+townPage)  # Getting page HTML through request

    if(200 == page.status_code):

        soup = BeautifulSoup(page.content, 'html.parser')  # Parsing content using beautifulsoup

        links = soup.select("table tbody tr.towntr")  # Selecting all of the anchors with titles

        first10 = links  # Keep only the first 10 anchors

        for anchor in first10:

            myItem = anchor.select("td a")

            if ([] != myItem):

                print('4'+','+myItem[0:1][0].text+','+myItem[1:2][0].text+','+CountyID)  # Display the innerText of each anchor

                Writefile('4'+','+myItem[0:1][0].text+','+myItem[1:2][0].text+','+CountyID, CountyID[0:2])

                villageFun(myItem[0:1][0].text, CountyID[0:2]+'/'+CountyID[2:4]+'/'+myItem[0:1][0]['href'])

            else:

                print('跳过：ID='+CountyID+'page='+townPage)

            time.sleep(0.5)  # 延时，避免太频繁

        print('乡镇遍历完成。')

    else:

        print('ERROR: status_code='+str(page.status_code))

def countyFun(CityID, countyPage):

    print('countyFun> '+CityID+','+countyPage)

    page = myRequest(urlPrefix+countyPage)  # Getting page HTML through request

    if(200 == page.status_code):

        soup = BeautifulSoup(page.content, 'html.parser')  # Parsing content using beautifulsoup

        links = soup.select("table tbody tr.countytr")  # Selecting all of the anchors with titles

        first10 = links  # Keep only the first 10 anchors

        for anchor in first10:

            myItem = anchor.select("td a")

            if ([] != myItem):

                print('3'+','+myItem[0:1][0].text+','+myItem[1:2][0].text+','+CityID)  # Display the innerText of each anchor

                Writefile('3'+','+myItem[0:1][0].text+','+myItem[1:2][0].text+','+CityID, CityID[0:2])

                townFun(myItem[0:1][0].text, CityID[0:2]+'/'+myItem[0:1][0]['href'])

            else:

                print('跳过：ID='+CityID+'page='+countyPage)

            time.sleep(0.5)  # 延时，避免太频繁

        print('县区遍历完成。')

    else:

        print('ERROR: status_code='+str(page.status_code))

def cityFun(ProvinceID, cityPage):

    print('cityFun> '+ProvinceID+','+cityPage)

    page = myRequest(urlPrefix+cityPage)  # Getting page HTML through request

    if(200 == page.status_code):

        soup = BeautifulSoup(page.content, 'html.parser')  # Parsing content using beautifulsoup

        links = soup.select("table tbody tr.citytr")  # Selecting all of the anchors with titles

        first10 = links  # Keep only the first 10 anchors

        for anchor in first10:

            myItem = anchor.select("td a")

            if ([] != myItem):

                print('2'+','+myItem[0:1][0].text+','+myItem[1:2][0].text+','+ProvinceID)  # Display the innerText of each anchor

                Writefile('2'+','+myItem[0:1][0].text+','+myItem[1:2][0].text+','+ProvinceID, ProvinceID)

                countyFun(myItem[0:1][0].text, myItem[0:1][0]['href'])

            else:

                print('跳过：ID='+ProvinceID+'page='+cityPage)

            # time.sleep(0.5)  # 延时，避免太频繁

        print('城市遍历完成。')

    else:

        print('ERROR: status_code='+str(page.status_code))

def ProvinceFun():

    page = myRequest(urlPrefix+'index.html')  # Getting page HTML through request

    if(200 == page.status_code):

        soup = BeautifulSoup(page.content, 'html.parser')  # Parsing content using beautifulsoup

        links = soup.select("table tbody tr.provincetr td a")  # Selecting all of the anchors with titles

        first10 = links  # Keep only the first 10 anchors

        for anchor in first10:

            ProvinceID = anchor['href'].rstrip('.html')

            print('1'+','+ProvinceID+','+anchor.text+','+'0')  # Display the innerText of each anchor

            Writefile('1'+','+ProvinceID+','+anchor.text+','+'0', ProvinceID)

            cityFun(ProvinceID, anchor['href'])

            # time.sleep(3)  # 延时，避免太频繁

        print('省份遍历完成。')

    else:

        print('ERROR: status_code='+str(page.status_code))

if __name__ == '__main__':

    ProvinceFun()

    # cityFun('43', '43.html')

运行完城后控制台回显：

村庄遍历完成。
乡镇遍历完成。
县区遍历完成。
城市遍历完成。
省份遍历完成。

数据结果会写入到txt文本中，示例 webSpiders-Region-43.txt 是这样（文件内容太多，这里只选取文件前几行）：

1,43,湖南省,0

2,430100000000,长沙市,43

3,430102000000,芙蓉区,430100000000

4,430102001000,文艺路街道,430102000000

5,430102001001,识字里社区居委会,430102001000

5,430102001002,文艺新村社区居委会,430102001000

5,430102001003,韭菜园社区居委会,430102001000

下一步将这个文件导入到 mysql里面。

新建mysql表：

/*

SQLyog Ultimate v12.09 (64 bit)

MySQL - 8.0.11 : Database - db_xiongzaiqiren

*********************************************************************

*/

/*!40101 SET NAMES utf8 */;

/*!40101 SET SQL_MODE=''*/;

/*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */;

/*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;

/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;

/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;

CREATE DATABASE /*!32312 IF NOT EXISTS*/`db_xiongzaiqiren` /*!40100 DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci */;

USE `db_xiongzaiqiren`;

/*Table structure for table `tb_region` */

DROP TABLE IF EXISTS `tb_region`;

CREATE TABLE `tb_region` (

  `regionID` varchar(36) NOT NULL COMMENT '地区ID',

  `regionName` varchar(256) NOT NULL COMMENT '地区名称',

  `regionLevel` tinyint(4) NOT NULL DEFAULT '1' COMMENT '地区级别',

  `regionParentID` varchar(36) NOT NULL DEFAULT '0' COMMENT '地区上级ID',

  `regionIsEnabled` tinyint(4) NOT NULL DEFAULT '1' COMMENT '是否启用',

  PRIMARY KEY (`regionID`),

  KEY `regionParentID_Level_IsEnabled` (`regionParentID`,`regionLevel`,`regionIsEnabled`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;

/*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;

/*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */;

/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;

创建数据库，表后，就可以导入txt里的数据了。

LOAD DATA LOCAL INFILE 'D:/pythonWorkspace/webSpiders-Region-43.txt' INTO TABLE db_xiongzaiqiren.tb_region FIELDS TERMINATED BY ',' LINES TERMINATED BY '\r\n'

(regionLevel,regionID,regionName,regionParentID,regionIsEnabled) SET regionIsEnabled=1;

注意：导入语句可能会报错，因为mysql默认没有开启 local_infile ，需要手动设置开启才能导入：

# 服务器端，local_infile默认开启；客户端，local_infile默认关闭，因此用的时候需要打开。

SHOW GLOBAL VARIABLES LIKE 'local_infile';

SET GLOBAL local_infile = 'ON';

等待导入完成，看下受影响的行数，与txt里面的行数对比一下，数据条数是一样的。

【完】

python脚本抓取省市县区乡镇村庄（五级行政区划）的更多相关文章

php外挂python脚本抓取ajax数据
之前我写过一遍php外挂python脚本处理视频的文章.今天和大家分享下php外挂python实现输入关键字搜索的脚本首先我们先来分析一波网站: http://www.dzdpw.com/s.php ...
Python脚本抓取京东手机的配置信息
以下代码是使用python抓取京东小米8手机的配置信息首先找到小米8商品的链接:https://item.jd.com/7437788.html 然后找到其配置信息的标签,我们找到其配置信息的标签为 ...
python 处理抓取网页乱码
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ...
python Web抓取（一）[没写完]
需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据,pandas进行数据分析,echarts进行可视化 (前言) 感觉要总结总结了,希望这次能写个系列文章分享分享心得,和大神们交流交流,提升提升. 因为 ...
python数据抓取分析（python + mongodb）
分享点干货!!! Python数据抓取分析编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
Python数据抓取技术与实战 pdf
Python数据抓取技术与实战目录 D11章Python基础1.1Python安装1.2安装pip1.3如何查看帮助1.4D1一个实例1.5文件操作1.6循环1.7异常1.8元组1.9列表1.10字 ...

随机推荐

3.6 Linux命令基本格式
本节开始,我们不会再见到图形界面了,因为对服务器来讲,图形界面会占用更多的系统资源,而且会安装更多的服务.开放更多的端口,这对服务器的稳定性和安全性都有负面影响.其实,服务器是一个连显示器都没有的家伙 ...
14-8 C++函数调用运算符
目录 14.8.0 引入函数对象含有状态的函数对象函数对象常做泛型算法实参 14.8.1 lambda是函数对象表示没有捕获值的lambda的类表示lambda及其捕获行为的类 14.8.2 ...
在 Github Action 管道内集成 Code Coverage Report
Github Actions 我们的开源项目 Host 在 Github,并且使用它强大的 Actions 功能在做 CICD.单看 Github Actions 可能不知道是啥.其实它就是我们常说的 ...
MQTT应用：Air780EP低功耗4G模组AT开发
终于要讲一讲MQTT应用! 本文应各位大佬邀请,详细讲解Air780EP模组MQTT应用的多个AT命令. Air780EP是低功耗4G模组之一,支持全系列的AT指令以及LuatOS脚本二次开发. ...
WordCloudStudio 支持支付宝周期性订阅
我们很高兴地宣布,WordCloudStudio 现已支持通过支付宝 (AliPay) 的周期性订阅支付功能!无论您是需要制作精美的词云图用于演示.社交媒体.教育资源,还是其他创意项目,现在都可以更便 ...
Nuxt.js 应用中的 webpack：error 事件钩子
title: Nuxt.js 应用中的 webpack:error 事件钩子 date: 2024/11/25 updated: 2024/11/25 author: cmdragon excerpt ...
LinkedHashMap源码分析（基于JDK1.6）
LinkedHashMap类似于HashMap,但是迭代遍历它时,取得"键值对"的顺序是插入次序,或者是最近最少使用(LRU)的次序.只比HashMap慢一点:而在迭代访问时反而更 ...
weex跨页面通信
需求: A页面有表单和表格,点击表格中的按钮到B页面,B页面操作完毕,再次回到A页面,表单元素保持不变,表格内容刷新. 通过管道通信去做,用两个管道嵌套,A页面跳转到B页面的时候,直接用管道发过去,B ...
2022GPLT
老板的作息表检查任意一张时间表,找出其中没写出来的时间段. 输入第一行给出一个正整数 \(N\),为作息表上列出的时间段的个数.随后 \(N\) 行,每行给出一个时间段,格式为: hh:mm:ss ...
从零开始学java(第二天)
------------恢复内容开始------------ 今天是学习了一些基础的知识 1.注释 //行注释 /*多行注释*/ /**文档注释*/ 2.标识符和关键字标识符就是名字,类名方法名变量 ...

python脚本抓取省市县区乡镇村庄（五级行政区划）

python脚本抓取省市县区乡镇村庄（五级行政区划）的更多相关文章

随机推荐

热门专题