之前的文章我们已经可以根据 re 模块，Xpath 模块和 BeautifulSoup4 模块来爬取网站上我们想要的数据并且存储在本地，但是我们并没有对存储数据的格式有要求，本章我们就来看数据的存储格式 JSON 及 Python 中的 json 模块。

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

JSON和XML的比较可谓不相上下。

Python 中自带了JSON模块，直接import json就可以使用了。

官方文档：http://docs.python.org/library/json.html

Json在线解析网站：http://www.json.cn/#

json简单说就是javascript中的对象和数组，所以这两种结构就是对象和数组两种结构，通过这两种结构可以表示各种复杂的结构

对象：对象在js中表示为{ }括起来的内容，数据结构为 { key：value, key：value, ... }的键值对的结构，在面向对象的语言中，key为对象的属性，value为对应的属性值，所以很容易理解，取值方法为对象.key 获取属性值，这个属性值的类型可以是数字、字符串、数组、对象这几种。

数组：数组在js中是中括号[ ]括起来的内容，数据结构为 ["Python", "javascript", "C++", ...]，取值方式和所有语言中一样，使用索引获取，字段值的类型可以是数字、字符串、数组、对象几种。

Python中 json 模块提供了四个功能：dumps、dump、loads、load，用于字符串和 python数据类型间进行转换。

1. json.loads()

把Json格式字符串解码转换成Python对象从json到python的类型转化对照如下：

 import json

 strList = '[1, 2, 3, 4]'

 strDict = '{"city": "北京", "name": "大猫"}'

 print(json.loads(strList))  # [1, 2, 3, 4]

 print(json.loads(strDict))  # {'city': '北京', 'name': '张三'}

2. json.dumps()

实现 python 类型转化为 json 字符串，返回一个str对象把一个 Python 对象编码转换成 Json 字符串

从 python 原始类型向 json 类型的转化对照如下：

 import json

 listStr = [1, 2, 3, 4]

 tupleStr = (1, 2, 3, 4)

 dictStr = {"city": "北京", "name": "张三"}

 print(json.dumps(listStr))  # '[1, 2, 3, 4]'

 print(json.dumps(tupleStr))  # '[1, 2, 3, 4]'

 print(json.dumps(dictStr))  # '{"city": "\u5317\u4eac", "name": "\u5f20\u4e09"}'

3. json.dump()

将Python内置类型序列化为json对象后写入文件

 import json

 listStr = [{"city": "北京"}, {"name": "张三"}]

 json.dump(listStr, open("listStr.json", "w"))

 dictStr = {"city": "北京", "name": "李四"}

 json.dump(dictStr, open("dictStr.json", "w"), ensure_ascii=False)  # 添加参数 ensure_ascii=False 禁用ascii编码，按utf-8编码

输出结果：

4. json.load()

读取文件中json形式的字符串元素转化成python类型

 import json

 strList = json.load(open("listStr.json"))

 print(strList)  # [{'city': '北京'}, {'name': '张三'}]

 strDict = json.load(open("dictStr.json"))

 print(strDict)  # {'city': '北京', 'name': '李四'}

JsonPath

JsonPath 是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 对于 JSON 来说，相当于 XPATH 对于 XML。

下载地址：https://pypi.python.org/pypi/jsonpath

安装方法：点击Download URL链接下载jsonpath，解压之后执行python setup.py install

官方文档：http://goessner.net/articles/JsonPath

JsonPath与XPath语法对比：

Json结构清晰，可读性高，复杂度低，非常容易匹配，下表中对应了XPath的用法。

XPath	JSONPath	描述
`/`	`$`	根节点
`.`	`@`	现行节点
`/`	`.`or`[]`	取子节点
`..`	n/a	取父节点，Jsonpath未支持
`//`	`..`	就是不管位置，选择所有符合条件的条件
`*`	`*`	匹配所有元素节点
`@`	n/a	根据属性访问，Json不支持，因为Json是个Key-value递归结构，不需要。
`[]`	`[]`	迭代器标示（可以在里边做简单的迭代操作，如数组下标，根据内容选值等）
\|	`[,]`	支持迭代器中做多选。
`[]`	`?()`	支持过滤操作.
n/a	`()`	支持表达式计算
`()`	n/a	分组，JsonPath不支持

示例：

我们以拉勾网城市JSON文件 https://www.lagou.com/lbs/getAllCitySearchLabels.json 为例，获取所有城市。

 import urllib.request

 import json

 import jsonpath

 import ssl

 # 取消代理验证

 ssl._create_default_https_context = ssl._create_unverified_context

 url = 'https://www.lagou.com/lbs/getAllCitySearchLabels.json'

 headers = {

     "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}

 # 发送请求

 request = urllib.request.Request(url, headers=headers)

 response = urllib.request.urlopen(request)

 html = response.read().decode("utf-8")

 # 把json格式字符串转换成python对象

 jsonobj = json.loads(html)

 # 从根节点开始，匹配name节点

 citylist = jsonpath.jsonpath(jsonobj, '$..name')

 fp = open('city.json', 'w')

 content = json.dumps(citylist, ensure_ascii=False)

 fp.write(content)

 fp.close()

程序启动后会在本地生成一个 city.json 的文件，结果如下：

Python 爬虫从入门到进阶之路（十四）的更多相关文章

Python 爬虫从入门到进阶之路（四）
之前的文章我们做了一个简单的例子爬取了百度首页的 html,我们用到的是 urlopen 来打开请求,它是一个特殊的opener(也就是模块帮我们构建好的).但是基本的 urlopen() 方法不支持 ...
Python 爬虫从入门到进阶之路（八）
在之前的文章中我们介绍了一下 requests 模块,今天我们再来看一下 Python 爬虫中的正则表达的使用和 re 模块. 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网 ...
Python 爬虫从入门到进阶之路（二）
上一篇文章我们对爬虫有了一个初步认识,本篇文章我们开始学习 Python 爬虫实例. 在 Python 中有很多库可以用来抓取网页,其中内置了 urllib 模块,该模块就能实现我们基本的网页爬取. ...
Python 爬虫从入门到进阶之路（六）
在之前的文章中我们介绍了一下 opener 应用中的 ProxyHandler 处理器(代理设置),本篇文章我们再来看一下 opener 中的 Cookie 的使用. Cookie 是指某些网站服务器 ...
Python 爬虫从入门到进阶之路（九）
之前的文章我们介绍了一下 Python 中的正则表达式和与爬虫正则相关的 re 模块,本章我们就利用正则表达式和 re 模块来做一个案例,爬取<糗事百科>的糗事并存储到本地. 我们要爬取的 ...
Python 爬虫从入门到进阶之路（十二）
之前的文章我们介绍了 re 模块和 lxml 模块来做爬虫,本章我们再来看一个 bs4 模块来做爬虫. 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也 ...
Python 爬虫从入门到进阶之路（十五）
之前的文章我们介绍了一下 Python 的 json 模块,本章我们就介绍一下之前根据 Xpath 模块做的爬取<糗事百科>的糗事进行丰富和完善. 在 Xpath 模块的爬取糗百的案例中我 ...
Python 爬虫从入门到进阶之路（十六）
之前的文章我们介绍了几种可以爬取网站信息的模块,并根据这些模块爬取了<糗事百科>的糗百内容,本章我们来看一下用于专门爬取网站信息的框架 Scrapy. Scrapy是用纯Python实现一 ...
Python 爬虫从入门到进阶之路（十七）
在之前的文章中我们介绍了 scrapy 框架并给予 scrapy 框架写了一个爬虫来爬取<糗事百科>的糗事,本章我们继续说一下 scrapy 框架并对之前的糗百爬虫做一下优化和丰富. 在上 ...
Python 爬虫从入门到进阶之路（五）
在之前的文章中我们带入了 opener 方法,接下来我们看一下 opener 应用中的 ProxyHandler 处理器(代理设置). 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的. 很 ...

随机推荐

Raw-OS备用事件源代码分析
作为分析的内核版本2014-04-15,基于1.05正式版,blogs我们会跟上的内核开发进度的最新版本,如果出现源代码的目光"???"的话.没有深究的部分是理解. Raw-OS官 ...
cocos2D-X从的源代码的分析cocos2D-X学习OpenGL（1）----cocos2D-X渲染架构
个人原创.欢迎转载,转载请注明原文地址http://blog.csdn.net/bill_man 从本篇文章開始,将分析cocos2D-X 3.0源码,第一部分是从cocos2D-X学习OpenGL ...
CentOS 7.3最小系统安装KVM
一.准备工作安装wget和vim yum install -y wget vim 修改yum源为阿里源 wget -O /etc/yum.repos.d/CentOS-Base.repo http: ...
Delphi中的线程类 - TThread详解
Delphi中的线程类 - TThread详解 2011年06月27日星期一 20:28 Delphi中有一个线程类TThread是用来实现多线程编程的,这个绝大多数Delphi书藉都有说到,但基本 ...
SyncML是一平台无关的信息同步标准协议集
SyncML (Synchronization Markup Language)是一平台无关的信息同步标准协议集.分为SyncML数据传输协议(SyncML-DS)和SyncML设备管理协议(Sync ...
WPF下Itemscontrol分组样式
原文 WPF下Itemscontrol分组样式 <ItemsControl Grid.Row="1" DataContext="{Binding Layouts} ...
关于WPF的ComboBox中Items太多而导致加载过慢的问题
原文:关于WPF的ComboBox中Items太多而导致加载过慢的问题 [WFP疑难]关于WPF的ComboBox中Items太多而导致加载过慢的问题 ...
Microsoft Enterprise Library 5.0 系列(四)
企业库日志应用程序模块工作原理图: 从上图我们可以看清楚企业库日志应用程序模块的工作原理,其中LogFilter,Trace Source,Trace Listener,Log Formatter的信 ...
Socket小白篇-附加TCP/UDP简介
Socket小白篇-附加TCP/UDP简介 Socket 网络通信的要素 TCP和UDP Socket的通信流程图 1.Socket 什么是Socket Socket:又称作是套接字,网络上的两个程序 ...
Redis实现Timeline
上回写了[使用Redis实现关注关系][1],这次说说使用Redis实现Timeline. Timeline的实现一般有推模式.拉模式.推拉结合这几种. 推模式:某人发布内容之后推送给所有粉丝,空间换 ...

Python 爬虫从入门到进阶之路（十四）