python 转义字符 html 爬虫

用python的requests包抓取某些网页时,返回的html中,一些字段含有一些转义字符 \\\\\\\

这些转义字符给我们后期处理带来一些麻烦, 比方说运行js等

python用print()打印时,其实已经自动处理了一边转义字符

转自 https://blog.csdn.net/shenkunchang1877/article/details/79086886

python

str = """{\\"count\\":4}"""  #爬虫抓取的数据段

print(str) 	#这里直接输出str

>>>{\"count\":4}

str = bytes(str, encoding='utf-8')

print(str)	#转换成bytes输出

>>>b'{\\"count\\":4}'

print(json.loads(str))	#输出出错

>>>json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)

分析：

在控制台直接print输出：{\"count\":4}这是正确的格式。按理说能正常被json解析，如下：

test2.py:

str="{\"count\":4}"

print(str)

print(json.loads(str))

>>>{"count":4}  #直接输出，输出了不带斜杠\的字符串

>>>{'count': 4}	#这里能被json正常解析

以上说明print和json.loads都会自动去掉用作转义的反斜杠   \ "转换成 " 成为正常能被json解析的（不带转义）字符 ，所以这样是能被json解析的！但是test1中的第一个print输出只是将双斜杠转成单斜杠的字符串，去掉了单斜杠的转义，这样仍然是不能被解析的。test1的第二个print说明了这个问题，转换成byte是按字节原样输出的，显示的仍然是双斜杠，所以print和loads都会解析一层的转义即：{\\"count\\":4}去掉一个单斜杠变成{\"count\":4}，应该要再去掉一层转义，即需要两次反转义才行，可惜我找遍资料也没找到python有解决这个的方法函数，不过最终在网上找到了解决方法。看下面：

总结：以上问题出现在抓取的数据的时候，python会自动把反斜杠\加上转义，比如这里的 “\”单反斜杠会变成对应的双反斜杠"\\" 即：把单斜杠给转义了。这样自然不能被json正常解析。（ps:单层转义的字符串传入json.loads()时会自动处理掉）

解决方法：

1.使用eval函数

eval
　　功能：将字符串str当成有效的表达式来求值并返回计算结果。
　　语法： eval(source[, globals[, locals]]) -> value
　　参数：
　　　　source：一个Python表达式或函数compile()返回的代码对象
　　　　globals：可选。必须是dictionary
　　　　locals：可选。任意map对象

str = """{\\"count\\":4}"""

str2 = eval("'{}'".format(str))

print(str2)

print(json.loads(str2))

2.使用正则表达式：

str1 = re.sub(r'\\','',str)

print(str1)

print(json.loads(str1))

>>>{"count":4}   #以上两种都能正常输出得到json数据！！

>>>{'count': 4}

python 转义字符 html 爬虫的更多相关文章

python 3.x 爬虫基础---正则表达式
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---Requer ...
Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...
Python 开发轻量级爬虫04
Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...
Python 开发轻量级爬虫03
Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监 ...
Python 开发轻量级爬虫02
Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介首先爬虫是什么?它是一段自动抓取互联网信息的程序. 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url, ...
Python 开发轻量级爬虫01
Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...

随机推荐

剑指offer（33）丑数
题目描述把只包含因子2.3和5的数称作丑数(Ugly Number).例如6.8都是丑数,但14不是,因为它包含因子7. 习惯上我们把1当做是第一个丑数.求按从小到大的顺序的第N个丑数. 题目分析 ...
HashSet、LinkedHashSet、TreeSet 简明解释
HashSet:元素无序.比如存入a.e.c.d.b,输出d.e.b.c.a. LinkedHashSet:怎么存进去,怎么出来.比如存入a.e.c.d.b,输出a.e.c.d.b. TreeSet: ...
Linux 修改SWAP分区后导致开机问题
Linux 系统出现提示原因扩容后,修改了SWAP,或者安装了双 Linux 系统,在安装后一种 Linux 系统时把 SWAP分区重新格式化,导致UUID 改变,所以启动时无法加载原来对应UUI ...
python from entry to abandon
学习Linux已经有大致两周了,依然感觉到自己仍然在运维的大门外徘徊.于是我想要找到一个在Linux之外的业余方向,可以以作为枯燥基础学习的调节.没过多久我就发现了Python可以说是钦定的选择,它作 ...
CSS粘住固定底部的5种方法
本文主要介绍一个Footer元素如何粘住底部,使其无论内容多或者少,Footer元素始终紧靠在浏览器的底部.我们知道,当内容足够多可以撑开底部到达浏览器的底部,如果内容不够多,不足以撑开元素到达浏览器 ...
url接收传参
下面是接收传参的代码: 方法一: function getQueryString(name) { var reg = new RegExp("(^|&)" + name + ...
容器工厂（原型&单例）
上一篇讲的是容器工厂的原型. 我们可以不必通过new关键之创建实例,可以直接取容器里面的实例. 我们可以发现,在对比他们的地址值的时候,他们是相同的为true. 如果我们需要的是不一样的呢.也就是有一 ...
gulp点滴
var gulp = require('gulp'), connect = require('gulp-connect'), browserify = require('gulp-browserify ...
postman(三)：添加断言
进行接口测试时,添加断言时必不可少的,断言就是判断响应内容与预期返回是否一致进行接口测试时,添加断言时必不可少的,断言就是判断响应内容与预期返回是否一致 postman可以在请求模块的Tests ...
【分布式搜索引擎】初识Elasticsearch
一.Elasticsearch是什么? Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎. Elasticsearch是一个实时分布式搜索和分析引擎.它让你以前所未 ...

python 转义字符 html 爬虫

test2.py:

python 转义字符 html 爬虫的更多相关文章

随机推荐

热门专题