我与python3擦肩而过（三）—— 我去。。又是编码问题—

　　　　记得初学python时就学的爬虫，经常遇到编码问题（其实在python3里面编码问题已经很少了。。。），用requests库就挺方便解决这些问题的。近来有共同学习python的程序员写了个电子书网站，想要相关的爬虫，于是，我去试了试。。。当然，第一步就遇到“编码问题”，这次requests就用不上啦。

　　　　观察发现，小说网站搜索网页之后，跳转的网址形如：http://so.biquge.la/cse/search?s=7138806708853866527&q=%CD%EA%C3%C0%CA%C0%BD%E7

而且，查询不同的内容，变化的只是 &q= 之后的内容。开始以为是加密（好吧，我真的是小白。。。），大牛告诉说只是个编码。。。用到urllib.parse.unquote（在python2里面是urllib.unquote）。

　　　　在python3里面具体是这样的：

from urllib import parse

city = parse.unquote('%E5%B1%B1%E8%A5%BF',)  # encoding='utf-8'

print(city)  # 山西

　　　　这是请教别人的一个例子，完美运行了。但是当我去套用这个格式的时候，却出现了乱码。检查发现，和所在网页的编码方式有关（上面代码也截取自网页）。例子的网页的编码是UTF-8，而要解析的小说网站的编码是GBK。于是修改代码如下：

name = parse.unquote('%CE%E4%B6%AF%C7%AC%C0%A4', encoding='gb18030')  # gbk亦可

print(name)  # 武动乾坤

　　也就是说，第一个例子中默认的是 encoding='utf-8'。（ps:关于GBK与GB18030，可参考这篇文章。）

到这里呢就算是能成功解码啦，于是。。。自然想到，就是怎么编回去呢？下面，“倒车”请注意：

x = parse.quote('武动乾坤', encoding='gb18030')

print(x)

　　输出结果：

%CE%E4%B6%AF%C7%AC%C0%A4

　　和想象中的一样简单，即，将unquote改为quote。

　　至此，算是对编码问题又多一份了解，当然，以后路还很长呢！

　　最后感谢群里面两位大神的相助@Irvine-宋前废帝，@福建-天涯。

我与python3擦肩而过（三）—— 我去。。又是编码问题——urllib.parse.unquote的更多相关文章

(转)Python3 模块3之 Urllib之 urllib.parse、urllib.robotparser
原文:https://blog.csdn.net/qq_36148847/article/details/79153738 https://blog.csdn.net/zly412934578/art ...
Python3网络爬虫（1）：利用urllib进行简单的网页抓取
1.开发环境 pycharm2017.3.3 python3.5 2.网络爬虫的定义网络爬虫,也叫网络蜘蛛(web spider),如果把互联网比喻成一个蜘蛛网,spider就是一只在网上爬来爬去的 ...
Python3 urllib.parse 常用函数示例
Python3 urllib.parse 常用函数示例 http://blog.51cto.com/walkerqt/1766670 1.获取url参数. >>> from url ...
python3下urlopen解析中文url编码错误
这是在ipython下测试的结果: In [24]: x Out[24]: 'http://127.0.0.1:8000/xxx/?id=a45ex0bad3c9&game=五子棋' In [ ...
WebRTC VideoEngine超详细教程（三）——集成X264编码和ffmpeg解码
转自:http://blog.csdn.net/nonmarking/article/details/47958395 本系列目前共三篇文章,后续还会更新 WebRTC VideoEngine超详细教 ...
Python3编写网络爬虫01-基本请求库urllib的使用
安装python后自带urllib库模块篇分为几个模块如下: 1. urllib.request 请求模块 2. urllib.parse 分析模块 3. urllib.error 异常处理模块 ...
Python把json格式的string对象转变成dict对象操作、Python3不能使用urllib2、urllib.parse.urlencode(params).encode(encoding='UTF8')
son格式的string对象转变成dict对象操作 content=eval(content)#json字典转化 Python3不能使用urllib2 直接使用urllib.request替换urll ...
SSE图像算法优化系列三十一：Base64编码和解码算法的指令集优化。
一.基础原理 Base64是一种用64个Ascii字符来表示任意二进制数据的方法.主要用于将不可打印的字符转换成可打印字符,或者简单的说是将二进制数据编码成Ascii字符.Base64也是网络 ...
python3 第三十一章 - 模块
1.什么是模块如果从Python解释器退出并再次输入,您所做的定义(函数和变量)将丢失.因此,如果要编写一个稍长的程序,最好使用文本编辑器为解释器准备输入,并以该文件作为输入运行它.这称为创建脚本. ...

随机推荐

nodeschool.io 5
~~ FILTERED LS ~~ Create a program that prints a list of files in a given directory,filtered by the ...
Scrum团队成立，阅读《构建之法》第6~7章，并参考以下链接，发布读后感、提出问题、并简要说明你对Scrum的理解
Scrum团队成立: 团队名称:神的孩子团队目标:短期目标,完成O2O模式的第一个平台团队口号:我们都不是神的孩子团队照: 角色分配产品负责人: 许佳仪.决定开发内容和优先级排序,最大化产品 ...
MyBatis核心配置文件模版
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE configuration PUBLI ...
hdu 4405Aeroplane chess(概率DP)
Aeroplane chess Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) ...
Best Time to Buy and Sell Stock II [LeetCode]
Problem Description: http://oj.leetcode.com/problems/best-time-to-buy-and-sell-stock-ii/ Basic idea: ...
Mysql 字符串处理函数
函数: 1.从左开始截取字符串 left(str, length) 说明:left(被截取字段,截取长度) 例:select left(content,200) as abstract from my ...
jquery.query.js 插件的用法
转载自:http://www.cnblogs.com/dachie/archive/2010/09/16/1827840.html 代码如下: var url = location.search; & ...
Mac android 开发 sdk配置和手机连接
本文适合已经很熟悉android开发的人员: 首先安装Mac版的eclipse 其次是android sdk的准备: 由于android sdk在线更新很不方便,所以可以选择复制:准备好Mac下的an ...
RemoveDPC
HOOKSSDT中加入了DPC之后要取消DPC 首先找到DPCHookSSDT.sys的基地址和大小通过枚举所有DPC的地址将在范围之内的DPC定时器全部移除枚举DPC: WinXP: 1. ...
bzoj 2324: [ZJOI2011]营救皮卡丘
#include<cstdio> #include<iostream> #include<cstring> #include<cmath> #inclu ...

我与python3擦肩而过（三）—— 我去。。又是编码问题——urllib.parse.unquote

我与python3擦肩而过（三）—— 我去。。又是编码问题——urllib.parse.unquote的更多相关文章

随机推荐

热门专题