python格式转换的记录
Python的格式转换太难了。
与其说是难,具体来说应该是“每次都会忘记该怎么处理”。所以于此记录,总的来说是编码+格式转换的记录。
本文记录环境:python3.6
经常见到的格式转换:
bytes-str
socket、网络通信和网站的很多数据传输,都是使用bytes格式在传送消息,而同时很多时候我们也需要把这些信息编程str来试着人工读信息。
此时使用方法:decode([编码格式])来完成bytes到str的转换,而str的货真价实的编码就是utf-8、gbk等等。
str-bytes
反过来,要把对人友好的字符串等转化到对机器友好的字节流,用encode()方法来完成。
bytes-十六进制数
我们通常更常用的其实是字符串转十六进制,但bytes作为桥梁更简单,只要组合一下就行了。
python3需要使用库binascii来完成很多这类在python2中可直接进行的转换,bytes转为十六进制数字文本,只需要使用binascii.b2a_hex()即可,具体更多用法可以在python的cmd模式下使用help(binascii)查看。
然后就可以拿这个十六进制数文本去加密或者其它处理。
十六进制数-bytes
反过来使用binascii.a2b_hex()即可。
bytes的base64编码/解码
很多网站会进一步把一些信息用base64的方式传输,有的为了节约资源,有的为了让ascii无法显示的乱码不至于被错误处理而产生误差,总之base64是好东西。
python3自带base64库,import base64后,使用base64.b64encode()或base64.b64decode()来对bytes型量进行base64编码或解码。
一些天坑的东西
1. python打开文件的编码格式
python打开文件很简单,常用的比如open(),with open as之类,然而有时候会出些小问题,比如txt文件,windows写入和读取txt默认都是unicode的方式(毕竟,没记错的话open这类函数是靠操作系统提供的中断函数完成的),这时候,如果要写入的文本是utf-8编码的,就有可能报错,有时候不报错,但是会产生乱码。(特别是用爬虫爬些稀奇古怪的网站的源代码时候,写入文件很容易变成乱码。)
所以要设置open()的编码,在最后加上,encoding="utf-8"。可以看到成功写入10个字符。
2.request.get时候的编码
写爬虫的时候,有时候需要获取当前网页的源代码然后进行一些其他操作,比如找其它页面,对于一些能用偏静态手段处理的网页,request库仍然是最合适的选择,使用result=request.get(html)得到目标网页的应答信息,要查看源代码时,有两种方式:一是result.text,一种是result.content。这两种的区别在于,result.text会自动对网页应答进行unicode编码,这极有可能导致信息错误或乱码,而result.content则直接返回网页应答的bytes类型信息。在必要情况下,就算是要得到网页某部分的文本,也应该用content获取原始bytes信息再自行转为utf-8等编码文本来使用。
python格式转换的记录的更多相关文章
- Qt 格式转换问题 记录(好多方法)
用Qt经常头痛于一些格式不能通用的问题 在此记录备用 1 (20120112)QString转为Char * QString *str; char *a; str="hello word ! ...
- Python datatime 格式转换,插入MySQL数据库
Python datatime 格式转换,插入MySQL数据库 zoerywzhou@163.com http://www.cnblogs.com/swje/ 作者:Zhouwan 2017-11-2 ...
- Python 日期格式转换
经常需要爬取网站上的时间信息,不同的网站又有不同的日期显示方式.而我需要将日期格式转化为一种特定的格式,所以为了简便和学习,记录下各种不同的日期格式转换. 日期格式化符号: %y :两位数的年份表示( ...
- python如何转换word格式、读取word内容、转成html
# python如何转换word格式.读取word内容.转成html? import docx from win32com import client as wc # 首先将doc转换成docx wo ...
- python 将png图片格式转换生成gif动画
先看知乎上面的一个连接 用Python写过哪些[脑洞大开]的小工具? https://www.zhihu.com/question/33646570/answer/157806339 这个哥们通过爬气 ...
- python中的时间和时间格式转换
1.python中的时间:要得到年月日时分秒的时间: import time #time.struct_time(tm_year=2012, tm_mon=9, tm_mday=15, tm_hour ...
- python 字符串str和json格式转换
最近在写一个脚本,需要处理从excel中读取的数据,发现读取的json格式数据进行转换时报错 ValueError: Expecting property name enclosed in doubl ...
- python 数组格式转换
格式转换 arr1 = [ {'name': 'jack', 'hobby': '西瓜'}, {'name': 'jack', 'hobby': '冬瓜'}, {'name': 'rose', 'ho ...
- Python 数字格式转换
# 数字格式转换v1 '''a = input() a1 = list(a) b = ["零", "一", "二", "三&quo ...
随机推荐
- 容器编排系统K8s之节点污点和pod容忍度
前文我们了解了k8s上的kube-scheduler的工作方式,以及pod调度策略的定义:回顾请参考:https://www.cnblogs.com/qiuhom-1874/p/14243312.ht ...
- Mirai框架qq机器人教程 新版
Mirai框架qq机器人教程 新版 前言 资料列表 1.准备 i. 配置java环境 ii. 配置IDE iii. 下载mirai-console-loader(mcl)作为启动器 2.创建mirai ...
- 【JavaWeb】i18n 国际化
i18n 国际化 什么是 i18n 国际化(Internationalization)指的是同一个网站可以支持多种不同的语言,以方便不同国家,不同语种的用户访问. 希望相同的一个网站,不同人访问的时候 ...
- Flutter 基础组件:输入框和表单
前言 Material组件库中提供了输入框组件TextField和表单组件Form. 输入框TextField 接口描述 const TextField({ Key key, // 编辑框的控制器,通 ...
- 美业黑科技 ▏肌肤管家SkinRun V3S智能肌肤测试仪,实现“护肤”私人定制
肌肤如同身体,也需要定时的"健康检查",但仅凭肉眼难以窥见深层的肌肤问题.而现在,肌肤管家SkinRun前沿黑科技护肤测试仪--SkinRun V3S便能帮助用户对症下药.肌肤管家 ...
- 在CentOS上安装Singularity高性能容器
什么是singularity容器 Singularity是劳伦斯伯克利国家实验室专门为大规模.跨节点HPC和DL工作负载而开发的容器化技术.具备轻量级.快速部署.方便迁移等诸多优势,且支持从Docke ...
- MySQL的索引优化分析(一)
一.SQL分析 性能下降.SQL慢.执行时间长.等待时间长 查询语句写的差 索引失效关联查询太多join(设计缺陷) 单值索引:在user表中给name属性创建索引,create index idx_ ...
- maven生命周期与插件
目录 Maven生命周期 clean default site 命令与对应周期 插件与绑定 插件目标 插件绑定 内置绑定 自定义绑定 插件配置 本文主要是针对<maven实战>书中关键知识 ...
- ps -eo 用户自定义格式显示
[root@ma ~]# ps -eo pid,ucomm|head -3 PID COMMAND 1 init 2 kthreadd[root@ma ~]# ps axu|head -3USER P ...
- 【Linux】nohup和&的区别
同样都是后台执行进程,但是nohup和&有什么区别呢? & 是指后台运行: nohup 的功能和& 之间的功能并不相同. 其中,nohup 可以使得命令永远运行下去和用户终端没 ...