python爬虫中文网页cmd打印出错问题解决
问题描述
用python写爬虫,很多时候我们会先在cmd下先进行尝试。
运行爬虫之后,肯定的,我们想看看爬取的结果。
于是,我们print...
运气好的话,一切顺利。但这样的次数不多,更多地,我们会遇到这样的错误:
UnicodeEncodeError: 'gbk' codec can't encode character
好吧,回去检查网页的编码格式:gb2312
代码中也添加了:r.encoding = 'gb2312'
看不出哪里出了问题,应该没问题的啊!
代码如下:
import requests
from bs4 import BeautifulSoup
url = 'http://bbs.ok226.com/bbs/html/'
r = requests.get(url)
r.encoding = 'gb2312'
soup = BeautifulSoup(r.text, 'html.parser')
# 打印
print(soup.get_text(strip=True))
解决办法:
A.改变控制台编码
网上查,都说是cmd控制台的问题。默认控制台编码gbk
好吧,那就改一下控制台编码,改成gbk的超集gb18030
试试看再说。。。嗯,很好,无报错,但是有乱码,算是解决了问题!
代码如下:
import requests
from bs4 import BeautifulSoup
url = 'http://bbs.ok226.com/bbs/html/'
r = requests.get(url)
r.encoding = 'gb2312'
soup = BeautifulSoup(r.text, 'html.parser')
# 改变控制台编码
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')
# 打印
print(soup.get_text(strip=True))
B.直接改字符编码
顺着这个思路,再一想,改控制台编码那还不如直接改字符编码:r.encoding = 'gb18030'
试试看再说。哎,没问题了,无报错,无乱码,完美解决!
代码如下:
import requests
from bs4 import BeautifulSoup
url = 'http://bbs.ok226.com/bbs/html/'
r = requests.get(url)
r.encoding = 'gb18030' # 注意网页编码是 gb2312
soup = BeautifulSoup(r.text, 'html.parser')
# 打印
print(soup.get_text(strip=True))
总结
从ASCII、GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。
各种编码字符数目
- gb2312: 7445 -- 在windows中的代码页是CP936
- gbk: 21886 -- 在windows中的代码页是CP936
- gb18030: 27484 -- 在windows中的代码页是CP54936
- gb13000: 等同于unicode
显然,gb18030 是 gb2312,gbk 的超集
因此,解决问题的思路就是:
如果控制台中,打印中文文本出问题,那就用它的编码的超集进行编码。
python爬虫中文网页cmd打印出错问题解决的更多相关文章
- python爬虫抓网页的总结
python爬虫抓网页的总结 更多 python 爬虫 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自 ...
- python爬虫中文乱码解决方法
python爬虫中文乱码 前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实 ...
- Python爬虫之网页图片抓取
一.引入 这段时间一直在学习Python的东西,以前就听说Python爬虫多厉害,正好现在学到这里,跟着小甲鱼的Python视频写了一个爬虫程序,能实现简单的网页图片下载. 二.代码 __author ...
- Python爬虫解析网页的4种方式 值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存 ...
- python爬虫 前程无忧网页抓取
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
- Python爬虫中文小说网点查找小说并且保存到txt(含中文乱码处理方法)
从某些网站看小说的时候经常出现垃圾广告,一气之下写个爬虫,把小说链接抓取下来保存到txt,用requests_html全部搞定,代码简单,容易上手. 中间遇到最大的问题就是编码问题,第一抓取下来的小说 ...
- python爬虫之网页解析
CSS Selector 与Xpath path = ‘D:\\Postgraduate\\Python\\python_projects\\Python视频 分布式 爬虫Scrapy入门到精通\\第 ...
- Python 爬虫 去掉网页注释,去掉网页注释
在爬虫中,我们遇到了网页注释的问题,这些内容,第一,耗费内存资源,第二,在解析网页的时候,不易匹配出来信息.那么我们该如何去掉他们呢??? 我们可以去使用正则去过滤掉他们 方法如下 result = ...
- python爬虫中文乱码问题(request方式爬取)
https://blog.csdn.net/guoxinian/article/details/83047746 req = requests.get(url)返回的是类对象 其包括的属性有: r ...
随机推荐
- 【转载】菜鸟Ubuntu下安装Android Studio
原文:http://forum.android-studio.org/forum.php?mod=viewthread&tid=236&extra=page%3D1%26filter% ...
- 【原/转】opencv的级联分类器训练与分类全程记录
众所周知,opencv下有自带的供人脸识别以及行人检测的分类器,也就是说已经有现成的xml文件供你用.如果我们不做人脸识别或者行人检测,而是想做点其他的目标检测该怎么做呢?答案自然是自己训练一个特定的 ...
- 【原】结构体包含CString类型成员变量出错的原理
问题如下:我定义了如下的一个结构体: typedef struct{ CString csText;}MyStruct; 并有如下的程序段1:MyStruct * p=NULL;p=(MyStru ...
- Android线程管理(三)——Thread类的内部原理、休眠及唤醒
线程通信.ActivityThread及Thread类是理解Android线程管理的关键. 线程,作为CPU调度资源的基本单位,在Android等针对嵌入式设备的操作系统中,有着非常重要和基础的作用. ...
- 多线程基础 (八)NSOperation相关
额外的参考学习可以学习:http://www.cnblogs.com/YouXianMing/p/3707403.html 1.NSOperation简介 NSOperation的作用 配合使用N ...
- apt-get
更新版本: apt-get --reinstall install apache2 卸载: apt-get remove apache2 只删除软件包 apt-get autorem ...
- 《MySQL技术内幕——SQL编程》读书笔记(二)——数据类型
对数据类型的选择将影响与数据库交互的应用程序的性能. 1.通常来说,如果一个页内可以存放尽可能多的行,那么数据库的性能就越好,因此选择一个正确的数据类型至关重要. 2.另一方面,如果在数据库中创建表时 ...
- rabbitmq server的安装以及常用的命令
Centos 源代码编译 安装 ErlangErlang依赖哪些库? A fully working GCC compiler environment Ncurses developm ...
- MySQL中EXPLAIN的解释
EXPLAIN是查看MySQL优化器如何决定执行查询的主要方法,这个功能具有局限性,以为它并总是会说出真相,但是却可以获得最好信息. 学会解释EXPLAIN,你就会了解MySQL优化器是如何工作,你才 ...
- pyhon之Tkinter实例化学习
Tkinter模块("Tk 接口")是Python的标准Tk GUI工具包的接口,位Python的内置模块,直接import tkinter即可使用. 作为实践, 用Tkinter ...