python爬虫--编码问题y

1)中文网站爬取下来的内容中文显示乱码

Python中文乱码是由于Python在解析网页时默认用Unicode去解析，而大多数网站是utf-8格式的，并且解析出来之后，python竟然再以Unicode字符格式输出，会与系统编码格式不同，导致中文输出乱码，知道原因后我们就好解决了。

# -*- coding: utf-8 -*-  

import urllib2

import sys

import urllib

#设置编码

reload(sys)

sys.setdefaultencoding('utf-8')

#获得系统编码格式

type = sys.getfilesystemencoding()

r = urllib.urlopen("http://www.baidu.com")

#将网页以utf-8格式解析然后转换为系统默认格式

a = r.read().decode('utf-8').encode(type)

print a

2)使用raw_input()读取键盘输入的中文乱码问题

raw_input()里面的中文提示出现乱码以及读出来之后显示乱码

例如，想要用键盘输入一个关键字，用这个关键字进行搜索，如果直接将这个中文关键字放入url中，那么将会无法进行搜索

#-*- coding:utf-8 -*-

import urllib2

import re

import sys

# 设置编码

reload(sys)

sys.setdefaultencoding('utf-8')

# 获得系统编码格式

type = sys.getfilesystemencoding()

word = raw_input("请输入关键字: ".decode('utf-8').encode('gbk')).decode(type)

url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word='+word+'&pn=0'

request = urllib2.Request(url)

response = urllib2.urlopen(request)

page = response.read().decode('utf-8').encode('gbk')

print page

python爬虫--编码问题y的更多相关文章

Python爬虫教程-03-使用 chardet 检测编码
Spider-03-使用chardet 继续学习python爬虫,我们经常出现解码问题,因为所有的页面编码都不统一,我们使用chardet检测页面的编码,尽可能的减少编码问题的出现网页编码问题解决 ...
python爬虫 urllib模块url编码处理
案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据) import urllib.request # 1.指定url url = 'https://www.sogou. ...
Python 爬虫入门（requests）
相信最开始接触Python爬虫学习的同学最初大多使用的是urllib,urllib2.在那之后接触到了第三方库requests,requests完全能满足各种http功能,真的是好用爆了 :D 他们是 ...
Python爬虫入门教程 50-100 Python3爬虫爬取VIP视频-Python爬虫6操作
爬虫背景原计划继续写一下关于手机APP的爬虫,结果发现夜神模拟器总是卡死,比较懒,不想找原因了,哈哈,所以接着写后面的博客了,从50篇开始要写几篇python爬虫的骚操作,也就是用Python3通过 ...
Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法.鼠标操作.键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~同时CSDN总是屏蔽这篇文章,再加上最近 ...
Python爬虫(四)——豆瓣数据模型训练与检测
前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建在这张表中我们可以发现 ...
python爬虫学习研究
目标:做一个小爬虫项目 2017年6月4日13:32:17 mooc网教程Python爬虫入门一之综述要学习Python爬虫,我们要学习的共有以下几点:Python基础知识Python中u ...
python 爬虫（转，我使用的python3）
原文地址:http://blog.csdn.net/pi9nc/article/details/9734437 [Python]网络爬虫(一):抓取网页的含义和URL基本构成分类: 爬虫 Pyt ...

随机推荐

解决：git warning: LF will be replaced by CRLF in xxxx
一. git add -A报错在利用git add -A添加文件时,意外的发现报错了报错信息中: LF:Line Feed 换行 CRLF:Carriage Return Line Feed 回 ...
IDT 查询 hana SQL 聚合问题。
因为业务需要,用HANA的数据做成DASHBOARD.工厂运营概况.结果发现奇怪的问题.明明是一个类型的但是不会聚合.(数据量特别大,一个月的应该就一条,但是有几千条做不下去.) 比如车辆类型是焊装 ...
强大的表格控件handsometable，结合vue
handsontable handsontable是目前在前端界最接近excel的插件,可以执行编辑,复制粘贴,插入删除行列,排序等复杂操作.jQuery.react.ng和vue版本,功能强大,是复 ...
mysql插入一万条数据
定义一个存储过程 mysql> delimiter $$ mysql> create procedure ptest() -> begin -> declare p ...
KVM-环境安装
1.操作系统安装本文采用Centos6.4X64操作系统,也可以采用RHEL/CentOS6.x. (1)查看系统版本.内核版本 ##查看系统版本 [root@KVM ~]# cat /etc/re ...
一些神奇的(优化)板子——来自Loi_black的博客
deque<int>q; void spfa(int s) { ;i<=n;i++) d[i]=1e9; d[s]=; q.push_back(s); used[s]=; while ...
CATransform3D 矩阵变换之立方体旋转实现细节 (转)
原文地址 http://blog.csdn.net/ch_soft/article/details/7351896 第一部分.前几天做动画,使用到了CATransform3D ,由于没有学过计算机图形 ...
jquery ajax中使用jsonp的限制（转）
http://www.cnblogs.com/dudu/archive/2012/12/04/jquery_ajax_jsonp.html jsonp 解决的是跨域 ajax 调用的问题.为什么要跨域 ...
Net Core 中使用 Consul 来存储配置
Net Core 中使用 Consul 来存储配置 https://www.cnblogs.com/Rwing/p/consul-configuration-aspnet-core.html 原文: ...
Greenplum中角色权限及客户端认证管理
角色权限及客户端认证管理 GP数据库逻辑结构在GP中,Database(数据库).Schema(模式)以及Role(角色)三者之间的关系如下所示: 一个数据库下可以有多个模式,一个模式只属于一个数据 ...

python爬虫--编码问题y

python爬虫--编码问题y的更多相关文章

随机推荐

热门专题