Python 抓取网页乱码问题以及EXCEL乱码

import codecs

f1=codecs.open('items.json', 'r', encoding='utf-8').read().decode("unicode_escape")

f=codecs.open('out.txt','wb',encoding='utf-8')

print >>f,f1

f.close()

字符编码问题的确是万年的难题。之前我也处理过 R 语言中文乱码的问题，it just drives me crazy!!!!!!!!!!!!!!!!! HOLY SHIT!!!!!!!!!!!!

要么就是这样的错误

UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence

要么就是可以读取然后就乱码。

我本身环境为UTF-8.

>>> import sys;

>>> print(sys.getdefaultencoding());

utf-8

在第一行加上

# -*- coding: utf-8 -*-

将你的PY文件改为UTF-8文件格式，然后就

↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

完美解决方案：

BYTES.decode("GBK",'ignore').encode("GBK").decode('UTF-8','ignore')
#总之尼玛你就GBK和UTF-8之间搞来搞起就好了！艹！

EXCEL 乱码问题

可能大家都遇到过，python在输出的csv文件中如果有utf-8格式的中文，那么在使用excel打开该csv文件时，excel将不能够有效识别出文件中的中文数据，严重时甚至不能够识别出分隔符。那么，要怎样操作才能够让excel识别出utf-8格式的中文呢？方法其实很简单，见以下代码：

import codecs
with open('ExcelUtf8.csv', 'w') as f:
t = u'中国人'
f.write(codecs.BOM_UTF8)
f.write('%s,1,3\n' % t.encode('utf-8'))

运行代码，使用excel打开，截图如下：

如果我们屏蔽掉其中的一句代码

import codecs
with open('ExcelUtf8.csv', 'w') as f:
t = u'中国人'
#f.write(codecs.BOM_UTF8)
f.write('%s,1,3\n' % t.encode('utf-8'))

再次运行代码，使用excel打开，截图如下：

其中具体的原理，大家可以去百度：BOM了

That which didn't kill me makes me stronger

Python 抓取网页乱码问题以及EXCEL乱码的更多相关文章

Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
01 UIPath抓取网页数据并导出Excel（非Table表单）
上次转载了一篇<UIPath抓取网页数据并导出Excel>的文章,因为那个导出的是table标签中的数据,所以相对比较简单.现实的网页中,有许多不是通过table标签展示的,那又该如何处理 ...
python 解决抓取网页中的中文显示乱码问题
关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因源网页编码和爬取下来 ...
Python抓取网页中的图片到本地
今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: #!/usr/bin/env python # -*- coding:utf- -*- # Author: xixihuang # ...
python抓取网页引用的模块和类
在Python3.x中,我们可以使用urlib这个组件抓取网页,urllib是一个URL处理包,这个包中集合了一些处理URL的模块,如下:1.urllib.request模块用来打开和读取URLs:2 ...
python抓取网页中图片并保存到本地
#-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file ...
python抓取网页过程
准备过程 1.抓取网页的过程准备好http请求(http request)->提交对应的请求->获得返回的响应(http response)->获得网页源码 2.GET还是POST ...
python 抓取网页一部分
import re import requests from bs4 import BeautifulSoup response = requests.get("https://jecvay ...

随机推荐

Leaf-spine data center architectures
http://longwhiteclouds.com/2015/03/26/configuring-scalable-low-latency-l2-leaf-spine-network-fabrics ...
Ax 从一个form关闭另外一个form，AX全局变量
如果这个两个form存在调用关系,我们当然可以在调用的时候把对象传过来,然后再关闭之. 但是当2个form没有被调用的关系,我们可以利用infolog.globalCache()将FORM对象保存起来 ...
Windows Server 2008 R2 配置Exchange 2010邮件服务器
windows server 服务器系统搭建邮件服务器一般两种情况: 1:Winmail server 软件 2:Exchange 参考教程:http://www.cnblogs.com/zhongw ...
shell脚本中的特殊符号
1.{} 大括号:用法一:通配符扩展eg: ls my_{finger,toe}s这条命令相当于如下命令的组合:ls my_fingers my_toeseg: mkdir {userA,userB, ...
pect-shell中的自动交互
这是我在ST写的自动登陆ssh的脚本, 分两个文件文件1: sssh #!/bin/bash #xql 2011/01/4#auto ssh 138.198.230.170 case $1 in & ...
飞翔的圆(Flappy Bird)游戏源码
这个源码是一个不错的休闲类的游戏源码,飞翔的圆(Flappy Bird)游戏源码V1.0,本项目是一个仿Flappy Bird的小游戏,只不过是把Flappy Bird里面的鸟替换成了简单的圆.感兴趣 ...
sqlite mvc分页
<tr class="tr1"> <td> 共<asp:Literal r ...
Mysql授权GRANT ALL PRIVILEGES
1. 改表法. 可能是你的帐号不允许从远程登陆,只能在localhost.这个时候只要在localhost的那台电脑,登入mysql后,更改 "mysql" 数据库里的 " ...
redmine添加自定义属性
使用redmine创建问题的时候,可能会发现没有我们需要的属性,这时候我们可以添加自定义的属性. 以添加满意度属性为例: 1.进入redmine管理界面,选择自定义属性 2.选择问题下面的新建自定义属 ...
css3选择器——导图篇
css3选择器主要有:基本选择器 , 层次选择器, 伪类选择器 , 伪元素选择器 , 属性选择器基本选择器层次选择器伪类选择器分为动态伪类选择器, 目标伪类选择器, 语言伪类选择器, U ...

Python 抓取网页乱码问题 以及EXCEL乱码

Python 抓取网页乱码问题 以及EXCEL乱码的更多相关文章

随机推荐

热门专题

Python 抓取网页乱码问题以及EXCEL乱码

Python 抓取网页乱码问题以及EXCEL乱码的更多相关文章