scrapy抓取到中文,保存到json文件为unicode,如何解决.

http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/overview.html

以上链接是很好的scrapy学些资料.感谢marchtea的翻译.

在学习过程中,碰到一个很棘手的问题: 中文的显示和存储. (中文在控制台显示的为\u77e5\u540d...这样的字符,保存到文件也是这样的)

在网上找了很久,下面这个链接应是最切题的.

http://stackoverflow.com/questions/9181214/scrapy-text-encoding

摘抄如下:

pipelines.py:

 import json

 import codecs

 class JsonWithEncodingPipeline(object):

     def __init__(self):

         self.file = codecs.open('scraped_data_utf8.json', 'w', encoding='utf-8')

     def process_item(self, item, spider):

         line = json.dumps(dict(item), ensure_ascii=False) + "\n"

         self.file.write(line)

         return item

     def spider_closed(self, spider):

         self.file.close()

按照上面的方法,输出到文件就是正常的中文了.

我的测试代码

搜索关键字和链接:

JsonItemExporter ensure_ascii=False

JsonItemExporter uxxx

python输出json文件\uxxx如何转换成中文

Decode and Encode in Python [ http://yangpengg.github.io/blog/2012/12/13/decode-and-encode-in-python/ ]

--

python print输出的是中文但是输出到文件的是\uxxx

http://wklken.me/posts/2013/08/31/python-extra-coding-intro.html

Scrapy : storing the data

http://stackoverflow.com/questions/14073442/scrapy-storing-the-data

scrapy 使用item export输出中文到json文件，内容为unicode码，如何输出为中文？

http://www.lefern.com/question/15837/scrapy-shi-yong-item-exportshu-chu-zhong-wen-dao-jsonwen-jian-nei-rong-wei-unicodema-ru-he-shu-chu-wei-zhong-wen/

how to put in json utf-8 symbols, not their codes?

https://groups.google.com/forum/#!msg/scrapy-users/rJcfSFVZ3O4/ZYsD7CMoCKMJ

scrapy text encoding

http://stackoverflow.com/questions/9181214/scrapy-text-encoding

scrapy抓取到中文,保存到json文件为unicode,如何解决.的更多相关文章

关于爬取数据保存到json文件,中文是unicode解决方式
流程: 爬取的数据处理为列表,包含字典.里面包含中文, 经过json.dumps,保存到json文件中, 发现里面的中文显示未\ue768这样子查阅资料发现,json.dumps 有一个参数.ens ...
python scrapy实战糗事百科保存到json文件里
编写qsbk_spider.py爬虫文件 # -*- coding: utf-8 -*- import scrapy from qsbk.items import QsbkItem from scra ...
使用scrapy爬取的数据保存到CSV文件中，不使用命令
pipelines.py文件中 import codecs import csv # 保存到CSV文件中 class CsvPipeline(object): def __init__(self): ...
记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中
猫眼票房排行榜页面显示如下: 注意右边的票房数据显示,爬下来的数据是这样显示的: 网页源代码中是这样显示的: 这是因为网页中使用了某种字体的缘故,分析源代码可知: 亲测可行: 代码中获取的是国内票房榜 ...
iOS开发——数据持久化&本地数据的存储（使用NSCoder将对象保存到.plist文件）
本地数据的存储(使用NSCoder将对象保存到.plist文件) 下面通过一个例子将联系人数据保存到沙盒的“documents”目录中.(联系人是一个数组集合,内部为自定义对象). 功能如下: ...
np.savetxt()——将array保存到txt文件，并保持原格式
问题:1.如何将array保存到txt文件中?2.如何将存到txt文件中的数据读出为ndarray类型? 需求:科学计算中,往往需要将运算结果(array类型)保存到本地,以便进行后续的数据分析. 解 ...
ffmpeg学习（二）通过rtsp获取H264裸流并保存到mp4文件
本篇将使用上节http://www.cnblogs.com/wenjingu/p/3977015.html中编译好的库文件通过rtsp获取网络上的h264裸流并保存到mp4文件中. 1.VS2010建 ...
python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
使用pandas中的raad_html函数爬取TOP500超级计算机表格数据并保存到csv文件和mysql数据库中
参考链接:https://www.makcyun.top/web_scraping_withpython2.html #!/usr/bin/env python # -*- coding: utf-8 ...

随机推荐

codeforces Round #347 (Div. 2) C - International Olympiad
思路:从后往前一位一位的模拟,每次判断一下当前枚举的数是否之间枚举过了.或者当前枚举数过小,小于1989. #include<cstdio> #include<cstring> ...
csipsimple 下载地址
项目下载地址: http://git.oschina.net/zencodex/CSipSimple https://github.com/zencodex/csip
cloud-utils cloud-utils-growpart cloud-init
linux多线程编程（转）
原文地址:http://www.cnblogs.com/BiffoLee/archive/2011/11/18/2254540.html 1.Linux“线程” 进程与线程之间是有区别的,不过Linu ...
Fast特征检测
一.Fast算法 1.基本原理 Fast特征点检测feature2D原理是在圆周上按顺时针方向从1到16的顺序对圆周像素点进行编号.如果在圆周上有N个连续的像素的亮度都比圆心像素的亮度Ip加上阈值t还 ...
RH442之Tuned优化方案
系统优化介绍: Tuned是监控并收集系统组件使用资源的守护进程,可根据收集信息动态调整系统,可调整CPU和网络资源的使用来提高活跃设备性能与不活跃设备电能消耗.通过tuned-adm中提供优化案例 ...
progressBar 自定义
自定义 ProgressBar 进度条自定义样式[复制链接] 黑牛黑牛当前离线威望 33 在线时间 31 小时金钱 443 贡献 10 诚信度 0 最后登录 2013-10-17 ...
cardslib
https://github.com/gabrielemariotti/cardslib
linux用户与组的管理（命令加入、手动加入、加入组、用户之间的切换）
一.用户登录的时候须要验证的是这两个文件检測username Login: root 到该文件夹下检查 /etc/passwd 检測用passwo ...
linux使用过程中遇到的问题和解决方法
测试过程中,出现以下错误,导致远程ssh连接不上,最终导致测试结果失败.系统日志如下: Sep 1 03:15:03 node3 avahi-daemon[5834]: Invalid respo ...

scrapy抓取到中文,保存到json文件为unicode,如何解决.

scrapy抓取到中文,保存到json文件为unicode,如何解决.的更多相关文章

随机推荐

热门专题