scrapy爬取招聘网站，items转换成dict遇到的问题

pipelines代码

 1 import json

 2

 3 class TencentJsonPipeline(object):

 4     def __init__(self):

 5         self.file = open('tencent.json','wb')

 6

 7     def process_item(self, item, spider):

 8         content = json.dumps(dict(item),ensure_ascii=False)+"\n"

 9         self.file.write(content)

10         return item

11     def close_project(self):

12         self.file.close()

报错：

    self.file.write(content)

TypeError: a bytes-like object is required, not 'str'

这个问题是基本的编码解码问题，打开json文件时不能用‘wb’，而是‘w’，编码方式为utf-8

更正后代码：

 1 class TencentJsonPipeline(object):

 2     def __init__(self):

 3         self.file = open('tencent.json','w',encoding='utf-8')

 4

 5     def process_item(self, item, spider):

 6         content = json.dumps(dict(item),ensure_ascii=False)+"\n"

 7         self.file.write(content)

 8         return item

 9     def close_project(self):

10         self.file.close()

运行正常

参考地址：https://stackoverflow.com/questions/44682018/typeerror-object-of-type-bytes-is-not-json-serializable

scrapy爬取招聘网站，items转换成dict遇到的问题的更多相关文章

scrapy爬虫框架爬取招聘网站
目录结构 BossFace.py文件中代码: # -*- coding: utf-8 -*-import scrapyfrom ..items import BossfaceItemimport js ...
scrapy爬取某网站,模拟登陆过程中遇到的那些坑
本节内容在访问网站的时候,我们经常遇到有些页面必须用户登录才能访问.这个时候我们之前写的傻傻的爬虫就被ban在门外了.所以本节,我们给爬虫配置cookie,使得爬虫能保持用户已登录的状态,达到获得那 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...
python爬取招聘网站数据
# -*- coding: utf-8 -*- # 爬虫分析 from bs4 import BeautifulSoup from lxml import etree from selenium im ...
使用Scrapy爬取图书网站信息
重难点:使用scrapy获取的数值是unicode类型,保存到json文件时需要特别注意处理一下,具体请参考链接:https://www.cnblogs.com/sanduzxcvbnm/p/1030 ...
Scrapy 爬取某网站图片
1. 创建一个 Scrapy 项目,在命令行或者 Pycharm 的 Terminal 中输入: scrapy startproject imagepix 自动生成了下列文件: 2. 在 imagep ...
scrapy爬取美女图片
使用scrapy爬取整个网站的图片数据.并且使用 CrawlerProcess 启动. 1 # -*- coding: utf-8 -* 2 import scrapy 3 import reques ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...

随机推荐

python tkinter实现俄罗斯方块基础版
本项目最终效果见本人b站投稿av81480858 简介部分本项目最终代码已上传github: https://github.com/BigShuang/Tetris 的1_BASIC文件夹 .其中1 ...
菜鸡的Java笔记第十三 String 类的两种实例化方法
String 类的两种实例化方法 String 类的两种实例化方式的区别 String 类对象的比较 Stirng 类对象的使用分析 /* 1.String 类的两种实例化方式的区别 ...
dart系列之:元世界pubspec.yaml文件详解
目录简介 pubspec.yaml支持的字段一个例子字段详情总结简介 pubspec.yaml是所有dart项目的灵魂,它包含了所有dart项目的依赖信息和其他元信息,所以pubspec.y ...
退出cmd命令
中断cmd正在执行的任务:按 Ctrl+C退出cmd:exit最好不要直接关闭,而是用Ctrl+C中断任务后在关闭,以免造成程序运行异常.
[loj2850]无进位加法
(似乎漏了一个数据范围,cf上的题面中还有$\sum L\le 3\cdot 10^{5}$) 考虑$a_{i}=2^{k_{i}}$时(不妨$k_{1}\ge k_{2}\ge ...\ge k_{ ...
[luogu4747]Intrinsic Interval
有一个结论,答案一定是所有包含其合法区间中$l$最大且$r$最小的证明比较容易,考虑两个合法区间有交,那么交必然合法,同时交也必然包含该区间,因此这个区间一定是合法的(取$l$最大的和$r$最小的两 ...
多线程07.thread-join
package com.wangwenjun.concurrency.chapter5; public class ThreadJoin3 { public static void main(Stri ...
Codeforces 295D - Greg and Caves（dp）
题意: 给出一个 $n \times m$ 的矩阵,需对其进行黑白染色,使得以下条件成立: 存在区间 $[l,r]$($1\leq l\leq r\leq n$),使得第 \(l,l+1, ...
UOJ #129 / BZOJ 4197 / 洛谷 P2150 - [NOI2015]寿司晚宴（状压dp+数论+容斥）
题面传送门题意: 你有一个集合 $S={2,3,\dots,n}$ 你要选择两个集合 $A$ 和 $B$,满足: $A \subseteq S$,$B \subseteq S$, ...
Yet Another Minimization Problem
Yet Another Minimization Problem 一个很显然的决策单调性. 方程是很显然的 $ f_i = \min{f_{j-1} + w(j,i)} $ . 它具有决策单调性,可以 ...

scrapy爬取招聘网站，items转换成dict遇到的问题

scrapy爬取招聘网站，items转换成dict遇到的问题的更多相关文章

随机推荐

热门专题