scrapy爬取招聘网站，items转换成dict遇到的问题

pipelines代码

 1 import json

 2

 3 class TencentJsonPipeline(object):

 4     def __init__(self):

 5         self.file = open('tencent.json','wb')

 6

 7     def process_item(self, item, spider):

 8         content = json.dumps(dict(item),ensure_ascii=False)+"\n"

 9         self.file.write(content)

10         return item

11     def close_project(self):

12         self.file.close()

报错：

    self.file.write(content)

TypeError: a bytes-like object is required, not 'str'

这个问题是基本的编码解码问题，打开json文件时不能用‘wb’，而是‘w’，编码方式为utf-8

更正后代码：

 1 class TencentJsonPipeline(object):

 2     def __init__(self):

 3         self.file = open('tencent.json','w',encoding='utf-8')

 4

 5     def process_item(self, item, spider):

 6         content = json.dumps(dict(item),ensure_ascii=False)+"\n"

 7         self.file.write(content)

 8         return item

 9     def close_project(self):

10         self.file.close()

运行正常

参考地址：https://stackoverflow.com/questions/44682018/typeerror-object-of-type-bytes-is-not-json-serializable

scrapy爬取招聘网站，items转换成dict遇到的问题的更多相关文章

scrapy爬虫框架爬取招聘网站
目录结构 BossFace.py文件中代码: # -*- coding: utf-8 -*-import scrapyfrom ..items import BossfaceItemimport js ...
scrapy爬取某网站,模拟登陆过程中遇到的那些坑
本节内容在访问网站的时候,我们经常遇到有些页面必须用户登录才能访问.这个时候我们之前写的傻傻的爬虫就被ban在门外了.所以本节,我们给爬虫配置cookie,使得爬虫能保持用户已登录的状态,达到获得那 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...
python爬取招聘网站数据
# -*- coding: utf-8 -*- # 爬虫分析 from bs4 import BeautifulSoup from lxml import etree from selenium im ...
使用Scrapy爬取图书网站信息
重难点:使用scrapy获取的数值是unicode类型,保存到json文件时需要特别注意处理一下,具体请参考链接:https://www.cnblogs.com/sanduzxcvbnm/p/1030 ...
Scrapy 爬取某网站图片
1. 创建一个 Scrapy 项目,在命令行或者 Pycharm 的 Terminal 中输入: scrapy startproject imagepix 自动生成了下列文件: 2. 在 imagep ...
scrapy爬取美女图片
使用scrapy爬取整个网站的图片数据.并且使用 CrawlerProcess 启动. 1 # -*- coding: utf-8 -* 2 import scrapy 3 import reques ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...

随机推荐

3组-Alpha冲刺-3/6
一.基本情况队名:发际线和我作队组长博客:链接小组人数:10 二.冲刺概况汇报黄新成(组长) 过去两天完成了哪些任务文字描述使用labelimg工具对采集的数据进行标注,安装alphapo ...
Spring Boot中如何自定义starter？
Spring Boot starter 我们知道Spring Boot大大简化了项目初始搭建以及开发过程,而这些都是通过Spring Boot提供的starter来完成的.品达通用权限系统就是基于Sp ...
菜鸡的Java笔记 - java 正则表达式
正则表达式 RegularExpression 了解正则表达式的好处正则表达式的基础语法正则表达式的具体操作 content (内容 ...
C# Pechkin初始化一次后被锁住的问题
Pechkin.dll可用于pdf的生成,常规用法网上都有介绍:https://www.cnblogs.com/felixnet/p/5143934.html 但是当在一个页面上执行过一次之后,再次就 ...
Golang进阶，揉碎数据库中间件，干货满满！
目录必读一.Centos7.Mac安装MySQL 二.主从复制原理 2.1.基于binlog_filename + position 2.2.基于GTID 三.my.cnf 四.测试SQL 五.中 ...
一个Java发送邮件的案例
经常有些要发送邮件的需求,但是去网上拷代码老是拷不到能直接运行的,还经常要去以前的项目里面拷,今天直接发出来算了,免得每次都要去别的项目拷. (只支持发送简单的文本文件,发附件的稍微复杂一丢丢,这里就 ...
进击的 Ansible（二）：如何快速搞定生产环境 Ansible 项目布局？
Tips:与前文 <进击的 Ansible(一):Ansible 快速入门> 一样,本文使用的 Ansible 版本 2.5.4,项目演示环境 MacOS.由于 Ansible 项目开发活 ...
洛谷 P7324 - [WC2021] 表达式求值（状压+dp）
题面传送门现场人傻系列-- 首先建出 \(E\) 的表达式树,具体来说表达式的每一个叶子节点表示一个数组 \(A_i\),每一个非叶子节点都表示一次运算,它的值表示左右儿子进行该运算后得到的结果.这 ...
洛谷 P3343 - [ZJOI2015]地震后的幻想乡（朴素状压 DP/状压 DP+微积分）
题面传送门鸽子 tzc 竟然来补题解了,奇迹奇迹( 神仙题 %%%%%%%%%%%% 解法 1: 首先一件很明显的事情是这个最小值可以通过类似 Kruskal 求最小生成树的方法求得.我们将所有边按 ...
composer设置阿里云镜像源
composer设置阿里云镜像源 1. 首先把默认的源给禁用掉 composer config -g secure-http false 2. 再修改镜像源这里我使用阿里的源 composer co ...

scrapy爬取招聘网站，items转换成dict遇到的问题

scrapy爬取招聘网站，items转换成dict遇到的问题的更多相关文章

随机推荐

热门专题