Python之scrapy框架之post传输数据错误：TypeError: to_bytes must receive a unicode, str or bytes object, got int

错误名：TypeError: to_bytes must receive a unicode, str or bytes object, got int

错误翻译：类型错误：to_bytes必须接收unicode、str或bytes对象，得到int to_bytes也就是需要传给服务器的二进制数据

今天我企图用scrapy爬虫框架爬取阿里巴巴以及百度和腾讯的招聘网站的职位信息，在简单的进行数据分析。但是当我在写框架代码时，遇到了一个错误，我找了很久，最后发现只是一个小小的错误，就是字符串的格式出错了，我足足弄了两个小时。唉，真是想骂自己啊。。。

先来上我的错误代码

 from lxml import etree
 import scrapy
 from scrapy.linkextractors import LinkExtractor
 from scrapy.spiders import Rule,CrawlSpider
 from alibaba.items import AlibabaItem
 import json

 class AlibabaSpider(CrawlSpider):
     name = "alibabahr"
     allowed_domains = ["alibaba.com"]

     def __init__(self,pageIndex):　　　　　　#由于阿里巴巴的限制，他们将职位信息放在了一个json文件中，用js进行数据传输，但是也没有关系，还是一样可以抓取到   下面是json数据抓取的链接URL
         self.start_urls = ["https://job.alibaba.com/zhaopin/socialPositionList/doList.json"]
         self.pageIndex = pageIndex   #这是需要抓取的页数

     def start_requests(self):
         for page in range(int(self.pageIndex)):
             yield scrapy.FormRequest(
                 url = self.start_urls[0],
                 callback = self.parse,
                 formdata = {"pageIndex":page,"pageSize":10},  #因为阿里的一个json文件中，是放10个职位的信息，也就是一页的信息，官网上是一　　　　　　　　　　　　#页10个职位信息   大家看到那个"pageIndex":page，"pageSize":10  了吗，那个value值在这里是一个int型的数据，但是在进行post数据传输时，scrapy.FormRuquest　　　　　　　　　　　　#这个方法默认是传输字符串的   所以就会报那个错误，我们只需要把那个10和page变成str数据结构就行了。　　　　　　　　　　　#将最后那句改成  ： formdata = {"pageIndex":str(page),"pageSize":"10"},   就可以了

             )

     def parse(self, response):
         content = json.loads(response.body)['returnValue']
         pageIndex = content['pageIndex']
         jobDates = content['datas']
         print("pageIndex:" + str(pageIndex))
         print(jobDates)

改正错误之后，显示的信息是真确的，如图：

Python之scrapy框架之post传输数据错误：TypeError: to_bytes must receive a unicode, str or bytes object, got int的更多相关文章

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
python爬虫scrapy框架
Scrapy 框架关注公众号"轻松学编程"了解更多. 一.简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量 ...
Python爬虫Scrapy框架入门（1）
也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架. 从表层来看,与Java框架引入jar包.配置xml或.property文件不同,Scrapy的模 ...
Python爬虫Scrapy框架入门（0）
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...
基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...
Python爬虫-- Scrapy框架
Scrapy框架 Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码.对于会阻塞线程的操作包含访问文件.数据库或者Web.产生新的进程并需要 ...
Python爬虫 ---scrapy框架初探及实战
目录 Scrapy框架安装操作环境介绍安装scrapy框架(linux系统下) 检测安装是否成功 Scrapy框架爬取原理 Scrapy框架的主体结构分为五个部分: 它还有两个可以自定义下载功能的 ...
python安装Scrapy框架
看到自己写的惨不忍睹的爬虫,觉得还是学一下Scrapy框架,停止一直造轮子的行为我这里是windows10平台,python2和python3共存,这里就写python2.7安装配置Scrapy框架 ...

随机推荐

查看http的并发请求数及其TCP连接状态
统计80端口的连接数据 netstat -nat | grep -i "80" | wc -l 统计httpd协议连接数 ps -ef | grep httpd | wc -l 统 ...
Git学习笔记-----下载GitHub上某个分支的代码
在GitHub上的仓库里,往往建有几个分支,如果只是想下载某个分支的代码,怎么办呢? 1.需要知道远程分支的名称,及远程分支所在的Git仓库 2.按下面指令下载 git clone -b 远程分支名称 ...
c语言二维数组与指针
问题,以下输出的结果是什么,区别在于哪? void main() { ][] = { ,,,,,,,,,,, }; //输出的3个地址都一样,差别在哪? printf("\n%x" ...
Linux System V Semaphore semget多进程同时创建缺陷解决方法
System V Semaphore的创建过程缺陷是创建与赋初值由两个函数完成,这会导致两个进程同时创建的话会出现竞争和不一致状态,即使是使用了IPC-EXCL标记. 示例: oflag = IPC- ...
文件读取草稿（excel，csv）
using NPOI.XSSF.UserModel; using System; using System.Collections.Generic; using System.Data; using ...
SpringBoot配置Druid
Druid是Java语言中最好的数据库连接池.Druid能够提供强大的监控和扩展功能.关于详细介绍可查看http://www.iteye.com/magazines/90 SpringBoot中集成D ...
Android 通过adb shell命令查看内存，CPU，启动时间，电量等信息
1. 查看内存信息 1)查看所有内存信息命令: dumpsys meminfo 例: C:\Users\laiyu>adb shell shell@android:/ $ dumpsys m ...
关于Safari浏览器使用的几点总结
声明:下载的是Safari英文版本,在Windows操作系统下使用. 一.Safari浏览器中的开发者调试工具隐藏得比较深,找了好久才找到的,方法:按一下键盘上的alt键,浏览器上方就会弹出一个开发者 ...
Gym 101201H Paint (离散化+DP)
题意:给定 n 个区间,让你选出一些,使得每个选出区间不交叉,并且覆盖区间最大. 析:最容易想到的先是离散化,然后最先想到的就是 O(n^2)的复杂度,dp[i] = max(dp[j] + a[i] ...
HDU 5120 Intersection (圆的面积交)
题意:给定两个圆环,求两个圆环的面积交. 析:很容易知道,圆环面积交就是,大圆与大圆面积交 - 大圆和小圆面积交 - 小圆和大圆面积交 + 小圆和小圆面积交. 代码如下: #pragma commen ...

Python之scrapy框架之post传输数据错误：TypeError: to_bytes must receive a unicode, str or bytes object, got int

Python之scrapy框架之post传输数据错误：TypeError: to_bytes must receive a unicode, str or bytes object, got int的更多相关文章

随机推荐

热门专题