爬虫1：get请求的翻页及思考

刚开始接触爬虫，理解还不透彻，说一些初始阶段的想法{1.因为get请求的方式（请求体无数据，不能通过Request.add_data()函数来添加数据，实现对网址翻页；需要直接对网址进行操作来实现翻页功能）2.post请求方式存在数据请求数据（可以通过Request.add_data()函数来添加数据，实现对网址的翻页）}

下面是标准的老师总结的两者差别

{   
　　1. get是从服务器上获取数据，post是向服务器传送数据。

　　2. GET请求参数显示，都显示在浏览器网址上,POST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送

　　3. 尽量避免使用Get方式提交表单，因为有可能会导致安全问题。比如说在登陆表单中用Get方式，用户输入的用户名和密码将在地址栏中暴露无遗。
}

#coding=utf-8
#1.导入头文件

#2.先不要做循环，先设置出第一页，再循环做接下来的几页

#步骤　　#3.分出变化网址的内容和无变化的网址内容

　　#4.将变化的内容做成字典，然后编码，做出浏览器识别的内容
　　#5.进行网址申请(无变化的网址内容加上变化的内容字典)
　　#6.用系统库打开申请后的内容，再读取内容
　　#7.用xpath进行处理，获取独条内容

代码编写中遇到的两个问题：　　1.字典的使用错误，理解方向错　　2.xpath()函数返回对象不清楚的错误

先说第一个：当时是value={ 'start': 'j' }这样写导致j 成了字符串类型，循环后变量的值不发生改变，所以一直打印的爬取的内容是第一页；

再说第二个：当时不清楚xpath()函数的返回值类型，所以不理解下面的name = ...[0].text；为什么要取[0]；查询后发现这个函数返回值类型为列表；要取列表里的值需要加上下标。而上一个result取值时是无下标；因为用for循环取出里面的内容。

还有一个：第28行代码；因为这个爬取的是招聘网站的内容，需要知道每个工作的具体要求，就需要具体进入链接；　　此处用到了字符串的拼接，因为直接爬取的属性内容为缺少host属性的值，是不能直接被粘贴使用的；用字符串拼接把host属性值和爬取到的 herf 属性值拼接在一起，保证了爬取到的链接经过粘贴复制可以直接使用

爬虫1：get请求的翻页及思考的更多相关文章

scrapy爬虫系列之二--翻页爬取及日志的基本用法
功能点:如何翻页爬取信息,如何发送请求,日志的简单实用爬取网站:腾讯社会招聘网完整代码:https://files.cnblogs.com/files/bookwed/tencent.zip 主要 ...
Httpclient: 多层翻页网络爬虫实战(以搜房网为例)
参考:http://blog.csdn.net/qy20115549/article/details/52912532 一.创建数据表 #创建表:用来存储url地址信息 create table so ...
python爬虫_入门_翻页
写出来的爬虫,肯定不能只在一个页面爬,只要要爬几个页面,甚至一个网站,这时候就需要用到翻页了其实翻页很简单,还是这个页面http://bbs.fengniao.com/forum/10384633. ...
post请求方式的翻页爬取内容及思考
1 #coding=utf-8 import urllib2 import urllib import json output = open('huizho.json', 'w') for page ...
selenium模块跳过用户名密码验证码输入，加载浏览器标签和cookie，进行翻页爬虫多页动态加载的数据（js)
能解决登陆一次后,之后不需要二次登陆的动态加载数据,网页保存的cookie和标签,加入到selenium自动化测试浏览器中 1 from selenium import webdriver 2 imp ...
34.scrapy解决爬虫翻页问题
这里主要解决的问题: 1.翻页需要找到页面中加载的两个参数. '__VIEWSTATE': '{}'.format(response.meta['data']['__VIEWSTATE']), '__ ...
翻页采用jaxa
<script type="text/javascript">//class="page"下面的a被点 ...
bug：翻页
本章主要分享下,个人测试经历中遇见过的翻页bug 一.列表翻页 1.bug1:去请求翻页page=0,从0页开始算.一般来说page=0 和 page=1的数据是一模一样,所以翻第2页时会发现和第1页 ...
API做翻页的两种思路
在开发API的时候,有时候数据太多了,就需要分页读取. 基于偏移量的分页(Offset-based) 这种方式就是会提供一个每页笔数(page size)来定义返回条目的最大数,提供一个页数(page ...

随机推荐

Codeforces Round #339 (Div. 1) B. Skills 暴力二分
B. Skills 题目连接: http://www.codeforces.com/contest/613/problem/B Description Lesha plays the recently ...
Eclipse运行Maven的SpringMVC项目Run on Server时出现错误：Error configuring application listener of class org.springframework.web.context.ContextLoaderListener的问题解决
错误: 严重: Error configuring application listener of class org.springframework.web.context.ContextLoade ...
[典型漏洞分享]YS VTM模块存在格式化字符串漏洞，可导致VTM进程异常退出【高危】
YS VTM模块存在格式化字符串漏洞,可导致VTM进程异常退出[高危] 问题描述: YS VTM模块开放对外监听端口(8554和8664),此次使用sulley fuzzing框架对监听在8664端口 ...
Linux命令-挂载命令:mount
设置虚拟机放入光盘,并且选中“已连接” mkdir /mnt/cdrom 设置光盘目录 ll /dev/cdrom 查看cdrom的软连接长格式信息 mount -t iso9660 /dev/sr0 ...
webpack与browser-sync热更新原理深度讲解
本文首发于CSDN网站,下面的版本又经过进一步的修订.原文:webpack与browser-sync热更新原理深度讲解本文包含如下内容: webpack-hot-middleware EventSou ...
[转]自用类库整理之SqlHelper和MySqlHelper
本文转自:http://www.cnblogs.com/lzrabbit/p/3287155.html 自用的SQLHelper和MySqlHelper,除一些通用方法外,封装了一些很实用的批量操作方 ...
[转]Working with Parameters and Return Codes in the Execute SQL Task
本文转自:http://msdn.microsoft.com/zh-cn/magazine/cc280502(en-us,SQL.100).aspx SQL statements and stored ...
iOS: 复选框使用---第三方框架SSCheckBoxView-master
在iOS开发中对应用程序进行设置时一般都用UISwitch,偶尔显得单调,这时候你可以选择使用第三方开源类库SSCheckBoxView . SSCheckBoxView是一个可用在iOS上一个复选框 ...
流畅的python第十六章协程学习记录
从句法上看,协程与生成器类似,都是定义体中包含 yield 关键字的函数.可是,在协程中,yield 通常出现在表达式的右边(例如,datum = yield),可以产出值,也可以不产出——如果 yi ...
centos7 安装selenium和firefox
之前有一篇文章介绍过在ubuntu下安装selenium和firefox 现在介绍下centos7 注意以下都是下载的linux64位的软件,32位的请自己找下链接, 现在使用的python的版本是3 ...

爬虫1：get请求的翻页及思考

爬虫1：get请求的翻页及思考的更多相关文章

随机推荐

热门专题