寻找爬虫入口 
1 、本次任务的入口 这个爬虫的更好的入口就是我们平常使用的搜索引擎。搜索引擎虽然有很多种,但是其实都是在干一件事,收录网页,处理,然后提供搜索服务。在平时使用的过程中,我们通常都是直接输入了关键词就直接搜索了,但是其实还有很多的搜索技巧, 比如对于这个任务来说,只要我们这样搜索,就可以得到我们想要的数据了。

site:zybang.com

现在我们在百度,谷歌, 搜狗, 360,必应里都分别试一下:

从上面的图中可以发现返回的数据量都在百万甚至是千万级别。

所以把这些数据作为这个任务的入口,显然是更好的。至于说应对反爬虫的措施,那就考验个人的基本功了。

2、其他的入口 (1) 移动端入口 通过网站的移动端入口进行获取数据,可以更好更快速的获取数据。

    寻找移动端入口的最简单的方式就是用打开谷歌浏览器的开发者模式以后,点击下面的手机样子的东西,然后在刷新一下就可以了。

这种方法也不是万能的,有的时候我们可以把网址发到我们的手机上,然后手机浏览器打开,看一下在手机上面显示的格式是否与电脑上的不一样,如果不一样的话,就可以再把手机浏览器的网址复制一下发到电脑上了。

 (2)网站地图
    网站地图是指可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页, 所以通过这些网站地图可以更高效更方便的获取一些作为下一级入口的网址。

 (3)修改网址中的数值
   首先申明,这个技巧不是万能的。

   这个技巧主要是通过对网址中的某些字段的数值来从一次请求中最大限度的获取所需的数据,减少请求数,也就减少了被网站封禁的风险, 也就可以提高爬虫的效率。下面以一个例子为例:

    当爬取QQ音乐的某一个歌手的全部音乐数据时,抓包获得的格式如下:

https://xxxxxxxxx&singermid=xxxx&order=listen&begin={begin}&num={num}&songstatus=1

返回的数据包如下:

其中的一些字段值被我以xxx代替了,请注意这里的num字段,通常一个歌手的歌比较多时,数据都是通过下一页展示出来的,所以这里的begin就应该是每一页第一条的对应的值,而num则是这个页面有多少条数据。通常,我们可以一页一页的获取数据, QQ音乐的默认值是30。那么我们是不是非得至少请求4次才可以获得完整数据呢?

  当然不是,其实这个时候,我们可以自己试一下改变网址中的一些数值时,返回的结果是否会发送变化。在这里,我们就改变num与begin的值,其中设置num就是某一个歌手所有的歌曲数量的值,begin为0,这个时候再重新请求修改之后的网址,就可以得到下面的数据:

从上面可以看到,返回了96条数据。

   这样,我们可以通过2次请求获取到所有的数据了。第一个请求获取total数目,然后再修改网址重新请求,这样就可以获得所有的数据了。

   类似的字段还有pagesize。

总结 上面的这些寻找爬虫入口的小技巧可以使我们事半功倍,有的时候可以以最少的代价获取到数据。

芝麻HTTP:如何寻找爬虫入口的更多相关文章

  1. 芝麻HTTP:Python爬虫实战之抓取淘宝MM照片

    本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式 在这里我们用到的URL ...

  2. 自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[1]寻找搜索引擎入口

    转自:http://blog.csdn.net/jrckkyy/article/category/402818 由于百度博客http://hi.baidu.com/jrckkyy发表文章字数有限,以后 ...

  3. 芝麻HTTP: Python爬虫利器之Requests库的用法

    前言 之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...

  4. 芝麻HTTP:Python爬虫进阶之Scrapy框架安装配置

    初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...

  5. 芝麻软件: Python爬虫进阶之爬虫框架概述

    综述 爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...

  6. 芝麻HTTP:Python爬虫实战之抓取爱问知识人问题并保存至数据库

    本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法 正则表达式的简 ...

  7. 芝麻HTTP:Python爬虫实战之爬取糗事百科段子

    首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

  8. 芝麻HTTP: Python爬虫利器之PyQuery的用法

    前言 你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...

  9. 芝麻HTTP:Python爬虫利器之Xpath语法与lxml库的用法

    安装 ​pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPat ...

随机推荐

  1. MySQL死锁[转]

    案例描述       在定时脚本运行过程中,发现当备份表格的sql语句与删除该表部分数据的sql语句同时运行时,mysql会检测出死锁,并打印出日志. 两个sql语句如下:       (1)inse ...

  2. CF518D. Ilya and Escalator [概率DP]

    CF518D. Ilya and Escalator 题意:n个人,每秒p的概念队首的人进入电梯,求t秒后期望人数 直接使用期望定义 \(f[i][j]\) i秒后电梯中j个人的概率 注意n个人的时候 ...

  3. Java流机制学习

    基本概念 BaseStream 基础流是一个可行并行或者串行的汇聚操作的元素序列.可以进行顺序遍历,也可以进行并发遍历.通过它也可以得到一个并行流或者串行流. Stream 是Java中流的表现接口, ...

  4. Linux设置系统运行模式

    Linux系统有7个运行级别(runlevel): 运行级别0:系统停机状态,系统默认运行级别不能设为0,否则不能正常启动 运行级别1:单用户工作状态,root权限,用于系统维护,禁止远程登陆 运行级 ...

  5. 一、爬虫的基本体系和urllib的基本使用

    爬虫 网络是一爬虫种自动获取网页内容的程序,是搜索引擎的重要组成部分.网络爬虫为搜索引擎从万维网下载网页.一般分为传统爬虫和聚焦爬虫. 爬虫的分类 传统爬虫从一个或若干初始网页的URL开始,获得初始网 ...

  6. qt的编译

    cp qt-everywhere-opensource-src-5.5.0.tar.gz /opt/qt/2.1 解压qt源码 sudo tar xzf qt-everywhere-opensourc ...

  7. 本地创建yum源并安装lnmp

    注意:安装系统时,文件类型要未xfs类型,root要分配最多的空间 1.挂载安装光盘mount -t iso9660 -o loop CentOS-7-x86_64-DVD-1511.iso /mnt ...

  8. elk安装配置

    ELK介绍   官网https://www.elastic.co/cn/ 中文指南https://www.gitbook.com/book/chenryn/elk-stack-guide-cn/det ...

  9. angularjs 控制器、作用域、广播详解

    一.控制器 首先列出几种我们平常使用控制器时的几种误区: 我们知道angualrJs中一个控制器时可以对应不同的视图模板的,但这种实现方式存在的问题是: 如果视图1和视图2根本没有任何逻辑关系,这样& ...

  10. NOIP2017滚粗记

    NOIP2017滚粗记 扯淡 考完联赛后一直在搞文化... 联赛过去了不知道多少天了才来写这东西.... Day0 早自习知道了要期中考试. 感觉心态炸裂了. 上午在乱敲板子.... 打了一堆莫名其妙 ...