芝麻HTTP：如何寻找爬虫入口

寻找爬虫入口
1 、本次任务的入口这个爬虫的更好的入口就是我们平常使用的搜索引擎。搜索引擎虽然有很多种，但是其实都是在干一件事，收录网页，处理，然后提供搜索服务。在平时使用的过程中，我们通常都是直接输入了关键词就直接搜索了，但是其实还有很多的搜索技巧，比如对于这个任务来说，只要我们这样搜索，就可以得到我们想要的数据了。

site:zybang.com

现在我们在百度，谷歌，搜狗， 360，必应里都分别试一下：

从上面的图中可以发现返回的数据量都在百万甚至是千万级别。

所以把这些数据作为这个任务的入口，显然是更好的。至于说应对反爬虫的措施，那就考验个人的基本功了。

2、其他的入口（1）移动端入口通过网站的移动端入口进行获取数据，可以更好更快速的获取数据。

    寻找移动端入口的最简单的方式就是用打开谷歌浏览器的开发者模式以后，点击下面的手机样子的东西，然后在刷新一下就可以了。

这种方法也不是万能的，有的时候我们可以把网址发到我们的手机上，然后手机浏览器打开，看一下在手机上面显示的格式是否与电脑上的不一样，如果不一样的话，就可以再把手机浏览器的网址复制一下发到电脑上了。

 （2）网站地图
    网站地图是指可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页， 所以通过这些网站地图可以更高效更方便的获取一些作为下一级入口的网址。

 （3）修改网址中的数值
   首先申明，这个技巧不是万能的。

   这个技巧主要是通过对网址中的某些字段的数值来从一次请求中最大限度的获取所需的数据，减少请求数，也就减少了被网站封禁的风险， 也就可以提高爬虫的效率。下面以一个例子为例：

    当爬取QQ音乐的某一个歌手的全部音乐数据时，抓包获得的格式如下：

https://xxxxxxxxx&singermid=xxxx&order=listen&begin={begin}&num={num}&songstatus=1

返回的数据包如下：

其中的一些字段值被我以xxx代替了，请注意这里的num字段，通常一个歌手的歌比较多时，数据都是通过下一页展示出来的，所以这里的begin就应该是每一页第一条的对应的值，而num则是这个页面有多少条数据。通常，我们可以一页一页的获取数据, QQ音乐的默认值是30。那么我们是不是非得至少请求4次才可以获得完整数据呢？

  当然不是，其实这个时候，我们可以自己试一下改变网址中的一些数值时，返回的结果是否会发送变化。在这里，我们就改变num与begin的值，其中设置num就是某一个歌手所有的歌曲数量的值，begin为0，这个时候再重新请求修改之后的网址，就可以得到下面的数据：

从上面可以看到，返回了96条数据。

   这样，我们可以通过2次请求获取到所有的数据了。第一个请求获取total数目，然后再修改网址重新请求，这样就可以获得所有的数据了。

   类似的字段还有pagesize。

总结上面的这些寻找爬虫入口的小技巧可以使我们事半功倍，有的时候可以以最少的代价获取到数据。

芝麻HTTP：如何寻找爬虫入口的更多相关文章

芝麻HTTP：Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...
自顶向下学搜索引擎——北大天网搜索引擎TSE分析及完全注释[1]寻找搜索引擎入口
转自:http://blog.csdn.net/jrckkyy/article/category/402818 由于百度博客http://hi.baidu.com/jrckkyy发表文章字数有限,以后 ...
芝麻HTTP： Python爬虫利器之Requests库的用法
前言之前我们用了 urllib 库,这个作为入门的工具还是不错的,对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助.入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取.那么这一节来 ...
芝麻HTTP：Python爬虫进阶之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
芝麻软件： Python爬虫进阶之爬虫框架概述
综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...
芝麻HTTP：Python爬虫实战之抓取爱问知识人问题并保存至数据库
本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表达式的简 ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
芝麻HTTP： Python爬虫利器之PyQuery的用法
前言你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
芝麻HTTP：Python爬虫利器之Xpath语法与lxml库的用法
安装 pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPat ...

随机推荐

controller 单元测试
一般而言,我们写好一个模块后,会对其进行单元测试,再集成到现有的系统中. 但是呢~针对Controller.Service.Dao三层来说,我们最常的是对Service和Dao进行单元测试.然而Con ...
Windows Azure Platform Introduction (14) 申请海外的Windows Azure账户
<Windows Azure Platform 系列文章目录> 本文的最后更新时间为:2017-12-27 本文介绍国内用户,注册和使用海外Azure账户. 前提: 1.需要一个有效的Wi ...
01 Mybatis 的配置和使用
一.Mybatis 是什么 MyBatis 是一个支持普通SQL查询.存储过程和高级映射的优秀持久层框架.MyBatis 消除了几乎所有的 JDBC 代码和参数的手工设置以及对结果集的检索封装.MyB ...
Javascript获取数组中的最大值和最小值方法汇总
方法一 sort()方法 b-a从大到小,a-b从小到大 var max2 = arr.sort(function(a,b){ return b-a; })[0]; console.log(max2) ...
HTTPS的原理解析
http://www.cnblogs.com/alisecurity/p/5939336.html 外加文档
go语言实现无限极分类
// 应用分类二级菜单 AppCateNode struct { Id int64 `json:"id"` Name string `js ...
开始使用PHPUnit单元测试
何为单元测试: 指对软件中的基本单元进行测试,如函数.方法等,以检查其返回值或行为是否符合预期:实际中软件是很复杂的,由许多组件构成,执行流程连贯在一起,要进行单元片段的测试,就需要为其提供执行上下文 ...
Java中的双重检查锁（double checked locking）
最初的代码在最近的项目中,写出了这样的一段代码 private static SomeClass instance; public SomeClass getInstance() { if (nul ...
C#仪器数据文件解析-PDF文件
不少仪器工作站输出的数据报告文件为PDF格式,PDF格式用于排版打印,但不易于数据解析,因此解析PDF数据需要首先读取到PDF文件中的文本内容,然后根据内容规则解析有意义的数据信息. C#解析PDF文 ...
小技巧：selenium java中如何使用chrome默认的profile
使用浏览器默认的profile可以在一定程度上实现免登录的效果,另外默认的profile中很多文件都被缓存了,也有利于加快测试的速度 System.setProperty("webdrive ...

芝麻HTTP：如何寻找爬虫入口

芝麻HTTP：如何寻找爬虫入口的更多相关文章

随机推荐

热门专题